3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3 Nichtparametrische Dichteschätzung

Beispiel: Analyse von Einkommnensdaten

• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,Ausgaben für verschiedene Güter, Alter, Familiengröße, Be-rufe, etc.

Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus-halten):

66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28

54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85

70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13

22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64

24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21

40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73 90.81 15.70 45.44 68.14

18.76 80.38 61.50 41.39 76.96 87.07 78.03 29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77

93.50 55.92 14.15 144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76 17.45 29.11

48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88 34.74 29.42 121.75 113.76 97.20 86.62

Nichtparametrisch@LS-Kneip 3–1

Charakterisierung von Verteilungen

Einfache Zufallsstichprobe X1, . . . , Xn

Traditionelle statistische Maßzahlen: Mittelwert, Median,Varianz, Quartilsabstand, etc. Solche Maßzahlen geben immernur Teilaspekte von Verteilungseigenschaften wieder.

Detailliertere Informationen: DichteschätzungEinfachster Dichteschätzer (Statistik I): HistogrammHistogramm für FES Einkommensdaten im Jahr 1976):

0 13 26 39 52 65 78 91 104 117 130 143 156 169 182 195income

0

200

400

600

800

1000

Histogramm als Dichteschätzer mit Nachteilen:

• Wahl der Zellenbreite(n); (des Anfangspunktes)

• Unstetig, lokal konstant ⇒ Histogramm ist kein besonders„effizienter“ Schätzer der zugrunde liegenden Dichte f(x).

Nichtparametrisch@LS-Kneip 3–2

Histogramm für FES Einkommensdaten im Jahr 1983 (große Zel-lenbreite):

0.0 0.5 1.0 1.5 2.0 2.5 3.0

020

040

060

080

010

0012

001983

Histogramm für FES Einkommensdaten im Jahr 1983 (kleineZellenbreite):

0.0 0.5 1.0 1.5 2.0 2.5 3.0

020

4060

8010

012

014

0 1983

Nichtparametrisch@LS-Kneip 3–3

Verfeinertes Histogramm und Kerndichteschätzer:

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Histogramm mit Intervallbreite 2h:

• Intervalle (xj−1, xj ] mit xj − xj−1 = 2h

• Schätzung an den Mittelpunkten x = (xj−1 + xj)/2

fhist(x) =Anzahl Xi in [xj−1, xj ]

2hn=

1

nh

n∑i=1

K

(x−Xi

h

)mit

K(z) =

1/2 falls z ∈ [−1, 1)

0 sonst

Kernschätzer: Schätzung an jedem Punkt x mittels

fh(x) =1

nh

∑i

K

(x−Xi

h

)• K - Kernfunktion; h - Bandbreite

Nichtparametrisch@LS-Kneip 3–4

3.1 Kerndichteschätzer: Motivation

Fragestellung / Modell

• Situation: Gegeben einfache ZufallsstichprobeX1, . . . , Xn einer metrischen Zufallsvariablen X

• Gesucht: (Schätzer für die) Dichtefunktion f(x)

• Modellannahme: f ist „glatt“ (d.h. so oft differenzierbar wienötig)

Theoretische Analyse:Ausgangspunkt: Zusammenhang zwischen Dichtefunktion f undVerteilungsfunktion F (x) = P (X ≤ x)

fX(x) =d

dxFX(x) = F ′

X(x), x ∈ IR

Idee: Approximiere Ableitung der Verteilungsfunktion durch Dif-ferenzenquotienten: Für (ein kleines) h > 0 gilt:

F ′(x) ≈ F (x+ h)− F (x)

h, F ′(x) ≈ F (x)− F (x− h)

h

⇒ Approximationsfehler O(h) (d.h. proportional zu h)

Nichtparametrisch@LS-Kneip 3–5

• Eine bessere Approximation erhält man durch symmetri-schen Differenzenquotienten:

f(x) = F ′(x) ≈ F (x+ h)− F (x− h)

2h, h > 0

⇒ i.Allg. Approximationsfehler O(h2)

• Nach Definition einer Verteilungsfunktion folgt hieraus

f(x) ≈ P (X ≤ x+ h)− P (X ≤ x− h)

2h

=1

2hP (x− h < X ≤ x+ h)

Moving HistogrammErsetze (unbekannte!) Wahrscheinlichkeit in

f(x) ≈ 1

2hP (x− h < X ≤ x+ h)

durch relative Häufigkeit (geschätzt aus der Stichprobe X1, . . . , Xn)

⇒ Moving Histogramm

fh(x) =1

2h

Anzahl Xi in (x− h, x+ h]

n

Eigenschaften: lokal konstant, unstetig, unabhänging vom An-fangspunkt, „effizienter“ als gewöhnliches Histogramm

Nichtparametrisch@LS-Kneip 3–6

Umschreiben des Moving Histogramms:

fh(x) =1

2h

Anzahl Xi in (x− h, x+ h]

n

=1

2nh

n∑i=1

I(x−h,x+h](Xi)

=1

nh

n∑i=1

1

2I[−1,1)

(x−Xi

h

)

=1

n

n∑i=1

1

hK

(x−Xi

h

)

Mit „Gewichtsfunktion“, sogenannter „Kernfunktion“:

K(u) =1

2I[−1,1)(u) =

1/2 falls −1 ≤ u < 1

0 sonst

Kerndichteschätzer: Ersetze den Kern des naiven Schät-zers durch eine stetige, differenzierbare Funktion.

• z.B. K(u) = 34 (1− u2), für u ∈ [−1, 1], 0 sonst

• oder K(u) = φ(u) = 1√2π

exp(−u2/2)

Nichtparametrisch@LS-Kneip 3–7

⇒ Kerndichteschätzer (mit Kern K und Bandbreite h)

fh(x) =1

n

n∑i=1

1

hK

(x−Xi

h

), x ∈ IR

• Eigenschaften: Glatte Dichteschätzung, effizienter als Histo-gramm, flexible Anpassung, rechenintensiv

• Bandbreite h ist ein Glättungsparameter⇒ Bandbreite (und der Kern K) müssen vom Anwender(bzw. Computer) festgelegt werden

• Neue Notation für einen skalierten Kern: Kh(u) := K(u/h)/h

⇒ fh,K(x) = n−1∑n

i=1 Kh(x−Xi)

Achtung:

fh: h als Index: Abhängigkeit des Schätzers von der Bandweite

Kh: Skalierung mit h: Abkürzung für K(·/h)/h

Kerndichteschätzer: Einfache Eigenschaften

• „Positivität“: K ≥ 0 ⇒ fh ≥ 0

• „Glattheit“: K stetig, differenzierbar ⇒ fh stetig, differen-zierbar

• Ist fh Dichtefunktion? Falls∫K = 1 ⇒

∫fh = 1

Fazit:

• Kernschätzer fh „erbt“ die Eigenschaften seines Kerns K.Insbesondere: Falls K Dichte ⇒ fh Dichte

Nichtparametrisch@LS-Kneip 3–8

Theoretische Anforderungen an eine Kernfunktion:

•∫∞−∞ K(x)dx = 1

•∫∞−∞ xK(x)dx = 0

• Typische Wahl der Kernfunktion K: Glatte Dichtefunktion,die symmetrisch um 0 ist.

Wichtige Kernfunktionen:

• Familie der symmetrischen Beta-Dichten: Für p = 0, 1, 2, . . .

K(u; p) = Constp(1− u2)p für u ∈ [−1, 1] und 0 sonst

Resultierende Kerne für verschiedene p (u ∈ [−1, 1]):

p = 0 Uniformer Kern: K(u) = 12

p = 1 Epanechnikov-Kern: K(u) = 34 (1− u2)

p = 2 Quartic/Biweight Kern: K(u) = 1516 (1− u2)2

p = 3 Triweight Kern: K(u) = 3532 (1− u2)3

• Normalkern (Gaußkern): „Grenzfall“: p = ∞K(u) = ϕ(u) = 1√

2πexp(−u2/2), u ∈ IR

• Triangulärer Kern: K(u) = 1− |u|, für u ∈ [−1, 1], 0 sonst.

Nichtparametrisch@LS-Kneip 3–9

Kerndichteschätzer für verschiedene Bandbreiten (Normalkern)

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 5

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 10

Nichtparametrisch@LS-Kneip 3–10

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 20

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 30

Nichtparametrisch@LS-Kneip 3–11

Kerndichteschätzer mit Normal-Reference Bandbreite

0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

Normal Reference

Kerndichteschätzer mit geschätzter optimaler Bandbreite (Plug-In)

0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

Sheather / Jones

Nichtparametrisch@LS-Kneip 3–12

3.2 Die Genauigkeit von Kerndichteschätzern

Der Kerndichteschätzer hängt ab von der Wahl des Kerns K undder Bandbreite h ab.

• Wahl von K weit weniger wichtig für die Qualität der Dich-teschätzung als Wahl der Bandbreite h.

• Es werden Kriterien benötigt, um die (statistische) Quali-tät der Schätzung zu messen. (Asymptotische Eigenschaften,MISE)

• Problem der Bandweitenwahl, d.h. „automatisches“ Festle-gen der Bandweite in Abhängigkeit der Daten

Asymptotische Eigenschaften: Mindestanforderung anfh: Konsistenz

In gewissem Sinne: Geschätzte Dichtefunktion fh sollte sich derwahren (unbekannten!) Dichte f annähern; unter der fiktiven An-nahme, dass die Stichprobe immer größer wird.

• Punktweise Konsistenz für festes x: Für wachsende Stich-probengröße ( n → ∞) konvergiert fh(x) gegen f(x)

Analogie: Parameterschätzung aus Statistik II:

• Gleichmäßige Konsistenz für alle x:≈ Für wachsende Stichprobengröße ( n → ∞) konvergiertdie maximale Abweichung maxx |fh(x)− f(x)| gegen Null

Punktweise Konsistenz. Annahmen an die Bandweiten(folge)h = hn, den Kern K und die (wahre) Dichte f :

• hn → 0, nhn → ∞ für n → ∞

• f stetig in x

•∫|K| < ∞, lim|y|→∞ |yK(y)| = 0, K beschränkt,

∫K = 1

(falls K symmetrische Dichte, i. Allg. ok)Nichtparametrisch@LS-Kneip 3–13

Dann gilt für den punktweisen mittleren quadratischen Fehler:

MSE(fhn(x)

)= E

(fhn(x)− f(x)

)2= Var

(fhn(x)

)+Bias2

(fhn(x)

)→ 0

für n → ∞.

⇒ fh(x) → f(x)in Wahrscheinlichkeit

∀c > 0 P(|fhn(x)− f(x)| > c

)→ 0, für n → ∞

(vgl. Statistik II, Tschebycheff-Ungleichung)

⇒ Unter schwachen Annahmen an f (und K,h) ist der Kern-dichteschätzer fh punktweise konsistent

Es gilt sogar asymptotische Normalität:

fhn(x)− E(fhn(x)

)√

Var(fhn(x)

) ∼ AN(0, 1)

Gleichmäßige Konsistenz.• einige technische Annahmen an K

• hn → 0 und nh2n → ∞ für n → ∞

• f ist gleichmäßig stetig (hinreichende Bedingung ist z.B.: f ′

beschränkt)

⇒ supx∈IR

∣∣∣fhn(x)− f(x)∣∣∣→P 0

D.h. die Wahrscheinlichkeit, dass die geschätzte Dichte von derwahren Dichte (an irgendeinem x) um mehr als eine beliebig(kleine) vorgegebene Schranke abweicht, wird mit zunehmendemStichprobenumfang immer geringer.Nichtparametrisch@LS-Kneip 3–14

⇒ Unter schwachen Annahmen an f (und K,h) ist fh gleichmä-ßig konsistent

MISE

Der MISE (Mean Integrated Squared Error) ist das wichtigsteKriterium für die (statistische) Qualität des Kerndichteschätzers.

Für den punktweisen MSE ergibt sich für festes x ∈ IR:

MSE(fh(x)) = E(fh(x)− f(x))2

Var(fh(x)) + (f(x)− Efh(x))2︸︷︷︸

Bias2(fh(x)

„Summieren“ über alle x ∈ IR:

MISE(fh) =

∫ ∞

−∞MSE(fh(x)) dx

=

∫ ∞

−∞E(fh(x)− f(x))

2dx

=

∫ ∞

−∞Var(fh(x))dx+

∫ ∞

−∞Bias2(fh(x))dx

Optimale Wahl der Bandbreite h ⇔ Minimieren von MISE(fh)

Nichtparametrisch@LS-Kneip 3–15

Asymptotische Approximation von MISE(fh): Es gilt

E(fh(x)) =1

n

n∑i=1

1

hE

(K(

x−Xi

h)

)= E

(1

hK(

x−Xi

h)

)=

∫ ∞

−∞

1

hK(

x− u

hf(u)du

Berechnung des inneren Integrals:∫∞−∞

1hK(x−u

h f(u)du:

∫ ∞

−∞

1

hK(

x− u

hf(u)du =

∫ ∞

−∞K(y)f(x+ yh)dy

=

∫ ∞

−∞K(y)

{f(x) + f ′(x)yh+

1

2!f ′′(x)y2h2 + o(h2)

}dy

= f(x) + h2 1

2f ′′(x)

∫ ∞

−∞K(y)y2dy︸︷︷︸ν2(K)

+o(h2)

Dies impliziert∫ ∞

−∞Bias2(fh(x))dx = h4 1

4ν2(K)2

∫ ∞

−∞f ′′(x)2dx+ o(h4)

Für die Varianz ergibt sich:∫ ∞

−∞Var(fh(x))dx

=1

n2

n∑i=1

E

(1

hK(

x−Xi

h)− E(

1

hK(

x−Xi

h)

)2

=1

nh

∫ ∞

−∞K(y)2dy︸︷︷︸R(K)

+o(1

nh)

Damit erhält man folgende asymptotische Approximation fürMISE(fh):Nichtparametrisch@LS-Kneip 3–16

⇒ MISE(fh) =1

nhR(K) +

1

4h4ν2(K)2

∫ ∞

−∞f ′′(x)2dx

+ o(1

nh+ h4)

Minimieren über h liefert eine (asymptotisch) optimale Bandwei-te:

hopt =

{R(K)

nν2(K)2 ∫∞

−∞ f ′′(x)2dx

}1/5

Als minimaler Wert des MISE bei Verwendung der optimalenBandbreite ergibt sich somit:

MISE(fhopt) = minh>0

MISE(fh)

=5

4

{ν2(K)2R(K)4

∫ ∞

−∞f ′′(x)2dx

}1/5

n−4/5

Man erkennt sofort einige wesentliche Eigenschaften von MISE(fhopt):

• Abnahme mit zunehmendem Stichprobenumfang: Rate n−4/5

• Einfluss von K durch ν2(K)2, R(K)

• Einfluss von f durch∫∞−∞ f ′′(x)2dx („curvature“)

Nichtparametrisch@LS-Kneip 3–17

Bandbreitenwahl:• Referenzbandbreite: In der asymptotischen Formel für die

optimale Bandweite hopt geht die unbekannte Dichte f „nurnoch“ durch das Funktional

∫∞−∞ f ′′(x)2dx ein.

In vielen Anwendungen kann man davon ausgehen, dass diezugrundeligende Dichte f sich ”nicht sehr stark” von einerNormaldichte unterscheidet. Eine vernünfige Approximati-on einer optimalen Bandbreite für die wahre Dichte f lässtsich daher oft dadurch erreichen, dass man auf die optimaleBandbreite für die Normaldichte zurückgreift.Normaldichte: ϕµ,σ(x) =

1σϕ(

x−µσ ),

wobei ϕ- Dichte der Standardnormalverteilung und µ, σ2 Mit-telwert und Varianz von Xi.Einige einfache Rechnungen führen auf∫ ∞

−∞ϕ′′µ,σ(x)

2dx =3√π8σ5

⇒ Normal-Reference Bandbreite

hNR =

{8√πR(K)

3ν2(K)2n

}1/5

σ

Schätzer für σ: σ = S (S2 - Stichprobenvarianz) oder σ =

IQRn/(Φ−1(0.75)− Φ−1(0.25)) bzw. das Minimum von bei-

den.

• Kreuzvalidierung: Offensichtlich gilt∫ ∞

−∞(fh(x)− f(x))2 dx

=

∫ ∞

−∞fh(x)

2dx− 2

∫ ∞

−∞fh(x)f(x)dx+

∫ ∞

−∞f(x)2dx

Nichtparametrisch@LS-Kneip 3–18

Da∫∞−∞ f(x)2dx nicht von h abhängt, ist Minimieren von

MISE(fh) über h äquivalent zum Minimieren von

E(

∫ ∞

−∞fh(x)

2dx)− E(2

∫ ∞

−∞fh(x)f(x)dx)

Diese Terme lassen sich durch Kreuzvalidierung schätzen,

CV (h) =1

n

n∑i=1

∫ ∞

−∞fh,−i(x)

2dx− 21

n

n∑i=1

fh,−i(Xi)

wobei fh,i für i = 1, . . . , n jeweils einen Kerndichteschätzerbezeichnet, der unter Weglassen der i-te Beobachtung, d.h.aus der reduzierten Stichprobe X1, . . . , Xi−1, Xi+1, . . . , Xn,berechnet wird.Minimieren von CV (h) über h liefert eine (konsistente) Schät-zung h der optimalen Bandbreite hopt.

• Plug-in Methoden: In der Formel

hopt =

{R(K)

nν2(K)2 ∫∞

−∞ f ′′(x)2dx

}1/5

können die Größen R(K) und ν2(K) anhand der verwen-deten Kernfunktion sofort berechnet werden. Nur die vonder wahren Dichte abhängende, unbekannte Größe Qf =∫∞−∞ f ′′(x)2dx verhindert eine direkte Berechnung von hopt.

– Für eine Bandbreite h und eine zweimal stetig differen-zierbare Kernfunktion K liefert die zweite Ableitung f ′′

h(x)

eine Approximation von f ′′(x). Qf kann daher durch Qf (h) =∫∞−∞ f ′′

h(x)2dx geschätzt werden. Theoretische Analysen

zeigen, dass eine optimale Bandbreite h von der Grö-ßenordnung n−1/7 ist, und Qf (h) dann ein konsistenterSchätzer von Qf ist.

Nichtparametrisch@LS-Kneip 3–19

– Für eine geeignete Bandbreite h berechnen einfache Plug-in Schätzer eine Approximation von hopt durch

h∗opt =

{R(K)

nν2(K)2Qf (h)

}1/5

Problem: Wahl von h?

– Man beachte: hopt ∼ n−1/5 ⇒ h5/7 ∼ n−1/7 (Größen-ordnung einer optimalen Bandbreite zur Schätzung vonQf ).

– Verfeinerte Plug-in Methoden benutzen diesen Zusam-menhang zwischen hopt und h. Die bekannteste Methodedieser Art wurde von Sheather und Jones vorgeschlagen.Man setzt h = αh5/7 (α wird wiederum aus den Datenbestimmt) und bestimmt einen Schätzer hopt von hopt

durch Lösen der Gleichung

hopt =

{R(K)

nν2(K)2Qf (αh

5/7opt)

}1/5

Nichtparametrisch@LS-Kneip 3–20

3.3 Test auf Normalität

Gegeben sei wiederum eine einfache ZufallsstichprobeX1, . . . , Xn. Viele Standardverfahren der parametrischen Stati-stik beruhen auf der Annahme, dass Xi normalverteilt ist. Invielen Anwendungen ist dies jedoch zweifelhaft, und man möch-te die Nullhypothese

H0 : Xi ∼ N(µ, σ2)

gegen die Alternative

H1 : Xi ist nicht normalverteilt

testen.

Ein geeignetes Testverfahren beruht auf der Verwendung vonKerndichteschätzern (mit K = Normalkern)

Falls die Nullhypothese richtig ist, d.h wenn f = ϕµ,σ, so lässtsich zeigen, dass für jede Bandbreite h

E(fh(x)) = ϕµ,√σ2+h2

Hieraus folgt, dass∫ ∞

−∞E(fh(x)− ϕµ,

√σ2+h2

)2dx =

∫ ∞

−∞Var(fh(x))dx

Falls die Nullhypothese richtig ist, so ist die Differenz zwischenfh(x) und ϕµ,

√σ2+h2 ausschließlich auf Zufallsschwankungen

zurückzuführen (kein systematischer Unterschied)!

Das hierauf aufbauende Testverfahren lässt sich folgendermaßenbeschreiben:

• Schätze Mittelwert und Varianz von Xi durch µ = 1n

∑ni=1 Xi =

X und σ2 = S2.Nichtparametrisch@LS-Kneip 3–21

• Bestimme die Normal-Reference Bandreite hNR und die zu-gehörige Kerndichteschätzung fhNR .

• Berechne

D =

∫ ∞

−∞

(fhNR(x)− ϕ

µ,√

σ2+hNR2(x)

)2dx

Lehne die Nullhypothese ab, falls D zu groß ist.

Die Verteilung von D unter der Nullhypothese kann durch Monte-Carlo-Simulationen approximiert werden. In erster Ordnung hängtdiese Verteilung nur von der Stichprobengröße und nicht von denWerten µ, σ2 ab. Die folgende Tabelle gibt die kritischen Wertefür einen Test zum Niveau 5% wieder.

n crit. value

25 0.109

50 0.0766

100 0.0567

150 0.0453

200 0.0380

250 0.0332

300 0.0301

400 0.0232

500 0.0205

Beispiel: In der ökonomischen Literatur wird oft angenommen,dass die Einkommensverteilung lognormal ist. Dies bedeutet,dass ln Xi normalverteilt ist.

FES Daten (1990): Eine Anwendung des obigen Testverfahrens

Nichtparametrisch@LS-Kneip 3–22

auf die logarithmierten Einkommenswerte liefert D = 0, 7915. ⇒Ablehnung der Nullhypothese, die logarithmierten Einkommens-werte sind nicht normalverteilt.

1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7Family Expenditure Survey (1990)

ln(income) − before housing costs −

L2−distance=0.7915

Normal Reference = 0.137N(5.23, 0.762)

Nichtparametrisch@LS-Kneip 3–23

3.4 Multivariate Dichteschätzung

Kernschätzer können auch zur Schätzung von multivariaten Dich-tefunktionen verwendet werden. Man betrachte also das Problemder Schätzung der d-dimensionalen Dichtefunktion eines Zufalls-vektor Xi = (Xi1, Xi2, . . . , Xid)

τ .

Daten: Zufallsstichprobe X1 =

X11

...

X1d

, . . . , X1 =

Xn1

...

Xnd

Zweidimensionaler Kerndichteschätzer (mit Kern K undBandbreite h)

fh(x) =1

n

n∑i=1

1

hdK

(x1 −Xi1

h, . . . ,

xd −Xid

h

), x =

x1

...

xd

∈ IRd

Hierbei ist die Kernfunktion K : IRd → IR eine reelwertige Funk-tion mit ∫

IRdK(x1, x2, . . . , xd)dx1dx2 . . . dxd = 1

Nichtparametrisch@LS-Kneip 3–24

Häufig verwendete Kernfunktionen:

• Produktkern: Sei K eine eindimensionale Kernfunktion.Eine d-dimensionale Kernfunktion ist dann das zugehörigeProdukt der K(xi), i = 1, . . . , d:

K(x1, x2, . . . , xd) = K(x1) · K(x2) · . . . · K(xd)

Beispiel: d-dimensionaler Gaußkern (Produkt eindimensiona-ler Kerne mit K(x) = Dichte der Standardnormalverteilung)

• Multivariater Epanechnikov-Kern:

K(x1, . . . , xd) =

12cd

(d+ 2)(1−∑d

i=1 x2i ) falls

∑di=1 x

2i ≤ 1

0 sonst

wobei cd das Volumen des d-dimensionalen Einheitskreisesist: c1 = 2, c2 = π, c3 = 4π/3, etc.

• Glatte (ein- bzw. zweimal differenzierbare ) Kerne im Falld = 2:

K(x1, x2) =

3π (1−

∑2i=1 x

2i )

2 falls∑2

i=1 x2i ≤ 1

0 sonst

K(x1, x2) =

4π (1−

∑2i=1 x

2i )

3 falls∑2

i=1 x2i ≤ 1

0 sonst

Nichtparametrisch@LS-Kneip 3–25

• In der obigen Definition eines multivariaten Kernschätzerswird die gleiche Bandbreite h für jede x-Richtung benutzt.Dies setzt natürlich voraus, dass alle d Variablen eine ver-gleichbare Skalierung besitzen.Der Schätzer ist in der angegebenen Form sinnlos, wenn z.B.Xi1 zwischen 0.1 und 0.2 schwankt, während die Werte vonXi2 zwischen 100 und 200 liegen. Eine mögliche (komplizier-te) Lösung ist die Verwendung unterschiedlicher Bandbrei-ten.

• In der Praxis werden die Variablen fast immer standardisiert,um Skalenunterschiede zu eliminieren. Man betrachte d (evtl.unterschiedlich skalierte) Originalvariablen Yi1, . . . , Yid. Be-zeichnen Yj und Sj Mittelwert und empirische Standardab-weichung der Yij , j = 1, . . . , d, so ergeben sich die zugehöri-gen standardisierten Variablen durch

Xij =Yij − Yj

Sj, j = 1, . . . , d

Alle so standardisierten Variablen besitzen Mittelwert 0 undihre empirische Standardabweichung ist gleich 1 (gleiche ”Ska-la”). Sei

fh(x) - Kernschätzung der gemeinsamen Dichte der standar-disierten Variablen Xij

⇒ Schätzung der Dichte der Originalvariablen:

fh;Y (y) =1

S1 · S2 · . . . · Sdfh

(y1 − Y1

S1, . . . ,

yd − Yd

Sd

)

Nichtparametrisch@LS-Kneip 3–26

Der „Curse of Dimensionality“

Kernschätzer sind eine nützliches Werkzeug zur nichtparametri-schen Schätzung ein-, zwei- oder dreidimensionaler Dichtefunk-tionen. Die Genauigkeit nimmt jedoch mit steigender Dimensionsehr stark ab. Bei hochdimensionalen Problemen sind die resul-tierenden Schätzungen für praxisrelevante Stichprobengrößen soungenau, dass sie praktisch wertlos sind. Dies trifft grundsätzlichauf alle nichtparametrischen Kurvenschätzer zu, man spricht all-gemein von einem „Curse of Dimensionality“. Der Hauptgrund istdie „Leere“ eines hochdimensionalen Raums IRd (d ≫ 1), in demes auch bei großen Stichproben kaum noch „eng benachbarte“Beobachtungen gibt.

Als Beispiel betrachte man die Schätzung einer d-variaten Stan-dardnormalverteilung am Punkt x = 0. Dies ist jeweils das Zen-trum der Verteilung, die Dichte nimmt am Punkt x = 0 ihrenhöchsten Wert an.

• Man betrachte die Verwendung eines Kernschätzers(Epanechnikov-Kern) mit Bandbreite h = 1 (dies ist natür-lich eine relativ große Bandbreite, die auf einen deutlichensystematischen Fehler (Bias!) führt.

– Im Fall d = 1 gilt P (|Xi| ≤ 1) ≈ 0.68, d.h. man kannerwarten, dass etwa 68% der Beobachtungen bei einerKernschätzung fh(0) (mit h = 1) von f(0) mit positivemGewicht berücksichtigt werden.

– Im Fall d = 2 gilt P (|Xi1| ≤ 1 und |Xi2| ≤ 1) ≈ 0.46, d.h.man kann erwarten, dass etwa 46% der Beobachtungenbei einer Kernschätzung fh(0) (mit h = 1) von f(0) mitpositivem Gewicht berücksichtigt werden.

Nichtparametrisch@LS-Kneip 3–27

– Im Fall d = 10 gilt P (|Xij | ≤ 1 für alle j = 1, . . . , 10) ≈0.02, d.h. man kann erwarten, dass nur etwa 2% der Be-obachtungen bei einer Kernschätzung

• Verwendet man jeweils eine optimale Bandbreite h = hopt,so sind folgende Stichprobengrößen n notwendig, damit derrelative mittlere quadratische Fehler unter 10% liegt,

d.h.E(fhopt (0)−f(0))2

f(0)2 ≤ 0.1:

Dimension d Stichprobengröße n

1 4

2 19

3 67

4 223

5 768

7 10700

10 842000

Nichtparametrisch@LS-Kneip 3–28

4 Grundlagen der nichtparametrischenRegressionsanalyse

Daten: (Yi, Xi), i = 1, . . . , n, wobei

• Yi Zielvariable

• Xi ∈ [a, b] ⊂ IR erklärende Variable

• n groß (Faustregel: n ≥ 40)

Regressionsmodell (allgemeine Forumilerung):

Yi = m(Xi) + ϵi

• m(Xi) = E(Yi|X = Xi) Regressionsfunktion

• ϵ1, ϵ2, . . . i.i.d., E(ϵi) = 0, var(ϵi) = σ2

Klassischer Ansatz:

• Lineare Einfachregression: m(x) ist eine Gerade

m(X) = β0 + β1X

• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode: β0 und β1 minimieren

n∑i=1

(Yi − β0 − β1Xi)2

• Schätzung der Regressionsfunktion:

m(x) = β0 + β1x (Ausgleichsgerade)

Nichtparametrisch@LS-Kneip 4–29

In der Regressionsanalyse ist es oft von Bedeutung, auf welcheWeise die Beobachtungspunkte X1, . . . , Xn erzeugt werden. Manunterscheidet zwischen ”Fixed” und ”Random Design”.

• Fixed Design: Die Beobachtungspunkte X1, . . . , Xn sindfest vorgegebene (nicht stochastische) Werte.Beispiel: Ernteertrag (Y ) in Abhängigkeit von festgelegtenMengen von Düngemittel.Wichtigster Spezialfall: äquidistanten Design - alle Beob-achtungspunkte besitzen den gleichen Abstand, Xi+1−Xi =b−an .

• Random Design: Die Beobachtungspunkte X1, . . . , Xn sind(Realisationen von) unabhängig und identisch verteilten Zu-fallsvariablen mit einer Dichtefunktion f ; Xi und ϵi sind un-korreliert.f wird als ”Designdichte” bezeichnet.Beispiel: Stichprobe (Y1, X1), . . . , (Yn, Xn) von Einkommen(Y ) und Alter (X) von n ≈ 7000 zufällig ausgewählten bri-tischen Haushalten.Bei Random Design ist m(x) der bedingte Erwartungswertvon Y gegeben X = x:

m(x) = E(Y | X = x)

Man beachte: Im Falle von Random Design sind im Folgen-den alle Erwartungswerte (bzw. Varianzen) als bedingte Er-wartungswerte (bzw. Varianzen) gegeben X1, . . . , Xn zu in-terpretieren.

Nichtparametrisch@LS-Kneip 4–30

• Die Fehler- oder Störvariablen ϵi quantifizieren unsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen Mittelwert β0 + β1xi. Diese Schwankungen beinhaltenMessfehler ebenso wie den Einfluss zusätzlicher, unbeobach-teter Variablen, die den Wert von Yi mitbestimmen.

• ϵ1, . . . , ϵn sind als Zufallsvariablen aufzufassen. Wegen Yi =

m(Xi) + ϵi folgt, dass auch Y1, . . . , Yn Zufallsvariablen sind.

Illustration: Die nachfolgende Figur zeigt jeweils 10 möglicheRealisationen von Yi für jeden Wert Xi, die die zugehörigen zu-fälligen Realisationen der Fehlervariablen ϵi widerspiegeln. DieStreuung der resultierenden Verteilungen der Yi (bzw. ϵi) wirddurch die Standardabweichung σ quantifiziert.

0 5 10 15 20 25

x

5

9

13

17

β0+β1x

Y

Falls X1, . . . , Xn selbst Zufallsvariablen sind, so ist m(x) = E(Yi|Xi =

X) als bedingter Erwartungswert von Yi gegeben Xi = x aufzu-fassen.

Nichtparametrisch@LS-Kneip 4–31

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

40

50

60

70

80

Ertra

g

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)

Konstante (β0) 36.42857 5.03812 7.23 0.001

Dünger (β1) .0589286 .0112656 5.23 0.003

R2 = 0.8455

Nichtparametrisch@LS-Kneip 4–32

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

3

Beispiel: Dünger (X) -Ernteertrag (Y )

7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

40

60

80

100

120

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =

n∑i=1

(yi − β0 − β1xi − β2x2i )

2

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Nichtparametrisch@LS-Kneip 4–33

Die Genauigkeit von polynomialen Approximationender Regressionsfunktion

Lineare Einfachregression: Yi = β0 + β1Xi + ϵi.

• Falls das Modell gültig ist, sind β0 und β1 erwartungstreueSchätzer der wahren Koeffizienten und

E(m(x)) = E(β0) + E(β1)x = β0 + β1x = m(x).

m(x) ist dann ein erwartungstreuer Schätzer von m(x)

• Mittlere Varianz:1n

∑ni=1 V ar(m(Xi)) = V ar(β0)+

1n

∑ni=1 V ar(β1)X

2i = 2σ2

n

• Erwarteter mittlerer quadratischer Fehler:

MASE(m) = E

(1

n

n∑i=1

(m(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(m(Xi))−m(Xi))2

︸︷︷︸Bias2=0

+1

n

n∑i=1

V ar(m(Xi)) =2σ2

n

Verallgemeinerung: Yi = β0 +∑p

j=1 βjXji + ϵi für ein p > 0

• Die Kleinste-Quadrate Schätzer βj sind erwartungstreue Schät-zer von βj und m(x) = β0 +

∑pj=1 βjx ist ein erwartungs-

treuer Schätzer von m(x).

• 1n

∑ni=1 V ar(m(Xi)) =

(p+1)σ2

n und MASE(m) = (p+1)σ2

n .

Man beachte: Diese Überlegungen setzen voraus, dass das Modell

”wahr” ist. Falls die nicht der Fall ist, existiert ein systematischer Feh-

ler und E(m(x)) = m(x). Der resultierende Bias ist konstant und

konvergiert nicht gegen Null für n → ∞. m ist dann kein konsistenterSchätzer von m.

Nichtparametrisch@LS-Kneip 4–34

• In einer ganzen Reihe von wichtigen Anwendungen ist dieStruktur der Regressionsfunktion relativ komplex. In solchenFällen sind alle diese Modelle zu einfach und liefern keinebrauchbare Approximation an m(x)

”All models are false, but some are useful” (G. Box)

Alternative:

• Nichtparametrische Regression: Es werden keine spezifi-schen Annahmen über die Struktur der Regressionsfunktiongemacht. Die Analyse basiert allein auf der qualitativen An-nahme, dass m glatt ist.

Beispiel: Gesamtausgaben in Abhängigkeit vom Alter

Die folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ ”Alterdes Haushaltsvorstands”).

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–35

Anpassung einer Geraden:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑2

j=1 βjXji + ϵi :

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–36

Anpassung eines Modells Yi = β0 +∑4

j=1 βjXji + ϵi:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑6

j=1 βjXji + ϵi:

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–37

Nichtparametrische Approximation(Anzahl Freiheitsgrade dfh=10):

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–38

4.1 Der Nadaraya-Watson Kernschätzer

Idee: Bildung gewichteter lokaler Mittel der Beobachtungen Yi:

mh(x) =n∑

i=1

w(x,Xi, h)Yi

• Die Gewichtsfunktion w wird derart konstruiert, dass das Ge-wicht einer Beobachtung Yi immer kleiner wird, je größer derAbstand |x − Xi| ist. Der Glättungsparameter h bestimmtdie Geschwindigkeit, mit der die Gewichte gegen Null kon-vergieren, wenn |x−Xi| wächst.

Die sogenannten ”Kernschätzer” berechnen solche Gewichte ex-plizit auf der Basis einer Kernfunktion K. Üblicherweise ist Keine symmetrische Dichtefunktion (z.B. Dichtefunktion der Stan-dardnormalverteilung).

Nadaraya-Watson Kernschätzer:

mh(x) =n∑

i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Der Glättungsparameter h > 0 wird auch als Bandbreite be-zeichnet.

• Für jede mögliche Bandbreite h > 0 ist die Summe der Ge-wichte

w(x,Xi, h) = K(x−Xi

h)/

n∑j=1

K(x−Xj

h)

immer gleich 1,∑

i w(x,Xi, h) = 1.

Nichtparametrisch@LS-Kneip 4–39

Wahl der Kernfunktion:

• Epanechnikov-Kern

K(x) =

34 (1− x2) if |x| ≤ 1

0 if |x| > 1

• Normal-Kern

K(x) =1√2π

exp(−x2/2)

• Biweight (quartic) Kern

K(x) =

1516 (1− x2)2 if |x| ≤ 1

0 if |x| > 1

Epanechnikov kernel Normal kernel Triangular kernel

Nichtparametrisch@LS-Kneip 4–40

Y

X

* *

**

x

*

• h klein ⇒ der Schätzer von m(x) beruht auf einem Mittelüber wenige Beobachtungen Yi ⇒ kleiner systematischerFehler (≡ kleiner Bias), aber große Varianz

• h groß ⇒ es wird jeweils über viele Beobachtungen Yi

gemittelt. ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

True model

Estimatedmodel

bias

Estimatedmodel

variability

Estimatedmodel

variability

Nichtparametrisch@LS-Kneip 4–41

Beispiel 2.1: Kernschätzer (Normal-Kernfunktion, h = 1)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 4)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–42

Kernschätzer (Normal-Kernfunktion, h = 10)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 25)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–43

Systematischer Fehler bei äquidistantem Design

Der Bias eines Kernschätzers hängt von der gewählten Bandbrei-te h und der Struktur der wahren Regressionsfunktion m ab.

Bias2(mh) =1

n

n∑i=1

(m(Xi)−mh(Xi))2 =

1

nmT (I−Sh)

T (I−Sh)m

mit

mh(x) = E (mh(x)) =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi)

Epanechnikov-Kern: K(x−Xi

h ) = 0 ⇔ |x−Xi| ≥ h

⇒ Nur Beobachtungen Xi ∈ [x − h, x + h] beeinflussen den je-weiligen Wert von mh(x) bzw. mh(x),

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi) =

∑Xi∈[x−h,x+h]

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi)

• Falls m lokal konstant im Punkt x, d.h. m(x) = m(x∗) füralle x∗ ∈ [x−h, x+h], so gilt m(x) = mh(x) (lokaler Bias =0).

• Allgemein: Differenz |m(x)− mh(x)| umso kleiner, je kleinerh

• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n;m zweimal stetig differenzierbar; n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für den lokalen Bias:

Bias2(mh(x)) = |m(x)−mh(x)|2 ≈ 1

4h4m′′(x)2

∫K(u)u2du

Nichtparametrisch@LS-Kneip 4–44

Variabilität bei äquidistantem Design

Die Varianz eines Kernschätzers hängt von der gewählten Band-breite h, der Fehlervarianz σ2 und der Stichprobengröße n ab.

V ar(mh) =1

n

n∑i=1

var(mh(Xi))2 =

σ2

nspur(ST

h Sh)

=σ2

n

n∑i=1

n∑j=1

K(Xi−Xj

h )2

(∑n

k=1 K(Xi−Xk

h ))2

Allgemein: spur(STh Sh) sowie dfh = spur(Sh) sind (approxima-

tiv) proportional zu 1h . Daher ist V ar(mh) (approximativ) pro-

portional zu σ2

nh . Der genaue Wert hängt von der Verteilung der”Design-Punkte” Xi ab.

• Lokale Varianz eines Kernschätzers an einem Punkt x ∈[a, b]:

var(mh(x)) = var

(n∑

i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )ϵi

)

= σ2n∑

j=1

K(x−Xj

h )2

(∑n

k=1 K(x−Xk

h ))2

• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n,n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für die lokale Varianz:

var(mh(x)) ≈σ2

nh

∫K(u)2du

Nichtparametrisch@LS-Kneip 4–45

MSE bei äquidistantem DesignZur Vereinfachung betrachte man einen sogenannten ”äquidistan-ten Design” [a, b] = [0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei xein Punkt im Innern von [a, b].

• Der lokale mittlere quadratische Fehler errechnet sich alsSummes des quadrierten Bias und der Varianz:

MSE(mh(x)) = E((m(x)− mh(x))

2)

= Bias2(mh(x)) + V ar(mh(x))

≈ 14h

4m′′(x)2∫K(u)u2dx+ σ2

nh

∫K(u)2du

• Optimale Bandbreite zum Ausgleich von Bias und Varianz:

hopt,x = n−1/5

( ∫K(u)2du

m′′(x)2∫K(u)u2du

)1/5

• Bei Benutzung der optimalen Bandbreite hopt,x sind der qua-drierte Bias und die Varianz des Kernschätzers beide pro-portional zu n−4/5. Der Fehler wird daher immer kleiner jegrößer n (Kernschätzer sind konsistente Schätzer von m)

– Allerdings konvergiert der Fehler für n → ∞ langsamergegen Null als derjenige eines (gültigen) parametrischenModell mit einer festen Zahl p von Parametern. Für einsolches parametrisches Modell ist die Varianz proportio-nal zu σ2 p

n

Nichtparametrisch@LS-Kneip 4–46

Genauigkeit bei Random Design

Im Falle eines Random Designs hängen Bias und Varianz desKernschätzers noch zusätzlich von der Designdichte f ab. Manerhält dann

Bias2(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)

f(x)

)2

und

V ar(mh(x)) =σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

⇒ MSE(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)

f(x)

)2

+σ2

f(x)nhR(K)

Eine optimale lokale Bandbreite hopt,x hängt daher noch zusätz-liche von den Werten von f(x) und f ′(x) ab.

• Die Genauigkeit von Kernschätzungen sinkt, wenn man dieSchätzungen an Punkten x nahe den Rändern des Schätz-intervalls [a, b] betrachtet. Für x = a oder x = b gilt nurBias2(mh(x)) = O(h2) (und nicht Bias2(mh(x)) = O(h4)).

• Dieser Effekt kann jedoch teilweise durch geeignete Modifi-kation der Kernfunktion an den Randpunkten kompensiertwerden.

Nichtparametrisch@LS-Kneip 4–47

Anmerkung : In der Praxis hängt die Größenordnung einergeeigneten Bandbreite hängt von der jeweiligen Skalierung derX´-Variable ab:

{Xi}, h ⇔ {10Xi}, 10h.

In manchen statistischen Programmpaketen werden daher ”stan-dardisierte” Bandbreiten c benutzt:

h = cQn−1/5

• Q: Quartilsabstand der X-Variable

• c ∈ [0, 1]

Theorie der optimalen Kerne:

• Asymptotisch ist der Epanechnikov-Kern die bestmöglicheKernfunktion in der Klasse aller symmetrischen Dichtefunk-tionen

(Kriterium: minimaler MASE bei Verwendung der optimalenBandbreite).

• Der Normal-Kern ist fast genauso gut wie der Epanechnikov-Kern (kaum messbarer Verlust an Effizienz). Der trianguläreKern führt tendenziell auf schlechtere Schätzer.

• Literatur: Müller, H.G. (1988). Nonparametric regression ana-lysis of longitudinal data, Springer Verlag, Berlin

Nichtparametrisch@LS-Kneip 4–48

Anmerkung: Kernschätzer sind lineare Glättungsverfahren..Die Schätzungen m(X1), . . . , m(Xn) von m an den Beobach-tungspunkten ergeben sich durch Multiplikation einer Matrix mitden Beobachtungen Y1, . . . , Yn

m(X1)

m(X2)

...

m(Xn)

=

K(0)n∑

l=1K(

X1−Xlh

)

K(X1−X2

h)

n∑l=1

K(X1−Xl

h)

. . .K(

X1−Xnh

)n∑

l=1K(

X1−Xlh

)

K(X2−X1

h)

n∑l=1

K(X2−Xl

h)

K(0)n∑

l=1K(

X2−Xlh

). . .

K(X2−Xn

h)

n∑l=1

K(X2−Xl

h)

......

...K(

Xn−X1h

)n∑

l=1K(

Xn−Xlh

)

K(Xn−X2

h)

n∑l=1

K(Xn−Xl

h)

. . . K(0)n∑

l=1K(

Xn−Xlh

)

︸︷︷︸

Sh

·

Y1

Y2

...

Yn

Die n× n Matrix Sh wird als „Glättungsmatrix“ bezeichnet.

Es lässt sich leicht zeigen, dass

dfh := spur(Sh) =n∑

i=1

K(0)n∑

l=1

K(Xi−Xl

h )

von der Größenordnung 1h ist.

Nichtparametrisch@LS-Kneip 4–49

4.2 Bandbreitenwahl

Wichtige, allgemein anwendbare Methoden zur Schätzung eineroptimalen Bandbreite sind die Kreuzvalidierung und die verallge-meinerte Kreuzvalidierung. Sie zielen darauf ab, für jede möglicheBandbreite den zugehörigen Wert des MASE aus den Daten zuschätzen und sodann die Bandbreite mit dem minimalen (apro-ximierten) MASE auszuwählen.

Erwarteter mittlerer quadratischer Fehler (MASE) anden Beobachtungspunkten:

MASE(mh) = E

(1

n

n∑i=1

(mh(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(mh(Xi)−m(Xi))2

︸︷︷︸Bias2(mh)

+1

n

n∑i=1

V ar(m(Xi))︸︷︷︸V ar(mh)

• Eine optimale Bandbreite hopt minimiert MASE(mh) überalle h > 0

• Erinnerung: Bias2(mh) wächst mit h; V ar(mh) fällt, falls h

größer wird⇒ hopt - optimaler Ausgleich zwischen Bias und Varianz

Problem: In der Praxis ist MASE(mh) natürlich nicht berechen-bar. Beobachtet werden nur Y1, . . . , Yn, Yi = m(Xi) + ϵi.

Man betrachte nun die mittleren quadratischen Residuen1n

∑ni=1(Yi − mh(Xi))

2.

Nichtparametrisch@LS-Kneip 4–50

Beziehung zwischen 1n

∑ni=1(Yi − mh(Xi))

2 und MASE(mh)?

1

n

n∑i=1

(Yi − mh(Xi))2

=1

n

n∑i=1

(m(Xi)− mh(Xi))2 + 2

1

n

n∑i=1

ϵi(m(Xi)− mh(Xi)) +1

n

n∑i=1

ϵ2i

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)

= MASE(mh) + E

(21

n

n∑i=1

ϵi(m(Xi)− mh(Xi))

)+ σ2

• Polynomiale Regression: Yi = β0 +∑p

j=1 βjXji + ϵi für ein

p > 0:E(2 1n

∑ni=1 ϵi(m(Xi)− mh(Xi))

)= − 2σ2(p+1)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)−

2σ2(p+ 1)

n+ σ2

• Kernschätzer:E(2 1n

∑ni=1 ϵi(m(Xi)− mh(Xi))

)= − 2σ2·spur(Sh)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)−

2σ2 · spur(Sh)

n+ σ2

• dfh = spur(Sh) wird als Anzahl der Freiheitsgrade desKernschätzers mit Bandbreite h bezeichnet (dfh ist propor-tional zu 1/h). dfh ist ein Maß für die Komplexität der mögli-chen Datenanpassung und der damit einhergehenden Varia-bilität der Zufallsschwankungen; nichtparametrisches Ana-logon zur ”Anzahl der zu schätzenden Parameter” in einemparametrischen Modell.

Nichtparametrisch@LS-Kneip 4–51

Kreuzvalidierung (CV): Schätzung eines optimalen Glät-tungsparameters durch minimieren von

CV (h) :=n∑

i=1

(Yi − mh,−i(Xi)

)2

über alle möglichen Werte von h. Hierbei ist mh,−i jeweils derSchätzer, den man erhält, wenn nur die n − 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn) verwendet wer-den.

• Man beachte: Da jeweils nur eine einzige Beobachtung weg-gelassen wird, werden sich mh und mh,−i i.Allg. nicht sehrstark unterscheiden, mh(x) ≈ mh,−i(x).

• mh,−i(x) ist jedoch unabhängig von ϵi ⇒ E(ϵimh,−i(Xi)) =

0.

• Insgesamt erhält man daher approximativ:

E(CV (h)) = E

(1

n

n∑i=1

(m(Xi)− mh,−i(Xi))2

)

+ E

(21

n

n∑i=1

ϵi(m(Xi)− mh,−i(Xi))

)︸︷︷︸

=0

+σ2

≈ MASE(mh) + σ2

Aus diesen Überlegungen ist zu schließen, dass bis auf einigeZufallsschwankungen:

• Eine gute Modellanpassung verlangt, dass MASE(mh) kleinist. CV (und GCV) liefern dann in einer ersten Approxima-tion eine Schätzung der Fehlervarianz σ2.

• Für verschiedene Bandbreiten h, h∗ spiegeln die Unterschiedein den Werten von CV (h) und CV (h∗) approximativ die Un-

Nichtparametrisch@LS-Kneip 4–52

terschiede der mittleren quadratischen Fehler MASE(mh)

und MASE(mh∗) wider.

• Eine Minimierung von CV (h) bezüglich h liefert daher einesinnvolle Schätzung hopt von hopt.

Verallgemeinerte Kreuzvalidierung (GCV): Schät-zung hopt durch minimieren von

GCV (p) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

GCV (h) verhält sich analog zu CV (h).Asymptotische Approximation: n → ∞, h → 0, nh → ∞

E

(GCV (h)

)= E

(1

(1−2dfhn +(

dfhn )2)

1n

∑ni=1(Yi − mh(Xi))

2

)= E

(1n

∑ni=1(Yi − mh(Xi))

2

)+2dfh

n E

(1n

∑ni=1(Yi − mh(Xi))

2

)+ o( 1

nh )

= E

(1n

∑ni=1(Yi − mh(Xi))

2

)+ 2dfh

n σ2 + o( 1nh )

= MASE(mh) + σ2 + o( 1nh )

• Asymptotische Theorie (unter einigen Regularitätsbedingun-gen): Für große Stichproben ist die durch GCV (oder CV )geschätze Bandbreite hopt nahe an dem Wert der optimalenBandbreite hopt, die MASE(mh) minimiert.

• Es existieren eine Reihe anderer Selektionskriterien, die asym-ptotisch zu CV und GCV äquivalent sind. Zu nennen sindbeispielsweise Mallows’ CL oder Akaike’s Informations Kri-terium.

Nichtparametrisch@LS-Kneip 4–53

4.3 Vergleich mit parametrischen Methoden

Vorteile von Kernschätzern und anderen nichtparametrischenGlättungsverfahren:

• Hohe Flexibilität: Für große Stichprobenzahl sind nichtpara-metrische Kurvenschätzer in der Lage jede mögliche glatteRegressionsfunktion zu approximieren

• Sie können dazu dienen, vernünftige parametrische Modellezu spezifizieren und zu validieren

Nachteile der Benutzung von Kernschätzern und anderer nicht-parametrischer Methoden:

• Im Vergleich zu einem korrekten parametrischen Modell exi-stiert ein Verlust an Schätzgenauigkeit

• Im Allgemeinen ist es nicht möglich, die Werte von Y zueinem vorgegebenen x ∈ [a, b] zu prognostizieren. Dies würdeeine Extrapolation erfordern, die mit lokalen Verfahren nichtmöglich ist.

• Statistische Inferenz (Konstruktion von Konfidenzinterval-len, Tests, etc.) ist schwieriger als bei parametrischen Ver-fahren

Nichtparametrisch@LS-Kneip 4–54

4.4 Lokal lineare Regression

• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x

• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑

i=1

(Yi − β0 − β1(x−Xi)

)2K(

x−Xi

h)

Lokal linearer Schätzer von m(x):

mh(x) := β0

• K - symmetrische Kernfunktion (z.B. Epanechnikov-Kernoder Normal-Kern)

• h - Bandbreite

Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben

mh(x) = β0 =

∑ni=1 wi(x)Yi∑ni=1 wi(x)

, wi(x) = K(x−Xi

h)(s2(x)−(Xi−x)s1(x))

mit

sr(x) =

n∑j=1

(Xj − x)rK(x−Xj

h), r = 1, 2

Nichtparametrisch@LS-Kneip 4–55

• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.

• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)

• Lokal lineare Regression ist ein lineares Glättungsverfahren.

mh(X1)

mh(X2)

···

mh(Xn)

=

w1(X1) w2(X1) . . . wn(X1)

w1(X2) w2(X2) . . . wn(X2)

· · ·· · ·· · ·

w1(Xn) w2(Xn) . . . wn(Xn)

︸︷︷︸

Sh

Y1

Y2

···Yn

dfh = spur(Sh) ist proportional zu 1/h.

• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab

– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz

– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

Nichtparametrisch@LS-Kneip 4–56

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=150)Nadaraya−Watson kernel (h=150)

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=400)Nadaraya−Watson kernel (h=400)

Nichtparametrisch@LS-Kneip 4–57

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

30 40 50 60 70 80

2040

6080

100

Electricitiy usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=9)Nadaraya−Watson kernel (h=9)

30 40 50 60 70 80

2040

6080

100

Electricity usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=25)Nadaraya−Watson kernel (h=25)

Nichtparametrisch@LS-Kneip 4–58

Die Genauigkeit lokal linearer SchätzerDie Regressionsfunktion m sei zweimal stetig differenzierbar.

Äquidistantes Design (x im Innern von [a, b] = [0, 1]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

und

V ar(mh(x)) =σ2

nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

Random Design (x im Innern von [a, b]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

und

V ar(mh(x)) =σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

Auch an den Randpunkten x = a oder x = b gilt Bias2(mh(x)) ∼O(h4) und V ar(mh(x)) ∼ O(1/(nh) (aber: die zugehörigen Kon-stanten sind nicht gleich ν2(K)2 bzw. R(K)).

Nichtparametrisch@LS-Kneip 4–59

MASE

Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar

Für große Stichproben erhält man dann folgende asymptotischeApproximation:

MASE(mh) = E

(1

n

n∑i=1

(m(Xi)− mh(Xi))2

)

≈ 1

4h4

∫ 1

0

m′′(x)2dx

∫ ∞

−∞K(u)u2du︸︷︷︸

Bias2(mh)

+σ2

nh

∫ ∞

−∞K(u)2du︸︷︷︸

V ar(mh)

Der Einfluss von Randpunkten ist hier (im Gegensatz zu Kern-schätzern) bei der Berechnung des MASE asymptotisch vernach-lässigbar.

Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

Nichtparametrisch@LS-Kneip 4–60

Lokal lineare Schätzer für verschiedene Bandbreiten h:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local linear (h=1,5)

Nichtparametrisch@LS-Kneip 4–61

Schätzung einer optimalen Bandbreite

Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.

• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von

CV (h) =1

n

n∑i=1

(Yi − mh,−i(Xi)

)2

,

Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)

zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)

• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von

GCV (h) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

n groß: E(GCV (h)) ≈ σ2 +MASE(mh)

• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

berechnet. Die unbekannten Größen∫ 1

0m′′(x)2dx und σ2

werden durch geeignete Approximationen ersetzt.

Nichtparametrisch@LS-Kneip 4–62

Verallgemeinerung: Lokal polynomialeRegression

• Idee: Gewichtete lokale Anpassung eines Polynoms vorgege-benen Grades q an jedem Punkt x

• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon

n∑i=1

(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)

q)2K(

x−Xi

h)

Lokal polynomialer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von

n∑i=1

(Yi − β0

)2K(

x−Xi

h)

liefert

mh(x) := β0 =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Nichtparametrisch@LS-Kneip 4–63

Lokal linearer Schätzer mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local cubic (h=3)

Nichtparametrisch@LS-Kneip 4–64

4.5 Schätzung der Fehlervarianz

Die Größe der Varianz σ2 der Fehlerterme ϵi beeinflusst die Ge-nauigkeit. Die Fehlervarianz lässt sich mit relativ einfachen Me-thoden konsistent aus den Daten schätzen. Zur Vereinfachungwird im folgenden angenommen, dass die Beobachtungen der X-Variable geordnet sind, d.h. X1 ≤ X2 ≤ · · · ≤ Xn, und dass m

eine glatte, zweimal stetig differenzierbare Funktion ist.

• Die Methode von Rice

σ2 =1

2(n− 1)

n∑i=2

(Yi − Yi−1)2

Es lässt sich zeigen, dass E(σ2) = σ2+O( 1n2 ) und V ar(σ2) =

O( 1n ).

• Die Methode von Gasser et.al.: Man berechnet ”Pseudo-Residuen”ϵi durch

ϵi =Xi+1 −Xi

Xi+1 −Xi−1Yi−1 +

Xi −Xi−1

Xi+1 −Xi−1Yi+1 − Yi

und setzt

σ2 =1

n− 2

n−1∑i=2

ϵ2i

Die Methode von Gasser et al. besitzt i.Allg. einen kleinerenBias als die Methode von Rice.

Nichtparametrisch@LS-Kneip 4–65

4.6 Konfidenzintervalle

Zur Vereinfachung betrachten wir einen lokal linearen Schätzermh und setzen einen äquidistanten Design mit [a, b] = [0, 1] vor-aus.

Es sei mh(x) = E(mh(x)). Unter einigen zusätzlichen Regulari-tätsbedingungen lässt sich zeigen, dass auf Grund des zentralenGrenzwertsatzes asymptotisch (n → ∞, h → 0, nh → ∞) fürjeden Punkt x

mh(x)− mh(x)√var(mh(x))

→L N(0, 1)

gültig ist.

Erinnerung: var(mh(x)) =σ2

nhR(K)+o( 1nh ), R(K) =

∫∞−∞ K(x)2dx.

Aus dem obigen allgemeinen Resultat lässt sich daher schließen,dass für großes n approximativ

mh(x)− mh(x) ∼ AN(0,σ2

nhR(K))

gilt. Die in Abschnitt 4.5 besprochenen Methoden liefern eineApproximation σ2 der Fehlervarianz σ2. Ein approximatives 95%Konfidenzintervall für mh(x) ist daher durch

mh(x)± 1.96

√σ2

nhR(K))

gegeben.

Solche Intervalle lassen sich für jeden Punkt x berechnen ⇒ Kon-videnzband für die Funktion mh.

Man spricht von einem Konfidenzband für die ”Variabilität” (d.h.für die durch die Fehlerterme bedingten Zufallsschwnkungen) desSchätzers. Der Bias wird hierbei nicht berücksichtigt.

Nichtparametrisch@LS-Kneip 4–66

4.7 Hypothesentests

In diesem Abschnitt wird zusätzlich vorausgesetzt, dass die Feh-lerterme ϵi approximativ normalverteilt sind.

1) Test auf einen ”Effekt” der X-VariableIn der Praxis ist es häufig von Interesse zu testen, ob X über-haupt einen Einfluss auf Y besitzt. Ist dies nicht der Fall, somuss Y (im Mittel) unabhängig von X jeweils den gleichen Wertannehmen, d.h. m(x) = a für all x und eines feste Konstante a.

Testproblem: H0 : m(x) = a gegen H1 : m ist eine nicht kon-stante Funktion von x.

Unter der Alternative sollten sich Abweichungen von m(x) von ei-ner Konstante durch nichparametrische Regressionschätzer quan-tifizieren lassen. Wir betrachten im Folgenden lokal polynomialeSchätzer (das Vorgehen z.B. für glättendene Splines, Kernschät-zer ist analog). Sei Y = 1

n

∑i Yi.

• Teststatistik

Lh =1

σ2n

n∑i=1

(∑nj=1 wj(Xi)(Yj − Y )∑n

j=1 wj(Xi)

)2

,

wobei die Gewichte wj(x) wie in Abschnitt 4.4 definiert sind.Zur Vereinfachung wird im Folgenden angenommen, dass dieFehlervarianz nach der Methode von Rice geschätzt wird,d.h. σ2 = 1

2(n−1)

∑ni=2(Yi − Yi−1)

2.

• Ablehnung von H0 falls Lh zu groß, d.h. Lh,beob > lh;1−α,wobei lh;1−α das 1− α-Quantil der Verteilung von Lh unterH0 ist.

Nichtparametrisch@LS-Kneip 4–67

Problem: Verteilung von Lh unter H0?

Es ist leicht zu sehen, dass die Verteilung von Lh nicht vomWert von σ2 abhängt. Bei normalverteilten Fehlern gilt daher,dass die Verteilung von Lh unter H0 gleich der Verteilung derZufallsvariablen

Lϵh =

2(n− 1)∑ni=2(ϵ

∗i − ϵ∗i−1)

2n

n∑i=1

(∑nj=1 wj(Xi)(ϵ

∗j − ϵ∗)∑n

j=1 wj(Xi)

)2

für unabhängige, standardnormalverteilte Fehler ϵ∗i ist.

Die Quantile der Verteilung von Lϵh lassen sich durch Monte-

Carlo-Simulationen (am Computer) approximieren.

• Mit Hilfe eines Zufallszahlengenerators werden n unabhängi-ge, standardnormalverteilte Zufallszahlen ϵ∗i erzeugt und derzugehörige Wert Lϵ

h berechnet.

• Diese Prozedur wird k mal wiederholt (k groß, z.B. k = 2000)⇒ m Werte: Lϵ

h,1, Lϵh,2, . . . , L

ϵh,k

• Das (1− α)-Quantil der empirischen Verteilung vonLϵh,1, L

ϵh,2, . . . , L

ϵh,k liefert eine Approximation von lh;1−α (um-

so genauer, je größer k)

Man beachte: Der obige Test lässt sich für alle möglichen Band-breiten h durchführen. Je nach Struktur einer möglichen Alterna-tive ist die Güte des Tests jedoch von der Wahl der Bandbreiteh abhängig.

Nichtparametrisch@LS-Kneip 4–68

2) Test auf Linearität

Testproblem: H0 : m(x) = β0 + β1x gegen H1 : m ist einenichtlineare Funktion von x.

Teststatistik:

Lh =1

σ2n

n∑i=1

(∑nj=1 wj(Xi)(Yj − β0 − β1Xj)∑n

j=1 wj(Xi)

)2

,

wobei β0, β1 die Kleinste-Quadrate Schätzer von β0, β1 aus denBeobachtungen (Y1, X1), . . . , (Yn, Xn) sind. Für unabhängige, stan-dardnormalverteilte Fehler ϵ∗i lässt sich die Verteilung von Lh

durch die Verteilung von

Lϵh =

2(n − 1)

n∑i=2

(ϵ∗i

− ϵ∗i−1

)2n

n∑i=1

n∑

j=1wj(Xi)(ϵ

∗j − β∗

0 − β∗1Xi)

n∑j=1

wj(Xi)

2

,

approximieren, wobei β∗0 , β

∗1 Kleinste-Quadrate Schätzer

aus (ϵ∗1, X1), . . . , (ϵ∗n, Xn) sind.

Kritische Werte von Lϵh lassen sich durch Monte-Carlo Simula-

tionen simulieren.

Nichtparametrisch@LS-Kneip 4–69

4.8 Multivariate Kernschätzer

Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)

beinhaltet.

Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer

• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht

die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi

• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)

′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.

Ansatz unter Verwendung von mehrdimensionalen Kernfunktio-nen K : IRd → IR (siehe Kapitel 3):

mh1,h2(x) =

∑ni=1 K(x1−Xi1

h1, x2−Xi2

h2)Yi∑n

i=1 K(x1−Xi1

h1, x2−Xi2

h2)

Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.

Nichtparametrisch@LS-Kneip 4–70

Problem:

• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)

• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d

groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände

|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.

• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab

• Optimale Konvergenzrate: MSE(mh) = O(n−4/(d+4)) (beizweimal stetig differenzierbarer Regressionsfunktion m)

• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:

– n = 25 Beobachtungen für d = 1

– n = 125 Beobachtungen für d = 2

– n = 625 Beobachtungen für d = 3

– n = 15625 Beobachtungen für d = 5

– n = 48828125 Beobachtungen für d = 10

Nichtparametrisch@LS-Kneip 4–71

4.9 Lokal lineare Regression

• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x

• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑

i=1

(Yi − β0 − β1(x−Xi)

)2K(

x−Xi

h)

Lokal linearer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben

mh(x) = β0 =1

nh

n∑i=1

[s2(x, h)− s1(x, h)(x−Xi)]K(x−Xi

h )

s2(x, h)s0(x, h)− s1(x, h)2︸︷︷︸wi(x)

Yi

mit

sr(x, h) =1

nh

n∑j=1

(x−Xj)rK(

x−Xj

h), r = 0, 1, 2

Nichtparametrisch@LS-Kneip 4–72

• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.

• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)

• Lokal lineare Regression ist ein lineares Glättungsverfahren.

mh(X1)

mh(X2)

···

mh(Xn)

=

w1(X1) w2(X1) . . . wn(X1)

w1(X2) w2(X2) . . . wn(X2)

· · ·· · ·· · ·

w1(Xn) w2(Xn) . . . wn(Xn)

︸︷︷︸

Sh

Y1

Y2

···Yn

dfh = spur(Sh) ist proportional zu nh.

• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab

– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz

– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

Nichtparametrisch@LS-Kneip 4–73

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=150)Nadaraya−Watson kernel (h=150)

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=400)Nadaraya−Watson kernel (h=400)

Nichtparametrisch@LS-Kneip 4–74

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

30 40 50 60 70 80

2040

6080

100

Electricitiy usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=9)Nadaraya−Watson kernel (h=9)

30 40 50 60 70 80

2040

6080

100

Electricity usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=25)Nadaraya−Watson kernel (h=25)

Nichtparametrisch@LS-Kneip 4–75

MASE

Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar

Für große Stichproben erhält man dann folgende asymptotischeApproximation:

MASE(mh) = E

(1

n

n∑i=1

(m(Xi)− mh(Xi))2

≈ 1

4h4

∫ 1

0

m′′(x)2dx

∫ ∞

−∞K(u)u2du︸︷︷︸

Bias2(mh)

+σ2

nh

∫ ∞

−∞K(u)2du︸︷︷︸

V ar(mh)

Die in Kapitel 2.3 durchgeführten Überlgegungen zur Genauig-keit eines Kernschätzers (für äquidistanten Design) übertragensich also auf lokal lineare Schätzer.

Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

Nichtparametrisch@LS-Kneip 4–76

Lokal lineare Schätzer für verschiedene Bandbreiten h:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local linear (h=1,5)

Nichtparametrisch@LS-Kneip 4–77

Schätzung einer optimalen Bandbreite

Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.

• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von

CV (h) =1

n

n∑i=1

(Yi − mh,−i(Xi)

)2

,

Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)

zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)

• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von

GCV (h) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

n groß: E(GCV (h)) ≈ σ2 +MASE(mh)

• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

berechnet. Die unbekannten Größen∫ 1

0m′′(x)2dx und σ2

werden durch geeignete Approximationen ersetzt.

Nichtparametrisch@LS-Kneip 4–78

Verallgemeinerung: Lokal polynomialeRegression

• Idee: Gewichtete lokale Anpassung eines vorgegebenen Gra-des q an jedem Punkt x

• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon

n∑i=1

(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)

q)2K(

x−Xi

h)

Lokal polynomialer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von

n∑i=1

(Yi − β0

)2K(

x−Xi

h)

liefert

mh(x) := β0 =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Nichtparametrisch@LS-Kneip 4–79

Lokal linearer Schätzer mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local cubic (h=3)

Nichtparametrisch@LS-Kneip 4–80

4.10 Glättende Splines

Glättende Splines basieren auf der Idee einer Minimierung derquadratischen Abweichungen unter der Benutzung einer ”Rough-ness Penalty” (Bestrafungsfunktion für Unglattheit)

Glättende Splines: Für einen gegebenen Glättungsparameter h

minimiere

1

n

(Yi −m(Xi)

)2

+ h

∫ b

a

(m′′(x))2dx

bezüglich allen zweimal stetig differenzierbaren Funktionen m

⇒ Diejenige Funktion, die das Minimierungsproblem löst, istdann der Spline Schätzer mh

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

∫(m′′(x))2dx klein

∫(m′′(x))2dx groß

Der Glättungsparameter h kontrolliert die Glattheit des resultie-renden Schätzers

Nichtparametrisch@LS-Kneip 4–81

• h sehr groß: Für die Funktion mh muss m′′h(x) ≈ 0 gelten

⇒ mh ≈ Gerade

• h = 0 ⇒ mh(Xi) = Yi, i = 1, . . . , n (Interpolation derDaten)

Allgemein:

• Große Werte von h liefern Kurvenschätzungen mit kleinerVarinz (Gefahr: möglicherweise großer Bias);

• Kleine Werte von h liefern unglatte, stark fluktuierende Kur-ven. Der systematische Fehler ist klein, aber die Varianz desSchätzers ist groß

Glättende Splines sind lineare Schätzer:

• Man kann zeigen, dass mh notwendigerweise eine sognanntekubische Splinefunktion ist:

– mh ist ein kubisches Polynom (p=3) zwischen je zwei auf-einanderfolgenden Datenpunkten X(i−1) < X(i)

– mh ist zweimal stetig differenzierbar an jedem Beobach-tungspunkt Xi, i = 1, . . . , n.

Nichtparametrisch@LS-Kneip 4–82

• Für jeden Vektor m = (m1, . . . ,mn)′ ∈ IRn existiert eine ku-

bische Spline Funktion m, die die Werte m1, . . . ,mn an denPunkten X1, . . . , Xn interpoliert, d.h. m1 = m(X1), . . . ,mn =

m(Xn)

• Zu jedem Vektor m = (m1, . . . ,mn)′ gehört ein zugehöriger

Wert von∫ b

a(m′′(x))2dx. Es existiert eine eindeutig bestimm-

te Matrix A (natürlich abhängig von X1, . . . , Xn), so dass

m′Am =

∫ b

a

(m′′(x))2dx

• Matrix Notation: Glättende Spline-Schätzer ergeben sich durchMinimieren von

1

n∥Y −m∥2 + hm′Am

⇒

mh(X1)

···

mh(Xn)

=

(I − hA

)−1

Y =: ShY

• dfh = spur(Sh) ist proportional zu h−1/4

Nichtparametrisch@LS-Kneip 4–83

Glättende Splines (dfh = 3)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Glättende Splines (dfh = 10)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–84

4.11 Multivariate Kernschätzer

Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)

beinhaltet.

Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer

• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht

die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi

• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)

′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.

Ansatz unter Verwendung von ”Produkt-Kernen”:

mh1,h2(x) =

∑ni=1 K(x1−Xi1

h1)K(x2−Xi2

h2)Yi∑n

i=1 K(x1−Xi1

h1)K(x2−Xi2

h2)

Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.

Nichtparametrisch@LS-Kneip 4–85

Problem:

• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)

• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d

groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände

|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.

• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab

• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:

– n = 25 Beobachtungen für d = 1

– n = 125 Beobachtungen für d = 2

– n = 625 Beobachtungen für d = 3

– n = 15625 Beobachtungen für d = 5

– n = 48828125 Beobachtungen für d = 10

Nichtparametrisch@LS-Kneip 4–86

3 nichtparametrische dichteschätzung · 3 nichtparametrische dichteschätzung beispiel: analyse...

Documents

kausalanalyse durch matchingverfahren* · aufgrund ihrer...

algebra fx 2 - casioalgebra fx 2.0 bedienungsanleitung casio...

gaussfilter / kalmanfilter / nichtparametrische filter

과 식품 및 포장 기계 · ringspann (u.k.) ltd.,...

survival analysis (modul: lebensdaueranalyse) ·...

suhrkamp verlag · sex pistols: anarchy in the u.k. 10. 11...

zseft.forumactif.free.frzseft.forumactif.free.fr/forum/zundapp-china.pdf ·...

feed the speed! sonderaktionen warszawa, poland tel.:...

zahlen und fakten 2013 - physikalisch-technische...

tests nichtparametrischetests 5.9. nichtparametrische...

public expenditure and financial accountability · 2016. 7....

lk40 g cover1 - casio europe · 478b-g-002a casio...

portable sound system pss010 - philips · 2004-04-13 · 4...

statistische tests parametrische tests nichtparametrische...

· ter des gaurechtsamts rechtsverwaltuna den...

sortiert nach namen einwohnerbuch 1930 gemeinde petersdorf...

fx-95ms fx-100ms fx-115ms (fx-912ms) fx-570ms...

turnline...

objectifs - schweizerische gesellschaft für ernährung ·...

stks statistische tests in kleinen stichproben Übersicht...