3 nichtparametrische dichteschätzung · 3 nichtparametrische dichteschätzung beispiel: analyse...
Post on 18-Oct-2020
2 Views
Preview:
TRANSCRIPT
3 Nichtparametrische Dichteschätzung
Beispiel: Analyse von Einkommnensdaten
• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995
• Ungefähr 7000 britische Haushalte pro Jahr
• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,Ausgaben für verschiedene Güter, Alter, Familiengröße, Be-rufe, etc.
Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus-halten):
66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28
54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85
70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13
22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64
24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21
40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73 90.81 15.70 45.44 68.14
18.76 80.38 61.50 41.39 76.96 87.07 78.03 29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77
93.50 55.92 14.15 144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76 17.45 29.11
48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88 34.74 29.42 121.75 113.76 97.20 86.62
Nichtparametrisch@LS-Kneip 3–1
Charakterisierung von Verteilungen
Einfache Zufallsstichprobe X1, . . . , Xn
Traditionelle statistische Maßzahlen: Mittelwert, Median,Varianz, Quartilsabstand, etc. Solche Maßzahlen geben immernur Teilaspekte von Verteilungseigenschaften wieder.
Detailliertere Informationen: DichteschätzungEinfachster Dichteschätzer (Statistik I): HistogrammHistogramm für FES Einkommensdaten im Jahr 1976):
0 13 26 39 52 65 78 91 104 117 130 143 156 169 182 195income
0
200
400
600
800
1000
Histogramm als Dichteschätzer mit Nachteilen:
• Wahl der Zellenbreite(n); (des Anfangspunktes)
• Unstetig, lokal konstant ⇒ Histogramm ist kein besonders„effizienter“ Schätzer der zugrunde liegenden Dichte f(x).
Nichtparametrisch@LS-Kneip 3–2
Histogramm für FES Einkommensdaten im Jahr 1983 (große Zel-lenbreite):
0.0 0.5 1.0 1.5 2.0 2.5 3.0
020
040
060
080
010
0012
001983
Histogramm für FES Einkommensdaten im Jahr 1983 (kleineZellenbreite):
0.0 0.5 1.0 1.5 2.0 2.5 3.0
020
4060
8010
012
014
0 1983
Nichtparametrisch@LS-Kneip 3–3
Verfeinertes Histogramm und Kerndichteschätzer:
0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income
0.000
0.004
0.008
0.012
Histogramm mit Intervallbreite 2h:
• Intervalle (xj−1, xj ] mit xj − xj−1 = 2h
• Schätzung an den Mittelpunkten x = (xj−1 + xj)/2
fhist(x) =Anzahl Xi in [xj−1, xj ]
2hn=
1
nh
n∑i=1
K
(x−Xi
h
)mit
K(z) =
1/2 falls z ∈ [−1, 1)
0 sonst
Kernschätzer: Schätzung an jedem Punkt x mittels
fh(x) =1
nh
∑i
K
(x−Xi
h
)• K - Kernfunktion; h - Bandbreite
Nichtparametrisch@LS-Kneip 3–4
3.1 Kerndichteschätzer: Motivation
Fragestellung / Modell
• Situation: Gegeben einfache ZufallsstichprobeX1, . . . , Xn einer metrischen Zufallsvariablen X
• Gesucht: (Schätzer für die) Dichtefunktion f(x)
• Modellannahme: f ist „glatt“ (d.h. so oft differenzierbar wienötig)
Theoretische Analyse:Ausgangspunkt: Zusammenhang zwischen Dichtefunktion f undVerteilungsfunktion F (x) = P (X ≤ x)
fX(x) =d
dxFX(x) = F ′
X(x), x ∈ IR
Idee: Approximiere Ableitung der Verteilungsfunktion durch Dif-ferenzenquotienten: Für (ein kleines) h > 0 gilt:
F ′(x) ≈ F (x+ h)− F (x)
h, F ′(x) ≈ F (x)− F (x− h)
h
⇒ Approximationsfehler O(h) (d.h. proportional zu h)
Nichtparametrisch@LS-Kneip 3–5
• Eine bessere Approximation erhält man durch symmetri-schen Differenzenquotienten:
f(x) = F ′(x) ≈ F (x+ h)− F (x− h)
2h, h > 0
⇒ i.Allg. Approximationsfehler O(h2)
• Nach Definition einer Verteilungsfunktion folgt hieraus
f(x) ≈ P (X ≤ x+ h)− P (X ≤ x− h)
2h
=1
2hP (x− h < X ≤ x+ h)
Moving HistogrammErsetze (unbekannte!) Wahrscheinlichkeit in
f(x) ≈ 1
2hP (x− h < X ≤ x+ h)
durch relative Häufigkeit (geschätzt aus der Stichprobe X1, . . . , Xn)
⇒ Moving Histogramm
fh(x) =1
2h
Anzahl Xi in (x− h, x+ h]
n
Eigenschaften: lokal konstant, unstetig, unabhänging vom An-fangspunkt, „effizienter“ als gewöhnliches Histogramm
Nichtparametrisch@LS-Kneip 3–6
Umschreiben des Moving Histogramms:
fh(x) =1
2h
Anzahl Xi in (x− h, x+ h]
n
=1
2nh
n∑i=1
I(x−h,x+h](Xi)
=1
nh
n∑i=1
1
2I[−1,1)
(x−Xi
h
)
=1
n
n∑i=1
1
hK
(x−Xi
h
)
Mit „Gewichtsfunktion“, sogenannter „Kernfunktion“:
K(u) =1
2I[−1,1)(u) =
1/2 falls −1 ≤ u < 1
0 sonst
Kerndichteschätzer: Ersetze den Kern des naiven Schät-zers durch eine stetige, differenzierbare Funktion.
• z.B. K(u) = 34 (1− u2), für u ∈ [−1, 1], 0 sonst
• oder K(u) = φ(u) = 1√2π
exp(−u2/2)
Nichtparametrisch@LS-Kneip 3–7
⇒ Kerndichteschätzer (mit Kern K und Bandbreite h)
fh(x) =1
n
n∑i=1
1
hK
(x−Xi
h
), x ∈ IR
• Eigenschaften: Glatte Dichteschätzung, effizienter als Histo-gramm, flexible Anpassung, rechenintensiv
• Bandbreite h ist ein Glättungsparameter⇒ Bandbreite (und der Kern K) müssen vom Anwender(bzw. Computer) festgelegt werden
• Neue Notation für einen skalierten Kern: Kh(u) := K(u/h)/h
⇒ fh,K(x) = n−1∑n
i=1 Kh(x−Xi)
Achtung:
fh: h als Index: Abhängigkeit des Schätzers von der Bandweite
Kh: Skalierung mit h: Abkürzung für K(·/h)/h
Kerndichteschätzer: Einfache Eigenschaften
• „Positivität“: K ≥ 0 ⇒ fh ≥ 0
• „Glattheit“: K stetig, differenzierbar ⇒ fh stetig, differen-zierbar
• Ist fh Dichtefunktion? Falls∫K = 1 ⇒
∫fh = 1
Fazit:
• Kernschätzer fh „erbt“ die Eigenschaften seines Kerns K.Insbesondere: Falls K Dichte ⇒ fh Dichte
Nichtparametrisch@LS-Kneip 3–8
Theoretische Anforderungen an eine Kernfunktion:
•∫∞−∞ K(x)dx = 1
•∫∞−∞ xK(x)dx = 0
• Typische Wahl der Kernfunktion K: Glatte Dichtefunktion,die symmetrisch um 0 ist.
Wichtige Kernfunktionen:
• Familie der symmetrischen Beta-Dichten: Für p = 0, 1, 2, . . .
K(u; p) = Constp(1− u2)p für u ∈ [−1, 1] und 0 sonst
Resultierende Kerne für verschiedene p (u ∈ [−1, 1]):
p = 0 Uniformer Kern: K(u) = 12
p = 1 Epanechnikov-Kern: K(u) = 34 (1− u2)
p = 2 Quartic/Biweight Kern: K(u) = 1516 (1− u2)2
p = 3 Triweight Kern: K(u) = 3532 (1− u2)3
• Normalkern (Gaußkern): „Grenzfall“: p = ∞K(u) = ϕ(u) = 1√
2πexp(−u2/2), u ∈ IR
• Triangulärer Kern: K(u) = 1− |u|, für u ∈ [−1, 1], 0 sonst.
Nichtparametrisch@LS-Kneip 3–9
Kerndichteschätzer für verschiedene Bandbreiten (Normalkern)
−200 0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
h = 5
−200 0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5
4
4.5x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
h = 10
Nichtparametrisch@LS-Kneip 3–10
−200 0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5
4x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
h = 20
−200 0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
h = 30
Nichtparametrisch@LS-Kneip 3–11
Kerndichteschätzer mit Normal-Reference Bandbreite
0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5
4
4.5x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
Normal Reference
Kerndichteschätzer mit geschätzter optimaler Bandbreite (Plug-In)
0 200 400 600 800 1000 12000
0.5
1
1.5
2
2.5
3
3.5
4
4.5x 10
−3 Family Expenditure Survey (1990)
income − before housing costs −
Sheather / Jones
Nichtparametrisch@LS-Kneip 3–12
3.2 Die Genauigkeit von Kerndichteschätzern
Der Kerndichteschätzer hängt ab von der Wahl des Kerns K undder Bandbreite h ab.
• Wahl von K weit weniger wichtig für die Qualität der Dich-teschätzung als Wahl der Bandbreite h.
• Es werden Kriterien benötigt, um die (statistische) Quali-tät der Schätzung zu messen. (Asymptotische Eigenschaften,MISE)
• Problem der Bandweitenwahl, d.h. „automatisches“ Festle-gen der Bandweite in Abhängigkeit der Daten
Asymptotische Eigenschaften: Mindestanforderung anfh: Konsistenz
In gewissem Sinne: Geschätzte Dichtefunktion fh sollte sich derwahren (unbekannten!) Dichte f annähern; unter der fiktiven An-nahme, dass die Stichprobe immer größer wird.
• Punktweise Konsistenz für festes x: Für wachsende Stich-probengröße ( n → ∞) konvergiert fh(x) gegen f(x)
Analogie: Parameterschätzung aus Statistik II:
• Gleichmäßige Konsistenz für alle x:≈ Für wachsende Stichprobengröße ( n → ∞) konvergiertdie maximale Abweichung maxx |fh(x)− f(x)| gegen Null
Punktweise Konsistenz. Annahmen an die Bandweiten(folge)h = hn, den Kern K und die (wahre) Dichte f :
• hn → 0, nhn → ∞ für n → ∞
• f stetig in x
•∫|K| < ∞, lim|y|→∞ |yK(y)| = 0, K beschränkt,
∫K = 1
(falls K symmetrische Dichte, i. Allg. ok)Nichtparametrisch@LS-Kneip 3–13
Dann gilt für den punktweisen mittleren quadratischen Fehler:
MSE(fhn(x)
)= E
(fhn(x)− f(x)
)2= Var
(fhn(x)
)+Bias2
(fhn(x)
)→ 0
für n → ∞.
⇒ fh(x) → f(x)in Wahrscheinlichkeit
∀c > 0 P(|fhn(x)− f(x)| > c
)→ 0, für n → ∞
(vgl. Statistik II, Tschebycheff-Ungleichung)
⇒ Unter schwachen Annahmen an f (und K,h) ist der Kern-dichteschätzer fh punktweise konsistent
Es gilt sogar asymptotische Normalität:
fhn(x)− E(fhn(x)
)√
Var(fhn(x)
) ∼ AN(0, 1)
Gleichmäßige Konsistenz.• einige technische Annahmen an K
• hn → 0 und nh2n → ∞ für n → ∞
• f ist gleichmäßig stetig (hinreichende Bedingung ist z.B.: f ′
beschränkt)
⇒ supx∈IR
∣∣∣fhn(x)− f(x)∣∣∣→P 0
D.h. die Wahrscheinlichkeit, dass die geschätzte Dichte von derwahren Dichte (an irgendeinem x) um mehr als eine beliebig(kleine) vorgegebene Schranke abweicht, wird mit zunehmendemStichprobenumfang immer geringer.Nichtparametrisch@LS-Kneip 3–14
⇒ Unter schwachen Annahmen an f (und K,h) ist fh gleichmä-ßig konsistent
MISE
Der MISE (Mean Integrated Squared Error) ist das wichtigsteKriterium für die (statistische) Qualität des Kerndichteschätzers.
Für den punktweisen MSE ergibt sich für festes x ∈ IR:
MSE(fh(x)) = E(fh(x)− f(x))2
Var(fh(x)) + (f(x)− Efh(x))2︸ ︷︷ ︸
Bias2(fh(x)
„Summieren“ über alle x ∈ IR:
MISE(fh) =
∫ ∞
−∞MSE(fh(x)) dx
=
∫ ∞
−∞E(fh(x)− f(x))
2dx
=
∫ ∞
−∞Var(fh(x))dx+
∫ ∞
−∞Bias2(fh(x))dx
Optimale Wahl der Bandbreite h ⇔ Minimieren von MISE(fh)
Nichtparametrisch@LS-Kneip 3–15
Asymptotische Approximation von MISE(fh): Es gilt
E(fh(x)) =1
n
n∑i=1
1
hE
(K(
x−Xi
h)
)= E
(1
hK(
x−Xi
h)
)=
∫ ∞
−∞
1
hK(
x− u
hf(u)du
Berechnung des inneren Integrals:∫∞−∞
1hK(x−u
h f(u)du:
∫ ∞
−∞
1
hK(
x− u
hf(u)du =
∫ ∞
−∞K(y)f(x+ yh)dy
=
∫ ∞
−∞K(y)
{f(x) + f ′(x)yh+
1
2!f ′′(x)y2h2 + o(h2)
}dy
= f(x) + h2 1
2f ′′(x)
∫ ∞
−∞K(y)y2dy︸ ︷︷ ︸ν2(K)
+o(h2)
Dies impliziert∫ ∞
−∞Bias2(fh(x))dx = h4 1
4ν2(K)2
∫ ∞
−∞f ′′(x)2dx+ o(h4)
Für die Varianz ergibt sich:∫ ∞
−∞Var(fh(x))dx
=1
n2
n∑i=1
E
(1
hK(
x−Xi
h)− E(
1
hK(
x−Xi
h)
)2
=1
nh
∫ ∞
−∞K(y)2dy︸ ︷︷ ︸R(K)
+o(1
nh)
Damit erhält man folgende asymptotische Approximation fürMISE(fh):Nichtparametrisch@LS-Kneip 3–16
⇒ MISE(fh) =1
nhR(K) +
1
4h4ν2(K)2
∫ ∞
−∞f ′′(x)2dx
+ o(1
nh+ h4)
Minimieren über h liefert eine (asymptotisch) optimale Bandwei-te:
hopt =
{R(K)
nν2(K)2 ∫∞
−∞ f ′′(x)2dx
}1/5
Als minimaler Wert des MISE bei Verwendung der optimalenBandbreite ergibt sich somit:
MISE(fhopt) = minh>0
MISE(fh)
=5
4
{ν2(K)2R(K)4
∫ ∞
−∞f ′′(x)2dx
}1/5
n−4/5
Man erkennt sofort einige wesentliche Eigenschaften von MISE(fhopt):
• Abnahme mit zunehmendem Stichprobenumfang: Rate n−4/5
• Einfluss von K durch ν2(K)2, R(K)
• Einfluss von f durch∫∞−∞ f ′′(x)2dx („curvature“)
Nichtparametrisch@LS-Kneip 3–17
Bandbreitenwahl:• Referenzbandbreite: In der asymptotischen Formel für die
optimale Bandweite hopt geht die unbekannte Dichte f „nurnoch“ durch das Funktional
∫∞−∞ f ′′(x)2dx ein.
In vielen Anwendungen kann man davon ausgehen, dass diezugrundeligende Dichte f sich ”nicht sehr stark” von einerNormaldichte unterscheidet. Eine vernünfige Approximati-on einer optimalen Bandbreite für die wahre Dichte f lässtsich daher oft dadurch erreichen, dass man auf die optimaleBandbreite für die Normaldichte zurückgreift.Normaldichte: ϕµ,σ(x) =
1σϕ(
x−µσ ),
wobei ϕ- Dichte der Standardnormalverteilung und µ, σ2 Mit-telwert und Varianz von Xi.Einige einfache Rechnungen führen auf∫ ∞
−∞ϕ′′µ,σ(x)
2dx =3√π8σ5
⇒ Normal-Reference Bandbreite
hNR =
{8√πR(K)
3ν2(K)2n
}1/5
σ
Schätzer für σ: σ = S (S2 - Stichprobenvarianz) oder σ =
IQRn/(Φ−1(0.75)− Φ−1(0.25)) bzw. das Minimum von bei-
den.
• Kreuzvalidierung: Offensichtlich gilt∫ ∞
−∞(fh(x)− f(x))2 dx
=
∫ ∞
−∞fh(x)
2dx− 2
∫ ∞
−∞fh(x)f(x)dx+
∫ ∞
−∞f(x)2dx
Nichtparametrisch@LS-Kneip 3–18
Da∫∞−∞ f(x)2dx nicht von h abhängt, ist Minimieren von
MISE(fh) über h äquivalent zum Minimieren von
E(
∫ ∞
−∞fh(x)
2dx)− E(2
∫ ∞
−∞fh(x)f(x)dx)
Diese Terme lassen sich durch Kreuzvalidierung schätzen,
CV (h) =1
n
n∑i=1
∫ ∞
−∞fh,−i(x)
2dx− 21
n
n∑i=1
fh,−i(Xi)
wobei fh,i für i = 1, . . . , n jeweils einen Kerndichteschätzerbezeichnet, der unter Weglassen der i-te Beobachtung, d.h.aus der reduzierten Stichprobe X1, . . . , Xi−1, Xi+1, . . . , Xn,berechnet wird.Minimieren von CV (h) über h liefert eine (konsistente) Schät-zung h der optimalen Bandbreite hopt.
• Plug-in Methoden: In der Formel
hopt =
{R(K)
nν2(K)2 ∫∞
−∞ f ′′(x)2dx
}1/5
können die Größen R(K) und ν2(K) anhand der verwen-deten Kernfunktion sofort berechnet werden. Nur die vonder wahren Dichte abhängende, unbekannte Größe Qf =∫∞−∞ f ′′(x)2dx verhindert eine direkte Berechnung von hopt.
– Für eine Bandbreite h und eine zweimal stetig differen-zierbare Kernfunktion K liefert die zweite Ableitung f ′′
h(x)
eine Approximation von f ′′(x). Qf kann daher durch Qf (h) =∫∞−∞ f ′′
h(x)2dx geschätzt werden. Theoretische Analysen
zeigen, dass eine optimale Bandbreite h von der Grö-ßenordnung n−1/7 ist, und Qf (h) dann ein konsistenterSchätzer von Qf ist.
Nichtparametrisch@LS-Kneip 3–19
– Für eine geeignete Bandbreite h berechnen einfache Plug-in Schätzer eine Approximation von hopt durch
h∗opt =
{R(K)
nν2(K)2Qf (h)
}1/5
Problem: Wahl von h?
– Man beachte: hopt ∼ n−1/5 ⇒ h5/7 ∼ n−1/7 (Größen-ordnung einer optimalen Bandbreite zur Schätzung vonQf ).
– Verfeinerte Plug-in Methoden benutzen diesen Zusam-menhang zwischen hopt und h. Die bekannteste Methodedieser Art wurde von Sheather und Jones vorgeschlagen.Man setzt h = αh5/7 (α wird wiederum aus den Datenbestimmt) und bestimmt einen Schätzer hopt von hopt
durch Lösen der Gleichung
hopt =
{R(K)
nν2(K)2Qf (αh
5/7opt)
}1/5
Nichtparametrisch@LS-Kneip 3–20
3.3 Test auf Normalität
Gegeben sei wiederum eine einfache ZufallsstichprobeX1, . . . , Xn. Viele Standardverfahren der parametrischen Stati-stik beruhen auf der Annahme, dass Xi normalverteilt ist. Invielen Anwendungen ist dies jedoch zweifelhaft, und man möch-te die Nullhypothese
H0 : Xi ∼ N(µ, σ2)
gegen die Alternative
H1 : Xi ist nicht normalverteilt
testen.
Ein geeignetes Testverfahren beruht auf der Verwendung vonKerndichteschätzern (mit K = Normalkern)
Falls die Nullhypothese richtig ist, d.h wenn f = ϕµ,σ, so lässtsich zeigen, dass für jede Bandbreite h
E(fh(x)) = ϕµ,√σ2+h2
Hieraus folgt, dass∫ ∞
−∞E(fh(x)− ϕµ,
√σ2+h2
)2dx =
∫ ∞
−∞Var(fh(x))dx
Falls die Nullhypothese richtig ist, so ist die Differenz zwischenfh(x) und ϕµ,
√σ2+h2 ausschließlich auf Zufallsschwankungen
zurückzuführen (kein systematischer Unterschied)!
Das hierauf aufbauende Testverfahren lässt sich folgendermaßenbeschreiben:
• Schätze Mittelwert und Varianz von Xi durch µ = 1n
∑ni=1 Xi =
X und σ2 = S2.Nichtparametrisch@LS-Kneip 3–21
• Bestimme die Normal-Reference Bandreite hNR und die zu-gehörige Kerndichteschätzung fhNR .
• Berechne
D =
∫ ∞
−∞
(fhNR(x)− ϕ
µ,√
σ2+hNR2(x)
)2dx
Lehne die Nullhypothese ab, falls D zu groß ist.
Die Verteilung von D unter der Nullhypothese kann durch Monte-Carlo-Simulationen approximiert werden. In erster Ordnung hängtdiese Verteilung nur von der Stichprobengröße und nicht von denWerten µ, σ2 ab. Die folgende Tabelle gibt die kritischen Wertefür einen Test zum Niveau 5% wieder.
n crit. value
25 0.109
50 0.0766
100 0.0567
150 0.0453
200 0.0380
250 0.0332
300 0.0301
400 0.0232
500 0.0205
Beispiel: In der ökonomischen Literatur wird oft angenommen,dass die Einkommensverteilung lognormal ist. Dies bedeutet,dass ln Xi normalverteilt ist.
FES Daten (1990): Eine Anwendung des obigen Testverfahrens
Nichtparametrisch@LS-Kneip 3–22
auf die logarithmierten Einkommenswerte liefert D = 0, 7915. ⇒Ablehnung der Nullhypothese, die logarithmierten Einkommens-werte sind nicht normalverteilt.
1 2 3 4 5 6 7 8 90
0.1
0.2
0.3
0.4
0.5
0.6
0.7Family Expenditure Survey (1990)
ln(income) − before housing costs −
L2−distance=0.7915
Normal Reference = 0.137N(5.23, 0.762)
Nichtparametrisch@LS-Kneip 3–23
3.4 Multivariate Dichteschätzung
Kernschätzer können auch zur Schätzung von multivariaten Dich-tefunktionen verwendet werden. Man betrachte also das Problemder Schätzung der d-dimensionalen Dichtefunktion eines Zufalls-vektor Xi = (Xi1, Xi2, . . . , Xid)
τ .
Daten: Zufallsstichprobe X1 =
X11
...
X1d
, . . . , X1 =
Xn1
...
Xnd
Zweidimensionaler Kerndichteschätzer (mit Kern K undBandbreite h)
fh(x) =1
n
n∑i=1
1
hdK
(x1 −Xi1
h, . . . ,
xd −Xid
h
), x =
x1
...
xd
∈ IRd
Hierbei ist die Kernfunktion K : IRd → IR eine reelwertige Funk-tion mit ∫
IRdK(x1, x2, . . . , xd)dx1dx2 . . . dxd = 1
Nichtparametrisch@LS-Kneip 3–24
Häufig verwendete Kernfunktionen:
• Produktkern: Sei K eine eindimensionale Kernfunktion.Eine d-dimensionale Kernfunktion ist dann das zugehörigeProdukt der K(xi), i = 1, . . . , d:
K(x1, x2, . . . , xd) = K(x1) · K(x2) · . . . · K(xd)
Beispiel: d-dimensionaler Gaußkern (Produkt eindimensiona-ler Kerne mit K(x) = Dichte der Standardnormalverteilung)
• Multivariater Epanechnikov-Kern:
K(x1, . . . , xd) =
12cd
(d+ 2)(1−∑d
i=1 x2i ) falls
∑di=1 x
2i ≤ 1
0 sonst
wobei cd das Volumen des d-dimensionalen Einheitskreisesist: c1 = 2, c2 = π, c3 = 4π/3, etc.
• Glatte (ein- bzw. zweimal differenzierbare ) Kerne im Falld = 2:
K(x1, x2) =
3π (1−
∑2i=1 x
2i )
2 falls∑2
i=1 x2i ≤ 1
0 sonst
K(x1, x2) =
4π (1−
∑2i=1 x
2i )
3 falls∑2
i=1 x2i ≤ 1
0 sonst
Nichtparametrisch@LS-Kneip 3–25
• In der obigen Definition eines multivariaten Kernschätzerswird die gleiche Bandbreite h für jede x-Richtung benutzt.Dies setzt natürlich voraus, dass alle d Variablen eine ver-gleichbare Skalierung besitzen.Der Schätzer ist in der angegebenen Form sinnlos, wenn z.B.Xi1 zwischen 0.1 und 0.2 schwankt, während die Werte vonXi2 zwischen 100 und 200 liegen. Eine mögliche (komplizier-te) Lösung ist die Verwendung unterschiedlicher Bandbrei-ten.
• In der Praxis werden die Variablen fast immer standardisiert,um Skalenunterschiede zu eliminieren. Man betrachte d (evtl.unterschiedlich skalierte) Originalvariablen Yi1, . . . , Yid. Be-zeichnen Yj und Sj Mittelwert und empirische Standardab-weichung der Yij , j = 1, . . . , d, so ergeben sich die zugehöri-gen standardisierten Variablen durch
Xij =Yij − Yj
Sj, j = 1, . . . , d
Alle so standardisierten Variablen besitzen Mittelwert 0 undihre empirische Standardabweichung ist gleich 1 (gleiche ”Ska-la”). Sei
fh(x) - Kernschätzung der gemeinsamen Dichte der standar-disierten Variablen Xij
⇒ Schätzung der Dichte der Originalvariablen:
fh;Y (y) =1
S1 · S2 · . . . · Sdfh
(y1 − Y1
S1, . . . ,
yd − Yd
Sd
)
Nichtparametrisch@LS-Kneip 3–26
Der „Curse of Dimensionality“
Kernschätzer sind eine nützliches Werkzeug zur nichtparametri-schen Schätzung ein-, zwei- oder dreidimensionaler Dichtefunk-tionen. Die Genauigkeit nimmt jedoch mit steigender Dimensionsehr stark ab. Bei hochdimensionalen Problemen sind die resul-tierenden Schätzungen für praxisrelevante Stichprobengrößen soungenau, dass sie praktisch wertlos sind. Dies trifft grundsätzlichauf alle nichtparametrischen Kurvenschätzer zu, man spricht all-gemein von einem „Curse of Dimensionality“. Der Hauptgrund istdie „Leere“ eines hochdimensionalen Raums IRd (d ≫ 1), in demes auch bei großen Stichproben kaum noch „eng benachbarte“Beobachtungen gibt.
Als Beispiel betrachte man die Schätzung einer d-variaten Stan-dardnormalverteilung am Punkt x = 0. Dies ist jeweils das Zen-trum der Verteilung, die Dichte nimmt am Punkt x = 0 ihrenhöchsten Wert an.
• Man betrachte die Verwendung eines Kernschätzers(Epanechnikov-Kern) mit Bandbreite h = 1 (dies ist natür-lich eine relativ große Bandbreite, die auf einen deutlichensystematischen Fehler (Bias!) führt.
– Im Fall d = 1 gilt P (|Xi| ≤ 1) ≈ 0.68, d.h. man kannerwarten, dass etwa 68% der Beobachtungen bei einerKernschätzung fh(0) (mit h = 1) von f(0) mit positivemGewicht berücksichtigt werden.
– Im Fall d = 2 gilt P (|Xi1| ≤ 1 und |Xi2| ≤ 1) ≈ 0.46, d.h.man kann erwarten, dass etwa 46% der Beobachtungenbei einer Kernschätzung fh(0) (mit h = 1) von f(0) mitpositivem Gewicht berücksichtigt werden.
Nichtparametrisch@LS-Kneip 3–27
– Im Fall d = 10 gilt P (|Xij | ≤ 1 für alle j = 1, . . . , 10) ≈0.02, d.h. man kann erwarten, dass nur etwa 2% der Be-obachtungen bei einer Kernschätzung
• Verwendet man jeweils eine optimale Bandbreite h = hopt,so sind folgende Stichprobengrößen n notwendig, damit derrelative mittlere quadratische Fehler unter 10% liegt,
d.h.E(fhopt (0)−f(0))2
f(0)2 ≤ 0.1:
Dimension d Stichprobengröße n
1 4
2 19
3 67
4 223
5 768
7 10700
10 842000
Nichtparametrisch@LS-Kneip 3–28
4 Grundlagen der nichtparametrischenRegressionsanalyse
Daten: (Yi, Xi), i = 1, . . . , n, wobei
• Yi Zielvariable
• Xi ∈ [a, b] ⊂ IR erklärende Variable
• n groß (Faustregel: n ≥ 40)
Regressionsmodell (allgemeine Forumilerung):
Yi = m(Xi) + ϵi
• m(Xi) = E(Yi|X = Xi) Regressionsfunktion
• ϵ1, ϵ2, . . . i.i.d., E(ϵi) = 0, var(ϵi) = σ2
Klassischer Ansatz:
• Lineare Einfachregression: m(x) ist eine Gerade
m(X) = β0 + β1X
• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode: β0 und β1 minimieren
n∑i=1
(Yi − β0 − β1Xi)2
• Schätzung der Regressionsfunktion:
m(x) = β0 + β1x (Ausgleichsgerade)
Nichtparametrisch@LS-Kneip 4–29
In der Regressionsanalyse ist es oft von Bedeutung, auf welcheWeise die Beobachtungspunkte X1, . . . , Xn erzeugt werden. Manunterscheidet zwischen ”Fixed” und ”Random Design”.
• Fixed Design: Die Beobachtungspunkte X1, . . . , Xn sindfest vorgegebene (nicht stochastische) Werte.Beispiel: Ernteertrag (Y ) in Abhängigkeit von festgelegtenMengen von Düngemittel.Wichtigster Spezialfall: äquidistanten Design - alle Beob-achtungspunkte besitzen den gleichen Abstand, Xi+1−Xi =b−an .
• Random Design: Die Beobachtungspunkte X1, . . . , Xn sind(Realisationen von) unabhängig und identisch verteilten Zu-fallsvariablen mit einer Dichtefunktion f ; Xi und ϵi sind un-korreliert.f wird als ”Designdichte” bezeichnet.Beispiel: Stichprobe (Y1, X1), . . . , (Yn, Xn) von Einkommen(Y ) und Alter (X) von n ≈ 7000 zufällig ausgewählten bri-tischen Haushalten.Bei Random Design ist m(x) der bedingte Erwartungswertvon Y gegeben X = x:
m(x) = E(Y | X = x)
Man beachte: Im Falle von Random Design sind im Folgen-den alle Erwartungswerte (bzw. Varianzen) als bedingte Er-wartungswerte (bzw. Varianzen) gegeben X1, . . . , Xn zu in-terpretieren.
Nichtparametrisch@LS-Kneip 4–30
• Die Fehler- oder Störvariablen ϵi quantifizieren unsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen Mittelwert β0 + β1xi. Diese Schwankungen beinhaltenMessfehler ebenso wie den Einfluss zusätzlicher, unbeobach-teter Variablen, die den Wert von Yi mitbestimmen.
• ϵ1, . . . , ϵn sind als Zufallsvariablen aufzufassen. Wegen Yi =
m(Xi) + ϵi folgt, dass auch Y1, . . . , Yn Zufallsvariablen sind.
Illustration: Die nachfolgende Figur zeigt jeweils 10 möglicheRealisationen von Yi für jeden Wert Xi, die die zugehörigen zu-fälligen Realisationen der Fehlervariablen ϵi widerspiegeln. DieStreuung der resultierenden Verteilungen der Yi (bzw. ϵi) wirddurch die Standardabweichung σ quantifiziert.
0 5 10 15 20 25
x
5
9
13
17
β0+β1x
Y
Falls X1, . . . , Xn selbst Zufallsvariablen sind, so ist m(x) = E(Yi|Xi =
X) als bedingter Erwartungswert von Yi gegeben Xi = x aufzu-fassen.
Nichtparametrisch@LS-Kneip 4–31
Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha
Beobachtungen für n = 7 Parzellen
X 100 200 300 400 500 600 700
Y 40 50 50 70 65 65 80
100 200 300 400 500 600 700
Duenger
40
50
60
70
80
Ertra
g
Schätzungen im Beispiel Ernteertrag - Dünger:
Schätzwert Standardfehler t-Wert P (|T | > |t|)
Konstante (β0) 36.42857 5.03812 7.23 0.001
Dünger (β1) .0589286 .0112656 5.23 0.003
R2 = 0.8455
Nichtparametrisch@LS-Kneip 4–32
• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom
m(X) = β0 + β1X + β2X2
oder m(X) = β0 + β1X + β2X2 + β3X
3
Beispiel: Dünger (X) -Ernteertrag (Y )
7 zusätzliche Beobachtungen
0 200 400 600 800 1000 1200 1400
Duenger
40
60
80
100
120
Ansatz: Quadratisches Polynom
Y ≈ β0 + β1X + β2X2
Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren
Q(β0, β1, β2) =
n∑i=1
(yi − β0 − β1xi − β2x2i )
2
⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057
Nichtparametrisch@LS-Kneip 4–33
Die Genauigkeit von polynomialen Approximationender Regressionsfunktion
Lineare Einfachregression: Yi = β0 + β1Xi + ϵi.
• Falls das Modell gültig ist, sind β0 und β1 erwartungstreueSchätzer der wahren Koeffizienten und
E(m(x)) = E(β0) + E(β1)x = β0 + β1x = m(x).
m(x) ist dann ein erwartungstreuer Schätzer von m(x)
• Mittlere Varianz:1n
∑ni=1 V ar(m(Xi)) = V ar(β0)+
1n
∑ni=1 V ar(β1)X
2i = 2σ2
n
• Erwarteter mittlerer quadratischer Fehler:
MASE(m) = E
(1
n
n∑i=1
(m(Xi)−m(Xi))2
)
=1
n
n∑i=1
(E(m(Xi))−m(Xi))2
︸ ︷︷ ︸Bias2=0
+1
n
n∑i=1
V ar(m(Xi)) =2σ2
n
Verallgemeinerung: Yi = β0 +∑p
j=1 βjXji + ϵi für ein p > 0
• Die Kleinste-Quadrate Schätzer βj sind erwartungstreue Schät-zer von βj und m(x) = β0 +
∑pj=1 βjx ist ein erwartungs-
treuer Schätzer von m(x).
• 1n
∑ni=1 V ar(m(Xi)) =
(p+1)σ2
n und MASE(m) = (p+1)σ2
n .
Man beachte: Diese Überlegungen setzen voraus, dass das Modell
”wahr” ist. Falls die nicht der Fall ist, existiert ein systematischer Feh-
ler und E(m(x)) = m(x). Der resultierende Bias ist konstant und
konvergiert nicht gegen Null für n → ∞. m ist dann kein konsistenterSchätzer von m.
Nichtparametrisch@LS-Kneip 4–34
• In einer ganzen Reihe von wichtigen Anwendungen ist dieStruktur der Regressionsfunktion relativ komplex. In solchenFällen sind alle diese Modelle zu einfach und liefern keinebrauchbare Approximation an m(x)
”All models are false, but some are useful” (G. Box)
Alternative:
• Nichtparametrische Regression: Es werden keine spezifi-schen Annahmen über die Struktur der Regressionsfunktiongemacht. Die Analyse basiert allein auf der qualitativen An-nahme, dass m glatt ist.
Beispiel: Gesamtausgaben in Abhängigkeit vom Alter
Die folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ ”Alterdes Haushaltsvorstands”).
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–35
Anpassung einer Geraden:
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Anpassung eines Modells Yi = β0 +∑2
j=1 βjXji + ϵi :
20 30 40 50 60 70
age
0.7
1.2
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–36
Anpassung eines Modells Yi = β0 +∑4
j=1 βjXji + ϵi:
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Anpassung eines Modells Yi = β0 +∑6
j=1 βjXji + ϵi:
20 30 40 50 60 70
age
0.7
1.2
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–37
Nichtparametrische Approximation(Anzahl Freiheitsgrade dfh=10):
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–38
4.1 Der Nadaraya-Watson Kernschätzer
Idee: Bildung gewichteter lokaler Mittel der Beobachtungen Yi:
mh(x) =n∑
i=1
w(x,Xi, h)Yi
• Die Gewichtsfunktion w wird derart konstruiert, dass das Ge-wicht einer Beobachtung Yi immer kleiner wird, je größer derAbstand |x − Xi| ist. Der Glättungsparameter h bestimmtdie Geschwindigkeit, mit der die Gewichte gegen Null kon-vergieren, wenn |x−Xi| wächst.
Die sogenannten ”Kernschätzer” berechnen solche Gewichte ex-plizit auf der Basis einer Kernfunktion K. Üblicherweise ist Keine symmetrische Dichtefunktion (z.B. Dichtefunktion der Stan-dardnormalverteilung).
Nadaraya-Watson Kernschätzer:
mh(x) =n∑
i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )Yi
Der Glättungsparameter h > 0 wird auch als Bandbreite be-zeichnet.
• Für jede mögliche Bandbreite h > 0 ist die Summe der Ge-wichte
w(x,Xi, h) = K(x−Xi
h)/
n∑j=1
K(x−Xj
h)
immer gleich 1,∑
i w(x,Xi, h) = 1.
Nichtparametrisch@LS-Kneip 4–39
Wahl der Kernfunktion:
• Epanechnikov-Kern
K(x) =
34 (1− x2) if |x| ≤ 1
0 if |x| > 1
• Normal-Kern
K(x) =1√2π
exp(−x2/2)
• Biweight (quartic) Kern
K(x) =
1516 (1− x2)2 if |x| ≤ 1
0 if |x| > 1
Epanechnikov kernel Normal kernel Triangular kernel
Nichtparametrisch@LS-Kneip 4–40
Y
X
* *
**
**
x
*
• h klein ⇒ der Schätzer von m(x) beruht auf einem Mittelüber wenige Beobachtungen Yi ⇒ kleiner systematischerFehler (≡ kleiner Bias), aber große Varianz
• h groß ⇒ es wird jeweils über viele Beobachtungen Yi
gemittelt. ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).
True model
Estimatedmodel
bias
Estimatedmodel
variability
Estimatedmodel
variability
Nichtparametrisch@LS-Kneip 4–41
Beispiel 2.1: Kernschätzer (Normal-Kernfunktion, h = 1)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Kernschätzer (Normal-Kernfunktion, h = 4)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–42
Kernschätzer (Normal-Kernfunktion, h = 10)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Kernschätzer (Normal-Kernfunktion, h = 25)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–43
Systematischer Fehler bei äquidistantem Design
Der Bias eines Kernschätzers hängt von der gewählten Bandbrei-te h und der Struktur der wahren Regressionsfunktion m ab.
Bias2(mh) =1
n
n∑i=1
(m(Xi)−mh(Xi))2 =
1
nmT (I−Sh)
T (I−Sh)m
mit
mh(x) = E (mh(x)) =
n∑i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )m(Xi)
Epanechnikov-Kern: K(x−Xi
h ) = 0 ⇔ |x−Xi| ≥ h
⇒ Nur Beobachtungen Xi ∈ [x − h, x + h] beeinflussen den je-weiligen Wert von mh(x) bzw. mh(x),
n∑i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )m(Xi) =
∑Xi∈[x−h,x+h]
K(x−Xi
h )∑nj=1 K(
x−Xj
h )m(Xi)
• Falls m lokal konstant im Punkt x, d.h. m(x) = m(x∗) füralle x∗ ∈ [x−h, x+h], so gilt m(x) = mh(x) (lokaler Bias =0).
• Allgemein: Differenz |m(x)− mh(x)| umso kleiner, je kleinerh
• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n;m zweimal stetig differenzierbar; n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für den lokalen Bias:
Bias2(mh(x)) = |m(x)−mh(x)|2 ≈ 1
4h4m′′(x)2
∫K(u)u2du
Nichtparametrisch@LS-Kneip 4–44
Variabilität bei äquidistantem Design
Die Varianz eines Kernschätzers hängt von der gewählten Band-breite h, der Fehlervarianz σ2 und der Stichprobengröße n ab.
V ar(mh) =1
n
n∑i=1
var(mh(Xi))2 =
σ2
nspur(ST
h Sh)
=σ2
n
n∑i=1
n∑j=1
K(Xi−Xj
h )2
(∑n
k=1 K(Xi−Xk
h ))2
Allgemein: spur(STh Sh) sowie dfh = spur(Sh) sind (approxima-
tiv) proportional zu 1h . Daher ist V ar(mh) (approximativ) pro-
portional zu σ2
nh . Der genaue Wert hängt von der Verteilung der”Design-Punkte” Xi ab.
• Lokale Varianz eines Kernschätzers an einem Punkt x ∈[a, b]:
var(mh(x)) = var
(n∑
i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )ϵi
)
= σ2n∑
j=1
K(x−Xj
h )2
(∑n
k=1 K(x−Xk
h ))2
• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n,n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für die lokale Varianz:
var(mh(x)) ≈σ2
nh
∫K(u)2du
Nichtparametrisch@LS-Kneip 4–45
MSE bei äquidistantem DesignZur Vereinfachung betrachte man einen sogenannten ”äquidistan-ten Design” [a, b] = [0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei xein Punkt im Innern von [a, b].
• Der lokale mittlere quadratische Fehler errechnet sich alsSummes des quadrierten Bias und der Varianz:
MSE(mh(x)) = E((m(x)− mh(x))
2)
= Bias2(mh(x)) + V ar(mh(x))
≈ 14h
4m′′(x)2∫K(u)u2dx+ σ2
nh
∫K(u)2du
• Optimale Bandbreite zum Ausgleich von Bias und Varianz:
hopt,x = n−1/5
( ∫K(u)2du
m′′(x)2∫K(u)u2du
)1/5
• Bei Benutzung der optimalen Bandbreite hopt,x sind der qua-drierte Bias und die Varianz des Kernschätzers beide pro-portional zu n−4/5. Der Fehler wird daher immer kleiner jegrößer n (Kernschätzer sind konsistente Schätzer von m)
– Allerdings konvergiert der Fehler für n → ∞ langsamergegen Null als derjenige eines (gültigen) parametrischenModell mit einer festen Zahl p von Parametern. Für einsolches parametrisches Modell ist die Varianz proportio-nal zu σ2 p
n
Nichtparametrisch@LS-Kneip 4–46
Genauigkeit bei Random Design
Im Falle eines Random Designs hängen Bias und Varianz desKernschätzers noch zusätzlich von der Designdichte f ab. Manerhält dann
Bias2(mh(x)) =h4
4ν2(K)2
(m′′(x) +
2m′(x)f ′(x)
f(x)
)2
und
V ar(mh(x)) =σ2
f(x)nhR(K)
mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =
∫∞−∞ K(z)2dz.
⇒ MSE(mh(x)) =h4
4ν2(K)2
(m′′(x) +
2m′(x)f ′(x)
f(x)
)2
+σ2
f(x)nhR(K)
Eine optimale lokale Bandbreite hopt,x hängt daher noch zusätz-liche von den Werten von f(x) und f ′(x) ab.
• Die Genauigkeit von Kernschätzungen sinkt, wenn man dieSchätzungen an Punkten x nahe den Rändern des Schätz-intervalls [a, b] betrachtet. Für x = a oder x = b gilt nurBias2(mh(x)) = O(h2) (und nicht Bias2(mh(x)) = O(h4)).
• Dieser Effekt kann jedoch teilweise durch geeignete Modifi-kation der Kernfunktion an den Randpunkten kompensiertwerden.
Nichtparametrisch@LS-Kneip 4–47
Anmerkung : In der Praxis hängt die Größenordnung einergeeigneten Bandbreite hängt von der jeweiligen Skalierung derX´-Variable ab:
{Xi}, h ⇔ {10Xi}, 10h.
In manchen statistischen Programmpaketen werden daher ”stan-dardisierte” Bandbreiten c benutzt:
h = cQn−1/5
• Q: Quartilsabstand der X-Variable
• c ∈ [0, 1]
Theorie der optimalen Kerne:
• Asymptotisch ist der Epanechnikov-Kern die bestmöglicheKernfunktion in der Klasse aller symmetrischen Dichtefunk-tionen
(Kriterium: minimaler MASE bei Verwendung der optimalenBandbreite).
• Der Normal-Kern ist fast genauso gut wie der Epanechnikov-Kern (kaum messbarer Verlust an Effizienz). Der trianguläreKern führt tendenziell auf schlechtere Schätzer.
• Literatur: Müller, H.G. (1988). Nonparametric regression ana-lysis of longitudinal data, Springer Verlag, Berlin
Nichtparametrisch@LS-Kneip 4–48
Anmerkung: Kernschätzer sind lineare Glättungsverfahren..Die Schätzungen m(X1), . . . , m(Xn) von m an den Beobach-tungspunkten ergeben sich durch Multiplikation einer Matrix mitden Beobachtungen Y1, . . . , Yn
m(X1)
m(X2)
...
m(Xn)
=
K(0)n∑
l=1K(
X1−Xlh
)
K(X1−X2
h)
n∑l=1
K(X1−Xl
h)
. . .K(
X1−Xnh
)n∑
l=1K(
X1−Xlh
)
K(X2−X1
h)
n∑l=1
K(X2−Xl
h)
K(0)n∑
l=1K(
X2−Xlh
). . .
K(X2−Xn
h)
n∑l=1
K(X2−Xl
h)
......
...K(
Xn−X1h
)n∑
l=1K(
Xn−Xlh
)
K(Xn−X2
h)
n∑l=1
K(Xn−Xl
h)
. . . K(0)n∑
l=1K(
Xn−Xlh
)
︸ ︷︷ ︸
Sh
·
Y1
Y2
...
Yn
Die n× n Matrix Sh wird als „Glättungsmatrix“ bezeichnet.
Es lässt sich leicht zeigen, dass
dfh := spur(Sh) =n∑
i=1
K(0)n∑
l=1
K(Xi−Xl
h )
von der Größenordnung 1h ist.
Nichtparametrisch@LS-Kneip 4–49
4.2 Bandbreitenwahl
Wichtige, allgemein anwendbare Methoden zur Schätzung eineroptimalen Bandbreite sind die Kreuzvalidierung und die verallge-meinerte Kreuzvalidierung. Sie zielen darauf ab, für jede möglicheBandbreite den zugehörigen Wert des MASE aus den Daten zuschätzen und sodann die Bandbreite mit dem minimalen (apro-ximierten) MASE auszuwählen.
Erwarteter mittlerer quadratischer Fehler (MASE) anden Beobachtungspunkten:
MASE(mh) = E
(1
n
n∑i=1
(mh(Xi)−m(Xi))2
)
=1
n
n∑i=1
(E(mh(Xi)−m(Xi))2
︸ ︷︷ ︸Bias2(mh)
+1
n
n∑i=1
V ar(m(Xi))︸ ︷︷ ︸V ar(mh)
• Eine optimale Bandbreite hopt minimiert MASE(mh) überalle h > 0
• Erinnerung: Bias2(mh) wächst mit h; V ar(mh) fällt, falls h
größer wird⇒ hopt - optimaler Ausgleich zwischen Bias und Varianz
Problem: In der Praxis ist MASE(mh) natürlich nicht berechen-bar. Beobachtet werden nur Y1, . . . , Yn, Yi = m(Xi) + ϵi.
Man betrachte nun die mittleren quadratischen Residuen1n
∑ni=1(Yi − mh(Xi))
2.
Nichtparametrisch@LS-Kneip 4–50
Beziehung zwischen 1n
∑ni=1(Yi − mh(Xi))
2 und MASE(mh)?
1
n
n∑i=1
(Yi − mh(Xi))2
=1
n
n∑i=1
(m(Xi)− mh(Xi))2 + 2
1
n
n∑i=1
ϵi(m(Xi)− mh(Xi)) +1
n
n∑i=1
ϵ2i
⇒ E
(1
n
n∑i=1
(Yi − mh(Xi))2
)
= MASE(mh) + E
(21
n
n∑i=1
ϵi(m(Xi)− mh(Xi))
)+ σ2
• Polynomiale Regression: Yi = β0 +∑p
j=1 βjXji + ϵi für ein
p > 0:E(2 1n
∑ni=1 ϵi(m(Xi)− mh(Xi))
)= − 2σ2(p+1)
n
⇒ E
(1
n
n∑i=1
(Yi − mh(Xi))2
)= MASE(mh)−
2σ2(p+ 1)
n+ σ2
• Kernschätzer:E(2 1n
∑ni=1 ϵi(m(Xi)− mh(Xi))
)= − 2σ2·spur(Sh)
n
⇒ E
(1
n
n∑i=1
(Yi − mh(Xi))2
)= MASE(mh)−
2σ2 · spur(Sh)
n+ σ2
• dfh = spur(Sh) wird als Anzahl der Freiheitsgrade desKernschätzers mit Bandbreite h bezeichnet (dfh ist propor-tional zu 1/h). dfh ist ein Maß für die Komplexität der mögli-chen Datenanpassung und der damit einhergehenden Varia-bilität der Zufallsschwankungen; nichtparametrisches Ana-logon zur ”Anzahl der zu schätzenden Parameter” in einemparametrischen Modell.
Nichtparametrisch@LS-Kneip 4–51
Kreuzvalidierung (CV): Schätzung eines optimalen Glät-tungsparameters durch minimieren von
CV (h) :=n∑
i=1
(Yi − mh,−i(Xi)
)2
über alle möglichen Werte von h. Hierbei ist mh,−i jeweils derSchätzer, den man erhält, wenn nur die n − 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn) verwendet wer-den.
• Man beachte: Da jeweils nur eine einzige Beobachtung weg-gelassen wird, werden sich mh und mh,−i i.Allg. nicht sehrstark unterscheiden, mh(x) ≈ mh,−i(x).
• mh,−i(x) ist jedoch unabhängig von ϵi ⇒ E(ϵimh,−i(Xi)) =
0.
• Insgesamt erhält man daher approximativ:
E(CV (h)) = E
(1
n
n∑i=1
(m(Xi)− mh,−i(Xi))2
)
+ E
(21
n
n∑i=1
ϵi(m(Xi)− mh,−i(Xi))
)︸ ︷︷ ︸
=0
+σ2
≈ MASE(mh) + σ2
Aus diesen Überlegungen ist zu schließen, dass bis auf einigeZufallsschwankungen:
• Eine gute Modellanpassung verlangt, dass MASE(mh) kleinist. CV (und GCV) liefern dann in einer ersten Approxima-tion eine Schätzung der Fehlervarianz σ2.
• Für verschiedene Bandbreiten h, h∗ spiegeln die Unterschiedein den Werten von CV (h) und CV (h∗) approximativ die Un-
Nichtparametrisch@LS-Kneip 4–52
terschiede der mittleren quadratischen Fehler MASE(mh)
und MASE(mh∗) wider.
• Eine Minimierung von CV (h) bezüglich h liefert daher einesinnvolle Schätzung hopt von hopt.
Verallgemeinerte Kreuzvalidierung (GCV): Schät-zung hopt durch minimieren von
GCV (p) =1
n(1− dfhn )2
n∑i=1
(Yi − mh(Xi)
)2
GCV (h) verhält sich analog zu CV (h).Asymptotische Approximation: n → ∞, h → 0, nh → ∞
E
(GCV (h)
)= E
(1
(1−2dfhn +(
dfhn )2)
1n
∑ni=1(Yi − mh(Xi))
2
)= E
(1n
∑ni=1(Yi − mh(Xi))
2
)+2dfh
n E
(1n
∑ni=1(Yi − mh(Xi))
2
)+ o( 1
nh )
= E
(1n
∑ni=1(Yi − mh(Xi))
2
)+ 2dfh
n σ2 + o( 1nh )
= MASE(mh) + σ2 + o( 1nh )
• Asymptotische Theorie (unter einigen Regularitätsbedingun-gen): Für große Stichproben ist die durch GCV (oder CV )geschätze Bandbreite hopt nahe an dem Wert der optimalenBandbreite hopt, die MASE(mh) minimiert.
• Es existieren eine Reihe anderer Selektionskriterien, die asym-ptotisch zu CV und GCV äquivalent sind. Zu nennen sindbeispielsweise Mallows’ CL oder Akaike’s Informations Kri-terium.
Nichtparametrisch@LS-Kneip 4–53
4.3 Vergleich mit parametrischen Methoden
Vorteile von Kernschätzern und anderen nichtparametrischenGlättungsverfahren:
• Hohe Flexibilität: Für große Stichprobenzahl sind nichtpara-metrische Kurvenschätzer in der Lage jede mögliche glatteRegressionsfunktion zu approximieren
• Sie können dazu dienen, vernünftige parametrische Modellezu spezifizieren und zu validieren
Nachteile der Benutzung von Kernschätzern und anderer nicht-parametrischer Methoden:
• Im Vergleich zu einem korrekten parametrischen Modell exi-stiert ein Verlust an Schätzgenauigkeit
• Im Allgemeinen ist es nicht möglich, die Werte von Y zueinem vorgegebenen x ∈ [a, b] zu prognostizieren. Dies würdeeine Extrapolation erfordern, die mit lokalen Verfahren nichtmöglich ist.
• Statistische Inferenz (Konstruktion von Konfidenzinterval-len, Tests, etc.) ist schwieriger als bei parametrischen Ver-fahren
Nichtparametrisch@LS-Kneip 4–54
4.4 Lokal lineare Regression
• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x
• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑
i=1
(Yi − β0 − β1(x−Xi)
)2K(
x−Xi
h)
Lokal linearer Schätzer von m(x):
mh(x) := β0
• K - symmetrische Kernfunktion (z.B. Epanechnikov-Kernoder Normal-Kern)
• h - Bandbreite
Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben
mh(x) = β0 =
∑ni=1 wi(x)Yi∑ni=1 wi(x)
, wi(x) = K(x−Xi
h)(s2(x)−(Xi−x)s1(x))
mit
sr(x) =
n∑j=1
(Xj − x)rK(x−Xj
h), r = 1, 2
Nichtparametrisch@LS-Kneip 4–55
• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.
• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)
• Lokal lineare Regression ist ein lineares Glättungsverfahren.
mh(X1)
mh(X2)
···
mh(Xn)
=
w1(X1) w2(X1) . . . wn(X1)
w1(X2) w2(X2) . . . wn(X2)
· · ·· · ·· · ·
w1(Xn) w2(Xn) . . . wn(Xn)
︸ ︷︷ ︸
Sh
Y1
Y2
···Yn
dfh = spur(Sh) ist proportional zu 1/h.
• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab
– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz
– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).
Nichtparametrisch@LS-Kneip 4–56
Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:
200 400 600 800 1000 1200
400
600
800
1000
1200
1400
1600
newspaper circulation
Daily circulation
Sund
ay ci
rculat
ion
local linear (h=150)Nadaraya−Watson kernel (h=150)
200 400 600 800 1000 1200
400
600
800
1000
1200
1400
1600
newspaper circulation
Daily circulation
Sund
ay ci
rculat
ion
local linear (h=400)Nadaraya−Watson kernel (h=400)
Nichtparametrisch@LS-Kneip 4–57
Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:
30 40 50 60 70 80
2040
6080
100
Electricitiy usage
Average daily temperature
Avera
ge da
ily us
age
local linear (h=9)Nadaraya−Watson kernel (h=9)
30 40 50 60 70 80
2040
6080
100
Electricity usage
Average daily temperature
Avera
ge da
ily us
age
local linear (h=25)Nadaraya−Watson kernel (h=25)
Nichtparametrisch@LS-Kneip 4–58
Die Genauigkeit lokal linearer SchätzerDie Regressionsfunktion m sei zweimal stetig differenzierbar.
Äquidistantes Design (x im Innern von [a, b] = [0, 1]):
Bias2(mh(x)) =h4
4ν2(K)2m′′(x)2
und
V ar(mh(x)) =σ2
nhR(K)
mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =
∫∞−∞ K(z)2dz.
Random Design (x im Innern von [a, b]):
Bias2(mh(x)) =h4
4ν2(K)2m′′(x)2
und
V ar(mh(x)) =σ2
f(x)nhR(K)
mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =
∫∞−∞ K(z)2dz.
Auch an den Randpunkten x = a oder x = b gilt Bias2(mh(x)) ∼O(h4) und V ar(mh(x)) ∼ O(1/(nh) (aber: die zugehörigen Kon-stanten sind nicht gleich ν2(K)2 bzw. R(K)).
Nichtparametrisch@LS-Kneip 4–59
MASE
Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar
Für große Stichproben erhält man dann folgende asymptotischeApproximation:
MASE(mh) = E
(1
n
n∑i=1
(m(Xi)− mh(Xi))2
)
≈ 1
4h4
∫ 1
0
m′′(x)2dx
∫ ∞
−∞K(u)u2du︸ ︷︷ ︸
Bias2(mh)
+σ2
nh
∫ ∞
−∞K(u)2du︸ ︷︷ ︸
V ar(mh)
Der Einfluss von Randpunkten ist hier (im Gegensatz zu Kern-schätzern) bei der Berechnung des MASE asymptotisch vernach-lässigbar.
Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch
hopt =
(σ2∫∞−∞ K(u)2du
n∫ 1
0m′′(x)2dx
∫∞−∞ K(u)u2du
)1/5
Nichtparametrisch@LS-Kneip 4–60
Lokal lineare Schätzer für verschiedene Bandbreiten h:
0 10 20 30 40 50
510
1520
25vineyard data
Row
Total
numb
er of
lugs
local linear (h=3)
0 10 20 30 40 50
510
1520
25
vineyard data
Row
Total
numb
er of
lugs
local linear (h=1,5)
Nichtparametrisch@LS-Kneip 4–61
Schätzung einer optimalen Bandbreite
Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.
• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von
CV (h) =1
n
n∑i=1
(Yi − mh,−i(Xi)
)2
,
Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)
zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)
• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von
GCV (h) =1
n(1− dfhn )2
n∑i=1
(Yi − mh(Xi)
)2
n groß: E(GCV (h)) ≈ σ2 +MASE(mh)
• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite
hopt =
(σ2∫∞−∞ K(u)2du
n∫ 1
0m′′(x)2dx
∫∞−∞ K(u)u2du
)1/5
berechnet. Die unbekannten Größen∫ 1
0m′′(x)2dx und σ2
werden durch geeignete Approximationen ersetzt.
Nichtparametrisch@LS-Kneip 4–62
Verallgemeinerung: Lokal polynomialeRegression
• Idee: Gewichtete lokale Anpassung eines Polynoms vorgege-benen Grades q an jedem Punkt x
• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon
n∑i=1
(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)
q)2K(
x−Xi
h)
Lokal polynomialer Schätzer von m(x):
mh(x) := β0
• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)
• h - Bandbreite
• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von
n∑i=1
(Yi − β0
)2K(
x−Xi
h)
liefert
mh(x) := β0 =
n∑i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )Yi
Nichtparametrisch@LS-Kneip 4–63
Lokal linearer Schätzer mit Bandbreite h = 3:
0 10 20 30 40 50
510
1520
25vineyard data
Row
Total
numb
er of
lugs
local linear (h=3)
Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:
0 10 20 30 40 50
510
1520
25
vineyard data
Row
Total
numb
er of
lugs
local cubic (h=3)
Nichtparametrisch@LS-Kneip 4–64
4.5 Schätzung der Fehlervarianz
Die Größe der Varianz σ2 der Fehlerterme ϵi beeinflusst die Ge-nauigkeit. Die Fehlervarianz lässt sich mit relativ einfachen Me-thoden konsistent aus den Daten schätzen. Zur Vereinfachungwird im folgenden angenommen, dass die Beobachtungen der X-Variable geordnet sind, d.h. X1 ≤ X2 ≤ · · · ≤ Xn, und dass m
eine glatte, zweimal stetig differenzierbare Funktion ist.
• Die Methode von Rice
σ2 =1
2(n− 1)
n∑i=2
(Yi − Yi−1)2
Es lässt sich zeigen, dass E(σ2) = σ2+O( 1n2 ) und V ar(σ2) =
O( 1n ).
• Die Methode von Gasser et.al.: Man berechnet ”Pseudo-Residuen”ϵi durch
ϵi =Xi+1 −Xi
Xi+1 −Xi−1Yi−1 +
Xi −Xi−1
Xi+1 −Xi−1Yi+1 − Yi
und setzt
σ2 =1
n− 2
n−1∑i=2
ϵ2i
Die Methode von Gasser et al. besitzt i.Allg. einen kleinerenBias als die Methode von Rice.
Nichtparametrisch@LS-Kneip 4–65
4.6 Konfidenzintervalle
Zur Vereinfachung betrachten wir einen lokal linearen Schätzermh und setzen einen äquidistanten Design mit [a, b] = [0, 1] vor-aus.
Es sei mh(x) = E(mh(x)). Unter einigen zusätzlichen Regulari-tätsbedingungen lässt sich zeigen, dass auf Grund des zentralenGrenzwertsatzes asymptotisch (n → ∞, h → 0, nh → ∞) fürjeden Punkt x
mh(x)− mh(x)√var(mh(x))
→L N(0, 1)
gültig ist.
Erinnerung: var(mh(x)) =σ2
nhR(K)+o( 1nh ), R(K) =
∫∞−∞ K(x)2dx.
Aus dem obigen allgemeinen Resultat lässt sich daher schließen,dass für großes n approximativ
mh(x)− mh(x) ∼ AN(0,σ2
nhR(K))
gilt. Die in Abschnitt 4.5 besprochenen Methoden liefern eineApproximation σ2 der Fehlervarianz σ2. Ein approximatives 95%Konfidenzintervall für mh(x) ist daher durch
mh(x)± 1.96
√σ2
nhR(K))
gegeben.
Solche Intervalle lassen sich für jeden Punkt x berechnen ⇒ Kon-videnzband für die Funktion mh.
Man spricht von einem Konfidenzband für die ”Variabilität” (d.h.für die durch die Fehlerterme bedingten Zufallsschwnkungen) desSchätzers. Der Bias wird hierbei nicht berücksichtigt.
Nichtparametrisch@LS-Kneip 4–66
4.7 Hypothesentests
In diesem Abschnitt wird zusätzlich vorausgesetzt, dass die Feh-lerterme ϵi approximativ normalverteilt sind.
1) Test auf einen ”Effekt” der X-VariableIn der Praxis ist es häufig von Interesse zu testen, ob X über-haupt einen Einfluss auf Y besitzt. Ist dies nicht der Fall, somuss Y (im Mittel) unabhängig von X jeweils den gleichen Wertannehmen, d.h. m(x) = a für all x und eines feste Konstante a.
Testproblem: H0 : m(x) = a gegen H1 : m ist eine nicht kon-stante Funktion von x.
Unter der Alternative sollten sich Abweichungen von m(x) von ei-ner Konstante durch nichparametrische Regressionschätzer quan-tifizieren lassen. Wir betrachten im Folgenden lokal polynomialeSchätzer (das Vorgehen z.B. für glättendene Splines, Kernschät-zer ist analog). Sei Y = 1
n
∑i Yi.
• Teststatistik
Lh =1
σ2n
n∑i=1
(∑nj=1 wj(Xi)(Yj − Y )∑n
j=1 wj(Xi)
)2
,
wobei die Gewichte wj(x) wie in Abschnitt 4.4 definiert sind.Zur Vereinfachung wird im Folgenden angenommen, dass dieFehlervarianz nach der Methode von Rice geschätzt wird,d.h. σ2 = 1
2(n−1)
∑ni=2(Yi − Yi−1)
2.
• Ablehnung von H0 falls Lh zu groß, d.h. Lh,beob > lh;1−α,wobei lh;1−α das 1− α-Quantil der Verteilung von Lh unterH0 ist.
Nichtparametrisch@LS-Kneip 4–67
Problem: Verteilung von Lh unter H0?
Es ist leicht zu sehen, dass die Verteilung von Lh nicht vomWert von σ2 abhängt. Bei normalverteilten Fehlern gilt daher,dass die Verteilung von Lh unter H0 gleich der Verteilung derZufallsvariablen
Lϵh =
2(n− 1)∑ni=2(ϵ
∗i − ϵ∗i−1)
2n
n∑i=1
(∑nj=1 wj(Xi)(ϵ
∗j − ϵ∗)∑n
j=1 wj(Xi)
)2
für unabhängige, standardnormalverteilte Fehler ϵ∗i ist.
Die Quantile der Verteilung von Lϵh lassen sich durch Monte-
Carlo-Simulationen (am Computer) approximieren.
• Mit Hilfe eines Zufallszahlengenerators werden n unabhängi-ge, standardnormalverteilte Zufallszahlen ϵ∗i erzeugt und derzugehörige Wert Lϵ
h berechnet.
• Diese Prozedur wird k mal wiederholt (k groß, z.B. k = 2000)⇒ m Werte: Lϵ
h,1, Lϵh,2, . . . , L
ϵh,k
• Das (1− α)-Quantil der empirischen Verteilung vonLϵh,1, L
ϵh,2, . . . , L
ϵh,k liefert eine Approximation von lh;1−α (um-
so genauer, je größer k)
Man beachte: Der obige Test lässt sich für alle möglichen Band-breiten h durchführen. Je nach Struktur einer möglichen Alterna-tive ist die Güte des Tests jedoch von der Wahl der Bandbreiteh abhängig.
Nichtparametrisch@LS-Kneip 4–68
2) Test auf Linearität
Testproblem: H0 : m(x) = β0 + β1x gegen H1 : m ist einenichtlineare Funktion von x.
Teststatistik:
Lh =1
σ2n
n∑i=1
(∑nj=1 wj(Xi)(Yj − β0 − β1Xj)∑n
j=1 wj(Xi)
)2
,
wobei β0, β1 die Kleinste-Quadrate Schätzer von β0, β1 aus denBeobachtungen (Y1, X1), . . . , (Yn, Xn) sind. Für unabhängige, stan-dardnormalverteilte Fehler ϵ∗i lässt sich die Verteilung von Lh
durch die Verteilung von
Lϵh =
2(n − 1)
n∑i=2
(ϵ∗i
− ϵ∗i−1
)2n
n∑i=1
n∑
j=1wj(Xi)(ϵ
∗j − β∗
0 − β∗1Xi)
n∑j=1
wj(Xi)
2
,
approximieren, wobei β∗0 , β
∗1 Kleinste-Quadrate Schätzer
aus (ϵ∗1, X1), . . . , (ϵ∗n, Xn) sind.
Kritische Werte von Lϵh lassen sich durch Monte-Carlo Simula-
tionen simulieren.
Nichtparametrisch@LS-Kneip 4–69
4.8 Multivariate Kernschätzer
Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)
beinhaltet.
Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer
• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht
die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi
• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)
′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.
Ansatz unter Verwendung von mehrdimensionalen Kernfunktio-nen K : IRd → IR (siehe Kapitel 3):
mh1,h2(x) =
∑ni=1 K(x1−Xi1
h1, x2−Xi2
h2)Yi∑n
i=1 K(x1−Xi1
h1, x2−Xi2
h2)
Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.
Nichtparametrisch@LS-Kneip 4–70
Problem:
• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)
• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d
groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände
|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.
• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab
• Optimale Konvergenzrate: MSE(mh) = O(n−4/(d+4)) (beizweimal stetig differenzierbarer Regressionsfunktion m)
• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:
– n = 25 Beobachtungen für d = 1
– n = 125 Beobachtungen für d = 2
– n = 625 Beobachtungen für d = 3
– n = 15625 Beobachtungen für d = 5
– n = 48828125 Beobachtungen für d = 10
Nichtparametrisch@LS-Kneip 4–71
4.9 Lokal lineare Regression
• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x
• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑
i=1
(Yi − β0 − β1(x−Xi)
)2K(
x−Xi
h)
Lokal linearer Schätzer von m(x):
mh(x) := β0
• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)
• h - Bandbreite
Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben
mh(x) = β0 =1
nh
n∑i=1
[s2(x, h)− s1(x, h)(x−Xi)]K(x−Xi
h )
s2(x, h)s0(x, h)− s1(x, h)2︸ ︷︷ ︸wi(x)
Yi
mit
sr(x, h) =1
nh
n∑j=1
(x−Xj)rK(
x−Xj
h), r = 0, 1, 2
Nichtparametrisch@LS-Kneip 4–72
• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.
• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)
• Lokal lineare Regression ist ein lineares Glättungsverfahren.
mh(X1)
mh(X2)
···
mh(Xn)
=
w1(X1) w2(X1) . . . wn(X1)
w1(X2) w2(X2) . . . wn(X2)
· · ·· · ·· · ·
w1(Xn) w2(Xn) . . . wn(Xn)
︸ ︷︷ ︸
Sh
Y1
Y2
···Yn
dfh = spur(Sh) ist proportional zu nh.
• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab
– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz
– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).
Nichtparametrisch@LS-Kneip 4–73
Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:
200 400 600 800 1000 1200
400
600
800
1000
1200
1400
1600
newspaper circulation
Daily circulation
Sund
ay ci
rculat
ion
local linear (h=150)Nadaraya−Watson kernel (h=150)
200 400 600 800 1000 1200
400
600
800
1000
1200
1400
1600
newspaper circulation
Daily circulation
Sund
ay ci
rculat
ion
local linear (h=400)Nadaraya−Watson kernel (h=400)
Nichtparametrisch@LS-Kneip 4–74
Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:
30 40 50 60 70 80
2040
6080
100
Electricitiy usage
Average daily temperature
Avera
ge da
ily us
age
local linear (h=9)Nadaraya−Watson kernel (h=9)
30 40 50 60 70 80
2040
6080
100
Electricity usage
Average daily temperature
Avera
ge da
ily us
age
local linear (h=25)Nadaraya−Watson kernel (h=25)
Nichtparametrisch@LS-Kneip 4–75
MASE
Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar
Für große Stichproben erhält man dann folgende asymptotischeApproximation:
MASE(mh) = E
(1
n
n∑i=1
(m(Xi)− mh(Xi))2
≈ 1
4h4
∫ 1
0
m′′(x)2dx
∫ ∞
−∞K(u)u2du︸ ︷︷ ︸
Bias2(mh)
+σ2
nh
∫ ∞
−∞K(u)2du︸ ︷︷ ︸
V ar(mh)
Die in Kapitel 2.3 durchgeführten Überlgegungen zur Genauig-keit eines Kernschätzers (für äquidistanten Design) übertragensich also auf lokal lineare Schätzer.
Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch
hopt =
(σ2∫∞−∞ K(u)2du
n∫ 1
0m′′(x)2dx
∫∞−∞ K(u)u2du
)1/5
Nichtparametrisch@LS-Kneip 4–76
Lokal lineare Schätzer für verschiedene Bandbreiten h:
0 10 20 30 40 50
510
1520
25vineyard data
Row
Total
numb
er of
lugs
local linear (h=3)
0 10 20 30 40 50
510
1520
25
vineyard data
Row
Total
numb
er of
lugs
local linear (h=1,5)
Nichtparametrisch@LS-Kneip 4–77
Schätzung einer optimalen Bandbreite
Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.
• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von
CV (h) =1
n
n∑i=1
(Yi − mh,−i(Xi)
)2
,
Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)
zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)
• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von
GCV (h) =1
n(1− dfhn )2
n∑i=1
(Yi − mh(Xi)
)2
n groß: E(GCV (h)) ≈ σ2 +MASE(mh)
• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite
hopt =
(σ2∫∞−∞ K(u)2du
n∫ 1
0m′′(x)2dx
∫∞−∞ K(u)u2du
)1/5
berechnet. Die unbekannten Größen∫ 1
0m′′(x)2dx und σ2
werden durch geeignete Approximationen ersetzt.
Nichtparametrisch@LS-Kneip 4–78
Verallgemeinerung: Lokal polynomialeRegression
• Idee: Gewichtete lokale Anpassung eines vorgegebenen Gra-des q an jedem Punkt x
• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon
n∑i=1
(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)
q)2K(
x−Xi
h)
Lokal polynomialer Schätzer von m(x):
mh(x) := β0
• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)
• h - Bandbreite
• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von
n∑i=1
(Yi − β0
)2K(
x−Xi
h)
liefert
mh(x) := β0 =
n∑i=1
K(x−Xi
h )∑nj=1 K(
x−Xj
h )Yi
Nichtparametrisch@LS-Kneip 4–79
Lokal linearer Schätzer mit Bandbreite h = 3:
0 10 20 30 40 50
510
1520
25vineyard data
Row
Total
numb
er of
lugs
local linear (h=3)
Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:
0 10 20 30 40 50
510
1520
25
vineyard data
Row
Total
numb
er of
lugs
local cubic (h=3)
Nichtparametrisch@LS-Kneip 4–80
4.10 Glättende Splines
Glättende Splines basieren auf der Idee einer Minimierung derquadratischen Abweichungen unter der Benutzung einer ”Rough-ness Penalty” (Bestrafungsfunktion für Unglattheit)
Glättende Splines: Für einen gegebenen Glättungsparameter h
minimiere
1
n
(Yi −m(Xi)
)2
+ h
∫ b
a
(m′′(x))2dx
bezüglich allen zweimal stetig differenzierbaren Funktionen m
⇒ Diejenige Funktion, die das Minimierungsproblem löst, istdann der Spline Schätzer mh
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
∫(m′′(x))2dx klein
∫(m′′(x))2dx groß
Der Glättungsparameter h kontrolliert die Glattheit des resultie-renden Schätzers
Nichtparametrisch@LS-Kneip 4–81
• h sehr groß: Für die Funktion mh muss m′′h(x) ≈ 0 gelten
⇒ mh ≈ Gerade
• h = 0 ⇒ mh(Xi) = Yi, i = 1, . . . , n (Interpolation derDaten)
Allgemein:
• Große Werte von h liefern Kurvenschätzungen mit kleinerVarinz (Gefahr: möglicherweise großer Bias);
• Kleine Werte von h liefern unglatte, stark fluktuierende Kur-ven. Der systematische Fehler ist klein, aber die Varianz desSchätzers ist groß
Glättende Splines sind lineare Schätzer:
• Man kann zeigen, dass mh notwendigerweise eine sognanntekubische Splinefunktion ist:
– mh ist ein kubisches Polynom (p=3) zwischen je zwei auf-einanderfolgenden Datenpunkten X(i−1) < X(i)
– mh ist zweimal stetig differenzierbar an jedem Beobach-tungspunkt Xi, i = 1, . . . , n.
Nichtparametrisch@LS-Kneip 4–82
• Für jeden Vektor m = (m1, . . . ,mn)′ ∈ IRn existiert eine ku-
bische Spline Funktion m, die die Werte m1, . . . ,mn an denPunkten X1, . . . , Xn interpoliert, d.h. m1 = m(X1), . . . ,mn =
m(Xn)
• Zu jedem Vektor m = (m1, . . . ,mn)′ gehört ein zugehöriger
Wert von∫ b
a(m′′(x))2dx. Es existiert eine eindeutig bestimm-
te Matrix A (natürlich abhängig von X1, . . . , Xn), so dass
m′Am =
∫ b
a
(m′′(x))2dx
• Matrix Notation: Glättende Spline-Schätzer ergeben sich durchMinimieren von
1
n∥Y −m∥2 + hm′Am
⇒
mh(X1)
···
mh(Xn)
=
(I − hA
)−1
Y =: ShY
• dfh = spur(Sh) ist proportional zu h−1/4
Nichtparametrisch@LS-Kneip 4–83
Glättende Splines (dfh = 3)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Glättende Splines (dfh = 10)
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Nichtparametrisch@LS-Kneip 4–84
4.11 Multivariate Kernschätzer
Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)
beinhaltet.
Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer
• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht
die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi
• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)
′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.
Ansatz unter Verwendung von ”Produkt-Kernen”:
mh1,h2(x) =
∑ni=1 K(x1−Xi1
h1)K(x2−Xi2
h2)Yi∑n
i=1 K(x1−Xi1
h1)K(x2−Xi2
h2)
Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.
Nichtparametrisch@LS-Kneip 4–85
Problem:
• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)
• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d
groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände
|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.
• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab
• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:
– n = 25 Beobachtungen für d = 1
– n = 125 Beobachtungen für d = 2
– n = 625 Beobachtungen für d = 3
– n = 15625 Beobachtungen für d = 5
– n = 48828125 Beobachtungen für d = 10
Nichtparametrisch@LS-Kneip 4–86
top related