1
Analysezeitabhängiger Daten
Schätzverfahren für Regressionsmodelle
2
Warum geht es in den folgenden Sitzungen?
Wiederholung
Pfingstferien06.06.07
Kumulierte Querschnittsdaten I18.04.07
Zusammenfassung, Klausurvorbereitung11.07.07
noch offen04.07.07
Ereignisdaten II27.06.07
Ereignisdaten I20.06.07
Paneldaten kategorialer Zielvariablen I13.06.07
Paneldaten kategorialer Zielvariablen I30.05.07
Paneldaten kontinuierlicher Zielvariablen II23.05.07
Paneldaten kontinuierlicher Zielvariablen I16.05.07
Zeitreihenanalyse II09.05.07
Zeitreihenanalyse I02.05.07
Kumulierte Querschnittsdaten II25.04.07
Schätzverfahren für Regressionsmodelle11.04.07
Einführung04.04.07
VorlesungDatum
3
Gliederung
1. Lineare und logistische Regressionsmodelle am Beispiel
2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und
Unterschiede
4
Beispiel: Wahlberechtigte• Befragung von Wahlberechtigten zur Bundes-
tagswahl (n=750, anhang4.dta)– Wahlbeteiligung
• ja / nein– Alter
• in Jahren– ...
• für folgendes Rechenbeispiel kleine Substichprobe– FDP-Anhänger mit Konfession (n=31)– Stata: … if (praefer==1 & konfess==1)
5
Wahlbeteiligung im Beispiel
• 27 von 31 Befragten haben gewählt.• Wahlbeteiligung: 87,1%• Größenverhältnis (Odds) Wähler zu Nicht-
Wähler: 27 / 4 = 6,75 / 1• Log Odds (Logit): ln(6,75) = 1,9095
6
Lineares und logistisches Regressionsmodell
0.2
.4.6
.81
Wah
lbet
eilig
ung
(1=j
a)
20 30 40 50 60 70Alter in Jahren
Wähler nicht-lineares Modell lineares Modell
Wahlbeteiligung nach Alter
7
Lineares Regressionsmodell
• Modell: y = µ + u• systematische Komponente µ• stochastische Komponente u (unobserved)• „wahrer“ Effekt βj, muss geschätzt werden
• Beispiel: spezielle Daten (y Dummy)– Prognosen als Wahrscheinlichkeiten interpretierbar
(lineares Wahrscheinlichkeitsmodell)
uxy ++= 110 ββ
8
)exp(1)exp(:lichkeitWahrschein
)exp(1
:Odds
1ln:Logit
)|1Pr(:Definition
10
101
10101
1
101
1
1
1010
xx
eeex
x
xy
xxx
ββββπ
ααββπ
π
ββπ
π
π
ββββ
+++
=
⋅=⋅==+=−
+=⎟⎟⎠
⎞⎜⎜⎝
⎛−
==
+
Logistisches Regressionsmodell
9
Tabelle der Schätzergebnisserestringiert nicht restr. restringiert nicht restr.
Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329
Lineare Regression Logistische RegressionEffekt Effekt
10
Hierarchische Modelle und Test linearer Restriktionen• Zwei Modelle A und a sind hierarchisch (nested),
wenn die Parameter des Modells a eine Teilmenge der Parameter des Modells A sind.
• Das (restringierte) Modell a ergibt sich aus dem (nicht restringierten) Modell A, indem man für die Parameter in A lineare Restriktionen formuliert.
uxya
uxxxyA
++===
++++=
110
32
3322110
: Modell ertes)(restringiergibt 0 und 0 :nenRestriktio zwei
: Modell rtes)restringie(nicht
ββββ
ββββ
11
Tabelle der Schätzergebnisserestringiert nicht restr. restringiert nicht restr.
Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329
Lineare Regression Logistische RegressionEffekt Effekt
12
Deskriptive Ergebnisse
• Wie gut beschreibt das Modell insgesamt die Daten?• Welchen Effekt hat x auf die abhängige Variable y?
restringiert nicht restr. restringiert nicht restr.Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329
Effekt Lineare Regression Effekt Logistische Regression
13
Inferenzstatistische Ergebnisse
• Ist das Modell signifikant besser als ein Vergleichsmodell?• Ist der Effekt von x signifikant von Null verschieden?
restringiert nicht restr. restringiert nicht restr.Konstante 0.8710 0.4681 Konstante 1.9095 -1.6478Std. Err. 0.0612 0.1940 Std. Err. 0.5358 1.7897t 14.23 2.41 z 3.56 -0.92P>|t| 0.000 0.022 P>|z| 0.000 0.357Alter 0.0000 0.0085 Alter 0.0000 0.0874Std. Err. 0.0039 Std. Err. 0.0483t 2.17 z 1.81P>|t| 0.038 P>|z| 0.071SSR 3.4839 2.9954 Log Likelih. -11.9208 -9.6461R² 0.1402 Pseudo-R² 0.1908F(1, 29) 4.73 LR Chi²(1) 4.55Prob > F 0.0379 Prob > chi² 0.0329
Effekt Lineare Regression Effekt Logistische Regression
14
Gliederung
1. Lineare und logistische Regressionsmodelle am Beispiel
2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und
Unterschiede
15
Kleinste Quadrate Schätzung
Definition• Wähle aus der Menge der möglichen
Parameter der Grundgesamtheit diejenigen aus, bei denen die Summe der quadrierten Abweichungen der Modellprognosen von den beobachteten Werten der Zielvariablen minimal ist.
16
Kleinste Quadrate Schätzung
0)ˆ1ˆ(
0)ˆ1ˆ(1
:nAbleitunge partielle Bilde
)ˆ1ˆ( :ein Setze
)ˆ( minimiere :Allgemein
11101
1110
1
2110
1
2
=−⋅−⋅
=−⋅−⋅
−⋅−=
−=
∑
∑
∑
∑
=
=
=
=
n
iiii
n
iii
n
iii
n
iii
xyx
xy
xySSR
yySSR
ββ
ββ
ββ
Die sogenannten Normalgleichungen bilden ein Gleichungssystem mit (k+1) Unbekannten: 10
ˆ,ˆ ββ
17
Maximum Likelihood Schätzung
Definition• Wähle aus der Menge der möglichen
Parameter der Grundgesamtheit diejenigen aus, bei denen es am wahrscheinlichsten ist, dass man die vorliegende Stichprobe beobachtet.
• genauer: ... die vorliegende Stichprobe von y-Werten (und x-Werten) beobachtet.
18
Maximum Likelihood Schätzung
)70ˆˆexp(1)70ˆˆexp(
)23ˆˆexp(1)23ˆˆexp(1
)20ˆˆexp(1)20ˆˆexp(
)ˆˆexp(1)ˆˆexp(ˆ:lichkeitWahrschein Beispiel das auf Anwendung
ˆˆ
)]|1r(P̂1[)|1r(P̂ maximiere :Allgemein
10
10
10
10
10
10
10
101
)1(0
11
)1(
1
⋅++⋅+
⋅⋅⎟⎟⎠
⎞⎜⎜⎝
⎛
⋅++⋅+
−⋅⋅++
⋅+=
+++
=→
⋅=
=−⋅==
−
=
−
=
∏
∏
ββββ
ββββ
ββββ
ββββπ
ππ
KL
xx
yyL
i
ii
yi
n
i
yi
yii
n
i
yii
ii
ii xx
19
Vergleich OLS - ML
• In beiden Fällen– Als Schätzer werden die Werte ausgewählt, die eine
Funktion der Daten und der Parameter optimieren.• OLS
– analytische Lösung– numerische Optimierung („probieren“) wäre auch
möglich• ML
– keine analytische Lösung– numerische Optimierung („probieren“) notwendig
20
Gliederung
1. Lineare und logistische Regressionsmodelle am Beispiel
2. Schätzergebnisse selber nachrechnen3. OLS und ML: Gemeinsamkeiten und
Unterschiede
21
Vergleich OLS-ML
Numerische LösungAnalytische Lösung
Inferenz nur für große Stichproben (assymptotisch)
Inferenz auch für kleine Stichproben
Breite AnwendungspaletteLineare Modelle
Optimierungsfunktion „Wahrscheinlichkeit“ von
Beobachtungen
Optimierungsfunktion lineare Funktion der
Regressionskoeffizienten
Maximiere LikelihoodMinimiere quadrierte Residuen
MLOLS
22
Gegenüberstellung OLS-ML (1)
LLikelihood
SSRSumme quadrierter
Abweichungen
Optimierungs-funktion
Z-TestT-TestSignifikanz
EffektNormalverteilungT-VerteilungTestverteilung
berechenbarFormelStandardfehler
logistischer Regressionskoeffizient
Odds Ratio
Regressions-koeffizient
Effekt einer Variablen
MLOLS
23
Gegenüberstellung OLS-ML (2)
( )
[ ] [ ]( )
[ ] [ ]
numfangStichprobe Modellrten restringienicht imVariablen der Anzahl
nenRestriktioder Anzahl
)ln()ln()ln( PseudoModellfit
,Verteilung-1,
Verteilung-lungTestvertei
)ln()ln(2)1(
)(tikTeststatis
Test-Verhältnis-LikelihoodTest-Modellfits
desTest
)|Pr(1)|Pr(ˆˆ,)ˆ(funktion
-gsOptimierun
MLOLS
22
2
21
1
)1(
1
2
nkq
LLLR
SSRSSRSSR
SSTSSRSSTR
qdfkndfqdf
F
LLLRknSSR
qSSRSSRf
F
yyLyyySSR
r
urr
r
urr
urrur
urr
n
i
yii
yii
n
iiiii
ii
−−−−
=−
=−
=
=−−==
−−−⋅=−−
−=
−⋅=′=−= ∏∑=
−
=
χ
xxβx
24
Zum Schluss
25
Zusammenfassung
• deskriptiv: Regressionskoeffizient• inferenzstatistisch: Standardfehler, T- bzw. Z-Werte
Effekte einzelner Variablen
• deskriptiv: Anteil erklärter Varianz (Anteil richtiger Klassifikationen)• inferenzstatistisch: signifikant besser als Nullmodell (F-Test, Likelihood-Verhältnis-Test)?
Wie gut ist das Modell insgesamt?
• Test linearer Restriktionen (F-Test, Likelihood-Verhältnis-Test)
Vergleich hierarchischer Modelle
• standardisierter Regressionskoeffizient• Modellverschlechterung bei Weglassen der jeweiligen Variablen
Vergleich einzelner Variablen
26
Weiterführende Literatur• Für diejenigen, die neu in die Veranstaltung einsteigen:
– alle Folien des letzten Semesters sind über die Homepage abrufbar:
– eswf.uni-koeln.de– Sie sollten sich auch mit dem Grundlagentext dieser
Veranstaltung vertraut machen (Wooldridge 2003):• Lesen Sie den Appendix C (WO 731-775), in dem noch einmal die
Grundlagen von Schätzen und Testen zusammengefasst werden.
• Anwendung von ML auf unterschiedliche Datentypen– King, G. (1989): Unifying political methodology: The likelihood
theory of statistical inference. New York: Cambridge Univ. Press