Analyse von Querschnittsdaten
Drittvariablenkontrolle
Warum geht es in den folgenden Sitzungen?
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale VariablenLogistische Regression02.02.2005
Regression mit Dummy-Variablen26.01.2005
Heteroskedastizität19.01.2005
Spezifikation der Regressionsfunktion12.01.2005
Spezifikation der unabhängigen Variablen22.12.2004
Signifikanztests II15.12.2004
Signifikanztests I08.12.2004
Statistische Inferenz01.12.2004
Multiple Regression24.11.2004
Kontrolle von Drittvariablen17.11.2004
Bivariate Regression10.11.2004
Variablen03.11.2004
Daten27.10.2004
Beispiele20.10.2004
Einführung13.10.2004
VorlesungDatum
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen4. Regression und Korrelation
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen4. Regression und Korrelation
Wie hat sich die Arbeitslosigkeit verändert?
• Nürnberg, 3. November 2004, rb/rtr/dpa: Wie die Bundesagentur für Arbeit mitteilte, waren im Oktober bundesweit rund 4,206 Millionen Erwerbslose registriert. Dies seien 50.100 weniger gewesen als im September, aber 55.300 mehr als vor einem Jahr.
1. Welcher der beiden Vergleiche ist aussagekräftiger?
2. Warum ist das ein Beispiel für die Kontrolle von Drittvariablen?
Drittvariablenkontrolle• Ausgangssituation
– Es existiert ein statistischer Zusammenhang zwischen zwei Variablen x und y.
– Es gibt eine Alternativerklärung für den Zusammenhang (eine dritte Variable z).
• Analyseproblem– Wie kann man den Zusammenhang zwischen x und y
„frei“ von Einflüssen von z untersuchen?• Lösung
– Man betrachtet den Zusammenhang zwischen x und yunter Konstanthaltung von z.
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen
a. Konstanthaltung von z: Kendall-Lazarsfeld-Ansatz
3. Kontinuierliche Variablen4. Regression und Korrelation
Beispiel 1: Jugenddelinquenz
100%(981)
100%(391)
100%(590)Insgesamt
50%41%56%nein
50%59%44%ja
InsgesamtjaneinDelinquenz
Berufstätigkeit der Mutter
Beispiel 1: Jugenddelinquenz• Daten: leicht abgewandelt aus Glueck, S. /
Glueck, E. (1950): Unraveling juvenil delinquency. Cambridge, MA
• Ausgangssituation– Kinder berufstätiger Mütter werden häufiger straffällig.– Erklärung: mangelnde Betreuung durch Abwesenheit
der Mutter im Falle von Berufstätigkeit.• Alternativerklärung
– Auch eine berufstätige Mutter kann ihre Kinder angemessen betreuen, die reine zeitliche Abwesenheit ist nicht entscheidend.
– Indikator: Aussagen über das Verhältnis zur Mutter.
Kontrolliere Kontakt mit Mutter
Kontakt: schlecht
100%(375)
100%(226)
100%(149)Insg.
16%17%15%nein
84%83%85%ja
Insg.janeinDelin-quenz
Berufstätigkeit der Mutter
Kontakt: gut
100%(606)
100%(165)
100%(441)Insg.
70%73%69%nein
30%27%31%ja
Insg.janeinDelin-quenz
Berufstätigkeit der Mutter
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen
a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?
b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
Bivariater Zusammenhang
Ein
kom
men
Ausbildungsdauer
Beispiel 2: Einkommen• Ausgangssituation
– Mit zunehmender Ausbildungsdauer beobachtet man höhere Einkommen
– Erklärung: Humankapitaltheorie.• Alternativerklärung
– Einkommen bemessen sich an der Produktivität der Personen.
– Fähigere Personen erzielen höhere Einkommen.– Indikator: Ergebnisse eines Intelligenztestes.
• Beispiel 1 verwendet zu Demonstrations-zwecken simulierte Daten.
Wie unterscheiden sich die Personen nach Intelligenz
IQ = 130
IQ = 110
IQ = 90
IQ = 70
Ein
kom
men
Ausbildungsdauer
Bei gleicher Ausbildungsdauer (s. rote Linie) werden intelligentere Personen besser entlohnt.
Wie kann man sich die Kontrolleeiner Drittvariablen vorstellen?
IQ = 130
IQ = 110
IQ = 90
IQ = 70
Ein
kom
men
Ausbildungsdauer
Es werden getrennte Regressionsmodelle für Personen mit gleicher Intelligenz berechnet (Konstanthaltung von z).
Geringerer Ausbildungseffekt bei Kontrolle der Intelligenz
IQ = 130
IQ = 110
IQ = 90
IQ = 70
Ein
kom
men
Ausbildungsdauer
Vergleiche bivariate Regressionsgerade und Regressionsgeraden in den vier Subgruppen.
Beispiel 3: Erwerbseinkommen männlicher Arbeitnehmer
010
0020
0030
00M
onth
ly E
arni
ngs
8 10 12 14 16 18years of education
600
800
1000
1200
1400
Fitte
d va
lues
of m
onth
ly e
arni
ngs
8 10 12 14 16 18years of education
reale Daten, n=935, wage2.dtawage: Monatliches Nettoeinkommen in Dollar
educ: Ausbildungsdauer in JahrenIQ: Intelligenztestpunkte
vier Subgruppen: Quartile von IQ
Ausbildungseffekt geringer bei Kontrolle der Intelligenz
Variable Koeffizient KoeffizientAusbildung 60.21 42.06Intelligenz 5.14Konstante 146.95 -128.89R² 0.11 0.13n 935 935
600
800
1000
1200
1400
Fitte
d va
lues
of m
onth
ly e
arni
ngs
8 10 12 14 16 18years of education
Zum Vergleich: bivariate Regression
Zerlegung in Subgruppen ist ein Denkmodell!• Verwendung aus didaktischen Gründen• Wenn die dritte Variable kontinuierlich ist, hat sie
viele Ausprägungen und nicht nur vier.• Beispiel 3: Warum nur vier Gruppen (Quartile),
warum nicht zehn (Perzentile) oder mehr?• Je mehr Gruppen, desto weniger Fälle pro
Gruppe und desto weniger sinnvoll, pro Subgruppe ein Regressionsmodell zu rechnen.
Effizientere Kontrolle der Drittvariablen gesucht.
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen
a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?
b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
Einkommen hängt mit Ausbildung und mit Intelligenz zusammen
68
1012
1416
Ein
kom
men
6 8 10 12 14Ausbildung
68
1012
1416
Ein
kom
men
60 80 100 120 140Intelligenz
Problem: Ausbildungsdauer und Intelligenz sind korreliert
IQ = 130
IQ = 110
IQ = 90
IQ = 70
Ein
kom
men
Ausbildungsdauer
Bivariater Effekt der Ausbildung misst Effekt der Intelligenz mit. Gesucht: Über-bzw. unterdurchschnittliche Ausbildungsdauer für ein gegebenes Intelligenzniveau
Regression von Ausbildung auf Intelligenz
68
1012
14A
usbi
ldun
gsda
uer
60 80 100 120 140Intelligenz
Residuen dieser Regression zeigen, welche Ausbildungsdauer bei einem gegebenen Intelligenzniveau über- bzw. unterdurchschnittlich ist.
Regression der Einkommen auf die Residuen der Ausbildungsdauer
68
1012
1416
Ein
kom
men
-2 -1 0 1 2Bereinigte Ausbildungsdauer
Durch Verwendung der Residuen wird der Effekt der Intelligenz „auspartialisiert“.
Zusammenfassung1. reg x z
2. predict xres, predict
3. reg y xres
4. reg y x z
intelleducgeaw
rgeawry
ucdeeducr
intellucde
zx
educ
x
educ
⋅+⋅+−=
⋅+=
−=
⋅+=
065,07,015,2ˆRegression triviate:Vergleich Zum4.
ˆ7,011ˆˆ auf von Regression 3.
ˆˆ
Residuender n Abspeicher undBerechnen 2.5,05,4ˆ
auf von Regression 1.
Auf beiden Wegen erhält man den gleichen Regressionskoeffizienten für x (educ).
Formeln
)~~(ˆˆ
: auf von Regressionder Residuum
)(
))((~
ˆ
)(ˆˆ
bivariat :Vergleich zumtrivariat
2101111
21
1
2
11
1
21
11
1
11022110
iiiii
n
ii
n
iii
n
ii
n
iii
iiiii
xxxxr
xx
xx
yyxx
r
yyr
rxyrxxy
δδ
ββ
βββββ
+−=−=
−
−−=
−=
++=+++=
∑
∑
∑
∑
=
=
=
=
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen
a. Konstanthaltung von z: Wie kann man sich das bei kontinuierlichen Variablen vorstellen?
b. Auspartialisierung von z: Berechnung „zu Fuß“c. Trivariate Regression: analytische Lösung
4. Regression und Korrelation
Kleinste-Quadrate Methode
0)ˆˆˆ(
0)ˆˆˆ(
0)ˆˆˆ(1
:nAbleitunge partielle Bilde
)ˆˆˆ( Minimiere
ˆˆˆˆ :Regression Trivariate
)ˆ( minimiere :Allgemein
1221102
1221101
122110
1
222110
22110
1
2
=−−−⋅
=−−−⋅
=−−−⋅
−−−=
++=
−=
∑
∑
∑
∑
∑
=
=
=
=
=
n
iiiii
n
iiiii
n
iiii
n
iiii
iii
n
iii
xxyx
xxyx
xxy
xxySSR
xxy
yySSR
βββ
βββ
βββ
βββ
βββ
Die sogenanntenNormalgleichungen bilden ein Gleichungssystem mit drei Unbekannten:
210ˆ,ˆ,ˆ βββ
Gliederung
1. Drittvariablenkontrolle: Was ist das?2. Kategoriale Variablen3. Kontinuierliche Variablen4. Regression und Korrelation
Korrelation und Regression
⎟⎟⎠
⎞⎜⎜⎝
⎛⋅=⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅+⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅=
=−
−+=
⋅=⋅−
−=
y
xyxxy
y
xyx
y
xyxxxy
yxxyxx
xxyxyxyxyxxxy
x
yyx
x
y
xx
xxyxyx
yxxxyxyx
ss
rRss
rss
rR
rRr
rrrrrR
ss
rss
rrrr
rrrr
1
11
2
2
1
121
11
21
212121
21
1
1
121
2121
12121
12.21
2.
22.2
222.
121
~ˆˆ
12
~1
ˆ
,,
bivariat :Vergleich zumtrivariat
βββ
ββ
Wann ist der bivariate gleich dem trivariaten Regressionskoeffizienten?
1
1
121
2121121
~1
ˆ
bivariat :Vergleich zumtrivariat
x
yyx
x
y
xx
xxyxyx
ss
rss
rrrr
⋅=⋅−
−= ββ
• Die abhängige Variable y und die dritte Variable x2 korrelieren nicht miteinander.
• Und / oder: Die beiden unabhängigen Variablen x1 und x2korrelieren nicht miteinander.
• Beispiel: Einkommen als Funktion von Ausbildung und Körpergröße (Korrelation Ausbildung-Größe null).
Kann der bivariate Koeffizient positiv und der trivariate negativ sein?
1
1
121
2121121
~1
ˆ
bivariat :Vergleich zumtrivariat
x
yyx
x
y
xx
xxyxyx
ss
rss
rrrr
⋅=⋅−
−= ββ
• Das Produkt dieser Korrelationen ist positiv und betragsmäßig größer als die bivariate Korrelation.
• Frage: Was müsste man an Beispiel 1 ändern?
Ein
kom
men
Ausbildungsdauer
Determinationskoeffizient entspricht nicht der Summe der R²-Werte
Variable Koeffizient Koeffizient KoeffizientAusbildung 60.21 42.06Intelligenz 8.30 5.14Konstante 146.95 116.99 -128.89R² 0.11 0.10 0.13n 935 935 935
13,052,01
52,031,033,0231,033,0
12
2
222.
2
222.
21
21
212121
21
≈−
⋅⋅⋅−+=
−
−+=
xxy
xx
xxyxyxyxyxxxy
R
rrrrrr
R
Einzeln und gemeinsam erklärte Varianz
Gesamtvarianz von y
von x2 erklärte Varianz
von x1 erklärte Varianz
von x1 und x2
erklärte Varianz
y
x1 x2
Konsequenzen
• Der Determinationskoeffizient des trivariaten Modells entspricht nur dann der Summe der bivariaten R², wenn x1 und x2unabhängig sind.
• Im allgemeinen Fall hängt die Zunahme des R²–Wertes vom bivariaten zum trivariaten Modell davon ab, welche Variable (x1 oder x2) zuerst betrachtet und welche dann hinzugefügt wird.
Zum Schluss
Literatur• Wooldridge, J. (2003): Introductory econometrics: a
modern approach. South Western College Publishing.– Kapitel 3 diskutiert sowohl das trivariate als auch das allgemeine
multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen.
• Bohrnstedt, G.W. / Knoke, D. (1994): Statistics for SocialData Analysis. 3rd edition. Itasca, Ill: Peacock– Der Zusammenhang zwischen Korrelation und multipler
Regression lässt sich am besten bei BK (Kapitel 8) nachlesen.• Kühnel, S.M. / Krebs, D. (2001): Statistik für die
Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt– Kapitel 15 demonstriert die Kontrolle von Drittvariablen bei
kategorialen Daten mit dem Kendall-Lazarsfeld-Ansatz.
Zusammenfassung
Bivariater und trivariater Regressionskoeffizient können voneinander abweichen.
Achtung I
Konstanthaltung von Drittvariablen funktioniert als Denkmodell, praktisch werden Drittvariablen jedoch durch Auspartialisierung kontrolliert.
Kontinuierliche Variablen
Betrachtung von Subgruppen, innerhalb derer die Drittvariable konstant ist.
Kategoriale Variablen
Überprüfung von Alternativerklärungen durch Konstanthaltung dieser Variablen
Kontrolle von Drittvariablen
Bereinigung einer unabhängigen Variablen xk um die Einflüsse der anderen unabhängigen Variablen.
Auspartialisierung
Trivariater Determinationskoeffizient ergibt sich nicht einfach aus der Summe der bivariatenDeterminationskoeffizienten.
Achtung II
Wichtige Fachausdrücke
partialling outAus-partialisierung
EnglischDeutschEnglischDeutsch
Stata-BefehleRegression von y auf x und z(Kleinste-Quadrate Methode)
reg y x z
Korrelation von y, x und zcorr y x z