analyse von querschnittsdaten -...
Post on 01-May-2018
217 Views
Preview:
TRANSCRIPT
Analyse von Querschnittsdaten
Multiple Regression
Warum geht es in den folgenden Sitzungen?
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale VariablenLogistische Regression02.02.2005
Regression mit Dummy-Variablen26.01.2005
Heteroskedastizität19.01.2005
Spezifikation der Regressionsfunktion12.01.2005
Spezifikation der unabhängigen Variablen22.12.2004
Signifikanztests II15.12.2004
Signifikanztests I08.12.2004
Statistische Inferenz01.12.2004
Multiple Regression24.11.2004
Kontrolle von Drittvariablen17.11.2004
Bivariate Regression10.11.2004
Variablen03.11.2004
Daten27.10.2004
Beispiele20.10.2004
Einführung13.10.2004
VorlesungDatum
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablen3. Vergleiche zwischen verschiedenen
Regressionsmodellen4. Ergebnispräsentation
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablen3. Vergleiche zwischen verschiedenen
Regressionsmodellen4. Ergebnispräsentation
Multiple Regression
k
ikii
i
ikkiii
kxxxk
y
rxxxy
ββββ
ββββ
,,,,nten skoeffizieRegression 1,,,Variablen eunabhängig
Variable abhängige eine
210
21
22110
K
K
K
+
+++++=
Analyseziel
1. HypothesentestBestimme den Einfluss jeder unabhängigen Variablen xj (j=1, ...k) unter Kontrolle (Konstanthaltung) aller anderen unabhängigen Variablen.
2. ModellfitBestimme den Anteil erklärter Varianz der abhängigen Variablen y.
Kleinste-Quadrate Methode
0)ˆˆ1ˆ(
0
0)ˆˆ1ˆ(
0)ˆˆ1ˆ(1
:nAbleitunge partielle Bilde
)ˆˆ1ˆ( :ein Setze
)ˆ( minimiere :Allgemein
1110
11101
1110
1
2110
1
2
=−−−⋅−⋅
=
=−−−⋅−⋅
=−−−⋅−⋅
−−−⋅−=
−=
∑
∑
∑
∑
∑
=
=
=
=
=
n
iikkiiik
n
iikkiii
n
iikkii
n
iikkii
n
iii
xxyx
xxyx
xxy
xxySSR
yySSR
βββ
βββ
βββ
βββ
L
M
L
L
K
Die sogenanntenNormalgleichungen bilden ein Gleichungssystem mit (k+1) Unbekannten:
kβββ ˆ,,ˆ,ˆ10 K
Analytische Lösung ...
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
′′=
=′−′
nnkn
k
k
k
-
y
yy
xx
xxxx
M
L
MLMM
L
L
M
2
1
1
221
111
1
0
1
1
11
ˆ
ˆˆ
ˆ
)(ˆ
0ˆ)(
yXβ
yXXXβ
βXXyX
β
ββ
kann man sehr einfach mit Matrizen hinschreiben
Normalgleichungen:
Lösung:
Adjustiertes R-Quadrat
• Mit jeder zusätzlichen unabhängigen Variablen steigt R-Quadrat, die Komplexität des Modells wird nicht berücksichtigt.
• Das adjustierte R-Quadrat berücksichtigt dagegen, durch wie viele unabhängige Variablen der erklärte Varianzanteil bei gegebenem Stichprobenumfang „erkauft“ wurde.
1
111 22
−
−−−=−=
nSST
knSSR
RSSTSSRR
Beispiel 1: Erwerbseinkommen
• Hypothesen– Unabhängig von ihrer Berufserfahrung erzielen
Arbeitnehmer mit höherer Ausbildung höhere Erwerbseinkommen: βeduc>0.
– Unabhängig von ihrer Ausbildung erzielen Arbeitnehmer mit längerer Berufserfahrung höhere Erwerbseinkommen.
• Berufserfahrung wird gemessen über die Dauer der Erwerbstätigkeit insgesamt (βexper>0) und die Dauer der Beschäftigung beim jetzigen Arbeitgeber (βtenure>0).
• Begründung: Humankapitaltheorie
Beispiel 1: Ergebnispräsentation
• Es wurden die Stundenlöhne von 526 US-amerikanischen Arbeitnehmern aus dem Jahr 1976 untersucht (Quelle: Current Population Survey).
• Alle drei Hypothesen konnten bestätigt werden.• Insgesamt erklären die drei Variablen Ausbildungsdauer,
Berufserfahrung und Dauer der Betriebszugehörigkeit 30,6% der Varianz der Stundenlöhne.
• Im Einzelnen zeigte sich: Mit jedem zusätzlichen Ausbildungsjahr steigt der Stundenlohn (ceteris paribus) um 0,60 Dollar, mit jedem Berufsjahr um 0,02 Dollar und mit jedem Jahr der Betriebszugehörigkeit um 0,17 Dollar.
)(wage1.dta 526,306,017,002,060,087,2ˆ
2 ==
⋅+⋅+⋅+−=
nRtenureexpereducgeaw
Beispiel 1: offene Fragen
• Welche der drei untersuchten Variablen hat den größten Einfluss?
relative Größenordnung der Effekte• Variieren die Löhne nicht auch nach
Branchen und Regionen?Vergleich verschiedener Regressionsmodelle
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablena. Was ist das Problem?b. Standardisierte Regressionskoeffizientenc. Rückblick: Regression und Korrelationd. Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen Regressionsmodellen
4. Ergebnispräsentation
Regressionskoeffizienten sind abhängig von den Maßeinheiten
)(wage1.dta 526,306,001,0002,005,087,2ˆ
Monatenin usw. Ausbildung Dollar,in neStundenlöh)(wage1.dta 526,306,0
93,1623,290,5927,287ˆJahrenin usw. Ausbildung Cent,in neStundenlöh
)(wage1.dta 526,306,017,002,060,087,2ˆ
Jahrenin usw.AusbildungDollar,in neStundenlöh
2
2
2
==
⋅+⋅+⋅+−=
==
⋅+⋅+⋅+−=
==
⋅+⋅+⋅+−=
nRmtenuremexpermeducgeaw
nRtenureexpereducgeacw
nRtenureexpereducgeaw
Determinationskoeffizient bleibt jedoch gleich!
Unabhängige Variablen mit unterschiedlichen Maßeinheiten
Die Effekte von educ, exper und tenure sind im Prinzip vergleichbar, weil eine Veränderung von xj um 1 Einheit hier immer das Gleiche bedeutet (1 Jahr).
Wie sollen die Effekte verglichen werden, wenn eine Veränderung um 1 Einheit im einen Fall (sqrft) ein Quadratmeter und im anderen Fall (bdrms) ein Raum bedeutet?
)(wage1.dta 526,306,017,002,060,087,2ˆ
2 ==
⋅+⋅+⋅+−=
nRtenureexpereducgeaw
ta)(hprice1.d 88,632,019,1519843,12819315ˆ
2 ==
⋅+⋅+=
nRbdrmssqrftceipr
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablena. Was ist das Problem?b. Standardisierte Regressionskoeffizientenc. Rückblick: Regression und Korrelationd. Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen Regressionsmodellen
4. Ergebnispräsentation
Exkurs: z-TransformationDurch Standardisierung ergibt sich eine neue Variable mit arithmetischen Mittel 0 und Standardabweichung 1.
. sum price
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
price | 88 293.546 102.7134 111 725
. generate zprice=(price-293.546) / 102.7134
. sum zprice
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
zprice | 88 3.34e-07 1 -1.777236 4.200562
xx s
xxz −=
Vergleichbarkeit durch Standardisierung aller Variablen
ta)(hprice1.d 88,632,01245,07217,00ˆ
en)Koeffzient-(Betanten skoeffizieRegression ierteStandardista)(hprice1.d 88,632,0
19,1519843,12819315ˆntenskoeffizieRegression isierteUnstandard
2
2
==
⋅+⋅+=
==
⋅+⋅+=
nRzbdrmszsqrftceizpr
nRbdrmssqrftceipr
Wenn man die Wohnfläche (gemessen in Quadratmetern) um eine Standardabweichung erhöht, erhöht sich der Preis des Hauses (gemessen in Dollar) um 0,7217 Standardabweichungen.
Da 0,7217 größer ist als 0,1245, geht man davon aus, dass der Preis mehr mit der Wohnfläche als mit der Anzahl der Schlafräume variiert.
z-Transformation notwendig?Nein, standardisierte sind direkt aus unstandardisierten Koeffizienten berechenbar!
71,10219,5771284.07217,0
ˆˆ
⋅≈
=y
xjj s
sb jβ
. reg price sqrft bdrms, beta
Source | SS df MS Number of obs = 88-------------+------------------------------ F( 2, 85) = 72.96
Model | 580009.152 2 290004.576 Prob > F = 0.0000Residual | 337845.354 85 3974.65122 R-squared = 0.6319
-------------+------------------------------ Adj R-squared = 0.6233Total | 917854.506 87 10550.0518 Root MSE = 63.045
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| Beta
-------------+----------------------------------------------------------------sqrft | .1284362 .0138245 9.29 0.000 .721739bdrms | 15.19819 9.483517 1.60 0.113 .1244983_cons | -19.315 31.04662 -0.62 0.536 .
------------------------------------------------------------------------------
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablena. Was ist das Problem?b. Standardisierte Regressionskoeffizientenc. Rückblick: Regression und Korrelationd. Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen Regressionsmodellen
4. Ergebnispräsentation
Rückblick I: Korrelation und Regression
⎟⎟⎠
⎞⎜⎜⎝
⎛⋅=⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅+⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅=
=−
−+=
y
xyxxy
y
xyx
y
xyxxxy
yxxyxx
xxyxyxyxyxxxy
ss
rRss
rss
rR
rRr
rrrrrR
1
11
2
2
1
121
11
21
212121
21
12.21
2.
22.2
222.
~ˆˆ
12
bivariat :Vergleich zumtrivariat
βββ
Standardisierter Regressionskoeffizient
Der Determinationskoeffizient des trivariaten (allgemein: des multiplen) Regressionsmodells ist eine gewichtete Summe der Korrelationen, die jeweils mit den standardisierten Regressionskoeffizienten gewichtet werden.
Rückblick II: Korrelation und Regression
⎟⎟⎠
⎞⎜⎜⎝
⎛⋅=⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅+⎟
⎟⎠
⎞⎜⎜⎝
⎛⋅=
⋅=−
−+=
y
xyxxy
y
xyx
y
xyxxxy
yxyxxyxx
xxyxyxyxyxxxy
ss
rRss
rss
rR
rrRr
rrrrrR
1
11
2
2
1
121
111
21
212121
21
12.21
2.
2.2
222.
~ˆˆ
12
bivariat :Vergleich zumtrivariat
βββ
Standardisierter Regressionskoeffizient
Im bivariaten Regressionsmodell ist der standardisierte Regressionskoeffizient gleich dem Korrelationskoeffizienten.
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablena. Was ist das Problem?b. Standardisierte Regressionskoeffizientenc. Rückblick: Regression und Korrelationd. Konditionale Effekt-Plots
3. Vergleiche zwischen verschiedenen Regressionsmodellen
4. Ergebnispräsentation
Beispiel 2: Lebenszufriedenheit• General Social Survey 1978: Zufallsstichprobe der US-
Bevölkerung über 18 Jahre• Lebenszufriedenheit (Index 1-20)• Determinanten: Haushaltseinkommen, Berufsprestige,
Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße• n=665 analysierbare Fälle• Regressionsgleichung (standardisierte Koeffizienten in
Klammern):
)092,0()435,0()190,0()018,0()107,0(056,0265,0116,0011,0065,051,10ˆ 54321
−−++++= xxxxxy
Konditionaler Effekt-Plot• gen b_prognose=_b[_cons] + _b[income]*income + _b[prestige]*0 + _b[educ]*0 + _b[attend]*0 + _b[size]*0
• graph twoway line b_prognose income
10.3
10.4
10.5
10.6
10.7
b_p
rogn
ose
-4 -2 0 2 4income
Bedingte Prognose der Zufriedenheit in Abhängigkeit vom Einkommen
Bedingung: prestige=0, educ=0, attend=0, size=0
Jeder andere Wert möglich. Man verwendet häufig die arithmetischen Mittel.
Vergleich relativer Einflußstärken• … bedingter Effekt-Plot für Einkommenseffekt• graph copy income• … bedingter Effekt-Plot für Prestigeeffekt• graph copy prestige• graph combine income prestige, ycommon cols(2) scale(1.25)
10.3
10.4
10.5
10.6
10.7
b_p
rogn
ose
-4 -2 0 2 4income
Je nach Einkommen schwanken die prognostizierten Zufriedenheiten zwischen 10,3 und 10,7 Skalenpunkten, je nach Berufsprestige dagegen nur zwischen 10,47 und 10,55 Skalenpunkten.
Der Einfluss des Einkommens ist also größer als der des Berufsprestiges.
10.3
10.4
10.5
10.6
10.7
b_pr
ogno
se
-4 -2 0 2 4income
10.3
10.4
10.5
10.6
10.7
b2_p
rogn
ose
-4 -2 0 2 4prestige
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablen3. Vergleiche zwischen verschiedenen
Regressionsmodellena. eine Stichprobeb. mehrere Stichproben
4. Ergebnispräsentation
Beispiel 1 erweitertVariable Modell 1 Modell 2 Modell 3 Modell 4 Modell 5Osten Ref. Ref. Ref. Ref. Ref.Nord -0.6810 -0.6782 -0.7886 -0.6332 -0.5974Süden -0.9359 -0.4561 -0.6592 -0.4039 -0.7310Westen 0.2547 0.4079 0.2485 0.4414 0.4270Schwerindustrie Ref. Ref. Ref. Ref. Ref.Bauindustrie -1.1657 -0.5180 -0.6201 -0.6500 -0.8044Leichtindustrie -0.3283 -1.0687 -0.9292 -1.0624 -0.5389Verkehr & Kommunikation -0.3694 -1.6599 -1.4622 -1.7427 -0.5196Handel -2.3305 -2.0695 -2.3866 -2.1090 -1.8152Dienstleistungen -2.8955 -2.5395 -2.9910 -2.4951 -2.3257Freie Berufe -0.7546 -1.3694 -1.7172 -1.3368 -0.3157Ausbildung 0.6105 0.6497 0.5773Berufserfahrung 0.0243 0.0657 -0.0192Betriebszugehörigkeit 0.1501 0.1722 0.1777Konstante 7.6193 -1.2677 -1.3658 -0.5783 6.6113R² 9.4% 36.1% 30.1% 35.6% 18.9%adj. R² 7.8% 34.7% 28.6% 34.2% 17.2%n 526 526 526 526 526
Exkurs: Hierarchische Modelle
• Zwei Modelle A und a sind hierarchisch (nested), wenn die Parameter des Modells a eine Teilmenge der Parameter des Modells A sind.
• Das (restringierte) Modell a ergibt sich aus dem (nicht restringierten) Modell A, indem man für die Parameter in A lineare Restriktionen formuliert.
rxya
rxxxyA
++===
++++=
110
32
3322110
: Modell ertes)(restringiergibt 0 und 0 :nenRestriktio Zwei
: Modell rtes)restringie(nicht
ββββ
ββββ
Schrittweise Modellüberprüfung1. Gruppen von erklärenden Variablen
Häufig unterscheiden sich die erklärenden Variablen in solche, die „nur“ kontrolliert werden, die von zentraler Bedeutung sind und die eventuell ergänzend berücksichtigt werden sollen.
2. Überprüfung der Stabilität der SchätzerBleiben die Effekte der zentralen erklärenden Variablen bei verschiedenen Modellspezifikationen stabil?
3. Bestimmung der relativen EinflussstärkeDa der Erklärungszuwachs von der Eingabereihen-folge abhängt, fragt man häufig umgekehrt: Wie verschlechtert sich der Modellfit, wenn man die interessierende Variable aus dem Endmodell weglässt.
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablen3. Vergleiche zwischen verschiedenen
Regressionsmodellena. eine Stichprobeb. mehrere Stichproben
4. Ergebnispräsentation
Vergleich identischer Modelle aus verschiedenen Stichproben
- 1980: 935 männliche Beschäftigte aus den USA.- 1976: 526 männliche und weibliche Beschäftigte aus den USA.
Variable unstand. stand. unstand. stand.Ausbildung 1.5397 0.3424 0.5990 0.4491Berufserfahrung 0.3306 0.1464 0.0223 0.0821Betriebszugehörigkeit 0.2182 0.1121 0.1693 0.3311Konstante -3.8180 0.0000 -2.8727 0.0000R²adj. R²nDatensatz wage2.dta wage1.dta
1980Regressionskoeffizienten
1976Regressionskoeffizienten
11.1%10.8%
935 52630.2%30.6%
Vergleich des Einflusses einer Variablen zwischen den Stichproben
• Standardisierung unnötig, da gleiche Maßeinheiten (ein- und dieselbe Variable).
• Standardisierung sogar schädlich, da z-Transformation stichproben-spezifische Informationen verwendet.
• Benutze unstandardisierte Regressionskoeffizienten!
Variable unstand. stand. unstand. stand.Ausbildung 1.5397 0.3424 0.5990 0.4491Berufserfahrung 0.3306 0.1464 0.0223 0.0821Betriebszugehörigkeit 0.2182 0.1121 0.1693 0.3311Konstante -3.8180 0.0000 -2.8727 0.0000R²adj. R²nDatensatz wage2.dta wage1.dta
1980Regressionskoeffizienten
1976Regressionskoeffizienten
11.1%10.8%
935 52630.2%30.6%
Vergleich des Einflusses mehrerer Variablen innerhalb der Stichproben
• Standardisierung notwendig, wenn die Variablen in unterschiedlichen Maßeinheiten gemessen sind.
• Die Verwendung stichprobenspezifischer Informationen bei der z-Transformation ist unschädlich, da Vergleich innerhalb der Stichprobe.
• Benutze standardisierte Regressionskoeffizienten!
Variable unstand. stand. unstand. stand.Ausbildung 1.5397 0.3424 0.5990 0.4491Berufserfahrung 0.3306 0.1464 0.0223 0.0821Betriebszugehörigkeit 0.2182 0.1121 0.1693 0.3311Konstante -3.8180 0.0000 -2.8727 0.0000R²adj. R²nDatensatz wage2.dta wage1.dta
1980Regressionskoeffizienten
1976Regressionskoeffizienten
11.1%10.8%
935 52630.2%30.6%
Gliederung
1. Multiple Regression2. Vergleich des Einflusses verschiedener
Variablen3. Vergleiche zwischen verschiedenen
Regressionsmodellen4. Ergebnispräsentation
Ergebnispräsentation
• Hinweise zur Durchführung eines eigenen Forschungsprojektes finden sich in Kapitel 19 von Wooldridge (2003). Darin insbesondere: – Allgemein: Writing an empirical paper
(Abschnitt 19.5, WO 657-665)– Tabellen: Style hints (WO 663-665, kopiert)
Zum Schluss
Literatur
• Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing.– Kapitel 3 diskutiert sowohl das trivariate als auch das
allgemeine multiple Regressionsmodell. Lesen Sie nur die Passagen (WO 68-84), die sich auf den deskriptiven Teil der Regressionsanalyse beziehen.
– Standardisierte Regressionskoeffizienten werden in Kapitel 6 erläutert (WO 182-187).
– Ebenso das adjustierte R-Quadrat (WO 196-200).
Zusammenfassung
1. Einleitung, 2. Theorie / Konzeptionelles, 3. Daten, Hypothesen, Methoden, 4. Ergebnisse, 5. Zusammen-fassung und Kritik
Bericht
• Gruppen von Variablen• Stabilität der Schätzer• Erklärungsbeitrag der einzelnen Variablen
Vergleich von Regressions-modellen
• einfach bei gleichen Maßeinheiten• standardisierte Regressionskoeffizienten• R-Quadrat-Verlust bei Elimination• konditionale Effektplots
Vergleich der Effekte
• überprüft Hypothesen über Effekte von Variablen• Erklärung der Varianz der Zielvariablen
Multiple Regression
• zwischen Stichproben: unstandardisierte Koeffizienten• innerhalb Stichproben: standardisierte Koeffizienten
Welche Koeffizienten
Wichtige Fachausdrücke
conditionaleffect plot
konditionaler Effektplot
hierarchical(nested) model
hierarchisches Modell
unrestrictedmodel
nicht restringiertesModell
adjustedR-Square
adjustiertesR-Quadrat
restrictedmodel
restringiertesModell
standardizedregressioncoefficient
standard.Regressions-
koeffizient
restrictionRestriktionunstandardized
regressioncoefficient
unstandard.Regressions-
koeffizient
EnglischDeutschEnglischDeutsch
Stata-Befehle
konditionaler Effekt-Plotgraph twoway line b_prognoseincome
Berechnung unter Verwendung der intern abgespeicherten Regressionskoeffizienten
generate b_prognose=_b[_cons] + _b[income]*income + _b[prestige]*0 + _b[educ]*0 + _b[attend]*0 + _b[size]*0
zusätzlich: Ausdruck der standardisierten Koeffizienten
reg y x1 x2 x3 x4, beta
Multiple Regression (Kleinste-Quadrate Methode)
reg y x1 x2 x3 x4
top related