Analyse von Querschnittsdaten
Bivariate Regression
Warum geht es in den folgenden Sitzungen?
Kontinuierliche Variablen
Deskriptive Modelle
kategoriale VariablenLogistische Regression02.02.2005
Regression mit Dummy-Variablen26.01.2005
Heteroskedastizität19.01.2005
Spezifikation der Regressionsfunktion12.01.2005
Spezifikation der unabhängigen Variablen22.12.2004
Signifikanztests II15.12.2004
Signifikanztests I08.12.2004
Statistische Inferenz01.12.2004
Multiple Regression24.11.2004
Kontrolle von Drittvariablen17.11.2004
Bivariate Regression10.11.2004
Variablen03.11.2004
Daten27.10.2004
Beispiele20.10.2004
Einführung13.10.2004
VorlesungDatum
Gliederung
1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate
Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation
Gliederung
1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate
Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation
Zielsetzung• Finde eine Statistik, die das Typische der
vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen.
• einzelne Zielvariable y (unbedingte Verteilung)– y = typisch + Rest
• Zusammenhang mit einer anderen Variablen x(bedingte Verteilung)– y = typisch|x + Rest
• Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen y
Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU?
• Sie betragen im Durchschnitt 43,96%.
• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.
• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.
• Definition Abweichung: quadrierte Differenz (xi – 43,96)².
• Statistik: arithmetisches Mittel
Neuwied 44.21Ahrweiler 50.13Koblenz 46.60Cochem 50.94Bad Kreuznach 39.10Bitburg 52.68Trier 44.82Montabaur 43.42Mainz 40.86Worms 37.99Frankenthal 39.71Ludwigshafen 40.86Neustadt-Speyer 46.48Kaiserslautern 37.68Pirmasens 42.79Südpfalz 45.09
Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU?
• Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 44,21%
• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.
• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.
• Definition Abweichung: absolute Differenz |xi – 44,21|.
• Statistik: Median
Kaiserslautern 37.68Worms 37.99Bad Kreuznach 39.10Frankenthal 39.71Mainz 40.86Ludwigshafen 40.86Pirmasens 42.79Montabaur 43.42Neuwied 44.21Trier 44.82Südpfalz 45.09Neustadt-Speyer 46.48Koblenz 46.60Ahrweiler 50.13Cochem 50.94Bitburg 52.68
Beispiel 3: Was ist je nach Katholiken-anteil das Typische?
3540
4550
55C
DU
-Ant
eil i
n %
20 40 60 80 100Katholikenanteil in %
Wahlkreis Katholiken CDUNeuwied 55.55 44.21Ahrweiler 81.99 50.13Koblenz 73.14 46.60Cochem 70.78 50.94Bad Kreuznach 32.60 39.10Bitburg 91.40 52.68Trier 87.97 44.82Montabaur 50.76 43.42Mainz 51.36 40.86Worms 32.81 37.99Frankenthal 31.98 39.71Ludwigshafen 38.01 40.86Neustadt-Speyer 45.61 46.48Kaiserslautern 34.89 37.68Pirmasens 45.98 42.79Südpfalz 55.07 45.09
Gliederung1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate Regression)
a. Annahmenb. Minimierungsfunktion
• Kleinste-Quadrate Methode• Kleinste-Absolutwerte Methode
c. Regressionskoeffizientend. Determinationskoeffiziente. Interpretation
3. Nicht-lineare Beziehungen4. Regression und Korrelation
Annahmen
• y und x sind kontinuierliche Variablen im mathematischen Sinne– Wertebereich von -∞ bis +∞– Zwischen zwei Werten a<b ist auch jeder
Zwischenwert im Intervall [a, b] möglich, sei dieses Intervall auch noch so klein.
• Linearer Zusammenhang–
– β0 und β1 heißen RegressionskoeffizientenrxryRestxtypischy ++=+=+= 10ˆ| ββ
Minimierungsfunktion
• Berechne die typischen Werte als lineare Funktion von x; und zwar so, dass
• Möglichkeit A:– die Summe der quadrierten Reste minimal ist
(Kleinste-Quadrate Methode)• Möglichkeit B:
– die Summe der Absolutwerte der Reste minimal ist (Kleinste-Absolutwerte Methode)
Kleinste-Quadrate Methode (1)
• Regressionskoeffizienten, Prognosen und Residuen errechnen sich wie folgt:
iii
ii
x
yxn
ii
n
iii
yyrxy
xy
SAQSAP
xx
yyxx
ˆ
ˆˆˆ
ˆˆ
)(
))((ˆ
10
10
1
2
11
−=+=
−=
=−
−−=
∑
∑
=
=
ββ
ββ
β
Beispiel 3: Arbeitstabelle
3,3399,54194,096,43ˆ
194,072,613607,1189ˆ
0
1
=⋅−=
==
β
β
Kleinste-Quadrate Methode (2)
• Der Determinations-koeffizient errechnet sich wie folgt:SST total sum of squaresSSE explained sum of squaresSSR residual sum of squares
SSTSSR
SSTSSER
SSRSSESST
ryySSR
yySSE
yySST
n
ii
n
iii
n
ii
n
ii
−==
+=
=−=
−=
−=
∑∑
∑
∑
==
=
=
1
)ˆ(
)ˆ(
)(
2
1
2
1
2
1
2
1
2
Beispiel 3: Arbeitstabelle
73,096,31596,230.2 ====
y
y
SAQSAQE
SSTSSER
Output eines Statistik-Programms
. reg cdu kathol
Source | SS df MS Number of obs = 16-------------+------------------------------ F( 1, 14) = 37.75
Model | 230.42425 1 230.42425 Prob > F = 0.0000Residual | 85.4443289 14 6.10316635 R-squared = 0.7295
-------------+------------------------------ Adj R-squared = 0.7102Total | 315.868579 15 21.0579053 Root MSE = 2.4705
------------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125_cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215
------------------------------------------------------------------------------
10ˆˆ ββ
SSESSRSST 2R
Interpretation•
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC
Das Typische der Daten•
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC
Passung (Fit) der Beschreibung•
• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.
• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.
• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.
• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.
729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC
Nachtrag Kleinste Absolutwerte•
• Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang.
• Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-AbsolutwerteMethode Nachteile hat:– keine analytische Lösung (iterative Berechnung
notwendig)– inferenzstatistische Eigenschaften nicht so gut
5724,0,16215,05,32ˆ 2 ==⋅+= RnKatholikenUDC
Was erklärt die Unterschiede?35
4045
5055
CD
U-A
ntei
l in
%
20 40 60 80 100Katholikenanteil in %
Kleinste Quadrate
Kleinste Absolutwerte
Gliederung
1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate
Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation
Linearität
• Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.
Unabhängigkeit von der Größe von x
05
1015
20y
0 1 2 3 4 5x
0.5
11.
52
2.5
y
0 1 2 3 4 5x
nicht-linear: y = √(x)
linear: y = 2 + 3*x
Beispiel 4: Absentismus
• Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben:y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb
(1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig,
2=schwierig).
Überblick über die Daten
AnzahlFehltage
NegativeEinstellungzu Betrieb
Beschaeftigungsdauerin Jahren
Nettoeinkommenin Euro
Anforderungender
Taetigkeit
0
5
10
15
0 5 10 15
0
5
10
0 5 10
0
5
10
0 5 10
2000
3000
4000
5000
2000 3000 4000 5000
0
5
10
0 5 10
Lineare Einfachregressionen
Regression R2 Konstante Steigung Variable x
y mit x1 0,90 -2,31 1,37 NEGATIVy mit x2 0,79 -1,72 1,62 DAUERy mit x3 0,92 25,20 -0,0053 EINKOMMy mit x4 0,001 6,71 -0,08 ANFORD
Nicht-linearer Zusammenhang
05
1015
Anz
ahl F
ehlta
ge
2 4 6 8 10Anforderungen der Taetigkeit
Gliederung
1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate
Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation
Kovarianz
1
))((),Cov( 1
−
−−=∑=
n
yyxxyx
n
iii
Korrelationskoeffizient• Kovarianz ist um so größer, je mehr die beiden Variablen
x und y streuen.• Korrelationskoeffizient (nach Pearson) ist eine
standardisierte Kovarianz
yx
xy
n
i
n
iii
n
iii
n
ii
n
ii
n
iii
yx SAQSAQSAP
yyxx
yyxx
n
yy
n
xx
n
yyxx
ssyxr
⋅=
−−
−−=
−
−
−
−
−
−−
=⋅
=
∑ ∑
∑
∑∑
∑
= =
=
==
=
1 1
22
1
1
2
1
2
1
)()(
))((
1
)(
1
)(
1
))((
),Cov(
Korrelation und bivariate Regression
x
y
x
y
yx
yx
y
y
xx
yx
x
yx
yx
xy
ss
r
nSAQnSAQ
SAQSAQSAP
SAQ
SAQ
SAQSAQSAP
SAQSAP
SAQSAQSAP
r
=
−
−⋅=
⋅==
⋅=
1
1ˆ
ˆ
1
1
β
β
Korrelation und bivariate Regression
22
giltzienten ionskoeffiDeterminatden Für rR =
Zum Schluss
Literatur• Wooldridge, J. (2003): Introductory econometrics: a
modern approach. South Western College Publishing.
– Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41).
Zusammenfassung
ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von xund y
Korrelation
überprüfe Annahme der Linearität durch Streudiagramm
Annahmen
mache eine möglichst gute Prognose von y für unterschiedliche Werte von x
BivariateAnalyse
• Summe der Quadrate der Abweichungen• Summe der Absolutwerte der Abweichungen
Minimierungs-funktion
finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen.
Analyseziel
der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.
Lineare Funktion
Regressionskoeffizienten, DeterminationskoeffizientRegression
Wichtige Fachausdrücke
coefficient of determination
Determinations-koeffizient
regressioncoefficient
Regressions-koeffizient
least absolute values (LAV)
Kleinste Absolutwerte
correlationcoefficient
Korrelations-koeffizient
(ordinary) least squares(OLS)
Kleinste Quadrate
EnglischDeutschEnglischDeutsch
Stata-Befehle
Graphik linearer Regressiongraph twoway lfit y x
Regression von y auf x (Kleinste-Absolutwerte Methode)
qreg y x
Matrix von Streudiagrammen (jede Variable mit jeder anderen)
graph matrix x1-x5
Streudiagramm graph twoway scatter y x
Regression von y auf x (Kleinste-Quadrate Methode)
reg y x
Korrelation von y und xcorr y x
beides in einer Graphikgraph twoway scatter y x || lfit y x