Download - Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen

Analyse von Querschnittsdaten

Bivariate Regression

Warum geht es in den folgenden Sitzungen?

Kontinuierliche Variablen

Deskriptive Modelle

kategoriale VariablenLogistische Regression02.02.2005

Regression mit Dummy-Variablen26.01.2005

Heteroskedastizität19.01.2005

Spezifikation der Regressionsfunktion12.01.2005

Spezifikation der unabhängigen Variablen22.12.2004

Signifikanztests II15.12.2004

Signifikanztests I08.12.2004

Statistische Inferenz01.12.2004

Multiple Regression24.11.2004

Kontrolle von Drittvariablen17.11.2004

Bivariate Regression10.11.2004

Variablen03.11.2004

Daten27.10.2004

Beispiele20.10.2004

Einführung13.10.2004

VorlesungDatum

Gliederung

1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate

Regression)3. Nicht-lineare Beziehungen4. Regression und Korrelation

Zielsetzung• Finde eine Statistik, die das Typische der

vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen.

• einzelne Zielvariable y (unbedingte Verteilung)– y = typisch + Rest

• Zusammenhang mit einer anderen Variablen x(bedingte Verteilung)– y = typisch|x + Rest

• Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen y

Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU?

• Sie betragen im Durchschnitt 43,96%.

• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.

• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.

• Definition Abweichung: quadrierte Differenz (xi – 43,96)².

• Statistik: arithmetisches Mittel

Neuwied 44.21Ahrweiler 50.13Koblenz 46.60Cochem 50.94Bad Kreuznach 39.10Bitburg 52.68Trier 44.82Montabaur 43.42Mainz 40.86Worms 37.99Frankenthal 39.71Ludwigshafen 40.86Neustadt-Speyer 46.48Kaiserslautern 37.68Pirmasens 42.79Südpfalz 45.09

Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU?

• Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 44,21%

• Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal.

• Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist.

• Definition Abweichung: absolute Differenz |xi – 44,21|.

• Statistik: Median

Kaiserslautern 37.68Worms 37.99Bad Kreuznach 39.10Frankenthal 39.71Mainz 40.86Ludwigshafen 40.86Pirmasens 42.79Montabaur 43.42Neuwied 44.21Trier 44.82Südpfalz 45.09Neustadt-Speyer 46.48Koblenz 46.60Ahrweiler 50.13Cochem 50.94Bitburg 52.68

Beispiel 3: Was ist je nach Katholiken-anteil das Typische?

3540

4550

55C

DU

-Ant

eil i

n %

20 40 60 80 100Katholikenanteil in %

Wahlkreis Katholiken CDUNeuwied 55.55 44.21Ahrweiler 81.99 50.13Koblenz 73.14 46.60Cochem 70.78 50.94Bad Kreuznach 32.60 39.10Bitburg 91.40 52.68Trier 87.97 44.82Montabaur 50.76 43.42Mainz 51.36 40.86Worms 32.81 37.99Frankenthal 31.98 39.71Ludwigshafen 38.01 40.86Neustadt-Speyer 45.61 46.48Kaiserslautern 34.89 37.68Pirmasens 45.98 42.79Südpfalz 55.07 45.09

Gliederung1. Deskriptive statistische Modelle2. Lineare Einfachregression (bivariate Regression)

a. Annahmenb. Minimierungsfunktion

• Kleinste-Quadrate Methode• Kleinste-Absolutwerte Methode

c. Regressionskoeffizientend. Determinationskoeffiziente. Interpretation

3. Nicht-lineare Beziehungen4. Regression und Korrelation

Annahmen

• y und x sind kontinuierliche Variablen im mathematischen Sinne– Wertebereich von -∞ bis +∞– Zwischen zwei Werten a<b ist auch jeder

Zwischenwert im Intervall [a, b] möglich, sei dieses Intervall auch noch so klein.

• Linearer Zusammenhang–

– β0 und β1 heißen RegressionskoeffizientenrxryRestxtypischy ++=+=+= 10ˆ| ββ

Minimierungsfunktion

• Berechne die typischen Werte als lineare Funktion von x; und zwar so, dass

• Möglichkeit A:– die Summe der quadrierten Reste minimal ist

(Kleinste-Quadrate Methode)• Möglichkeit B:

– die Summe der Absolutwerte der Reste minimal ist (Kleinste-Absolutwerte Methode)

Kleinste-Quadrate Methode (1)

• Regressionskoeffizienten, Prognosen und Residuen errechnen sich wie folgt:

iii

ii

x

yxn

ii

n

iii

yyrxy

xy

SAQSAP

xx

yyxx

ˆ

ˆˆˆ

ˆˆ

)(

))((ˆ

10

10

1

2

11

−=+=

−=

=−

−−=

∑

∑

=

=

ββ

ββ

β

Beispiel 3: Arbeitstabelle

3,3399,54194,096,43ˆ

194,072,613607,1189ˆ

0

1

=⋅−=

==

β

β

Kleinste-Quadrate Methode (2)

• Der Determinations-koeffizient errechnet sich wie folgt:SST total sum of squaresSSE explained sum of squaresSSR residual sum of squares

SSTSSR

SSTSSER

SSRSSESST

ryySSR

yySSE

yySST

n

ii

n

iii

n

ii

n

ii

−==

+=

=−=

−=

−=

∑∑

∑

∑

==

=

=

1

)ˆ(

)ˆ(

)(

2

1

2

1

2

1

2

1

2

Beispiel 3: Arbeitstabelle

73,096,31596,230.2 ====

y

y

SAQSAQE

SSTSSER

Output eines Statistik-Programms

. reg cdu kathol

Source | SS df MS Number of obs = 16-------------+------------------------------ F( 1, 14) = 37.75

Model | 230.42425 1 230.42425 Prob > F = 0.0000Residual | 85.4443289 14 6.10316635 R-squared = 0.7295

-------------+------------------------------ Adj R-squared = 0.7102Total | 315.868579 15 21.0579053 Root MSE = 2.4705

------------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125_cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215

------------------------------------------------------------------------------

10ˆˆ ββ

SSESSRSST 2R

Interpretation•

• Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet.

• 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden.

• Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte.

• Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist.

729,0,16194,03,33ˆ 2 ==⋅+= RnKatholikenUDC

Das Typische der Daten•






Passung (Fit) der Beschreibung•






Nachtrag Kleinste Absolutwerte•

• Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang.

• Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-AbsolutwerteMethode Nachteile hat:– keine analytische Lösung (iterative Berechnung

notwendig)– inferenzstatistische Eigenschaften nicht so gut


Was erklärt die Unterschiede?35

4045

5055

CD

U-A

ntei

l in

%

20 40 60 80 100Katholikenanteil in %

Kleinste Quadrate

Kleinste Absolutwerte

Gliederung



Linearität

• Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

Unabhängigkeit von der Größe von x

05

1015

20y

0 1 2 3 4 5x

0.5

11.

52

2.5

y

0 1 2 3 4 5x

nicht-linear: y = √(x)

linear: y = 2 + 3*x

Beispiel 4: Absentismus

• Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben:y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb

(1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig,

2=schwierig).

Überblick über die Daten

AnzahlFehltage

NegativeEinstellungzu Betrieb

Beschaeftigungsdauerin Jahren

Nettoeinkommenin Euro

Anforderungender

Taetigkeit

0

5

10

15

0 5 10 15

0

5

10

0 5 10

0

5

10

0 5 10

2000

3000

4000

5000

2000 3000 4000 5000

0

5

10

0 5 10

Lineare Einfachregressionen

Regression R2 Konstante Steigung Variable x

y mit x1 0,90 -2,31 1,37 NEGATIVy mit x2 0,79 -1,72 1,62 DAUERy mit x3 0,92 25,20 -0,0053 EINKOMMy mit x4 0,001 6,71 -0,08 ANFORD

Nicht-linearer Zusammenhang

05

1015

Anz

ahl F

ehlta

ge

2 4 6 8 10Anforderungen der Taetigkeit

Gliederung



Kovarianz

1

))((),Cov( 1

−

−−=∑=

n

yyxxyx

n

iii

Korrelationskoeffizient• Kovarianz ist um so größer, je mehr die beiden Variablen

x und y streuen.• Korrelationskoeffizient (nach Pearson) ist eine

standardisierte Kovarianz

yx

xy

n

i

n

iii

n

iii

n

ii

n

ii

n

iii

yx SAQSAQSAP

yyxx

yyxx

n

yy

n

xx

n

yyxx

ssyxr

⋅=

−−

−−=

−

−

−

−

−

−−

=⋅

=

∑ ∑

∑

∑∑

∑

= =

=

==

=

1 1

22

1

1

2

1

2

1

)()(

))((

1

)(

1

)(

1

))((

),Cov(

Korrelation und bivariate Regression

x

y

x

y

yx

yx

y

y

xx

yx

x

yx

yx

xy

ss

r

nSAQnSAQ

SAQSAQSAP

SAQ

SAQ

SAQSAQSAP

SAQSAP

SAQSAQSAP

r

=

−

−⋅=

⋅==

⋅=

1

1ˆ

ˆ

1

1

β

β

Korrelation und bivariate Regression

22

giltzienten ionskoeffiDeterminatden Für rR =

Zum Schluss

Literatur• Wooldridge, J. (2003): Introductory econometrics: a

modern approach. South Western College Publishing.

– Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41).

Zusammenfassung

ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von xund y

Korrelation

überprüfe Annahme der Linearität durch Streudiagramm

Annahmen

mache eine möglichst gute Prognose von y für unterschiedliche Werte von x

BivariateAnalyse

• Summe der Quadrate der Abweichungen• Summe der Absolutwerte der Abweichungen

Minimierungs-funktion

finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen.

Analyseziel

der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist.

Lineare Funktion

Regressionskoeffizienten, DeterminationskoeffizientRegression

Wichtige Fachausdrücke

coefficient of determination

Determinations-koeffizient

regressioncoefficient

Regressions-koeffizient

least absolute values (LAV)

Kleinste Absolutwerte

correlationcoefficient

Korrelations-koeffizient

(ordinary) least squares(OLS)

Kleinste Quadrate

EnglischDeutschEnglischDeutsch

Stata-Befehle

Graphik linearer Regressiongraph twoway lfit y x

Regression von y auf x (Kleinste-Absolutwerte Methode)

qreg y x

Matrix von Streudiagrammen (jede Variable mit jeder anderen)

graph matrix x1-x5

Streudiagramm graph twoway scatter y x

Regression von y auf x (Kleinste-Quadrate Methode)

reg y x

Korrelation von y und xcorr y x

beides in einer Graphikgraph twoway scatter y x || lfit y x

Download - Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_05.pdf · Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen

Top Related