x und y. - universität wien · 2 statistik 2 für soziologinnen 3 © marcus hudec regression test...
Post on 05-Aug-2019
213 Views
Preview:
TRANSCRIPT
1
Statistik 2 für SoziologInnen 1
© M
arcus Hudec
Regression
Korrelationskoeffizient
Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y.
Er ist durch folgende Formel charakterisiert:
2222
22
iiii
iiii
ii
iiXYxy
yynxxn
yxyxn
yyxx
yyxxcorrr
Statistik 2 für SoziologInnen 2
© M
arcus Hudec
Regression
Konzept der Kovarianz
)( xxi
)( yyi
2
Statistik 2 für SoziologInnen 3
© M
arcus Hudec
Regression
Test auf Signifikanz
Will man Hypothesen der Form H0: corr=0 versus Ha: corr0 (zweiseitig)
bzw.
H0: corr<0 versus Ha: corr>0 (einseitig)
testen, so kann dies unter der Annahme einer 2-dimensionalen Normalverteilung mit folgender Statistik erfolgen:
Diese Teststatistik ist unter der Nullhypothese t verteilt mit n-2 Freiheitsgraden
radenFreiheitsgnmitr
nrt 2
1
22
Statistik 2 für SoziologInnen 4
© M
arcus Hudec
Regression
Bivariate Normalverteilung
3
Statistik 2 für SoziologInnen 5
© M
arcus Hudec
Regression
0 1 2 3 4 5 6
01
23
45
6
0 1 2 3 4 5 6
0
1
2
3
4
5
6
123456789
101112131415
Counts
Simulation aus einer 2-dimensionalen Normalverteilung
Statistik 2 für SoziologInnen 6
© M
arcus Hudec
Regression
Beispiel
i X Y X² XY Y²1 65 68 4225 4420 46242 63 66 3969 4158 43563 67 68 4489 4556 46244 64 65 4096 4160 42255 68 69 4624 4692 47616 62 66 3844 4092 43567 70 68 4900 4760 46248 66 65 4356 4290 42259 68 71 4624 4828 5041
10 67 67 4489 4489 448911 69 68 4761 4692 462412 71 70 5041 4970 4900
Summe 800 811 53418 54107 54849
Kovarianz Sxy 484Varianz X Sxx 1016Varianz Y Syy 467
Korrelation Rxy 0,70
Teststatistik Zähler 2,22Nenner 0,71t 3,12
Tabellenwert tn-2;0,975 2,23 ==> Ho ablehnen
Wir wollen die Null-hypothese testen, dass die Merkmale X und Y unkorreliert sind.
4
Statistik 2 für SoziologInnen 7
© M
arcus Hudec
Regression
Anderes Beispiel mit SPSS
Statistik 2 für SoziologInnen 8
© M
arcus Hudec
Regression
CO2 Emissionen
5
Statistik 2 für SoziologInnen 9
© M
arcus Hudec
Regression
Nichtparametrische Korrelation
Praktisch keine Korrelation !
Nutzung der Ranginformation!
Statistik 2 für SoziologInnen 10
© M
arcus Hudec
Regression
Korrelation nach Spearman
6
Statistik 2 für SoziologInnen 11
© M
arcus Hudec
Regression
Nichtparametrische Korrelation
Statistik 2 für SoziologInnen 12
© M
arcus Hudec
Regression
Analyse des Datensatzes mit Bravais Pearson
7
Statistik 2 für SoziologInnen 13
© M
arcus Hudec
Regression
Elimination des Ausreißers
Statistik 2 für SoziologInnen 14
© M
arcus Hudec
Regression
Reduktion des Skalenniveaus
8
Statistik 2 für SoziologInnen 15
© M
arcus Hudec
Regression
Beispiel
Leistung in kw und Kraftstoff-Verbrauch in l pro 100 km von sieben
verschiedenen VW-Golf Benzinmotoren[1]
kw l/100km55 6,474 7,677 6,885 7,9
110 9,3150 10,8
[1] Quelle: http://www.vw-online.de/golf/index_.htm
Statistik 2 für SoziologInnen 16
© M
arcus Hudec
Regression
Streudiagramm: Leistung - Verbrauch
0
2
4
6
8
10
12
0 50 100 150 200
Leistung in kW
Kra
ftst
off
verb
rau
ch in
l/10
0km
9
Statistik 2 für SoziologInnen 17
© M
arcus Hudec
Regression
Grundmodell
Zielgröße (abhängige Variable; Regressand) Y
Einflussgröße (unabhängige Variable; Regressor) X
Im Beispiel:– Y ... Kraftstoffverbrauch– X ... Leistung
Annahme:Es besteht ein funktionaler Zusammenhang zwischen den beiden Merkmalen: Y = f(X)
Statistik 2 für SoziologInnen 18
© M
arcus Hudec
Regression
Die Regressionsanalyse ist ein Instrument zur Untersuchung eines funktionalen Zusammenhangszwischen zwei Merkmalen.
Im Unterschied zur Korrelationsanalyse handelt es sich also um ein gerichtetes Modell
Mit der Regressionsanalyse kann
– ein funktionaler Zusammenhang erkannt werden
– man eine solche Beziehung statistisch nachweisen
– Art und Größe eines Zusammenhangs geschätzt werden
– fehlende oder zukünftige Werte prognostiziert werden
10
Statistik 2 für SoziologInnen 19
© M
arcus Hudec
Regression
Dabei handelt es sich nicht um eine exakte Funktion im streng mathematischen Sinne
Aufgrund von Messfehlern und Zufallseinflüssen werden die einzelne Messungen nicht idealtypisch auf dem Funktionsgraphen liegen, sondern zufällig abweichen
Wir erweitern unser Modell daher um einen Fehlerterm (zufällige Komponente) e, wie folgt:
Y = f(X) + e
Statistik 2 für SoziologInnen 20
© M
arcus Hudec
Regression
Stochastischer Funktionszusammenhang
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12
11
Statistik 2 für SoziologInnen 21
© M
arcus Hudec
Regression
Lineare Regression
Die einfachste Form eines funktionalen Zusammenhanges stellt eine lineare Funktion dar
Modellvorstellung: der Zusammenhang zwischen X und Y kann (zumindest stückweise) durch eine Grade beschrieben werden:
Y = b0 + b1X + e
b0 ... Abstand der Gerade vom Ursprung auf der Ordinate
b1 ... Steigung der Gerade
Statistik 2 für SoziologInnen 22
© M
arcus Hudec
Regression
Linearer stochastischer Funktionszusammenhang
0
10
20
30
40
50
0 2 4 6 8 10 12
b0
Anstieg: b1
12
Statistik 2 für SoziologInnen 23
© M
arcus Hudec
Regression
Notation
Den Ausgangspunkt bilden n Beobachtungspaare (xi,yi), die wir als Datenpunkte in einem Streudiagramm visualisieren können.
X Y
x1 y1
x2 y2
... ...
xi yi
... ...xn yn
Statistik 2 für SoziologInnen 24
© M
arcus Hudec
Regression
Linearer stochastischer Funktionszusammenhang
0
10
20
30
40
50
0 2 4 6 8 10 12
b0
yi
Anstieg: b1
xi
ii xbby 10ˆ
iii yye ˆ
13
Statistik 2 für SoziologInnen 25
© M
arcus Hudec
Regression
Bestimmung der Regressionsgeraden
1. Idee: Gerade durch alle Punkte legen in der Praxis nicht möglich
2. Idee: Gerade durch 2 zufällige Punkte legen Nachteil: Die Geradekann dadurch eine unpassende Lage annehmen (siehe Grafik):
x
y
Statistik 2 für SoziologInnen 26
© M
arcus Hudec
Regression
Bestimmung der Regressionsgeraden
3. Idee: Gerade so wählen, dass die SUMME aller Abweichungen minimal wird. Nachteil: keine eindeutige Lösung, da positive und negative Abweichungen einander aufheben können.
+
-
min!xbbyn
1ii10i
x
y
14
Statistik 2 für SoziologInnen 27
© M
arcus Hudec
Regression
Bestimmung der Regressionsgeraden
4. Idee: Gerade so legen, daß die Summe des BETRAGES aller Abweichungen minimal wirdNachteile:
•Mathematisch aufwändig (Betragsfunktion nicht zweimaldifferenzierbar)
•hat in der Praxis relativ geringere Bedeutung
min!xbbyn
1ii10i
Statistik 2 für SoziologInnen 28
© M
arcus Hudec
Regression
Bestimmung der Regressionsgeraden
5.Idee: Gerade so legen, daß die Summe der QUADRATE allerAbweichungen minimal wird.
Kleinst-Quadrate-PrinzipDie optimale Regressionsgerade ergibt sich dann durch Lösung
folgender Optimierung:
min!xbbyeSn
1i
2i10i
n
1i
2i
15
Statistik 2 für SoziologInnen 29
© M
arcus Hudec
Regression
Mathematische Herleitung
021
100
n
iii xbby
b
S
02
110
1
n
iiii xxbby
b
S
(i) y nb b xii
n
ii
n
1
0 11
(ii) x y b x b xi ii
n
ii
n
ii
n
1
01
12
1
Aus i b y b x0 1
nach Substitution: 2
11
2
1111
n
ii
n
ii
n
ii
n
ii
n
iii
xxn
yxyxnb
Statistik 2 für SoziologInnen 30
© M
arcus Hudec
Regression
Interpretation der Formeln für Koeffizienten
Steigung der Regressionsgerade:
Kovarianz von X und Y dividiert durch die Varianz von X
Abstand auf der Ordinate:
Lineare Regressionsgerade verläuft durch den Schwerpunkt der Punkte
1 1 11 2
2
1 1
cov( , )ˆvar( )
n n n
i i i ii i i
n n
i ii i
n x y x yX Y
bX
n x x
xbyb 10ˆ
16
Statistik 2 für SoziologInnen 31
© M
arcus Hudec
Regression
Tabellarisches Rechenschema
Nr. Xi Yi Xi2 Xi*Yi Yi2
1 55 6,4 3025 352 40,96
2 74 7,6 5476 562,4 57,76
3 77 6,8 5929 523,6 46,24
4 85 7,9 7225 671,5 62,41
5 110 9,3 12100 1023 86,49
6 150 10,8 22500 1620 116,64
Summe 551 48,8 56255 4752,5 410,5
Mittelwert von X: 91,83Mittelwert von Y: 8,13
Berechnung von b1:
Nenner 33929,00 b1 = 0,05
Zähler 1626,20 b0 = 3,73
2
11
2
1111
n
ii
n
ii
n
ii
n
ii
n
iii
xxn
yxyxnb
b y b x0 1
Statistik 2 für SoziologInnen 32
© M
arcus Hudec
Regression
Graphische Darstellung
Streudiagramm: Leistung - Verbrauch
y = 0,05x + 3,73
0
2
4
6
8
10
12
40,00 60,00 80,00 100,00 120,00 140,00 160,00 180,00
Leistung in kW
Kra
ftst
off
verb
rau
ch in
l/10
0km
17
Statistik 2 für SoziologInnen 33
© M
arcus Hudec
Regression
Automatisierte Berechnung mit EXCEL
Statistik 2 für SoziologInnen 34
© M
arcus Hudec
Regression
Ergebnis mit SPSS
18
Statistik 2 für SoziologInnen 35
© M
arcus Hudec
Regression
Regressionsgerade als Instrument zur Vorhersage
Wert von x Schätzwert für y40 5,65
Prognose-Szenarien
Basierend auf den geschätzten Parametern können wir für einen x Wert den zugehörigen y Wert schätzen
Statistik 2 für SoziologInnen 36
© M
arcus Hudec
Regression
Gefahren und Grenzen der Prognostik
Wieweit kann ein linearer Trendsinnvoll fortgeschrieben werden?
Erkennen von Wendepunkten
Problem von Strukturbrüchen
0
5
10
15
20
25
2 4 6 8 10 12
0
50
100
150
200
250
0 2 4 6 8 10 12
0
20
40
60
80
100
120
140
0 2 4 6 8 10 12
19
Statistik 2 für SoziologInnen 37
© M
arcus Hudec
Regression
Wichtige Eigenschaften der Regressionsgeraden
„Fehlerausgleichende Gerade“
Die Summe der Abweichungen von der nach dem Kl. Quadrate Prinzip optimalen Geraden ist gleich Null.
Regressionsgerade läuft durch Schwerpunkt
01
n
iie
xbby 10
Statistik 2 für SoziologInnen 38
© M
arcus Hudec
Regression
K.Q. - Gerade geht durch den Schwerpunkt
0
10
20
30
40
0 2 4 6 8 10 12
y
x
20
Statistik 2 für SoziologInnen 39
© M
arcus Hudec
Regression
Variabilität der Regression
iyyyyyy iiii
n
ii yySQT
1
2
n
i
n
iiii eyySQR
1 1
22ˆ
n
ii yySQE
1
2ˆ
Totale Quadratsumme der Abweichungen vom arithmetischen Mittel
nicht erklärte (residuale)Abweichungsquadratsumme
erklärte Abweichungsquadratsumme
iy )y,x(P ii
y
xix
iy
y
xbby 10
yyi
ii yy
Statistik 2 für SoziologInnen 40
© M
arcus Hudec
Regression
21
Statistik 2 für SoziologInnen 41
© M
arcus Hudec
Regression
Zerlegung der Quadratsummen
n
ii
n
ii
n
ii yyeyy
SQESQRSQT
1
2
1
2
1
2 ˆ
n
ii
n
ii
yy
yy
SQT
SQEr
1
2
1
2
2
ˆ
r = Korrelationskoeffizient
r2 = Bestimmtheitsmaß
Anteil der erklärten Varianz an der gesamten Varianz
Statistik 2 für SoziologInnen 42
© M
arcus Hudec
Regression
Interpretation von r²
r² kann Werte zwischen – Null (kein Zusammenhang zwischen Y und X)
und– Eins (alle Punkte liegen exakt auf einer Geraden)
annehmen
Je näher r² bei eins liegt, desto besser wird Y durch X mittels einer linearen Regression erklärt
r² ist der Anteil der Variation von Y, der durch X erklärt werden kann
22
Statistik 2 für SoziologInnen 43
© M
arcus Hudec
Regression
Bestimmung von r² im Beispiel
Nr. Xi Yi Xi2 Xi*Yi Yi2 ei ei2
1 55 6,4 3025 352 40,96 6,37 0,03 0,00 3,00 -1,77 3,12
2 74 7,6 5476 562,4 57,76 7,28 0,32 0,10 0,28 -0,85 0,73
3 77 6,8 5929 523,6 46,24 7,42 -0,62 0,39 1,78 -0,71 0,51
4 85 7,9 7225 671,5 62,41 7,81 0,09 0,01 0,05 -0,33 0,11
5 110 9,3 12100 1023 86,49 9,00 0,30 0,09 1,36 0,87 0,76
6 150 10,8 22500 1620 116,64 10,92 -0,12 0,01 7,11 2,79 7,77
Summe 551 48,8 56255 4752,5 410,5 48,80 0,00 0,60 13,59 0,00 12,99
Mittelwert von X: 91,83Mittelwert von Y: 8,13
Berechnung von b1:Nenner 33929,00 b1 = 0,05
Zähler 1626,20 b0 = 3,73
SQT 13,59 100,0%SQR 0,60 4,4%SQE 12,99 95,6%
yy i ˆ2)( yyi iy 2ˆ yy i
Statistik 2 für SoziologInnen 44
© M
arcus Hudec
Regression
Inferenzstatistik
Es wird angenommen, daß die Werte der unabhängigen Variablen feste (nichtzufällige) Größen sind.
Es wird angenommen, daß sich die Beobachtungen der abhängigen Variablen durch einen in X linearen Term plus einer zufälligen Störkomponente ergeben.
Über die Störkomponente werden folgende Annahmen getroffen– Keine systematische Störung, d.h. Erwartungswert ist null E(ei) = 0
– Konstante Streuung der Störkomponente Var(ei) = const.
– Die Störungen sind unabhängig voneinander Cov(ei, ej) = 0
– Die Störkomponente sei normalverteilt mit Erwartungswert 0 und der Varianz ²
23
Statistik 2 für SoziologInnen 45
© M
arcus Hudec
Regression
Modellannahme
Die bedingten Dichten von Y für gegebenen Wert von X unterscheiden sich nur in ihrem Erwartungswert
Statistik 2 für SoziologInnen 46
© M
arcus Hudec
Regression
Signifikanz der Regressionsbeziehung
Frage ist der Anteil der erklärten Varianz signifikant?
Antwort: F-Test
Erklärte durch nichterklärte mittlere Quadratsumme (das ist die Quadratsumme durch die Zahl der Freiheitsgrade dividiert)
Diese Prüfgröße ist F-verteilt mit 1 und n-2 Freiheitsgraden
)2/()1(
1/
)2/(
1/2
2
nr
r
nSQR
SQEF
24
Statistik 2 für SoziologInnen 47
© M
arcus Hudec
Regression
Durchführung des Tests
ANOVA (Analysis of Variance)
Freiheitsgrade (df)Quadratsummen
(SS bzw. SQ)Mittlere
Quadratsumme Prüfgröße (F) P-WertRegression 1 12,990 12,990 86,195 0,0007Residuen 4 0,603 0,151Gesamt 5 13,593
r²= 0,956(1-r²)= 0,044
(1-r²)/4= 0,011
Statistik 2 für SoziologInnen 48
© M
arcus Hudec
Regression
Schätzung von ²
n
iie
n 1
22
2
1
Die Schätzung der unbekannten Varianz der Störkomponente ist die Voraussetzung für Inferenz über die Parameter bzw. für Konfidenzintervalle für Prognosewerte.
Naheliegend ist die nachstehende Formel (E(e)=0!)
Die positive Quadratwurzel führt zum Standardfehler der Residuen (Residual Standard Error)
25
Statistik 2 für SoziologInnen 49
© M
arcus Hudec
Regression
Konfidenzintervalle und Tests für Regressionskoeffizienten
2
1
2
1
2
2 ˆ)(
ˆ0
n
ii
n
ii
b
xxn
x
n
ii
b
xx1
2
22
)(
ˆˆ
1
Schätzung der Varianz der Regressionskoeffizienten
Interpretation:
Bei großen Werten von x ist die Variabilität der Konstanten ceteris paribus größer.
Je stärker die x-Werte streuen, desto geringer ist ceteris paribus die Streuung beider Koeffizienten
Statistik 2 für SoziologInnen 50
© M
arcus Hudec
Regression
Test für die Regressionskoeffizienten
Nullhypothese: bi=0
Interpretation: – b0=0 ... Geht die Regression durch den Ursprung?– b1=0 ... Ist die Steigung signifikant von Null verschieden?
Das entspricht im Fall der Einfachregression der zuvor diskutierten Fragestellung:Ist der Anteil der erklärten Varianz signifikant?
Hinweis: Vergleiche den p-value für die Steigung mit dem F-Test
Koeffizient Standardfehler t-Statistik P-Wert
b0 3,732 0,500 7,465 0,0017
b1 0,048 0,005 9,284 0,0007
1
2
2 2 2 2
1 1
2
ˆ 0,60 / 4 0,15
( ) 56.255 6 91,83 5.654,8
0,15ˆ 0,005
5.654,8
n n
i ii i
b
x x x nx
26
Statistik 2 für SoziologInnen 51
© M
arcus Hudec
Regression
Konfidenzintervall für den durchschnittlichen Prognosewert
1)tSY)Y(EtSY(Pii YiiYi
iY
ii
S
)Y(EYT
t-verteilt mit n-2 Freiheitsgraden
Für eine konkrete Stichprobe ergibt sich damit das folgende Konfidenzintervall für den durchschnittlichen Prognosewert (Vertrauensintervall)
ii YiiYi tsy)Y(Etsy
mitii xbby 10 und
2
ˆ2
1
( )1ˆ
( )i
inY
jj
x xs
n x x
Statistik 2 für SoziologInnen 52
© M
arcus Hudec
Regression
Prognoseintervall für individuellen Prognosewert Yi
1)tSYYtSY(P FiiFi
F
ii
S
YYT
t-verteilt mit n-2 Freiheitsgraden
Aus einer konkreten Stichprobe ergibt sich somit das folgende Konfidenzintervall für die Prognose eines bestimmten Einzelwertes an der Stelle xi:
FiiFi tsyYtsy
mitii xbby 10 und
2
2
1
( )1ˆ 1
( )
iF n
jj
x xs
n x x
27
Statistik 2 für SoziologInnen 53
© M
arcus Hudec
Regression
Anwendung im Beispiel
xi SF Prognose UG OG
se 0,388 50 0,4717 6,12828 4,818722 7,437843t: 2,78 55 0,4604 6,36793 5,089596 7,646264
60 0,4504 6,60758 5,357137 7,858018
65 0,4416 6,84723 5,621119 8,07333170 0,4342 7,08687 5,881326 8,29241975 0,4282 7,32652 6,137561 8,51547980 0,4237 7,56617 6,389658 8,74267785 0,4208 7,80582 6,637483 8,97414790 0,4194 8,04546 6,880947 9,20997995 0,4196 8,28511 7,120006 9,450214100 0,4214 8,52476 7,354668 9,694847105 0,4248 8,76441 7,584988 9,943822110 0,4297 9,00405 7,811069 10,19704115 0,4360 9,2437 8,033051 10,45435120 0,4438 9,48335 8,251113 10,71558
Prognoseintervall für Einzelwerte (individuelle Prognosewerte)
Statistik 2 für SoziologInnen 54
© M
arcus Hudec
Regression
Vertrauens- und Prognoseintervall
50 100 150 200
05
10
15
20
Leistung in kW
Kra
ftsto
ffve
rbra
uch
in l/
10
0km
VertrauensintervallPrognoseintervall
top related