forschungsstatistik i prof. dr. g. meinhardt ws 2006/2007 fachbereich sozialwissenschaften,...
TRANSCRIPT
![Page 1: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/1.jpg)
Forschungsstatistik IProf. Dr. G. Meinhardt
WS 2006/2007
Fachbereich Sozialwissenschaften, Psychologisches Institut
Johannes Gutenberg Universität Mainz
Stunde 11.01.07
![Page 2: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/2.jpg)
Themen der Stunde
• Merkmalszusammenhänge: Überblick und Gegenstand
• Zurückführen der Werte einer Variable auf eine andere: Regression
• Lineare Regression: Y = a X + b
![Page 3: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/3.jpg)
Merkmalszusammenhänge
• Univariate Statistik: Beschreibung von einzelnen statistischen Größen
• Bivariate Statistik: Beziehung zwischen 2 statistischen Variablen
• Merkmalszusammenhang: Es besteht ein Zusammenhang zwischen 2 Variablen X und Y, wenn die Werte von X mit den Werten von Y „einhergehen“, bzw. in gewissem Grad „korrespondieren“.
![Page 4: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/4.jpg)
Beispiele
• Gibt es einen Zusammenhang von Drogenkonsum und mentaler Leistungsfähigkeit?
• Kann man aus der Abinote die Note des Examens vorhersagen?
• Haben Raucher häufiger Lungenkrebs als Nichtraucher?
• Hängt der Therapieerfolg ab von einer positiven Einstellung zur Psychotherapie?
[Beispiel: Schuh-und Körpergröße, Test-Retest]
![Page 5: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/5.jpg)
Beispiel: Zusammenhang bei metrischen Daten
34
36
38
40
42
44
46
48
50
52
140 150 160 170 180 190 200
Körpergröße
Sch
uhgr
öße
Zusammenhänge von X und Y : Vorhersagbarkeit von Y aus X
70
80
90
100
110
120
130
70 80 90 100 110 120 130
Test (IQ)R
etes
t (I
Q)
![Page 6: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/6.jpg)
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)
Kein Zusammenhang der beiden Variablen Lungenkrebs (LK)und Rauchen (R) !
R+ R-
LK+ 125 125 250
LK- 125 125 250
250 250 500
![Page 7: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/7.jpg)
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)
Maximaler Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !
R+ R-
LK+ 250 0 250
LK- 0 250 250
250 250 500
![Page 8: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/8.jpg)
Themengebiet Regression & Korrelation
• Lineare Regression & Korrelation• Ausgleichspolynome n-ter Ordnung • Nichtlineare Regression:
a) auf lineare Regression zurückführbare Modelleb) echte nichtlineare Modelle
• Mehr als 2 Variablen: Multiple Regression & Korrelation
![Page 9: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/9.jpg)
Merkmalszusammenhänge
2.5 5 7.5 10 12.5 15 17.5X
5
10
15
20
25
30Y
8 10 12 14 16X
10
20
30
40
50
60Y
8 10 12 14 16X
10
20
30
40
50
60Y
Kein Zusammenhang positiver Zusammenhang negativer Zusammenhang
Für mindestens intervallskalierte Variablen erkennt man eine mögliche Beziehung im Scatterplot
![Page 10: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/10.jpg)
Näherungskurven
Näherungskurven können linear oder nichtlinear sein. Je mehrParameter sie haben, desto schmiegsamer sind die Kurven
![Page 11: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/11.jpg)
Zur Modellwahl
• Regressionsmodelle können exploratorisch oder prüfend gewählt werden
• Die Entscheidung über die Güte der Modellpassung wird anhand von Kennziffern der Vorhersageleistung getroffen
• Je mehr Parameter ein Modell hat, desto eher kann es komplizierteren Verläufen der Daten folgen und verschiedene Trends abbilden
• Vorhersageleistungen sind daher relativ zur Anzahl der freien Parameter zu bewerten
![Page 12: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/12.jpg)
Lineare Näherungskurve
• Lineare Näherung ist oft die zunächst einfachste• Gibt recht gut einen „Trend“ der Beziehung an: mehr geht oft nicht• Unterscheidung zwischen „empirischer“ und „theoretischer“ Näherungskurve
![Page 13: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/13.jpg)
Lineare Näherungskurve: Modellansatz
Die lineare Näherungskurve („Regressionsgerade“) wird so bestimmt, daß die Summe der quadrierten Abweichungen der Y Werte von derGeraden minimal werden („Kleinstquadratkriterium“)
0 1ˆi iy a a x Modell:
ˆ ˆi i ie y y Fehler:
ˆi i iy y e Datenerklärung:
Kriterium für die Parameterbestimmung
22
1 1
ˆ minN N
i i ii i
e y y
[Tafelrechnung: Bestimmung der Normalgleichungen für die Parameter a0 und a1]
![Page 14: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/14.jpg)
Die Normalgleichungen
Die Normalgleichungsregel führt für Polynome k-ter Ordnung stets auf dasselbe Gleichungssystem wie die Behandlung des Minimierungsproblems
20 1 2 2ˆ k
i i k ky a a x a x a x Modell:
Regel: Multipliziere jede Seite der Gleichung nacheinander mit 1, x, x2,...,xk
und summiere über die N- Fälle
Für k = 1 (lineare Regression) ergibt das:
0 11 1
20 1
1 1 1
(1)
(2)
N N
i ii i
N N N
i i i ii i i
y a N a x
x y a x a x
![Page 15: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/15.jpg)
Die Koeffizienten a0 und a1
Die Steigungskonstante a1 ergibt sich als Quotient der sog. Kovarianzund der Varianz der Variable x.
1 1 1
1 22
1 1
1
1
N N N
i i i ii i i
N N
i ii i
x y y xNa
x xN
Auflösen des Normalgleichungssystems nach a1 ergibt:
1
,Cov x ya
Var x
[Tafelbehandlung]
![Page 16: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/16.jpg)
Die Koeffizienten a0 und a1
Der Schnittpunkt a0 läßt sich direkt aus der Steigungskonstanten und denbeiden Mittelwerten errechnen
0 11 1
1
1 1N N
i ii ia y a x
N Ny a x
Auflösen des Normalgleichungssystems nach a0:
![Page 17: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/17.jpg)
Varianzzerlegung
Für die lineare Regression gilt die additive Varianzzerlegung
Die Kriteriumsvarianz ist die Summe aus Vorhersagevarianz und Fehlervarianz
![Page 18: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/18.jpg)
Determinationskoeffizient
Wegen der Varianzzerlegung
Der Determinationskoeffizient gibt den Anteil der erklärten Varianz an der gesamten Kriteriumsvarianz an.
gilt
Man definiert
als Determinationskoeffizient
![Page 19: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/19.jpg)
Determinationskoeffizient
Der Anteil der erklärten Varianz ist der Anteil der quadrierten Kovarianzan dem Produkt der beiden Varianzen.
Ferner gilt (s. Steigungsdreieck)
ˆi i iy y a x x Und daher
21ˆVar y a Var x
Woraus man
für den Determinationskoeffizienten erhält
22 ,
1Var e Cov x y
rVar y Var x Var y
![Page 20: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/20.jpg)
Standardschätzfehler
Der Standardschätzfehler beschreibt die Streuung um die Regressionsgerade. Er ist definiert als Anteil an der Streuung des Kriteriums, der zulasten der „Unzuverlässigkeit“ geht.
gilt
21Var e r Var y
Wegen
2 1Var e
rVar y
und daher
21e ys s r
![Page 21: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/21.jpg)
Regression X aus Y
Ansatz
Koeffizienten
Die Regressionsgerade „X aus Y“ (grau) minimiert den Vorhersagefehler in X- Richtung. Man erhält die Koeffizienten der Geraden durch Vertauschen von X und Y und Lösen den Normalgleichungen. Beide Geraden schneiden sich im Punkt ,X Y
[Tafel]
![Page 22: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/22.jpg)
Abweichungswerte
Ansatz
Geraden
Bei Abweichungswerten fällt die additive Konstante weg. Beide Geraden schneiden sich im Nullpunkt , 0,0u v
[Tafel]
i
i
u x x
v y y
1
1
ˆ
ˆ 'i i
i i
v a x
u a y
![Page 23: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/23.jpg)
z - Werte
Die Covarianz von z- standardisierten Variablen ist der sog. Pearson – Produkt – Moment Korrelationskoeffizient
Die Covarianz von z- Werten ist:
1
1
1
1,
1
1
i i
i i
N
x y x x y yi
N
x yi
Ni i
i x y
xy
Cov z z z z z zN
z zN
x x y y
N s s
r
[Tafel]
Geraden:
y
x
y z x
x z y
z z
z z
![Page 24: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/24.jpg)
z - Werte
Die Geradensteigung bei z- standardisierten Variablen ist der Pearson – Produkt – Moment Korrelationskoeffizient. Beide Regressionsgeraden fallen zusammen, es gibt nur noch eine.
Die Geradensteigung bei z- Werten ist:
1
1
1
1, ,
1 1
1
1
i i
y y
i i
N
x x y yx y x y i
z zx x
N
x yi
Ni i
i x y
xy
z z z zCov z z Cov z z NVar z Var z
z zN
x x y y
N s s
r
-3 -2 -1 1 2 3
zX
-3
-2
-1
1
2
3z Y
![Page 25: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz](https://reader035.vdokument.com/reader035/viewer/2022070310/55204d6449795902118b9cd4/html5/thumbnails/25.jpg)
Der Produkt-Moment-Korrelationskoeffizient
1
2 2
1 1
1,
1 1
N
i ii
xy N Nx y
i ii i
x x y yCov x yN
rs s
x x y yN N
Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen an.
1 1xyr für seinen Wertebereich.Es gilt:
Er ist invariant gegenüber linearen Transformationen