methodenlehre ii, sose 2015 - ruhr-uni-bochum.de · methodenlehre ii, sose 2015 holger dette 1....
TRANSCRIPT
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Methodenlehre II,SoSe 2015
Holger Dette
Ruhr-Universitat Bochum
7. Juni 2015
1 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Methodenlehre II
I Prof. Dr. Holger DetteI NA 3/73I Telefon: 0234 322 8284I Email: [email protected] Internet: http://www.ruhr-uni-bochum.de/mathematik3/
http://www.ruhr-uni-bochum.de/mathematik3/dette.htmlI Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10I Thema: Das allgemeine lineare Modell und seine Anwendungen
in der Psychologie
2 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Statistik-Team
I Ubung: Dienstag, 12.15–13.15 Uhr, HZ0 70Ria Van Hecke; [email protected]
I Tutorium: SPSSI Maxi Godel::
Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO03/974
I Pia Brinkhaus:Di 10:00-12:00 in UFO 01/06
I Ricarda Weiland:Mo 14:00-16:00 in GAFO 02/368Di 08:00-10:00 in GAFO 02/368
I Phillip Ozimek:Do 14:00-16:00 in GAFO 03/901
I Malte Kobelt:Do 14:00-16:00 in GAFO 03/974
3 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
E-Learning
Zur Unterstutzung von Vorlesung und Ubung gibt es einenBlackboardkurs:
I Kurs-ID: 112131-ss15I Kursbezeichnung: ”Statistische Methodenlehre II“I Passwort: mlehre2.
Dort gibt es:I Folien zu Vorlesung und Ubung,I Ubungsaufgaben und Tests, mit denen Bonuspunkte fur die
Klausur erzielt werden konnen undI (zum Semesterende) eine Probeklausur.
4 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Das allgemeine lineare Modell:
”Ein mathematisches Modell - viele statistischeVerfahren“
Inhaltsverzeichnis
1. Grundlegende Prinzipien der schließenden Statistik am Beispieldes t-Tests
2. Das lineare Regressionsmodell, multiple Regression undKorrelation
3. Das ”allgemeine“ lineare Modell
5 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Literatur
A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,5th Edition, Pearson Prentice Hall
J. Bortz, Statistik, 6. Auflage, Springer
M. Rudolf, J. Muller, Multivariate Verfahren, Hogrefe
P. Zofel, Statistik fur Psychologen, Pearson Studium
6 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1. Grundlegende Prinzipien der schließendenStatistik am Beispiel des t-Tests
1.1 Schatzer und Konfidenzintervalle
1.2 t-Test fur eine Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
7 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.1 Schatzer und Konfidenzintervalle
8 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beurteilende Statistik
----
:Spezielle Verteilungen
ti:i• .., ...-i _ ...-i C'l
-.r.. lfJ
",':: ...-i
I :::... 0
'? :::: Ci)
-" >=1". - J \ 0,....,(• Ci) , t:: ..-'<: ( q
"it I 8 I
VI b.O-..; 'Z N _ I ' 2 V
8 80Cl
I
----.. -'-
N - :- 1 N
...-i1C'l - I
'> ...-i - C'l b
11 .-...
. N ""-' '-" '--, S-
I b.O"B I >=1C\l ......, ;:l 'ij C\l :;:::
-0 >=1 S 2 C\l _ "'"" 0 Q)
;;. lfJ>=1:>
111 BEURTEILENDE STATISTIK
So, wenn Ihr es bis zu diesem Punkt geschafft und1 wirklich alles verstanden habt, dann könntet Ihr Euch nun entspannt zurücklehnen und die beurtei-lende Statistik komplett auf Lücke setzen: Denn Ihr habt schon jetzt genug Statistikwissen, um die zum Bestehen notwendige Punktzahl zu erreichen. Falls Ihr Euch aber dessen nicht so sicher seid oder falls Ihr einfach mehr wollt als "nur bestehen", so solltet Ihr aufmerksam die nächsten Seiten lesen, denn oft gibt es bei diesem Thema richtig viele Punkte abzusahnen. In den letzten Kapiteln haben wir uns mit Zufallsvariablen, Wahrscheinlich-keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei die Parameter der Verteilungen bekannt und man konnte unmittelbar losle-gen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt sind. In solch einer Situation kann man mit der beurteilenden Statistik - aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits-
" U8ER. PliS LJoUfl.J (JI.!!) Wil<. HI/BEI.! WiR. WAS /.JiSSHJ: lJin ,zOM
iT, f:rJf()lIlTIOIJ
'KüoCSCHwsr G.iGEA/S(j{ltfrEN J)'(fi{,E#./SCI(I/ PT!/..) J)ff( <1 X
GROM l>6lJ Af,rTHEi" i.X)'-
1 gemeinsam mit Herrn Dr. Romberg.
221
(Oestreich & Romberg, 2012)
9 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.1 Beispiel: IntelligenzquotientFragestellung: Haben (15-jahrige) Kinder aus Bochum einenhoheren Intelligenzquotienten als 100?
I 10 Kinder (zufallig ausgewahlt) machen einen IQ-TestDaten: y1, . . . , y10 Stichprobe
i 1 2 3 4 5yi 104 98 106 99 110i 6 7 8 9 10yi 107 100 97 108 112
I Hypothese (IQ der Kinder ist niedriger als 100):
H0 : µ ≤ 100
Alternative (IQ ist hoher als 100):
H1 : µ > 100
Dabei ist µ der (unbekannte) Erwartungswert derGesamtpopulation der (15-jahrigen) Kinder aus Bochum
10 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Prinzip der schließenden Statistik
Auf Grund der Stichprobe y1, . . . , y10 sollen Aussagen uber dasMerkmal der Grundgesamtheit getroffen werden. Zum Beispiel
I Wie groß ist µ (Schatzung)?
I Kann man ein Intervall bestimmen, in dem µ liegt(Konfidenzintervall)?
I Gilt
H0 : µ ≤ 100 (IQ ist nicht hoher)
oder gilt
H1 : µ > 100 (IQ ist hoher)?
(statistischer Test)
11 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Grundlegende Schwierigkeit:
I µ ist der Erwartungswert der Population der 15-jahrigen KinderI Auf Basis der Stichprobe soll auf die Grundgesamtheit
geschlossen werden−→ Fehler, Unsicherheiten sind moglich!
I Beispiel: ”zufallig“ wahlen wir 5 hochbegabte Kinder (IQ ≥ 130)fur die Stichprobe aus. Vermutlich wird dadurch µ uberschatzt!
I Ziel der schließenden Statistik:Quantifizierung der Unsicherheit, z. B.mit welcher Wahrscheinlichkeit macht ein statistischer Testeinen Fehler, falls (aufgrund von Daten) fur H1 (IQ ist hoher als100) entschieden wird, obwohl in Wirklichkeit H0 gilt?
I Notwendig fur diese Quantifizierung:Mathematische Modellannahmen
12 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Zusatzliche Modellannahme: Normalverteilung
I Allgemein gangige Annahme: Intelligenz in einer bestimmtenAltersgruppe der Bevolkerung ist normalverteilt
ϕ(x) =1√
2πσ2exp
(−1
2 (x − µσ
)2)
µ : Erwartungswertσ2 : Varianz
I Deutung: Ist Y der IQ eines zufallig aus der Populationausgewahlten Individuums, so gilt
P(a ≤ Y ≤ b) =
∫ b
aϕ(x)dx
I Diese Modellannahme sollte man stets rechtfertigen (wie mandas machen kann, sehen wir spater)
13 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Interpretation der Wahrscheinlichkeiten:
a b
I Die Wahrscheinlichkeit, dass eine Beobachtung zwischen denWerten a und b liegt, entspricht der Flache unter der Kurve imIntervall [a, b].
I In Formeln:P(a ≤ Y ≤ b) =
∫ b
aϕ(x)dx
14 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Verschiedene Normalverteilungen N(µ, σ2)
Dichten der Normalverteilung mit verschiedenen Parametern
-4 -2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
0.5
N(0,0.707)N(0,1)N(1,1.25)N(2,2)
I µ: ErwartungswertI σ2: VarianzI Beachte: unter jeder Kurve ist die Flache genau 1
15 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Motivation der Modellannahme derNormalverteilung
16 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Zusatzliche Modellannahme: NormalverteilungI Mathematisches Modell (hier n = 10): y1, . . . , yn sind
Realisierungen von Zufallsvariablen
Yi = µ+ εi , i = 1, . . . , n
I yi : IQ-Messung fur i-tes Kind(Realisation der Zufallsvariablen Yi )
I µ: (unbekannter) Erwartungswert der Population(hier der 15-jahrigen Kinder aus Bochum)
I ε1, . . . , εn: unabhangige Zufallsvariable, normalverteilt mitErwartungswert 0 und Varianz σ2.Interpretation: Messfehler, genetische Variabilitat, Tagesform ...
I Mathematische Statistik z. B. Maximum Likelihood (in diesemBeispiel auch der gesunde Menschenverstand) liefert Schatzerfur µ:
µ = y · =1n
n∑i=1
yi = 104.1
I Wie genau ist diese Schatzung? Wie sehr streut dieseSchatzung?
17 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Zusatzliche Modellannahme: NormalverteilungI Maß fur die Genauigkeit: Varianz (je kleiner die Varianz, desto
”genauer“ die Schatzung)I Mathematische Statistik (Methodenlehre I): die Varianz des
Schatzers µ ist:
Var(µ) =σ2
nI Beachte:
I Je großer der Stichprobenumfang n, desto kleiner die Varianzvon µ. D.h. desto genauer ist die Schatzung.
I Fur die Beurteilung der Genauigkeit muss man die Varianz σ2
der Population kennen.
I Mathematische Statistik: Schatzung fur den Parameter σ2
σ2 =1
n − 1
n∑i=1
(yi − y ·)2 = 28.32
σ2µ =
σ2
n = 2.832
18 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Zusatzliche Modellannahme: NormalverteilungI Oft wird der Schatzer zusammen mit dem Standardfehler
angegeben
µ = 104.1µ+ σµ = 105.78µ− σµ = 102.42
I σµ = σ√n =
√σ2
n = 1.683 ist der Standardfehler des Schatzersµ (Schatzung fur Streuung des arithmetischen Mittels)
I σ = 5.322 ist die aus den Daten geschatzteStandardabweichung (Schatzung fur die Streuung einereinzelnen Beobachtung)
I Deutung: Vor der Datenerhebung ist µ zufallig. Falls dieNormalverteilungsannahme korrekt ist, ist auch µ normalverteiltmit:
- Erwartungswert µ- Varianz σ2
n
19 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
40 60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
x
Dic
hte
40 60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
x
40 60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
Verschiedene Normalverteilungen
x
Y1 ~ N (104.1, 28.32)
((Y1 ++ Y2)) 2 ~ N (104.1, 28.32/2)
((∑∑i==1
10Yi)) 10 ~ N (104.1, 2.832)
40 60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
x
Dic
hte
40 60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
x
20 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.2 Schatzverfahren (Erwartungswert einer Populationunter Normalverteilungsannahme)
I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µ
I Rechtfertigung der Unabhangigkeits- undNormalverteilungsannahme
I µ = 1n∑n
i=1 yi Schatzung fur den Erwartungswert µ derPopulation
I σ2 = 1n−1
∑ni=1(yi − y ·)2 Schatzung fur die Varianz der
Population (σ Schatzung fur die Standardabweichung)
I σ2µ = σ2
n Schatzung fur die Varianz von µ
I Schatzung fur den Standardfehler von µ : σµ =√
σ2
n = σ√n
21 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output: die Schatzer fur die Daten ausBeispiel 1.1 (Intelligenzquotient)
Statistik StandardfehlerStatistik Statistik Statistik
VarianzStandardabweichungMittelwertN
Intelligenzquotient
Gültige Werte (Listenweise) 10
28,3225,3221,683104,1010
Deskriptive Statistik
µ = 104.1(Mittelwert)σµ = 1.683(Standardfehler)σ2 = 28.322(empirische Varianz)σ = 5.322(Standardabweichung)
22 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output: die Schatzer fur die Daten ausBeispiel 1.1 (Intelligenzquotient)
V1
median 105.0000000
mean 104.1000000
SE.mean 1.6829207
CI.mean .0.95 3.8070312
var 28.3222222
std.dev 5.3218627
coef.var 0.0511226
23 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beachte:I
µ =1n
n∑i=1
yi ; σ2 =1
n − 1
n∑i=1
(yi − y ·)2 ; σµ =
√σ2
n
hangen von den Daten y1, . . . , yn ab (sind also vorDatenerhebung zufallig)
I (µ− a σµ, µ+ a σµ
)ist (vor der Datenerhebung) ein zufalliges Intervall, das miteiner bestimmten Wahrscheinlichkeit den Erwartungswert µenthalt
a −→ 0 =⇒Wahrscheinlichkeit ≈ 0a −→∞ =⇒Wahrscheinlichkeit ≈ 1
I Gesucht: zufalliges Intervall, das den unbekanntenErwartungswert mit einer vorgegebenen Wahrscheinlichkeitenthalt: Konfidenzintervall
24 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Das KonfidenzintervallI Gebe eine Wahrscheinlichkeit 1− α vor (z. B. 1− α = 95%)I Bestimme a so, dass das zufallige Intervall
(µ− a σµ, µ+ a σµ)
den Parameter µ mit Wahrscheinlichkeit 1− α enthalt.I Mathematische Statistik liefert
a = tn−1,1−α2
(1− α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden
I Diese Werte sind tabelliert oder durch Software verfugbar.I Das Intervall
I =(µ− tn−1,1−α2 σµ, µ+ tn−1,1−α2 σµ
)heißt (1− α) Konfidenzintervall fur µ.
25 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Verschiedene t-Verteilungen
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
t t t
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
100
4
1
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
fn(t) =1√πn
Γ((n + 1)/2)
Γ(n/2)
(1 +
t2
n
)−(n+1)/2
26 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Das Quantil der t-Verteilung mit nFreiheitsgraden
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Dichte der t4 -Verteilung
t 4, 0.95 = 2.132
0.95
P(T4 ≤ t4,0.95) =
∫ t4,0.95
−∞f4(t)dt = 0.95
27 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beispiel 1.3 (Fortsetzung von Beispiel 1.1)
I Berechnung eines 90% Konfidenzintervalls fur µ
I n = 10, µ = 104.1, σ2 = 28.32I α = 10%
I (aus Tabelle bzw. Software) t9,0.95 = 1.833I 90% Konfidenzintervall fur µ = (101.02, 107.18)
I Beachte:I Ein (1− α)-Konfidenzintervall ist ein ”zufalliges“ Intervall, das
den (unbekannten) Erwartungswert mit Wahrscheinlichkeit1− α enthalt.
I Die Aussage ”das Intervall (101.02, 107.18) enthalt denunbekannten Erwartungswert der Population mitWahrscheinlichkeit 90%“ hat keinen Sinn!
28 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Erklarung des Begriffs ”zufalliges“ Intervall durchein ”fiktives“ Experiment
I Annahme: das Experiment (Untersuchung des IQ von 10Kindern) kann N mal (unabhangig) wiederholt werden (z. B.1000 mal)
I jeweils 10 Daten liefern ein (1− α)-Konfidenzintervall(z. B. 95 % Konfidenzintervall)Datensatz 1 −→ Konfidenzintervall I1Datensatz 2 −→ Konfidenzintervall I2
...Datensatz N −→ Konfidenzintervall IN
I ca. (1− α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den(unbekannten) Erwartungswert µ der Population
29 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.4 Konfidenzbereich fur den Erwartungswert einer Po-pulation unter Normalverteilungsannahme
I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µ
I Rechtfertigung der Unabhangigkeits- undNormalverteilungsannahme
I Bestimme das tn−1,1−α2 Quantil der t-Verteilung mit n − 1Freiheitsgraden (aus Tabelle oder Software)
I Das Intervall
(µ− tn−1,1−α2 σµ, µ+ tn−1,1−α2 σµ)
ist ein (1− α) Konfidenzintervall fur µ
I In vielen Softwarepaketen erhalt man direkt dasKonfidenzintervall als Ausgabe (z. B. in SPSS)
30 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output: Konfidenzintervall fur die Datenaus Beispiel 1.1 (Intelligenzquotient)
MittlereDifferenzSig. (2-seitig)dfT ObereUntere
90% Konfidenzintervall der Differenz
Testwert = 100
Intelligenzquotient 7,181,024,100,03892,436
Test bei einer Sichprobe
Beachte:
I SPSS liefert nur ein Konfidenzintervall fur die Differenz µ− 100=⇒ 90% Konfidenzintervall fur den Erwartungswert µ
(101.02, 107.18)
31 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output: Konfidenzintervall fur die Daten ausBeispiel 1.1 (Intelligenzquotient)
One Sample t-test
data: IQ
t = 2.4362 , df = 9, p- value = 0.0376
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
32 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.2 t-Test fur eine Stichprobe
33 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beispiel 1.5 (Fortsetzung von Beispiel 1.1)
Frage: Ist der IQ der Kinder aus Bochum hoher als 100?
H0 : µ ≤ 100 H1 : µ > 100
H0 nennt man Nullhypothese und H1 heißt Alternative.I Intuitiv wurde man fur H1 entscheiden, falls der Mittelwert der
Stichprobe
µ =1
10
10∑i=1
yi
”groß“ istI Beachte: µ andert sich, falls man die Daten anders skaliert!I Besser: entscheide fur H1, falls µ groß im Verhaltnis zu dem
Standardfehler σµ ist (Invarianz bzgl. unterschiedlicherSkalierungen)
34 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls
T =µ− 100σµ
> c
Fragen:I Wie legt man den kritischen Wert c fest?
I Bei dem Verfahren konnen 2 Fehler auftreten
I Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohlH0 in Wirklichkeit stimmt (d. h. der IQ ist nicht hoher als 100)
I Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ isthoher als 100)
Ziel: ”kleine“ Wahrscheinlichkeiten fur Fehler erster und zweiter Art
35 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Grundlegendes Prinzip der TesttheorieI Der kritische Wert c wird festgelegt, indem man eine maximal
tolerierbare Wahrscheinlichkeit α fur einen Fehler erster Artvorgibt (α-Fehler)!
I Diese Wahrscheinlichkeit heißt Niveau des Tests.I Damit hat man keine Kontrolle uber die Wahrscheinlichkeit eines
Fehlers zweiter Art (β-Fehler)I Z. B. soll die Wahrscheinlichkeit fur Fehler erster Art maximalα = 5% = 0.05 sein.
=⇒ (mathematische Statistik, Tabelle, Software)
n = 10, c = tn−1,1−α = t9,0.95 = 1.833
T =µ− 100σµ
=104.1− 100√
2.832= 2.436 > 1.833
D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%zu Gunsten der Alternative H1 : µ > 100 verworfen(signifikantes Ergebnis zum Niveau 5 %)
36 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Erklarung des Begriffs Niveau durch ein ”fiktives“Experiment
I Annahme: Das Experiment (Untersuchung des IQ von 10Kindern) kann N mal (unabhangig) wiederholt werden (z. B.1000 mal)
I jeweils 10 Daten liefern ein Ergebnis fur den Test zum Niveau α(z.B. Niveau 5 %)Datensatz 1 −→ Testergebnis 1Datensatz 2 −→ Testergebnis 2
...Datensatz N −→ Testergebnis N
I Falls die Nullhypothese H0 : µ ≤ 100 ”wahr“ ist, so wirdmaximal in ca. αN (z. B. 5% 1000 = 50) Fallen fur dieAlternative
H1 : µ > 100
entschieden.
37 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Fehler erster und zweiter Art
in der Population giltH0 H1
Entscheidung auf- richtige β-Fehlergrund der Stich- H0 Entscheidungprobe zugunsten richtigevon: H1 α-Fehler Entscheidung
Beachte:
I Die Wahrscheinlichkeiten fur α-Fehler und β-Fehler verandernsich gegenlaufig.
I Bei festem Niveau (Wahrscheinlichkeit fur α-Fehler) kann dieWahrscheinlichkeit fur einen β-Fehler durch Vergroßerung desStichprobenumfangs verkleinert werden.
I Bei festem Stichprobenumfang wird ”nur“ der Fehler erster Artkontrolliert.
38 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Die Verteilung von T falls µ = 100 ist.
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Dichte der t9 -Verteilung
α = 5 %
p– Wert
t 9, 0.95 = 1.833 T n = 2.436
I Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls Tgroßer als der kritische Wert ist)
I Blaue Flache: Niveau (α)I Rote Flache: p-Wert: Wahrscheinlichkeit einen Wert großer als
2.436 zu beobachten: P(T > 2.436) = 0.0188I Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird
H0 abgelehnt (signifikantes Ergebnis)39 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Testverfahren fur den Erwartungswert einerStichprobe unter Normalverteilungsannahme
1.6 Einstichproben t-Test fur rechtsseitige Hypothesen
I Hypothesen: H0 : µ ≤ µ0 ; H1 : µ > µ0 (rechtsseitigeHypothese)
I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und
NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls
T =µ− µ0σµ
> tn−1,1−α
gilt, bzw. falls der p-Wert < α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ
40 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Vertauschen der Hypothesen
1.7 Einstichproben t-Test fur linksseitige Hypothesen
I Hypothesen: H0 : µ ≥ µ0 ; H1 : µ < µ0 (linksseitigeHypothese)
I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und
NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls
T =µ− µ0σµ
< −tn−1,1−α = tn−1,α
gilt, bzw. falls der p-Wert < α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ
41 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Tests fur zweiseitige Hypothesen
1.8 Einstichproben t-Test fur zweiseitige Hypothesen
I Hypothesen: H0 : µ = µ0 ; H1 : µ 6= µ0 (zweiseitigeHypothese)
I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und
NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls
|T | = | µ− µ0σµ
| > tn−1,1−α/2
gilt, bzw. falls der p-Wert kleiner als α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ
42 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Die Verteilung von T , falls µ = 100 ist.
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
α = 2,5 % α = 2,5 %
p– Wert p– Wert
Dichte der t9 -Verteilung
t 9, 0.975 = 2.262 T n = 2.436 t 9, 0.025 = -2.262 -T n = -2.436
I Blaue Flache: Niveau α; Rote Flache: p-Wert(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betraggroßer als 2.436 ist P(|T | > 2.436) = 0.038
I Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wirdH0 abgelehnt!
43 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output bei Anwendung des t-Tests auf dieDaten aus Beispiel 1.1 (Intelligenzquotient)
MittlereDifferenzSig. (2-seitig)dfT ObereUntere
90% Konfidenzintervall der Differenz
Testwert = 100
Intelligenzquotient 7,181,024,100,03892,436
Test bei einer Sichprobe
Beachte:
I SPSS liefert nur den p-Wert fur den zweiseitigen t-Test ausBeispiel 1.8!
I Den p-Wert fur den einseitigen Test erhalt man als0.038/2 = 0.019.
44 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output bei Anwendung des t-Tests auf dieDaten aus Beispiel 1.1 (Intelligenzquotient)
One Sample t-test
data: IQ
t = 2.4362 , df = 9, p- value = 0.0376
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
45 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beispiel: t-Test fur den Vergleich von zwei
”verbundenen“ Stichproben
I Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8vorgestellten Verfahren besteht in dem Vergleich von
”verbundenen“ Stichproben (vorher - nachher Untersuchungen)I Beispiel: Untersuchung der Einstellungen von 9 Jungen
gegenuber neutralen Personen vor und nach einemFrustrationserlebnis (Sundenbockfunktion).
VPn 1 2 3 4 5 6 7 8 9Einstell- vorher 38 32 33 28 29 37 35 35 34ung nachher 33 28 34 26 27 31 32 36 30
∆ -5 -4 1 -2 -2 -6 -3 1 -4
46 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Prinzip: ”Differenzenbildung“I Prinzip:
I Falls kein Unterschied zwischen den Einstellungen vor und nachdem Frustrationserlebnis besteht sollten die Differenzen (nachher- vorher) ”klein“ sein.
I Durch Differenzenbildung (nachher - vorher) erhalt man die
”Daten“ ∆1, . . . ,∆9I Rechtfertigung der Voraussetzungen fur den t-Test aus 1.8 fur
diese ”Daten“.I Wende den t-Test fur eine Stichprobe auf die ”Daten“
∆1, . . . ,∆9 an und teste die Hypothesen
H0 : µ = 0, H1 : µ 6= 0
I Wegen
|T | =
∣∣∣∣−2.6670.816
∣∣∣∣ = 3.27 > 2.31 = t8,0.975
besteht zum Niveau α = 0.05 ein signifikanter Unterschied.
47 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output: t-Test fur gepaarte Stichproben
Standardfehlerdes Mittelwertes
Standard-abweichungNMittelwert
vorher
nachher
Paaren 1
1,1153,346930,78
1,1193,358933,44
Statistik bei gepaarten Stichproben
SignifikanzKorrelationN
vorher & nachherPaaren 1 ,025,7339
Korrelationen bei gepaarten Stichproben
Standardfehlerdes Mittelwertes
Standard-abweichungMittelwert ObereUntere
95%Konfidenzintervall
der Differenz
Gepaarte Differenzen
vorher - nachherPaaren 1 4,550,784,8162,4492,667
Test bei gepaarten Stichproben
Sig.(2-seitig)dfT
vorher - nachherPaaren 1 ,01183,266
Test bei gepaarten Stichproben
48 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output: t-Test fur gepaarte StichprobenMittelwert Standardabweichung SA des Mittelwerts
vorher 33.44444 3.35824 1.119413
nachher 30.77778 3.34581 1.115270
One Sample t-test
data: Differenzen
t = 3.266 , df = 8, p- value = 0.01142
alternative hypothesis : true mean is not equal to 0
95 percent confidence interval :
0.7838222 4.5495112
sample estimates :
mean of x
2.666667
Pearson ’s product - moment correlation
data: vorher and nachher
t = 2.8511 , df = 7, p- value = 0.02465
alternative hypothesis : true correlation is not equal to 0
95 percent confidence interval :
0.1342322 0.9396851
sample estimates :
cor
0.7330087
49 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.9 Bemerkungen (zu den statistischen Verfahren1.2, 1.4, 1.6, 1.7, 1.8)
I Mathematische Statistik⇒ unter der Normalverteilungsannahmesind alle hier vorgestellten Verfahren optimal
I Die Normalverteilungsannahme kann (und sollte) manrechtfertigen. Mogliche Verfahren sind:
I statistische Tests fur die Hypothese
H0 : Y1, . . . ,Yn normalverteilt
In SPSS ublich sind- Kolmogorov-Smirnov-Test- Shapiro-Wilk Test
I Explorative Verfahren. In SPSS ublich: QQ-Plot
I Besteht die Normalverteilungsannahme diese Uberprufung nicht,so sind z. B. nichtparametrische Verfahren anzuwenden.
50 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS Output: QQ-Plot fur die Daten ausBeispiel 1.1
Beobachteter Wert
11511010510095
Erw
arte
ter
Wer
t vo
n N
orm
al
115
110
105
100
95
Q-Q-Diagramm von Normal von Intelligenzquotient
51 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R Output: QQ-Plot fur die Daten aus Beispiel 1.1
●
●
●
●
●
●
●
●
●
●
100 105 110
9510
010
511
0
Beobachteter Wert
Erw
arte
ter
Wer
t
52 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Der QQ-PlotI Unter der Modellannahme gilt: die Großen Yi sind normalverteilt
mit Erwartungswert µ und Varianz σ2
I Der QQ-Plot vergleicht grafisch die empirischen Quantile der”Daten“ y1, . . . , yn mit den Quantilen der Normalverteilung mitErwartungswert µ und Varianz σ2.(1) 1/n-Quantil der Stichprobe y1, . . . yn =⇒ kleinste der
Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)(1− 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µund Varianz σ2 =⇒ (im Beispiel 1.1 istz(1) = 104.1− 1.64 · 5.32 = 95.37)1
(2) 2/n-Quantil der Stichprobe y1, . . . , yn =⇒ zweitkleinste derBeobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)(2− 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µund Varianz σ2 =⇒ (in Beispiel 1.1 istz(2) = 104.1− 1.04 · 5.32 = 98.57)
(3) usw.I Der QQ-Plot ist das Streudiagramm der Daten
(y(1), z(1)), . . . , (y(n), z(n))I In in vielen Fallen enthalt dieses Diagramm noch die
Winkelhalbierende des entsprechenden Quadranten.1http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf 53 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.3 Zweistichprobenprobleme
54 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.10 Beispiel: Erkennen von Zahlenreihen
I Studierende der Fachrichtungen Mathematik (M) undPsychologie (P) machen einen Zahlengedachtnistest
I Wie viele Ziffern konnen sich maximal gemerkt werdenI Wiedergabe in Original und umgekehrter Reihenfolge
I Daten (P. Zofel: Statistik fur Psychologen)
M 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16M 14 17 15 13 16 13P
I Frage: Haben Studierende der Mathematik ein besseresZahlengedachtnis als Studierende der Psychologie?
55 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Mathematisches Modell (n1 = 14, n2 = 8)
I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i(Mathematik: i = 1, Psychologie i = 2)
µi : unbekannter Erwartungswert in der Population i(Mathematik: i = 1, Psychologie: i = 2)
εij : Messfehler, Tagesform ...
ni : Stichprobenumfang in Gruppe i
I Normalverteilungs- und UnabhangigkeitsannahmeI in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit
Erwartungswert µi und Varianz σ2i vor
I in jeder Gruppe sind die Beobachtungen unabhangigI unabhangige Stichproben
56 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SchatzerI Schatzer werden wie in 1.2 fur jede Gruppe durchgefuhrt
Mathematiker (i = 1): µ1 = y 1· = 1n1
∑n1j=1 y1j = 14.64
σ21 =
1n1 − 1
n1∑j=1
(y1j − y 1·)2 = 3.94⇒ σµ1 =
√σ2
1n1
= 0.53
Psychologen (i = 2): µ2 = y 2· = 1n2
n2∑j=1
y2j = 13.75
σ22 =
1n2 − 1
n2∑j=1
(y2j − y 2·)2 = 4.79⇒ σµ2 =
√σ2
2n2
= 0.77
I Auch Konfidenzbereiche werden gruppenweise bestimmtz. B. ist unter Normalverteilungsannahme(
µ1 − tn1−1,1−α2 σµ1 , µ1 + tn1−1,1−α2 σµ1
)ein 90% Konfidenzintervall fur µ1. Fur das spezielleDatenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (ausTabelle)](13.70, 15.58) als 90% Konfidenzintervall fur µ1
57 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output fur die Daten aus Beispiel 1.10
Schatzer fur die Parameter in den einzelnen Gruppen
VarianzMittelwertMathematik
Psychologie
Insgesamt 4,22714,32
4,78613,75
3,94014,64StudienfachStudienfach
Gemerkte Zahlen
Beachte:I SPSS liefert hier die Schatzer fur Erwartungswert und Varianz
der einzelnen GruppenI SPSS liefert außerdem Schatzer fur Erwartungswert und Varianz
der gesamten Stichprobe
58 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output fur die Daten aus Beispiel 1.10
Schatzer fur die Parameter in den einzelnen Gruppen
Mittelwert Varianz
Mathematik 14.64286 3.939560
Psychologie 13.75000 4.785714
Insgesamt 14.31818 4.227273
59 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Tests zum Vergleich der Erwartungswerte
I Nullhypothese: Zahlengedachtnis der Psychologiestudenten istnicht schlechter als das der Mathematikstudenten
H0 : µ1 ≤ µ2
I Alternative: Zahlengedachtnis der Mathematikstudenten istbesser als das der Psychologiestudenten
H1 : µ1 > µ2
I Rezept: Verwerfe die Nullhypothese H0 zu Gunsten derAlternative H1, falls die Differenz
y 1· − y 2·
der Schatzer fur die Erwartungswerte ”groß“ ist.
60 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Rezept im Fall von Varianzhomogenitat, d. h.(σ2
1 = σ22)
I Verwerfe H0 zu Gunsten von H1, falls y 1· − y 2· ”groß“ ist.I Normiere diese Große mit einem Schatzer fur die Standardfehler
der Mittelwertdifferenz:I σµ1−µ2 =
√( 1
n1+ 1
n2)σ2
I σ2 = 1n1+n2−2{(n1 − 1)σ2
1 + (n2 − 1)σ22}: Schatzer fur Varianz
(die in beiden Gruppen dieselbe ist)I Entscheide fur die Alternative H1 : µ1 > µ2, falls
Tn1,n2 =y 1· − y 2·σµ1−µ2
> tn1+n2−2,1−α
gilt. Dabei ist tn1+n2−2,1−α das (1− α)-Quantil der t-Verteilungmit n1 + n2 − 2 Freiheitsgraden
I Im Beispiel ergibt sich fur einen Test zum Niveau α = 5%
σ2 = 4.24, t20,0.95 = 1.725 =⇒ T14,8 = 0.979
d. h. die Hypothese H0 kann nicht verworfen werden.61 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Testverfahren fur die Erwartungswerte von zweiStichproben unter Normalverteilungsannahme
1.11(a) Einseitiger t-Test fur zwei unabhangige Stich-proben (rechtsseitige Hypothese)
I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2
1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2
2)I Rechtfertigung der Voraussetzungen
I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2
1 = σ22
I Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten derAlternative H1 : µ1 > µ2 verworfen, falls
Tn1,n2 =y 1· − y 2·σµ1−µ2
> tn1+n2−2,1−α
gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√
( 1n1
+ 1n2
)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.
62 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.11(b) Einseitiger t-Test fur zwei unabhangige Stich-proben (linksseitige Hypothese)
I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2
1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2
2)I Rechtfertigung der Voraussetzungen
I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2
1 = σ22
I Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten derAlternative H1 : µ1 < µ2 verworfen, falls
Tn1,n2 =y 1· − y 2·σµ1−µ2
< −tn1+n2−2,1−α = tn1+n2−2,α
gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√
( 1n1
+ 1n2
)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.
63 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.11(c) t-Test fur zwei unabhangige Stichproben (zwei-seitige Hypothesen)
I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2
1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2
2)I Rechtfertigung der Voraussetzungen
I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2
1 = σ22
I Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied derErwartungswerte in beiden Gruppen) wird zu Gunsten derAlternative H1 : µ1 6= µ2 verworfen, falls
|Tn1,n2 | =|y 1· − y 2·|σµ1−µ2
> tn1+n2−2,1−α2
gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√
( 1n1
+ 1n2
)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.
64 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Bemerkung zur Varianzhomogenitat
Ist die Annahme der Varianzhomogenitat
σ21 = σ2
2
nicht erfullt, so
I wird die vorgegebene Wahrscheinlichkeit fur einen α-Fehler nichteingehalten (der Test halt sein Niveau nicht)
I ist die Wahrscheinlichkeit fur einen β-Fehler großer
I von Interesse ist daher auch ein Test fur die Hypothesen
H0 : σ21 = σ2
2 H1 : σ21 6= σ2
2
und ein Verfahren, das ohne die Annahme derVarianzhomogenitat auskommt.
65 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Rezept (fur Test auf Varianzhomogenitat)I Die Nullhypothese H0 : σ2
1 = σ22 gilt genau dann, wenn
F =σ2
1σ2
2= 1
I Schatze den Quotienten der beiden Varianzen, durch
Fn1−1,n2−1 =σ2
1σ2
2=
1n1−1
∑n1j=1(y1j − y 1·)
2
1n2−1
∑n2j=1(y2j − y 2·)
2
I Die Nullhypothese H0 wird zu Gunsten der AlternativeH1 : σ2
1 6= σ22 verworfen, falls
Fn1−1,n2−1 > c2 oder Fn1−1,n2−1 < c1
giltI Die kritischen Werte c1 und c2 werden so festgelegt, dass die
Wahrscheinlichkeit fur einen Fehler erster Art maximal α ist!
66 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.12 F -Test fur den Vergleich von zwei Stichprobenva-rianzen
I TeststatistikFn1−1,n2−1 =
σ21σ2
2
I Die NullhypotheseH0 : σ2
1 = σ22
(die Varianzen sind gleich) wird zu Gunsten der Alternative
H1 : σ21 6= σ2
2
verworfen, falls mindestens eine der Ungleichungen
Fn1−1,n2−1 < Fn1−1,n2−1,α2
Fn1−1,n2−1 > Fn1−1,n2−1,1−α2
erfullt istI Fn1−1,n2−1,β bezeichnet das β-Quantil der F -Verteilung mit
(n1 − 1, n2 − 1) Freiheitsgraden
67 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Verschiedene F -Verteilungen
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
F F F F
Dichten der F– Verteilung mit verschiedenen Freiheitsgraden
2, 10
4, 4
10, 1
20, 20
fm,n(x) =Γ( m+n
2 )
Γ( m2 )Γ( n
2 )
(m2
)m2 x m
2 −1
(1 + mn x)
m+n2
(x ≥ 0)
68 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Das Quantil der F -Verteilung mit (n1, n2)Freiheitsgraden
0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Dichte der F4, 4 -Verteilung
F 4, 4; 0.9 = 4.107
0.9
P(F4,4,≤ F4,4,0.9) =
∫ F4,4,0.9
−∞fm,n(x) dx = 0.90
69 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Der F -Test auf Varianzhomogenitat fur dieDaten aus Beispiel 1.10 (n1 = 14, n2 = 8)
I σ21 = 3.94 σ2
2 = 4.79 ⇒ F13,7 = 0.823
I Fur das Niveau α = 10% erhalt man
F13,7,0.05 = 0.3531 F13,7,0.95 = 3.5503
und damit kann die Nullhypothese zum Niveau 10% nichtverworfen werden
I Beachte: Oft wird der Test 1.12 verwendet, um dieVoraussetzungen fur den t-Test zu uberprufen
I In diesem Fall wahlt man oft ein großeres Niveau (→ kleinereWahrscheinlichkeit fur β-Fehler)
I Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dannt-Test) hat nicht das Niveau α.
I Was macht man, falls F -Test H0 verwirft?
70 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.13(a) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)
I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2
1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2
2)I Rechtfertigung der Voraussetzungen
I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)
I Varianzen in den Gruppen sind nicht notwendig gleichI Teststatistik
T Wn1,n2
=y 1· − y 2·
τ
I Dabei ist
τ =√τ 2 =
√σ2
1n1
+σ2
2n2
die Schatzung fur den Standardfehler von y 1· − y 2·
71 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.13(b) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)
I Die NullhypotheseH0 : µ1 ≤ µ2
(Erwartungswert der ersten Population nicht großer als derder Zweiten) wird zu Gunsten der Alternative
H1 : µ1 > µ2
fallsT W
n1,n2> tf ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
f =(σ2µ1
+ σ2µ2
)2
σ4µ1
n1−1 +σ4µ2
n2−1
die geschatzten Freiheitsgrade der t-Verteilung.
72 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.13(c) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)
I Die NullhypotheseH0 : µ1 ≥ µ2
(Erwartungswert der ersten Population nicht kleiner als derder Zweiten) wird zu Gunsten der Alternative
H1 : µ1 < µ2
verworfen, falls
T Wn1,n2
< tf ,α = −tf ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
f =(σ2µ1
+ σ2µ2
)2
σ4µ1
n1−1 +σ4µ2
n2−1
die geschatzten Freiheitsgrade der t-Verteilung.
73 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.13(d) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)
I Die NullhypotheseH0 : µ1 = µ2
(kein Unterschied der Erwartungswerte in beiden Gruppen)wird zu Gunsten der Alternative
H1 : µ1 6= µ2
(es besteht ein Unterschied) verworfen, falls
|T Wn1,n2| > tf ,1−α2
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
f =(σ2µ1
+ σ2µ2
)2
σ4µ1
n1−1 +σ4µ2
n2−1
die geschatzten Freiheitsgrade der t-Verteilung.
74 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Bemerkung: t-Test oder Welch-Test?
I Sind die Voraussetzungen fur den t-Test erfullt(Normalverteilung, Unabhangigkeit, Varianzhomogenitat),so ist dieses Verfahren optimal, d. h. dieser Test minimiert unterallen Tests zum Niveau α die Wahrscheinlichkeit fur einenβ-Fehler.
I Ist die Voraussetzungen der Varianzhomogenitat beim t-Testnicht erfullt, so wird die vorgegebene Wahrscheinlichkeit fureinen α-Fehler nicht eingehalten.
I Der Welch-Test ist eine ”Naherungslosung“, d. h. dieWahrscheinlichkeit fur einen α-Fehler ist ”nur“naherungsweise α.
I Der Welch-Test hat im Fall der Varianzhomogenitat eine großereWahrscheinlichkeit fur einen β-Fehler als der t-Test.
75 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output fur die Daten aus Beispiel 1.10
SignifikanzF Sig. (2-seitig)dfT
T-Test für die MittelwertgleichheitLevene-Test der Varianzgleichheit
Varianzen sind gleich
Varianzen sind nicht gleich
Gemerkte Zahlen
,35813,523,952
,33920,979,752,103
Test bei unabhängigen Stichproben
Standardfehlerder Differenz
MittlereDifferenz ObereUntere
95% Konfidenzintervall der Differenz
T-Test für die Mittelwertgleichheit
Varianzen sind gleich
Varianzen sind nicht gleich
Gemerkte Zahlen
2,911-1,125,938,893
2,796-1,010,912,893
Test bei unabhängigen Stichproben
Beachte:I SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenitat
sondern ein ”robustes“ Verfahren (Levene-Test)I SPSS liefert nur einen p-Wert fur den zweiseitigen t-Test aus Beispiel
1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)I SPSS liefert ein Konfidenzintervall fur die Differenz µ1 − µ2 =⇒ 95%
Konfidenzintervall fur die Differenz der Erwartungswerte (unter derAnnahme gleicher Varianzen)
(−1.01, 2.796)76 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output fur die Daten aus Beispiel 1.10
Levene ’s Test for Homogeneity of Variance ( center = mean)
Df F value Pr(>F)
group 1 0.103 0.7516
20
Two Sample t-test
data: values by ind
t = 0.9789 , df = 20, p- value = 0.3393
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
-1.009852 2.795566
sample estimates :
mean in group M mean in group P
14.64286 13.75000
Welch Two Sample t-test
data: values by ind
t = 0.952 , df = 13.523 , p- value = 0.3578
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
-1.125361 2.911075
sample estimates :
mean in group M mean in group P
14.64286 13.75000
77 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.4 Einfaktorielle Varianzanalyse
78 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.14 Beispiel: Fortsetzung von Beispiel 1.10
I An dem Zahlengedachtnistest (vgl. Beispiel 1.10) nehmen auchnoch 7 Studierende der Geisteswissenschaften (G) teil.
M 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16G 11 13 13 10 13 12 13 -M 14 17 15 13 16 13 - -P - - - - - - - -G - - - - - - - -
I Frage: Existieren Unterschiede hinsichtlich desZahlengedachtnisses zwischen dem Studierenden derPsychologie, Mathematik und Geisteswissenschaften?
79 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2, 3
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i(Mathematik: i = 1, Psychologie: i = 2,Geisteswissenschaften: i = 3)
µi : unbekannter Erwartungswert in der Population i(Mathematik: i = 1, Psychologie: i = 2,Geisteswissenschaften: i = 3)
εij : Storgroßen (Erwartungswert 0 und Varianz σ2)
I Normalverteilungs und UnabhangigkeitsannahmeI in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit
Erwartungswert µi vorI in jeder Gruppe sind die Beobachtungen unabhangigI unabhangige Stichproben
I NullhypotheseH0 : µ1 = µ2 = µ3
80 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Schatzer und KonfidenzbereicheI Schatzer fur Erwartungswert und Varianz werden in den
einzelnen Gruppen durchgefuhrt
I Beispiel:y i· σ2
i σµi niMathematik (i = 1) 14.64 3.94 0.53 14Psychologie (i = 2) 13.75 4.79 0.60 8Geisteswissenschaften (i = 3) 12.14 1.48 0.46 7
I µ1 = 14.64 ist Schatzer fur den ”Erwartungswert derMathematiker“
I Beachte: t6,0.95 = 1.943, µ3 + σµ3 t6,0.95 = 13.03µ3 − σµ3 t6,0.95 = 11.25, also ist das Intervall
[11.25, 13.03]
ein 90% Konfidenzintervall fur den ”Erwartungswert derGeisteswissenschaftler“
81 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output
NStandardfehler
des MittelwertesVarianzMittelwertMathematik
Psychologie
Geisteswissenschaften
Insgesamt 29,3894,38413,79
7,4591,47612,14
8,7734,78613,75
14,5303,94014,64StudienfachStudienfach
Gemerkte Zahlen
82 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output
Mittelwert Varianz SF des Mittelwerts N
Mathematik 14.64286 3.939560 0.5304688 14
Psychologie 13.75000 4.785714 0.7734431 8
Geisteswissenschaften 12.14286 1.476190 0.4592215 7
Insgesamt 13.79310 4.384236 0.3888195 29
83 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Prinzip der VarianzanalyseI Ziel: Test fur die Hypothese ”es bestehen keine Unterschiede
zwischen den Gruppen“
H0 : µ1 = µ2 = µ3
I Idee: Bestimme die Streuung der Daten:I Mittelwert aus allen Daten:
y ·· =1n
3∑i=1
ni∑j=1
yij
wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungenbezeichnet.
I Varianz (n = n1 + n2 + n3)
1n − 1
3∑i=1
ni∑j=1
(yij − y ··)2
und versuche Unterschiede in der Merkfahigkeit aufgrund derGruppenzugehorigkeit durch eine Zerlegung der Streuung bzgl.der Gruppen zu erklaren!
84 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Prinzip der VarianzanalyseI Zerlegung der Summe der QuadrateI Haufig verwendete Abkurzungen: SS ≡ Sum of squares;
SAQ ≡ Summe der AbweichungsquadrateI Summe der Quadrate innerhalb der Gruppen (within groups)
SSR =
3∑i=1
ni∑j=1
(yij − y i·)2
und
y i· =1ni
ni∑j=1
yij
den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet.I Summe der Quadrate zwischen den Gruppen (between groups)
SSM =
3∑i=1
ni (y i· − y ··)2
85 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Prinzip der Varianzanalyse
I Zerlege die Summe der Quadrate in eine durch das Modellerklarte Summe (Varianz zwischen den Gruppen) und eineSumme von Quadraten der nicht erklarten Varianz (Varianzinnerhalb der Gruppen)
SST =3∑
i=1
ni∑j=1
(yij − y ··)2
︸ ︷︷ ︸Gesamtvarianz (Total)
=3∑
i=1
ni∑j=1
(yij − y i·)2
︸ ︷︷ ︸Gesamtvarianz innerhalb der Gruppen
+3∑
i=1ni (y i· − y ··)2
︸ ︷︷ ︸Varianz zwischen den Gruppen
86 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
F -Test fur die Hypothese H0 : µ1 = µ2 = µ3(gleiche Erwartungswerte in den drei Gruppen)
I Vergleiche die Varianz zwischen den Gruppen mit der Varianzinnerhalb der Gruppen
F =1
3−1∑3
i=1 ni (y i· − y ··)2
129−3
∑3i=1∑ni
j=1(yij − y i·)2
Falls F ”groß“ ist, wird die Nullhypothese H0 abgelehnt.I Mathematische Statistik ⇒ Test zum Niveau α verwirft die
Nullhypothese H0, falls
F > F2,26,1−α
gilt (Vergleich mit dem (1− α)-Quantil der F -Verteilung mit (2,26) Freiheitsgraden), bzw. falls der zugehorige p-Wert des Testskleiner als α ist.
87 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beispiel 1.15 (Fortsetzung von Beispiel 1.14)I Frage: ”besteht ein Unterschied zwischen den Studierenden der
Facher Psychologie, Mathematik und Geisteswissenschaftenbzgl. des Zahlengedachtnisses“Genauer: Besteht ein Unterschied zwischen denErwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3
I n1 = 14, n2 = 8, n3 = 7; α = 5% F2,26,0.95 = 3.37
F =SSM/2SSR/26 =
14.63.6 = 4.06 > 3.37
I D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%abgelehnt.
I In anderen Worten: zwischen den Studierenden derverschiedenen Facher besteht ein Unterschied
I Beachte: In vielen Fallen ist man an der Frage interessiert,zwischen welchen Gruppen ein Unterschied besteht. Diese Fragebeantwortet der F -Test nicht!
88 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
F -Verteilung
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
x
Dic
hte
F == 4.06
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
x
Dic
hte
Dichte der F2,26 −− Verteilung
F2,26,0.95 == 3.37
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
x
Dic
hte
http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm89 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
F -Verteilung
2.5 3.0 3.5 4.0 4.5 5.0
0.00
0.05
0.10
0.15
x
Dic
hte
F2,26,0.95 == 3.37 F == 4.06
Dichte der F2,26 −− Verteilung ((Zoom))
αα == 5%
p−Wert
2.5 3.0 3.5 4.0 4.5 5.0
0.00
0.05
0.10
0.15
x
Dic
hte
I Blaue Flache: Niveau des TestsI Rote Flache: p-Wert (Wahrscheinlichkeit, dass ein Wert großer
als F = 4.06 beobachtet wird)
90 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Varianzanalysetabelle (k bezeichnet die Anzahlder Gruppen)
Variabilitat Sum of Squares df SS/df F
zwischen SSM k − 1 SSM/(k − 1) SSMk−1 /
SSRn−k
innerhalb SSR n − k SSR/(n − k)gesamt SST n − 1 SST/(n − 1)
Beispiel (Zahlengedachtnis)
Variabilitat Sum of Squares df SS/df Fzwischen 29.2 2 14.6 4.06innerhalb 93.6 26 3.6gesamt 122.8 28
91 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output
SignifikanzFMittel der QuadratedfQuadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt 28122,759
3,5992693,571
,0294,05514,594229,187
Gemerkte Zahlen
92 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output
Df Sum Sq Mean Sq F value Pr(>F)
ind 2 29.19 14.594 4.055 0.0293 *
Residuals 26 93.57 3.599
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
93 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Beispiel 1.16 (Fortsetzung von Beispiel 1.15)I Bei signifikantem Ergebnis der Varianzanalyse (d. h. die
Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sichdie Frage:
”Welche Gruppe ist maßgeblich fur die Signifikanzverantwortlich?“
I Losungsvorschlag: paarweise Vergleiche!Gruppe 1 - Gruppe 2; H12 : µ1 = µ2Gruppe 1 - Gruppe 3; H13 : µ1 = µ3Gruppe 2 - Gruppe 3; H23 : µ2 = µ3
I Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.1.11(b)) durchgefuhrt.
I Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe dieHypothese H0 : µ1 = µ2 = µ3, falls mindestens ein Paarvergleichsignifikant ist das Niveau α einhalt.
I Die t-Tests fur die paarweisen Vergleiche sind mit Niveau α/3durchzufuhren. Man dividiert durch 3, da 3 paarweise Vergleichedurchgefuhrt werden (Bonferroni-Methode)
94 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Paarweise Vergleiche (α = 5%):I Zwei-Stichproben t-Test-Statistik fur den Vergleich von Gruppe
i mit Gruppe j :
Ti,j =|Yi· − Yj·|
σij
σ2ij =
( 1ni
+1nj
)( 1ni + nj − 2{(ni − 1)σ2
i + (nj − 1)σ2j })
i j Ti,j ni nj tni+nj−2,1−α′/2 p-Wert signifikant1 2 0.98 14 8 2.61 0.339 nein1 3 3.04 14 7 2.62 0.007 ja2 3 1.72 8 7 2.74 0.109 nein
Beachte: Die paarweisen Vergleiche werden zum Niveauα′ = α/3 = 5%/3 = 0.0167 durchgefuhrt ( 3 Vergleiche).
I Mit dieser Methode kann man zum Niveau 5% einensignifikanten Unterschied zwischen den Gruppen feststellen.
I Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveaudes Verfahrens wird unterschatzt).
I Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahrennicht zu empfehlen.
95 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Post-Hoc-Test ”Bonferroni“ in SPSSI Verwendet andere Schatzung fur den Standardfehler der
Differenz der Mittelwerte aus Gruppe i und j :
σ2ij =
(1ni
+1nj
)(1
n − 3
3∑k=1
(nk − 1)σ2k
)
I An Stelle der Quantile der t-Verteilung mit ni + nj − 2Freiheitsgraden mussen dann die Quantile der t-Verteilung mitn − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3)
I Das Niveau fur die Paarvergleiche muss dann wieder durch dieAnzahl der Vergleiche dividiert werden (im Beispiel α/3)
I Adjustierung der p-Werte erfolgt durch Multiplikation derp-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.Z. B.
0.894 = 3 · P(|T12| > 0.893/0.841)
Dabei berechnet sich die Wahrscheinlichkeit mit einert-Verteilung mit 26 = 29− 3 Freiheitsgraden.
96 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output paarweise Vergleiche mit derBonferroni-Methode
SignifikanzStandardfehlerMittlere
Differenz (I-J) ObergrenzeUntergrenze
95%-Konfidenzintervall
Psychologie
Geisteswissenschaften
Mathematik
Geisteswissenschaften
Mathematik
Psychologie
Mathematik
Psychologie
Geisteswissenschaften
,91-4,12,341,982-1,607
-,25-4,75,026,878-2,500*
4,12-,91,341,9821,607
1,26-3,04,894,841-,893
4,75,25,026,8782,500*
3,04-1,26,894,841,893(I) Studienfach (J) Studienfach(I) Studienfach (J) Studienfach
Mehrfachvergleiche
Gemerkte ZahlenBonferroni
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
97 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output paarweise Vergleiche mit derBonferroni-Methode
Pairwise comparisons using t tests with pooled SD
data: MPG and group
1 2
2 0.894 -
3 0.026 0.341
P value adjustment method : bonferroni
98 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Scheffe-Methode (α = 5%)
I Fur den Vergleich der Gruppe i mit j betrachte:
ds(i , j) =
√3− 1
29− 3 SSR · F2,26,0.95(1ni
+1nj
)
=
√2
26 · 93.6 · 3.37(1ni
+1nj
) = 4.93√
1ni
+1nj
und vergleiche diese Große mit Mittelwertdifferenz |y i· − y j·|I Ergebnis (Niveau 5%)
i j |y i· − y j·| ds(i , j) Ergebnis1 2 0.89 2.18 kein sign. Unterschied1 3 2.5 2.28 y 1· sign. großer als y 3·2 3 1.61 2.55 kein sign. Unterschied
99 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Einige Bemerkungen zur Scheffe-Methode:
I Die Scheffe-Methode garantiert, dass die Wahrscheinlichkeiteines α-Fehlers fur jeden beliebigen a-posteriori durchgefuhrtenEinzelvergleichstests nicht großer ist als der α-Fehler desF -Tests
I Kurz: Die Signifikanzaussagen gelten simultan fur ALLEPaarvergleiche mit dem Gesamtniveau α
I Die Scheffe-Methode ist ein konservatives Verfahren
I Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als dasvorgegebene Niveau
I Man entscheidet tendenziell eher zu oft fur H0
100 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output paarweise Vergleiche mit derScheffe-Methode
SignifikanzStandardfehlerMittlere
Differenz (I-J) ObergrenzeUntergrenze
95%-Konfidenzintervall
Psychologie
Geisteswissenschaften
Mathematik
Geisteswissenschaften
Mathematik
Psychologie
Mathematik
Psychologie
Geisteswissenschaften
,94-4,16,279,982-1,607
-,22-4,78,029,878-2,500*
4,16-,94,279,9821,607
1,29-3,08,576,841-,893
4,78,22,029,8782,500*
3,08-1,29,576,841,893(I) Studienfach (J) Studienfach(I) Studienfach (J) Studienfach
Mehrfachvergleiche
Gemerkte ZahlenScheffé-Prozedur
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
101 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output paarweise Vergleiche mit derScheffe-MethodeScheffe Test for values
Mean Square Error : 3.598901
ind , means
values std r Min Max
G 12.14286 1.214986 7 10 13
M 14.64286 1.984833 14 12 19
P 13.75000 2.187628 8 10 16
alpha : 0.05 ; Df Error : 26
Critical Value of F: 3.369016
Harmonic Mean of Cell Sizes 8.842105
Comparison between treatments means
Difference pvalue sig LCL UCL
G - M -2.5000000 0.029385 * -4.500921 -0.4990795
G - P -1.6071429 0.279412 -3.844240 0.6299543
M - P 0.8928571 0.575821 -1.022878 2.8085927
102 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.17 Einfaktorielle Varianzanalyse (zum Vergleichvon k unabhangigen Stichproben)
Modellannahmen und HypotheseI Daten (n =
∑ki=1 ni )
y11, . . . , y1n1 (Gruppe 1, Erwartungswert µ1; Varianz σ21)
......
...yk1, . . . , yknk (Gruppe k, Erwartungswert µk ; Varianz σ2
k)
I Nullhypothese: es besteht kein Unterschied zwischen denErwartungswerten der einzelnen Gruppen:
H0 : µ1 = µ2 = . . . = µk
I Rechtfertigung der VoraussetzungenI Unabhangigkeit zwischen den GruppenI Unabhangigkeit innerhalb der GruppenI NormalverteilungsannahmeI Varianzhomogenitat: σ2
1 = σ22 = . . . = σ2
k 103 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
F-Test fur die einfaktorielle Varianzanalyse (zum Ver-gleich von k unabhangigen Stichproben)
I Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicherErwartungswert in allen Gruppen wird verworfen, falls
F =1
k−1 SSM1
n−k SSR> Fk−1,n−k,1−α
Dabei ist:
SSM =k∑
i=1ni (y i· − y ··)2
(sum of squares between groups)
SSR =k∑
i=1
ni∑j=1
(yij − y i·)2
(sum of squares within groups) und Fk−1,n−k,1−α das(1− α)-Quantil der F -Verteilung mit (k − 1, n − k)Freiheitsgraden
104 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.18 Paarweise Vergleich mit der Scheffe-Methode (No-tation wie in 1.15)
I Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,so kann mit der Scheffe-Methode festgestellt werden
”welche Gruppen fur die Signifikanz verantwortlich sind“!I dazu bestimmt man die Großen (n =
∑ki=1 ni )
ds(i , j) =
√k − 1n − k SSR · Fk−1,n−k,1−α(
1ni
+1nj
)
Ist y i· − y j· großer (bzw. kleiner) als ds(i , j) (bzw. als−ds(i , j)) so ist y i· signifikant großer (bzw. kleiner) als y j·
I Beachte:I insgesamt k(k−1)
2 VergleicheI die Scheffe-Methode halt simultan das Niveau αI es ist moglich, das F -Test H0 ablehnt, aber keiner der
paarweisen Vergleiche signifikant ist!
I Andere Verfahren (z. B. in SPSS implementiert):Tukey-Methode, Duncan Test
105 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
1.19 Levene-Test auf Varianzhomogenitat von kunabhangigen Stichproben
Modellannahmen und HypotheseI Daten (n =
∑ki=1 ni )
y11, . . . , y1n1 (Gruppe 1, Erwartungswert µ1; Varianz σ21)
......
...yk1, . . . , yknk (Gruppe k, Erwartungswert µk ; Varianz σ2
k)
I Nullhypothese: es liegt Varianzhomogenitat vor, d. h.
H0 : σ21 = σ2
2 = . . . = σ2k
I Rechtfertigung der VoraussetzungenI Unabhangigkeit zwischen den GruppenI Unabhangigkeit innerhalb der GruppenI Normalverteilungsannahme
106 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
Levene-Test auf Varianzhomogenitat von k un-abhangigen Stichproben
I Die Hypothese der Varianzhomogenitat
H0 : σ21 = σ2
2 = . . . = σ2k
wird verworfen, falls
F =1
k−1∑k
i=1 ni (x i· − x ··)2
1n−k
∑ki=1∑ni
j=1(xij − x i·)2> Fk−1,n−k,1−α
Dabei ist:I n = n1 + . . .+ nk der GesamtstichprobenumfangI x i· = 1
ni
∑nij=1 xij , x ·· = 1
n∑k
i=1
∑nij=1 xij
I xij = |yij − y i·|I Fk−1,n−k,1−α das (1− α)-Quantil der F -Verteilung mit
(k − 1, n − k) Freiheitsgraden.I Beachte:
I Der Test ist robust bzgl. der Normalverteilungsannahme.I Der Test halt ”nur“ naherungsweise das Niveau α.I Alternativer Test: Bartlett Test
107 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
SPSS-Output
Signifikanzdf2df1Levene-Statistik
,3132621,214
Test der Homogenität der Varianzen
Gemerkte Zahlen
SignifikanzFMittel der QuadratedfQuadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt 28122,759
3,5992693,571
,0294,05514,594229,187
ONEWAY ANOVA
Gemerkte Zahlen
108 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle
1.2 t-Test fur eineStichprobe
1.3 Zweistichproben-probleme
1.4 EinfaktorielleVarianzanalyse
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell
R-Output
Levene ’s Test for Homogeneity of Variance ( center = mean)
Df F value Pr(>F)
group 2 1.2137 0.3134
26
Df Sum Sq Mean Sq F value Pr(>F)
ind 2 29.19 14.594 4.055 0.0293 *
Residuals 26 93.57 3.599
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
109 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2. Korrelation, Lineare Regression und multipleRegression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple Regression
2.4 Multikollinearitat und Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare Zusammenhange
2.7 Partielle und Semipartielle Korrelation
110 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.1 Korrelation
111 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.1 Beispiel: Arbeitsmotivation
I Untersuchung zur Motivation am Arbeitsplatz in einemChemie-Konzern
I 25 Personen werden zufallig ausgewahlt und verschiedeneVariablen gemessen.
I y : Motivation (Einschatzung durch Experten)x : Leistungsstreben (Fragebogen)
I Frage: Besteht ein Zusammenhang zwischen der Variablen
”Motivation“ und der Variablen ”Leistungsstreben“
I Beachte: Es werden auch noch weitere Variablen gemessen(Ehrgeiz, Kreativitat, Hierarchie, Lohn, Arbeitsbedingungen,Lernpotential, Vielfalt, Anspruch)
112 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Daten
x 20 30 15 39 5 6 12 0 35y 32 14 12 27 20 13 17 8 22x 8 34 26 32 26 12 36 27 26y 19 25 23 17 22 19 27 26 20x 13 19 25 30 18 21 11y 11 24 19 19 22 24 17
113 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.2 Der Korrelationskoeffizient von PearsonI Daten (x1, y1), . . . , (xn, yn)
I Maß fur die (lineare) Abhangigkeit zwischen x und y :Korrelationskoeffizient von Pearson
r = rX ,Y =s2x ,y
sx ,x sy ,y=
∑ni=1(xi − x ·)(yi − y ·)√∑n
i=1(xi − x ·)2∑ni=1(yi − y ·)2
I Dabei ist:I x · = 1
n∑n
i=1 xi : Mittelwert der Daten xi
I y · = 1n∑n
i=1 yi : Mittelwert der Daten yi
I s2x,x = 1
n−1∑n
i=1(xi − x ·)2 : Varianz der Daten xi
I s2y,y = 1
n−1∑n
i=1(yi − y ·)2 : Varianz der Daten yi
I s2x,y = 1
n−1∑n
i=1(xi − x ·)(yi − y ·) : Kovarianz zwischen denDaten xi , yi
114 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.3 Eigenschaften des Korrelationskoeffizienten(1) −1 ≤ r ≤ 1
(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1xi
mit b1 > 0 besteht (ohne Storgroßen).
(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1xi
mit b1 < 0 besteht (ohne Storgroßen).
(4) Der Korrelationskoeffizient ist invariant bzgl. linearerTransformationen, d. h.
xi = a0 + a1xi i = 1, . . . , nyi = c0 + c1yi i = 1, . . . , n
}⇒ rX ,Y = rX ,Y
(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maßfur den linearen Zusammenhang in der Stichprobe(x1, y1), . . . , (xn, yn)
115 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.4 Beispiel: Korrelationskoeffizient fur die Datenaus Beispiel 2.1
I Variablenx : Leistungsstrebeny : Motivation
I Korrelationskoeffizient von Pearson
r = 0.5592
I Fragen:I Wie genau ist diese Schatzung?I Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen
den Merkmalen Leistungsstreben und Motivation)?
116 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.5 Signifikanztest fur KorrelationI (x1, y1), . . . , (xn, yn) ist eine Stichprobe (unabhangige
Beobachtungen) aus einer (bivariat) normalverteiltenGrundgesamtheit
I ρ bezeichne die Korrelation des Merkmals X mit demMerkmal Y einer Population; funfter Modellparameterneben µx , µy , σ
2x und σ2
y .I Ein Test zum Niveau α fur die Hypothese ”die Merkmale
sind unkorreliert“H0 : ρ = 0
lehnt die Nullhypothese zu Gunsten der AlternativeH1 : ρ 6= 0 ab, falls∣∣∣∣ √n − 2√
1− r 2r∣∣∣∣ > tn−2,1−α2
gilt.
117 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1)
I n = 25; r = 0.5592; t23,0.975 = 2.0687
I ∣∣∣∣ √n − 2√1− r 2
r∣∣∣∣ = 3.2355 > 2.0687
I Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen denMerkmalen) wird zum Niveau 5% verworfen.
I p-Wert: 0.0037
118 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output fur Korrelationskoeffizient
LeistungsstrebenMotivationKorrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Motivation
Leistungsstreben
2525
,004
1,000,559**
2525
,004
,559**
1,000
Korrelationen
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
119 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output fur Korrelationskoeffizient
Motivation Leistungsstreben
Motivation 1.00 0.56
Leistungsstreben 0.56 1.00
n= 25
P
Motivation Leistungsstreben
Motivation 0.0037
Leistungsstreben 0.0037
120 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.7 Konfidenzintervall fur KorrelationI ρ: Korrelation zwischen Merkmal x und Merkmal y einer
PopulationI (x1, y1), . . . , (xn, yn): Stichprobe (unabhangige
Beobachtungen) aus einer (bivariat) normalverteiltenGrundgesamtheit
I Mathematische Statistik: r ist ”naherungsweise“ (d. h. beigroßem Stichprobenumfang) normalverteilt mitErwartungswert ρ und Varianz
γ2 = Var(r) ≈ (1− ρ2)2
nI (1− α)-Konfidenzintervall fur den Korrelationskoeffizienten(
r − γz1−α2 , r + γz1−α2)
Hier bezeichnet γ = (1−r2)√n einen Schatzer fur die
Standardabweichung von r und z1−α2 das (1− α2 ) Quantil
der Standardnormalverteilung (Tabelle, Software)121 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1)
I n = 25; r = 0.5592
I z0.95 = 1.6449, γ = 0.1328I ⇒ 90% Konfidenzintervall fur den Korrelationskoeffizient
[0.2739, 0.7541]
122 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.8 Hinweise zur Interpretation von KorrelationenI Annahme: Man hat eine signifikante Korrelation zwischen
den Variablen x und y gefundenI Folgende Interpretationen sind moglich
(1) x beeinflusst y kausal(2) y beeinflusst x kausal(3) x und y werden von weiteren Variablen kausal beeinflusst(4) x und y beeinflussen sich wechselseitig kausal
I Die Korrelation zwischen zwei Variablen ist einenotwendige aber keine hinreichende Voraussetzung fureinen kausalen Zusammenhang
I Der Korrelationskoeffizient gibt keine Information, welcheder vier Interpretationen zutrifft (in ”vielen“ Fallen wird dasder Typ (3) sein)
I Korrelationen sollten ohne Zusatzinformation nichtinterpretiert werden!
123 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel
I Annahme: Man hat eine signifikante Korrelation zwischenden Merkmalen ”Ehrlichkeit“ und ”Haufigkeit desKirchgangs“ gefunden
I Folgende Interpretationen sind moglichI Die in der Kirche vermittelten Werte haben einen positiven
Einfluss auf das Merkmal ”Ehrlichkeit“.I
”Ehrliche“ Menschen fuhlen sich durch die in der Kirchevermittelten Inhalte eher angesprochen und gehen ausdiesem Grund haufiger zur Kirche.
I Die allgemeine familiare und außerfamiliare Sozialisationbeeinflusst beide Merkmale.
124 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.2 Lineare Regression
125 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.9 Beispiel: Fortsetzung von Beispiel 2.1
I Untersuchung zur Motivation am Arbeitsplatz in einemChemie-Konzern
I 25 Personen werden zufallig ausgewahlt und verschiedeneVariablen gemessen.
I y : Motivation (Einschatzung durch Experten)x : Leistungsstreben (Fragebogen)
I Kann man y aus x ”vorhersagen“?
126 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Streudiagramm fur die Daten aus Beispiel 2.9
Leistungsstreben
403020100
Mo
tiva
tio
n
35
30
25
20
15
10
5
127 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.9 Beispiel: Fortsetzung von Beispiel 2.1I Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-KonzernI 25 Personen werden zufallig ausgewahlt und verschiedene
Variablen gemessen.I y : Motivation (Einschatzung durch Experten)
x : Leistungsstreben (Fragebogen)
I Frage: Besteht ein funktionaler Zusammenhang zwischen derVariablen ”Motivation“ und der Pradiktorvariablen
”Leistungsstreben“ (Kann man y aus x ”vorhersagen“?)
Genauer: Gesucht ist Funktion f , die aus der PradiktorvariablenLeistungsstreben (x) eine Vorhersage fur die abhangige Variable(y) Motivation liefert:
Motivation = f(Leistungsbereitschaft)
I Beachte: Es werden auch noch weitere Variablen gemessen(Ehrgeiz, Kreativitat, Hierarchie, Lohn, Arbeitsbedingungen,Lernpotential, Vielfalt, Anspruch)
128 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
RegressionI Ausgangslage: Von Interesse ist der Zusammenhang zwischen
verschiedenen Variablen. Im einfachsten Fall betrachtet man,wie im Beispiel der Arbeitsmotivation, den Zusammenhangzwischen zwei Variablen.
I Daten: (x1, y1), (x2, y2), . . . , (xn, yn)I Annahme: Es existiert ein kausaler Zusammenhang der Form
y = f (x) zwischen der abhangigen Variablen y und derPradiktorvariablen x .Weitere Annahme: Die Funktion f hat eine bestimmte Form.Beispiele:
I Lineare Regression (der Zusammenhang ist also durch eineGerade beschreibbar): y = b0 + b1x
I Quadratische Regression (der Zusammenhang ist also durcheine Parabel beschreibbar): y = b0 + b1x + b2x2
I usw.I Beachte: Der Zusammenhang ist in der Regel nicht exakt zu
beobachten. Mathematisches ModellY = b0 + b1x + ε
Dabei bezeichnet ε eine zufallige Storgroße. Diese Modellbezeichnet man als Lineare Regression. 129 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.10 Das Modell der linearen RegressionI Daten (x1, y1), . . . , (xn, yn)
I yi ist Realisation einer Zufallsvariablen Yi (unter derBedingung xi ). Fur den Zusammenhang zwischen denVariablen Yi und xi gilt:
Yi = b0 + b1xi + εi i = 1, . . . , n
I εi bezeichnet hier eine zufallige ”Storung“ und es wirdangenommen, dass die Storungen unabhangig undnormalverteilt sind mit Erwartungswert 0 und Varianzσ2 > 0
I Deutung: Es wird ein linearer Zusammenhang zwischen xund y postuliert, der noch zufalligen Storungen unterliegt.
130 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Idee der Schatzung bei (linearer) Regression
I Daten (x1, y1), (x2, y2), . . . , (xn, yn)
I Annahme: Es existiert ein linearer Zusammenhang
Y = b0 + b1x + ε
I Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Yund x am besten beschreibt.
I Idee: Bestimme die Gerade so, dass die Summe derquadratischen (vertikalen) Abstande zwischen deny -Koordinaten der Datenpunkte und den entsprechendenPunkten auf der geschatzten Geraden minimal wird Methode der kleinsten Quadrate
131 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel: Verschiedene Geraden mit senkrechtenAbstanden zu den Daten
0 10 20 30 40
510
1520
2530
35
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
y=0.2x+5
0 10 20 30 40
510
1520
2530
35
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
y=0.5x+10
132 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel: Verschiedene Geraden mit senkrechtenAbstanden zu den Daten: die Losung durch dieMethode der kleinsten Quadrate
0 10 20 30 40
510
1520
2530
35
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● y=0.292x+13.816
133 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.11 Die Methode der kleinsten QuadrateI Bestimme die Gerade so, dass die Summe der quadrierten
senkrechten Abstande zwischen Gerade und Daten minimalwird
I Datum an der Stelle xi : yiI Wert der Geraden an der Stelle xi : b0 + b1xiI Differenz: yi − (b0 + b1xi )
I Minimiereh(b0, b1) =
∑ni=1(yi − (b0 + b1xi )
)2
bzgl. der Wahl der Parameter b0 und b1.I Losung dieses Extremwertproblems liefert Schatzer fur
Achsenabschnitt und Steigung der Geraden:
b1 =
∑ni=1(xi − x ·)(yi − y ·)∑n
i=1(xi − x ·)2 , b0 = y · − b1x ·
I x · = 1n∑n
i=1 xi : Mittelwert der PradiktorvariablenI y · = 1
n∑n
i=1 yi : Mittelwert der abhangigen Variablen
134 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel Arbeitsmotivation: Streudiagramm undRegressionsgerade fur die Daten aus Beispiel 2.1
Leistungsstreben
403020100
Mo
tiva
tio
n
35
30
25
20
15
10
5
R-Quadrat linear = 0,313
I Schatzer: b0 = 13.82, b1 = 0.29I Fragen:
I Wie genau sind diese Schatzungen?I Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die
MotivationH0 : b1 = 0
I Wie gut beschreibt das lineare Regressionsmodell die Situation?135 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Die Genauigkeit der Schatzer fur die ParameterI Beachte: Vor der Datenerhebung sind b0 und b1 zufallig.I Mathematische Statistik (allgemeines lineares Modell) liefert
Schatzer fur die Varianzen von b0 und b1
Schatzer fur die Varianz von b0 : s2b0
=S2
y |x
n
∑ni=1 x2
i∑ni=1(xi − x ·)2
Schatzer fur die Varianz von b1 : s2b1
=S2
y |x
n1
1n∑n
i=1(xi − x ·)2
Dabei bezeichnet
S2y |x =
1n − 2
n∑i=1
(yi − (b0 + b1xi ))2.
die Residualvarianz (Schatzer fur die Varianz der Storgroßen)
I Je großer der Stichprobenumfang n, desto genauer sind dieSchatzungen!
136 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Fortsetzung von Beispiel 2.1: Schatzer fur die Daten derArbeitsmotivation
I Schatzer fur die Parameter
b0 = 13.82b1 = 0.292
S2y |x = 22.737
I Schatzer fur die Varianz von b0 und b1
s2b0
= 4.5158s2b1
= 0.0081
I Standardfehler von b0 und b1
sb0 =√
4.5158 = 2.125sb1 =
√0.0081 = 0.09
137 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Schatzer undStandardabweichungen bei linearer Regression inBeispiel 2.1
StandardfehlerB Beta SignifikanzT
StandardisierteKoeffizientenNicht standardisierte Koeffizienten
(Konstante)
Leistungsstreben
1
,0043,235,559,090,292
,0006,5012,12513,816ModellModell
Koeffizientena
a. Abhängige Variable: Motivation
138 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Schatzer und Standardabweichungenbei linearer Regression in Beispiel 2.1Call:
lm( formula = y ˜ x)
Residuals :
Min 1Q Median 3Q Max
-8.5766 -2.5679 0.5915 2.8481 12.3437
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) 13.81572 2.12504 6.501 1.24e -06 ***
x 0.29203 0.09026 3.235 0.00365 **
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 4.768 on 23 degrees of freedom
Multiple R- squared : 0.3128 , Adjusted R- squared : 0.2829
F- statistic : 10.47 on 1 and 23 DF , p- value : 0.003655
139 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.12 Konfidenzintervalle bei linearer RegressionI Modellannahme: lineare Regression
Yi = b0 + b1xi + εi (i = 1, . . . , n)
I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme fur ε1, . . . , εn
I Bestimmung der Schatzer s2b0
und s2b1
fur die Varianzen vonb0 und b1. Damit ist dann
=⇒ (b0 − tn−2,1−α2 sb0 , b0 + tn−2,1−α2 sb0 )
ein (1− α)-Konfidenzintervall fur b0 und
=⇒ (b1 − tn−2,1−α2 sb1 , b1 + tn−2,1−α2 sb1 )
ein (1− α)-Konfidenzintervall fur b1.I Hier ist tn−2,1−α2 das (1− α
2 )-Quantil der t-Verteilung mitn − 2 Freiheitsgraden (tabelliert oder mit Softwareverfugbar)
140 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1(Arbeitsmotivation)
I n = 25, t23,0.975 = 2.0687I Fur das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt
sich als 95% Konfidenzintervall fur
b0 :[9.420, 18.212]
b1 :[0.105, 0.479]
I Frage: Besteht ein (signifikanter) Einfluss der Pradiktorvariablenx auf die abhangige Variable Y ?Mathematische Formulierung: H0 : b1 = 0
141 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Konfidenzintervalle bei linearerRegression in Beispiel 2.1
StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
KoeffizientenNicht standardisierte Koeffizienten
(Konstante)
Leistungsstreben
1
,479,105,0043,235,559,090,292
18,2129,420,0006,5012,12513,816ModellModell
Koeffizientena
a. Abhängige Variable: Motivation
142 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Konfidenzintervalle bei linearerRegression in Beispiel 2.1Call:
lm( formula = y ˜ x)
Residuals :
Min 1Q Median 3Q Max
-8.5766 -2.5679 0.5915 2.8481 12.3437
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) 13.81572 2.12504 6.501 1.24e -06 ***
x 0.29203 0.09026 3.235 0.00365 **
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 4.768 on 23 degrees of freedom
Multiple R- squared : 0.3128 , Adjusted R- squared : 0.2829
F- statistic : 10.47 on 1 and 23 DF , p- value : 0.003655
2.5 % 97.5 %
( Intercept ) 9.419734 18.2117042
x 0.105315 0.4787421
143 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.14 F -Test fur die Hypothese H0 : b1 = 0I Modellannahme: lineare Regression
Yi = b0 + b1xi + εi (i = 1, . . . , n)
I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme fur ε1, . . . , εn
I HypothesenH0 : b1 = 0, H1 : b1 6== 0
I Die Nullhypothese H0 : b1 = 0 wird zu Gunsten derAlternative H1 : b1 6= 0 verworfen, falls
Fn =S2
reg
S2y |x
=11∑n
i=1(y · − (b0 + b1xi ))2
1n−2
∑ni=1(yi − (b0 + b1xi ))2
> F1;n−2,1−α
giltI F1;n−2,1−α bezeichnet das (1− α)-Quantil der F -Verteilung
mit (1, n − 2) Freiheitsgraden
144 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Motivation des F -Tests: Zerlegung der Varianz
n∑i=1
(yi − y ·)2
︸ ︷︷ ︸Gesamtvarianz
=n∑
i=1(yi − (b0 + bxi ))2
︸ ︷︷ ︸Residualvarianz
+n∑
i=1(y · − (b0 + b1xi ))2
︸ ︷︷ ︸Varianz der Regression
I Bezeichnungen:
S2reg =
11
n∑i=1
(y · − (b0 + b1xi ))2
heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und
S2y |x =
1n − 2
n∑i=1
(yi − (b0 + b1xi ))2.
ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).I Andere Interpretationen:- Schatzung fur die Varianz der Großen εi- durch das lineare Regressionsmodell nicht erklarbare Varianz
145 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Motivation des F -Tests: Zerlegung der Varianz
n∑i=1
(yi − y ·)2
︸ ︷︷ ︸Gesamtvarianz
=n∑
i=1(yi − (b0 + bxi ))2
︸ ︷︷ ︸Residualvarianz
+n∑
i=1(y · − (b0 + b1xi ))2
︸ ︷︷ ︸Varianz der Regression
= (n − 2) · S2y |x + ·S2
reg
Beachte:
I Bei dem F -Test fur die Hypothese H0 : b1 = 0 bildet man denQuotienten aus der Varianz der Regression und derResidualvarianz
I Man untersucht also das Verhaltnis zwischen erklarbarer undnicht erklarbarer Varianz.
146 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.15 Varianzanalyse (ANOVA; analysis of variance)
Art der Freiheits- Quadrat- F -QuotientAbweichung grade (df ) summe schatzer
Regression 1∑n
i=1(y · − yi )2 Fn = S2
reg/S2y |x
Fehler n − 2∑n
i=1(yi − yi )2 —
Total n − 1∑n
i=1(yi − y ·)2 —
Bezeichnung:
yi = b0 + b1xi Vorhersage an der Stelle xi
147 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: F -Test bei linearer Regression inBeispiel 2.1
SignifikanzFMittel der QuadratedfQuadratsumme
Regression
Residuen
Gesamt
1
24760,960
22,73723522,945
,004a
10,468238,0151238,015ModellModell
ANOVAb
a. Einflußvariablen : (Konstante), Leistungsstreben
b. Abhängige Variable: Motivation
Beachte:I F25 = 10.468, F1,23,0.95 = 4.2793I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%verworfen (p-Wert: 0.004)
148 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: F -Test bei linearer Regression inBeispiel 2.1Analysis of Variance Table
Response : y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 238.01 238.015 10.468 0.003655 **
Residuals 23 522.95 22.737
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Beachte:I F25 = 10.468, F1,23,0.95 = 4.2793I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%verworfen (p-Wert: 0.004)
149 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Modellgute: ”wie geeignet“ ist das Modell fur dieBeschreibung der Daten
I Maß fur Modellanpassung: Residualvarianz (Summe derquadrierte Abstande von der Regressionsgerade):
S2y |x =
1n − 2
n∑i=1
(yi − (b0 + b1xi )
)2
I Beachte: S2y |x ist ein Schatzer fur die Varianz der Messfehler
I Je kleiner S2y |x , desto ”besser“ ist das (lineare)
RegressionsmodellI Streuung der Daten ohne die ”Information“, dass ein lineares
Modell vorliegt:n∑
i=1(yi − y·)2
I Man untersucht welchen Anteil der Streuung∑n
i=1(yi − y·)2
man durch das lineare Modell erklaren kann.
150 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Varianzzerlegung: ein extremes Beispiel
0 5 10 15 20
10
20
30
40
Unabhängige Variable
Abh
ängi
ge V
aria
ble
0 5 10 15 20
10
20
30
40
xy
Beachte:I Die Grafik zeigt eine extreme Situation.I Die Streuung der Daten ist durch das lineare Regressionsmodell
zu 100% erklarbar!∑n
i=1(yi − y ·)2 =∑n
i=1(y · − (b0 + b1xi ))2
I Residualvarianz (durch das lineare Regressionsmodell nichterklarbare Varianz) = 0
151 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.16 Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1):
25∑i=1
(yi − y ·)2 = 760.96
25∑i=1
(y · − (b0 + b1xi ))2 = 238.04
R2 =
∑25i=1(y · − (b0 + b1xi ))2∑25
i=1(yi − y ·)2= 0.313
d. h. 31.3% der Varianz der Variablen Motivation konnen durch die
Pradiktorvariable Leistungsstreben erklart werden.
152 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.17 Modellgute: das Bestimmtheitsmaß
I Die Große
R2 = 1−∑n
i=1(yi − (b0 + b1xi ))2∑ni=1(yi − y ·)2 =
∑ni=1(y · − (b0 + b1xi ))2∑n
i=1(y · − yi )2
ist ein Maß fur die Gute der Regression und heißtBestimmtheitsmaß.
I Beachte: Man kann zeigen, dass R2 genau das Quadrat derKorrelation ist.
I Je ”besser“ das Modell ist, desto kleiner ist dieResidualvarianz, bzw. desto großer R2!
I Das Bestimmtheitsmaß R2 liegt immer zwischen 0 und 1
153 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Zusammenhang zwischen Bestimmtheitsmaß undF -Test
I Ist Fn die Statistik fur den F -Test aus 2.14 und R2 dasBestimmtheitsmaß, dann gilt:
R2 =1
n−2 Fn
1 + 1n−2 Fn
I In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann ausdem Bestimmtheitsmaß berechnet werden (und umgekehrt)
I Im Beispiel des Zusammenhangs zwischen Motivation undLeistungsstreben ist
Fn = 10.468 =⇒ R2 =10.468
231 + 10.468
23= 0.313
Ca. 31.3% der Variation der Variablen Motivation konnen durchdie Variable Leistungsstreben erklart werden.
154 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Vorhersagen: es gibt zwei unterschiedliche
2.18 Vorhersage fur den Wert der Geraden an einerStelle x
I Schatzung fur den Wert der Geraden y(x) = b0 + b1x ander Stelle x :
y(x) = b0 + b1xI (1− α)-Konfidenzintervall fur y(x)
(y(x)− tn−2;1−α2 · sy(x), y(x) + tn−2;1−α2 · sy(x))
wobeis2y(x) = S2
y |x
(1n +
(x − x ·)2∑ni=1(xi − x ·)2
)den Schatzer fur die Varianz von Y (x) bezeichnet
155 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Vorhersagen: es gibt zwei unterschiedliche
2.19 Vorhersage fur eine neue Beobachtung an einerStelle x
I Schatzer fur eine neue Beobachtung Y (x) = b0 + b1x + εan der Stelle x :
y(x) = b0 + b1xI (1− α)-Konfidenzintervall fur y(x)
(y(x)− tn−2;1−α2 · sy(x), y(x) + tn−2;1−α2 · sy(x))
wobei
s2y(x) = S2
y |x
(1 +
1n +
(x − x ·)2∑ni=1(xi − x ·)2
)den Schatzer fur die Varianz von y(x) + ε bezeichnet.
I Beachte: Diese Varianz wird bei wachsendemStichprobenumfang nicht beliebig klein!
156 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.20 Beispiel: Fortsetzung von Beispiel 2.1(1) Gesucht ist ein 90% Konfidenzintervall fur den Wert der
Geraden an der Stelle x = 16I t23,0.95 = 1.714, S2
y|x = 22.737, s2y(x) = 1.116, y(16) =
b0 + 16b1 = 18.49I Das 90% Konfidenzintervall fur den Wert der Geraden an der
Stelle 16 ist gegeben durch
[16.677, 20.299]
(2) Gesucht ist ein 90% Konfidenzintervall fur eine neueBeobachtung der Stelle x = 16
I t23,0.95 = 1.714, S2y|x = 22.737, s2
y(x) = 23.85, y(16) =
b0 + 16b1 = 18.49I Das 90% Konfidenzintervall fur eine neue Beobachtung an der
Stelle 16 ist gegeben durch
[10.118, 26.859]
157 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorhersagen bei linearerRegression in Beispiel 2.1 (schwierig)
158 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Konfidenzintervalle furVorhersagen bei linearer Regression in Beispiel2.1
Leistungsstreben
403020100
Mo
tiva
tio
n
35
30
25
20
15
10
5
16.0
159 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.21 ResiduenanalyseI Unter der Modellannahme des linearen Regressionsmodells
gilt: die Großenεi = Yi − b0 − b1xi
sind unabhangig und normalverteilt mit Erwartungswert 0und Varianz σ2 > 0.
I Das bedeutet, dass diese Eigenschaften auch
”naherungsweise“ fur die Residuenεi = yi − b0 − b1xi
erfullt sein sollte, falls die Modellannahme zutrifft.I Residuenanalyse ist ein deskriptives Verfahren fur die
Uberprufung der Annahmen an ε1, . . . , εn mit 4Teilschritten (oft werden auch nicht alle gemacht):
A: Das Streudiagramm der Daten mit der RegressionslinieB: Ein Streudiagramm der Residuen gegen die vorhergesagten
WerteC: Normalverteilungs-QQ-Plot der ResiduenD: Histogramm der Residuen mit angepasster
Normalverteilungsdichte160 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residuenanalyse bei ”erfullten“ Voraussetzungen
−2 −1 0 1 2
−2
0
2
4
6
8 A
Unabhängige Variable
Abh
ängi
ge V
aria
ble
0 2 4 6−1.5
−1.0
−0.5
0.0
0.5
1.0B
Vorhergesagter Wert
Res
iduu
m
−2 −1 0 1 2−1.5
−1.0
−0.5
0.0
0.5
1.0C
Theoretische Quantile der Standardnormalvert.
Em
piris
che
Qua
ntile
D
Residuum
f(R
esid
uum
)
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
0.0
0.2
0.4
0.6
0.8
1.0
161 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residuenanalyse bei ”Abweichungen“ von derNormalverteilung (Ausreißer)
−2 −1 0 1 2
−10
0
10
20
A
Unabhängige Variable
Abh
ängi
ge V
aria
ble
0 2 4 6 8
−10
−5
0
5
10
15
20B
Vorhergesagter Wert
Res
iduu
m
−2 −1 0 1 2
−10
−5
0
5
10
15
20C
Theoretische Quantile der Standardnormalvert.
Em
piris
che
Qua
ntile
D
Residuum
f(R
esid
uum
)
−15 −10 −5 0 5 10 15 20
0.00
0.05
0.10
0.15
162 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residuenanalyse bei StratifizierungBeachte: verschiedene Untergruppen (Strata) konnen ebenfalls zuAbweichungen von den Modellannahmen fuhren. Fur die Stratakonnen dann unterschiedliche Regressionsgleichungen gelten.
−2 −1 0 1 2
−10
−5
0
5
10
15A
Unabhängige Variable
Abh
ängi
ge V
aria
ble
−2 0 2 4 6
−10
−5
0
5
10B
Vorhergesagter WertR
esid
uum
−2 −1 0 1 2
−10
−5
0
5
10C
Theoretische Quantile der Standardnormalvert.
Em
piris
che
Qua
ntile
D
Residuum
f(R
esid
uum
)
−10 −5 0 5 10
0.00
0.05
0.10
0.15
163 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residuenanalyse bei falscher Modellannahme
−2 −1 0 1 2−60
−40
−20
0
20
40
A
Unabhängige Variable
Abh
ängi
ge V
aria
ble
−30 −20 −10 0 10 20 30 40
−20
−10
0
10
B
Vorhergesagter Wert
Res
iduu
m
−2 −1 0 1 2
−20
−10
0
10
C
Theoretische Quantile der Standardnormalvert.
Em
piris
che
Qua
ntile
D
Residuum
f(R
esid
uum
)
−30 −20 −10 0 10 20
0.00
0.01
0.02
0.03
0.04
0.05
Statt des linearen Modells ware ein Polynom 3. Grades die bessereAnnahme fur die Beschreibung des funktionalen Zusammenhangs!
164 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residuenanalyse bei ungleichen Varianzen(Heteroskedastizitat)
−2 −1 0 1 2
−40
−30
−20
−10
0
10
20
A
Unabhängige Variable
Abh
ängi
ge V
aria
ble
−2 0 2 4 6
−40
−30
−20
−10
0
10
20
30B
Vorhergesagter Wert
Res
iduu
m
−2 −1 0 1 2
−40
−30
−20
−10
0
10
20
30C
Theoretische Quantile der Standardnormalvert.
Em
piris
che
Qua
ntile
D
Residuum
f(R
esid
uum
)
−40 −20 0 20
0.00
0.02
0.04
0.06
0.08
0.10
165 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Residuenanalyse in Beispiel 2.1
Leistungsstreben
403020100
Mo
tiva
tio
n35
30
25
20
15
10
5
R-Quadrat linear = 0,313
Streudiagramm und geschatzte Regressionsgerade im Beispiel derArbeitsmotivation
166 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output fur Residuenanalyse
0 10 20 30 40
1020
30
Leistungsstreben
Mot
ivat
ion
QQ-Plot im Beispiel der Arbeitsmotivation
167 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Residuenanalyse in Beispiel 2.1
Standardized Predicted Value
2,000001,00000,00000-1,00000-2,00000
Sta
nd
ard
ized
Res
idu
al3,00000
2,00000
1,00000
,00000
-1,00000
-2,00000
Streudiagramm der Residuen gegen die vorhergesagten Werte imBeispiel der Arbeitsmotivation
168 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Residuenanalyse in Beispiel 2.1
14 16 18 20 22 24
−10
05
10
Fitted values
Res
idua
ls
lm(y ~ x)
Residuals vs Fitted
1
219
Streudiagramm und geschatzte Regressionsgerade im Beispiel derArbeitsmotivation
169 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output fur Residuenanalyse
Beobachteter Wert
3210-1-2
Erw
arte
ter
Wer
t vo
n N
orm
al
2
1
0
-1
-2
Q-Q-Diagramm von Normal von Standardized Residual
QQ-Plot im Beispiel der Arbeitsmotivation
170 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Residuenanalyse in Beispiel 2.1
−2 −1 0 1 2
−2
01
23
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(y ~ x)
Normal Q−Q
1
219
Streudiagramm der Residuen gegen die vorhergesagten Werte imBeispiel der Arbeitsmotivation
171 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Korrelation und lineare Regression
Es besteht ein enger Zusammenhang zwischen linearer Regressionund Korrelation
I Ist b1 die Schatzung im linearen Regressionsmodell und r derKorrelationskoeffizient von Pearson, dann gilt:
r =
√∑ni=1(xi − x ·)2∑ni=1(yi − y ·)2 · b1
I Ist R2 das Bestimmtheitsmaß und r der Korrelationskoeffizientvon Pearson, dann gilt:
r 2 = R2
172 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.3 Multiple lineare Regression
173 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.22 Beispiel: ”Arbeitsmotivation mit mehrerenPradiktoren”y : Motivation (Einschatzung der Arbeitsmotivation durch Experten)
Pradiktoren: EigenschaftenI x1: Ehrgeiz (Fragebogen)I x2: Kreativitat (Fragebogen)I x3: Leistungsstreben (Fragebogen)
Pradiktoren: RahmenbedingungenI x4: Hierarchie (Position in der Hierarchie des Unternehmens)I x5: Lohn (Bruttolohn pro Monat)I x6: Arbeitsbedingungen (Zeitsouveranitat,
Kommunikationsstruktur usw.)
Pradiktoren: Inhalte der TatigkeitI x7: Lernpotential (Lernpotential der Tatigkeit)I x8: Vielfalt (Vielfalt an Teiltatigkeiten)I x9: Anspruch (Komplexitat der Tatigkeit)
174 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Daten
i y x1 x2 x3 x4 x5 x6 x7 x8 x91 32 36 30 20 20 3100 34 29 69 662 14 30 11 30 7 2600 39 16 47 363 12 19 15 15 8 3200 42 13 32 174 27 42 16 39 13 2500 43 15 63 495 20 14 22 5 22 3700 42 29 38 626 13 12 16 6 11 2600 36 17 39 517 17 17 20 12 11 2500 41 18 44 558 8 4 5 0 16 3800 23 9 31 339 22 32 20 35 20 3500 25 21 40 55
10 19 15 13 8 13 3100 29 21 57 5611 25 38 5 34 21 3600 59 27 53 6712 23 24 6 26 9 2600 45 31 54 62
175 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Daten
i y x1 x2 x3 x4 x5 x6 x7 x8 x913 17 28 11 32 10 2600 30 7 45 2614 22 36 4 26 16 2500 52 23 56 6415 19 18 26 12 6 2500 40 17 54 5516 27 40 27 36 12 2500 42 29 44 6217 26 30 28 27 18 3000 38 34 43 6418 20 27 11 26 10 2600 35 19 46 5519 11 18 23 13 11 2800 42 18 31 4320 24 32 18 19 15 2700 48 23 51 5321 19 33 9 25 6 2400 38 23 37 6522 19 33 22 30 5 2600 36 30 39 3923 22 27 28 18 17 4000 45 23 52 5424 24 30 32 21 11 2700 44 20 41 4725 17 37 8 11 2 2300 32 20 44 41
176 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.23 Das Modell der multiplen linearen RegressionI Daten (x1, y1), . . . , (xn, yn)
I Es gibt k unabhangige Variablen: x i = (x1i , . . . , xki )
I yi ist Realisation einer Zufallsvariablen Yi (unter derBedingung x i ). Fur den Zusammenhang zwischen derVariablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9):
Yi = b0 + b1x1i + b2x2i + . . .+ bkxki + εi
= b0 +k∑
j=1bjxji + εi .
I εi bezeichnet hier eine zufallige ”Storung” und es wirdangenommen, dass die Storungen ε1, . . . , εn unabhangigund normalverteilt sind mit Erwartungswert 0 und Varianzσ2 > 0.
I Deutung: Es wird ein linearer Zusammenhang zwischen xund Y postuliert, der noch zufalligen Storungen unterliegt.
177 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.24 Schatzung bei multipler linearer RegressionI Methode der kleinsten Quadrate: Minimiere
n∑i=1
(yi − b0 − b1x1i − . . .− bkxki )2
bzgl. der Wahl von b0, . . . , bk
I Mathematische Statistik (allgemeines lineares Modell)liefert Schatzer
b0, b1, . . . , bk
fur die Parameter b0, . . . , bk (Formeln sind kompliziert)I Schatzer fur die Varianz der Messfehler
S2y |x =
1n − k − 1
n∑i=1
(yi − b0 − b1x1i − . . .− bkxki )2
178 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Streudiagramm bei multipler linearer Regression(k = 2)Regressionsflache: y(x) = 3.24 + 4.5x1 + 5.27x2.
−5
0
5−3 −2 −1 0 1 2 3 4
−30
−20
−10
0
10
20
30
40
X2
X1
Y
179 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Fortsetzung von Beispiel 2.22: Schatzer immultiplen linearen Regressionsmodell
I Ergebnisse fur die Schatzer im multiplen linearenRegressionsmodell
b0 = −3.842 b1 = 0.193b2 = 0.153 b3 = 0.049b4 = 0.246 b5 = 0.000b6 = −0.031 b7 = 0.165b8 = 0.206 b9 = −0.053
I Fragen:I Wie genau sind diese Schatzungen?I Besteht ein (signifikanter) Einfluss der unabhangigen Merkmale
auf die MotivationH0 : b1 = 0H0 : b2 = 0
...I Wie gut beschreibt das multiple lineare Regressionsmodell die
Situation?180 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Genauigkeit der Schatzung bei multipler linearerRegression
I Schatzer sb0 , . . . , sbk fur die Standardfehler von b0, . . . , bk sindverfugbar (Allgemeines lineares Modell → Formeln kompliziert)
I Anmerkung: Fur wachsenden Stichprobenumfang konvergierendie Schatzer sbj gegen 0 ”je großer der Stichprobenumfang,desto genauer die Schatzungen”
I Damit erhalt man Konfidenzintervalle fur b0, . . . , bk , z. B.
(b0 − tn−k−1,1−α2 sb0 , b0 + tn−k−1,1−α2 sb0 )
ist (1− α)-Konfidenzintervall fur b0.
181 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Fortsetzung von Beispiel 2.22: Schatzer fur denStandardfehler der Schatzer im multiplen linearenRegressionsmodell
I Ergebnisse fur den Standardfehler der Schatzer im multiplenlinearen Regressionsmodell
sb0 = 5.052 sb1 = 0.081sb2 = 0.049 sb3 = 0.065sb4 = 0.148 sb5 = 0.001sb6 = 0.054 sb7 = 0.098sb8 = 0.052 sb9 = 0.058
I Wegen t15,0.975 = 2.1314 ist
[−0.089, 0.188]
ein 95%-Konfidenzintervall fur den Parameter b3. Man beachte:I 0.049 + 2.1314 · 0.065 ≈ 0.188)I n = 25; k = 9 ⇒ n − k − 1 = 15
182 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.25 Konfidenzintervalle fur multiple lineare RegressionI Modellannahme: multiple lineare Regression
Yi = b0 +k∑
j=1bjxji + εi (i = 1, . . . , n)
I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme
I Schatzer sbj fur den Standardfehler von bj
=⇒ (bj − tn−k−1,1−α2 sbj , bj + tn−k−1,1−α2 sbj )
ist ein (1− α)-Konfidenzintervall fur bj (j = 0, . . . , k)
I tn−k−1,1−α2 ; (1− α2 )-Quantil der t-Verteilung mit n− k − 1
Freiheitsgraden (Tabelle oder Software)I Anmerkung: Fur wachsenden Stichprobenumfang
konvergieren die Schatzer sbj gegen 0 ”je großer derStichprobenumfang, desto kleiner die Konfidenzintervalle”
183 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.26 Beispiel: Konfidenzintervalle fur dieParameter in Beispiel 2.22 (Arbeitsmotivation)
bj Merkmal Schatzung sbj Konfidenzintervallb0 — -3.842 5.052 [-14.609, 6.926]b1 Ehrgeiz 0.193 0.081 [0.020, 0.365]b2 Kreativitat 0.153 0.049 [0.049, 0.258]b3 Leistungsstreben 0.049 0.065 [-0.089, 0.188]b4 Hierarchie 0.246 0.148 [-0.069, 0.561]b5 Lohn 0.000 0.001 [-0.004, 0.002]b6 Arbeitsbdg. -0.031 0.054 [-0.147, 0.085]b7 Lernpotential 0.165 0.098 [-0.044, 0.373]b8 Vielfalt 0.206 0.052 [0.095, 0.316]b9 Anspruch 0.053 0.058 [-0.070, 0.177]
184 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Schatzer, Standardabweichungund Konfidenzintervalle im Beispiel 2.22(Arbeitsmotivation mit mehreren Pradiktoren)
StandardfehlerB Beta
SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
Koeffizienten
NichtstandardisierteKoeffizienten
(Konstante)
x1
x2
x3
x4
x5
x6
x7
x8
x9
1
,177-,070,372,920,124,058,053
,316,095,0013,973,354,052,206
,373-,044,1131,683,199,098,165
,085-,147,573-,576-,045,054-,031
,002-,004,564-,589-,077,001,000
,561-,069,1171,664,235,148,246
,188-,089,458,761,095,065,049
,258,049,0073,127,234,049,153
,365,020,0312,381,337,081,193
6,926-14,609,459-,7605,052-3,842ModellModell
Koeffizientena
a. Abhängige Variable: Y
185 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Schatzer, Standardabweichung undKonfidenzintervalle im Beispiel 2.22(Arbeitsmotivation mit mehreren Pradiktoren)Call:
lm( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9)
Residuals :
Min 1Q Median 3Q Max
-3.5333 -0.7878 -0.0144 0.8352 2.9391
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) -3.8418391 5.0517520 -0.760 0.45875
x1 0.1927225 0.0809357 2.381 0.03094 *
x2 0.1533724 0.0490456 3.127 0.00692 **
x3 0.0493953 0.0648797 0.761 0.45826
x4 0.2460051 0.1478258 1.664 0.11683
x5 -0.0008827 0.0014981 -0.589 0.56449
x6 -0.0313833 0.0544449 -0.576 0.57288
x7 0.1647413 0.0978616 1.683 0.11299
x8 0.2056107 0.0517518 3.973 0.00122 **
x9 0.0533844 0.0580076 0.920 0.37198
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 1.891 on 15 degrees of freedom
Multiple R- squared : 0.9295 , Adjusted R- squared : 0.8872
F- statistic : 21.97 on 9 and 15 DF , p- value : 4.492e -07
2.5 % 97.5 %
( Intercept ) -14.609393640 6.925715428
x1 0.020212256 0.365232828
x2 0.048834252 0.257910529
x3 -0.088892612 0.187683168
x4 -0.069078063 0.561088342
x5 -0.004075849 0.002310442
x6 -0.147429821 0.084663199
x7 -0.043845720 0.373328278
x8 0.095304292 0.315917155
x9 -0.070255862 0.177024655
186 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.27 Vorhersage der multiplen linearen RegressionI Modellannahme: multiple lineare Regression
Yi = b0 +k∑
j=1bjxji + εi (i = 1, . . . , n)
I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme
I Vorhersage fur den Wert der multiplen Regression an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)y(x) = b0 +
∑kj=1 bjxj
I In Beispiel 2.22 ergibt sich z. B. als Vorhersage dermultiplen linearen Regression an der Stelle
x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900,x6 = 41, x7 = 25, x8 = 55, x9 = 54
der Wert y(x) = 22.717
187 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Vorhersage der multiplen linearen RegressionBeachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersa-
gen:
I Vorhersage fur den Wert der multiplen Regression an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)
I Vorhersage fur den Wert einer neuen Beobachtung an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)
I Fur beide Vorhersagen kann man den Standardfehlerbestimmen (Formeln kompliziert) und Konfidenzbereicheangeben (vgl. Abschnitt 2.18 und 2.19 fur den Fall k = 1 )
188 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorhersage bei der multiplenlinearen Regression (schwierig)
Beispiel:I Schatzung fur den Wert der ”Ebene” an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348I Schatzung fur eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348189 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Konfidenzintervalle furVorhersagen bei multipler linearer Regression
I Konfidenzintervall fur den Wert der ”Ebene” an der Stellex = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297]
I Konfidenzintervall fur eine weitere Beobachtung an der Stellex = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826]
190 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.28 Bestimmtheitsmaß bei multipler linearer Regression
I Modellvorhersage:
yi = b0 + b1x1i + . . . bkxki = b0 +k∑
j=1bjxji
I Residuum εi = yi − yi = yi − (b0 +∑k
j=1 bjxji )
I Beachte: Die Werte der abhangigen Variable zerfallen inModellvorhersage (y) und Residuum (ε), d. h.
yi = yi + εi i = 1, . . . , n
I Die Gute der Modellanpassung wird (wieder) durch dasBestimmtheitsmaß R2 beschrieben (Anteil erklarterVarianz)
R2 = 1−∑n
i=1(yi − yi )2∑n
i=1(yi − y ·)2 =
∑ni=1(y · − yi )
2∑ni=1(yi − y ·)2 .
191 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel: Das Bestimmtheitsmaß fur das Beispiel2.22 (Arbeitsmotivation)
In Beispiel 2.22 ist
I n = 25; k = 9I∑n
i=1(yi − yi )2 = 53.651
I∑n
i=1(yi − y ·)2 = 760.96I
R2 = 1− 53.651760.96 = 92.95
D. h. 92.95% der Varianz der Variablen Motivation werden durch dasmultiple lineare Regressionsmodell erklart.
192 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.29 Statistische Tests bei der multiplen linearen Regres-sion. Zwei ”wichtige” Fragestellungen:
I Frage A: Hat mindestens eine der Pradiktorvariablenx1, . . . , xk einen Einfluss auf die abhangige Variable y(Gesamttest auf Signifikanz).
I Mathematische Formulierung der Hypothese:Nullhypothese:
H0 : bj = 0 fur alle j ∈ {1, 2, . . . , k}
Alternative:
H1 : bj 6= 0 fur mindestens ein j ∈ {1, 2, . . . , k}
I Frage B: Hat die Pradiktorvariable xj (z. B. Ehrgeiz) einenEinfluss auf die abhangige Variable y .
I Mathematische Formulierung der Hypothese:
Nullhypothese: H0 : bj = 0Alternative: H1 : bj 6= 0
193 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.29(A) Gesamttest auf SignifikanzI Nullhypothese: H0 : bj = 0 fur alle j ∈ {1, 2, . . . , k}
Alternative: H1 : bj 6= 0 fur mindestens einj ∈ {1, 2, . . . , k}
(1) Bestimme
S2reg =
1k
n∑i=1
(y · − yi )2
die Varianz der Regression, und
S2y|x =
1n − k − 1
n∑i=1
(yi − yi )2
die ResidualvarianzI Beachte: Man geht genau wie im linearen
Regressionsmodell vor!
194 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.29(A) Gesamttest auf Signifikanz(2) H0 wird zu Gunsten der Alternative H1 verworfen, falls
Fn =S2
reg
S2y|x
> Fk;n−k−1;1−α
gilt (oder der entsprechende p-Wert kleiner als α ist).Dabei bezeichnet Fk;n−k−1;1−α das (1− α)-Quantil derF -Verteilung mit (k, n − k − 1) Freiheitsgraden.
I Beachte: Wird H0 durch diesen Test verworfen, dann bleibtaber noch unklar, ”welches der Merkmale signifikant ist”.
195 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.29(B) Tests fur die Signifikanz einzelner Merkmale
Nullhypothese:H0 : bj = 0
Alternative:H1 : bj 6= 0
I Die Nullhypothese H0 wird zu Gunsten der Alternative H1verworfen, falls
Tn =
∣∣∣∣∣ bjsbj
∣∣∣∣∣ > tn−k−1;1−α2
gilt (oder der entsprechende p-Wert kleiner als α ist).Dabei ist
I tn−k−1;1−α2 das (1− α2 )-Quantil der t-Verteilung mit
n − k − 1 FreiheitsgradenI sbj der Standardfehler von bj
I Beachte: Werden mehrere Hypothesen getestet, ist dasNiveau entsprechend anzupassen (vgl. Abschnitt 2.18).
196 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.30(A) Test auf Signifikanz im multiplen Regressions-modell in Beispiel 2.22
I Frage: ”Hat eine der 9 Pradiktorvariablen einen Einfluss aufdie abhangige Variable?”
I Mathematische Hypothesen:
H0 : bj = 0 fur alle j = 1, . . . , 9
H1 : bj 6= 0 fur mindestens ein j ∈ {1, . . . , 9}
I Fn = 21.972, F9,15,0.95 = 2.5876
I Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zumNiveau 5% verworfen.
197 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.30(B) Beispiel: Test auf Signifikanz einesMerkmals im multiplen linearenRegressionsmodell in Beispiel 2.22
I Frage: ”Hat die Pradiktorvariable Ehrgeiz (x1) einen Einfluss aufdie abhangige Variable Motivation Signifikanz desRegressionskoeffizienten b1)?”
I Mathematische Hypothesen:
H0 : b1 = 0; H1 : b1 6= 0
I b1 = 0.193, sb1 = 0.081, t25−10,0.975 = 2.13
⇒ T25 = 2.381I Da
T25 = 2.381 > 2.13
wird die Nullhypothese H0 zu Gunsten der AlternativeH1 : b1 6= 0 verworfen (zum Niveau 5%)
198 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Der Test 2.29(A) fur das Beispiel2.22 (Arbeitsmotivation)
SignifikanzFMittel der QuadratedfQuadratsumme
Regression
Residuen
Gesamt
1
24760,960
3,5771553,651
,000a
21,97278,5909707,309ModellModell
ANOVAb
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Abhängige Variable: Y
199 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Der Test 2.29(B) fur das Beispiel2.22 (Arbeitsmotivation)
StandardfehlerB Beta
SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
Koeffizienten
NichtstandardisierteKoeffizienten
(Konstante)
x1
x2
x3
x4
x5
x6
x7
x8
x9
1
,177-,070,372,920,124,058,053
,316,095,0013,973,354,052,206
,373-,044,1131,683,199,098,165
,085-,147,573-,576-,045,054-,031
,002-,004,564-,589-,077,001,000
,561-,069,1171,664,235,148,246
,188-,089,458,761,095,065,049
,258,049,0073,127,234,049,153
,365,020,0312,381,337,081,193
6,926-14,609,459-,7605,052-3,842ModellModell
Koeffizientena
a. Abhängige Variable: Y
200 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Der Test 2.29(B) fur das Beispiel 2.22(Arbeitsmotivation)Call:
lm( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9)
Residuals :
Min 1Q Median 3Q Max
-3.5333 -0.7878 -0.0144 0.8352 2.9391
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) -3.8418391 5.0517520 -0.760 0.45875
x1 0.1927225 0.0809357 2.381 0.03094 *
x2 0.1533724 0.0490456 3.127 0.00692 **
x3 0.0493953 0.0648797 0.761 0.45826
x4 0.2460051 0.1478258 1.664 0.11683
x5 -0.0008827 0.0014981 -0.589 0.56449
x6 -0.0313833 0.0544449 -0.576 0.57288
x7 0.1647413 0.0978616 1.683 0.11299
x8 0.2056107 0.0517518 3.973 0.00122 **
x9 0.0533844 0.0580076 0.920 0.37198
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
201 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Residual standard error : 1.891 on 15 degrees of freedom
Multiple R- squared : 0.9295 , Adjusted R- squared : 0.8872
F- statistic : 21.97 on 9 and 15 DF , p- value : 4.492e -07
2.5 % 97.5 %
( Intercept ) -14.609393640 6.925715428
x1 0.020212256 0.365232828
x2 0.048834252 0.257910529
x3 -0.088892612 0.187683168
x4 -0.069078063 0.561088342
x5 -0.004075849 0.002310442
x6 -0.147429821 0.084663199
x7 -0.043845720 0.373328278
x8 0.095304292 0.315917155
x9 -0.070255862 0.177024655
202 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.4 Multikollinearitat und Suppressionseffekte
203 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.31 Das Problem der Multikollinearitat
Beispiel: Betrachte in dem Beispiel der ”Arbeitsmarktmotivation” einmultiples lineares Regressionsmodell mit 3 Pradiktorvariablen
Yi = b0 + b1x1i + b2x2i + b3x3i + εi i = 1, . . . , 25
(Y : Motivation, x1 : Ehrgeiz, x2: Kreativitat, x3: Leistungsstreben)I Schatzer fur die Modellparameter
i bi sbi p-Wert0 5.54 2.621 0.39 0.14 0.0082 0.23 0.09 0.0203 0.001 0.12 0.994
I Bestimmtheitsmaß R2 = 0.7861I Beachte: Nur fur den Koeffizient b3 (Leistungsstreben) kann
keine Signifikanz (zum Niveau 5%) nachgewiesen werden.
204 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Korrelationsmatrix fur die Pradiktoren
Motivation Ehrgeiz Kreativitat LeistungsstrebenMotivation 1Ehrgeiz .71 1Kreativitat .38 .05 1Leistungsstreben .56 .82* -.02 1
Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zumNiveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz(SPSS)
205 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
I Beachte: Es gibt eine signifikante Korrelation zwischen denVariablen Leistungsstreben und Ehrgeiz
I Beide Variablen tragen weitgehend identische Information.I Im Beispiel ist die Variable Leistungsstreben redundant und wird
nicht fur die Vorhersage der abhangigen Variablen Motivationbenotigt.
I Die Variable Ehrgeiz ist starker mit der Variablen Motivationkorreliert als die Variable Leistungsstreben (aus diesem Grund istder entsprechende Koeffizient auch signifikant).
I Fur die Bestimmtheitsmaße in den multiplen linearenRegressionsmodellen mit drei bzw. zwei Variablen erhalt man
R2 = 0.786179 fur Modell mit den Pradiktoren x1, x2, x3
R2 = 0.786178 fur Modell mit den Pradiktoren x1, x2
206 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Multikollinearitat; Schatzer imModell mit 3 Parametern
StandardfehlerB Beta
SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
Koeffizienten
NichtstandardisierteKoeffizienten
(Konstante)
x1
x2
x3
1
,257-,255,994,008,002,123,001
,410,040,0202,528,343,089,225
,674,112,0082,913,688,135,393
10,983,095,0462,1162,6185,539ModellModell
Koeffizientena
a. Abhängige Variable: Y
207 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Multikollinearitat; Schatzer im Modellmit 3 ParameternCall:
lm( formula = y ˜ x1 + x2 + x3)
Residuals :
Min 1Q Median 3Q Max
-6.7996 -1.5635 -0.2354 1.8129 6.6490
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) 5.538618 2.617828 2.116 0.04649 *
x1 0.393239 0.135012 2.913 0.00832 **
x2 0.224767 0.088899 2.528 0.01954 *
x3 0.001002 0.123169 0.008 0.99359
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 3.72 on 21 degrees of freedom
Multiple R- squared : 0.6181 , Adjusted R- squared : 0.5635
F- statistic : 11.33 on 3 and 21 DF , p- value : 0.0001246
2.5 % 97.5 %
( Intercept ) 0.09454548 10.9826895
x1 0.11246653 0.6740124
x2 0.03989035 0.4096435
x3 -0.25514150 0.2571450
208 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Multikollinearitat;Korrelationsmatrix
x3x2x1YKorrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Y
x1
x2
x3
25252525
,939,000,004
1,000-,016,818**
,559**
25252525
,939,802,061
-,0161,000,053,379
25252525
,000,802,000
,818**
,0531,000,708**
25252525
,004,061,000
,559**
,379,708**
1,000
Korrelationen
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
209 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Multikollinearitat; KorrelationsmatrixY x1 x2 x3
Y 1.00 0.71 0.38 0.56
x1 0.71 1.00 0.05 0.82
x2 0.38 0.05 1.00 -0.02
x3 0.56 0.82 -0.02 1.00
n= 25
P
Y x1 x2 x3
Y 0.0000 0.0613 0.0037
x1 0.0000 0.8025 0.0000
x2 0.0613 0.8025 0.9388
x3 0.0037 0.0000 0.9388210 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.32 Das Problem der Suppressionseffekte
Beispiel: Betrachte in dem Beispiel 2.22 der
”Arbeitsmarktmotivation” ein multiples lineares Regressionsmodellmit 3 anderen Pradiktorvariablen
Yi = b0 + b4x4i + b5x5i + b6x6i + εi i = 1, . . . , 25
(Y : Motivation, x4: Hierarchie, x5: Lohn, x6: Arbeitsbedingungen)I Schatzungen fur die Modellparameter
i bi sbi p-Wert0 25.08 8.40 0.0074 0.88 0.26 0.0025 -0.01 0.003 0.0166 0.13 0.12 0.308
211 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Korrelationsmatrix fur die Variablen Motivation,Hierarchie, Lohn und Arbeitsbedingungen
Motivation Hierarchie Lohn ArbeitsbedingungenMotivation 1Hierarchie .42* 1Lohn -.04 .72** 1Arbeitsbedingungen .35 .16 -.06 1
Beachte:I Zwischen der Pradiktorvariablen Lohn (x5) und der abhangigen
Variablen Motivation liegt keine signifikante Korrelation vor.I Dennoch bekommt diese Variable im multiplen
Regressionsmodell ein signifikantes Gewicht; d. h. die HypotheseH0 : b5 = 0 wird zum Niveau 5% verworfen (p-Wert: 0.016).
I Man spricht von einem Suppressionseffekt.
212 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
I Grund fur diesen scheinbaren Widerspruch: Korrelationen sindbivariate Maße fur Zusammenhange (zwischen zweiMerkmalen). Das Modell der multiplen Regression untersuchtaber den Zusammenhang zwischen der Variablen Motivation unddem (3-dimensionalen) Pradiktor (x4, x5, x6):
I Motivation ist stark mit der Variablen Hierarchie korreliert.I Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert.I Pradiktorvariable Lohn wird in der multiplen linearen Regression
benotigt, um ”unerwunschte” Varianzanteile der VariablenHierarchie zu kompensieren.
I Bestimmtheitsmaße fur verschiedene ModelleR2 = 0.664282 fur Modell mit x4, x5, x6
R2 = 0.509720 fur Modell mit x4, x6
213 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Suppressionseffekte; Schatzer imModell mit 4 Parametern
StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
Koeffizienten
NichtstandardisierteKoeffizienten
(Konstante)
x4
x5
x6
1
,375-,124,3081,045,179,120,125
-,001-,013,016-2,612-,632,003-,007
1,419,350,0023,444,843,257,884
42,5397,612,0072,9868,39825,076ModellModell
Koeffizientena
a. Abhängige Variable: Y
214 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Suppressionseffekte; Schatzer imModell mit 4 ParameternCall:
lm( formula = y ˜ x4 + x5 + x6)
Residuals :
Min 1Q Median 3Q Max
-8.656 -2.823 1.351 3.262 7.574
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) 25.075612 8.397555 2.986 0.00704 **
x4 0.884461 0.256842 3.444 0.00244 **
x5 -0.007291 0.002792 -2.612 0.01630 *
x6 0.125417 0.120023 1.045 0.30793
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 4.5 on 21 degrees of freedom
Multiple R- squared : 0.4413 , Adjusted R- squared : 0.3615
F- statistic : 5.528 on 3 and 21 DF , p- value : 0.005866
2.5 % 97.5 %
( Intercept ) 7.61193961 42.539283478
x4 0.35032937 1.418593269
x5 -0.01309771 -0.001485116
x6 -0.12418401 0.375017297
215 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Suppressionseffekte; Schatzungder Korrelationsmatrix
x6x5x4YKorrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Y
x4
x5
x6
25252525
,777,435,082
1,000-,060,163,354
25252525
,777,000,856
-,0601,000,717**
-,038
25252525
,435,000,037
,163,717**
1,000,419*
25252525
,082,856,037
,354-,038,419*
1,000
Korrelationen
*. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
216 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Suppressionseffekte; Schatzung derKorrelationsmatrix
Y x4 x5 x6
Y 1.00 0.42 -0.04 0.35
x4 0.42 1.00 0.72 0.16
x5 -0.04 0.72 1.00 -0.06
x6 0.35 0.16 -0.06 1.00
n= 25
P
Y x4 x5 x6
Y 0.0369 0.8562 0.0823
x4 0.0369 0.0000 0.4352
x5 0.8562 0.0000 0.7774
x6 0.0823 0.4352 0.7774
217 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.5 Variablenselektion
218 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.33 Merkmalselektionsverfahren
I Ziel: Mit moglichst wenig Pradiktorvariablen eine guteVorhersage der abhangigen Variablen zu erzielen.
I Prinzip: Untersuche wie sich durch Weglassen einzelnerVariablen das Bestimmtheitsmaß R2 verandert.
Typische Selektionsprozeduren:
I RuckwartsverfahrenI VorwartsverfahrenI Schrittweise Verfahren
I Beachte: Es handelt sich um explorative Verfahren, diehauptsachlich der Modellbildung dienen (Interpretationnicht einfach).
219 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.34 Das Ruckwartsverfahren
I Betrachte das vollstandige Modell (mit allen Pradiktorvariablen)und berechne das Bestimmtheitsmaß R2.
I Entferne sukzessive diejenigen Variablen, die zu dem geringstenRuckgang des Bestimmtheitsmaßes fuhren wurden.
I Das Verfahren wird abgebrochen, falls sich bei dem Entferneneiner Variablen das Bestimmtheitsmaß ”signifikant” verkleinert.
220 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.35 Beispiel: Variablenselektion mit demRuckwartsverfahren (vgl. Beispiel 2.22)
Schritt Pradiktorvariablen t-Wert Ausgeschlossene Variablen R2
1 Ehrgeiz 2.38 .929Kreativitat 3.13Leistungsstreben .76Hierarchie 1.66Lohn -.59Arbeitsbedingungen -.58Lernpotential 1.68Vielfalt 3.97Anspruch .92
2 Ehrgeiz 2.38 Arbeitsbedingungen .928Kreativitat 3.28Leistungsstreben .79Hierarchie 1.66Lohn -.57Lernpotential 1.66Vielfalt 4.04Anspruch .91
221 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel: Ruckwartsverfahren - FortsetzungSchritt Pradiktorvariablen t-Wert Ausgeschlossene Variablen R2
3 Ehrgeiz 2.54 Arbeitsbedingungen .926Kreativitat 3.43 LohnLeistungsstreben .88Hierarchie 2.11Lernpotential 1.59Vielfalt 4.17Anspruch 1.35
4 Ehrgeiz 5.40 Arbeitsbedingungen .923Kreativitat 3.38 LohnHierarchie 2.31 LeistungsstrebenLernpotential 1.55Vielfalt 4.12Anspruch 1.31
5 Ehrgeiz 5.18 Arbeitsbedingungen .916Kreativitat 3.16 LohnHierarchie 2.84 LeistungsstrebenLernpotential 3.31 AnspruchVielfalt 5.04
222 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation
MethodeEntfernteVariablenAufgenommene Variablen
1
2
3
4
5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x9.
Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x3.
Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x5.
Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x6.
Eingeben.x9, x5, x2, x3, x6, x8, x7, x4, …ModellModell
Aufgenommene/Entfernte Variablenb
a. Alle gewünschten Variablen wurden aufgenommen.
b. Abhängige Variable: Y
223 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation
Standardfehlerdes Schätzers
KorrigiertesR-QuadratR-QuadratR
Änderung in Signifikanz von
Fdf2df1Änderung in FÄnderung in R-Quadrat
Änderungsstatistiken
1
2
3
4
5 ,2071811,713-,0071,837,894,916,957e
,389171,783-,0031,803,897,923,961d
,575161,327-,0011,814,896,926,963c
,573151,332-,0021,851,892,928,963b
,00015921,972,9291,891,887,929,964a
ModellModell
Modellzusammenfassung
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
224 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation: ANOVA
SignifikanzFMittel der QuadratedfQuadratsumme
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
1
2
3
4
5
24760,960
3,3741964,108
,000e
41,306139,3705696,852
24760,960
3,2521858,538
,000d
35,999117,0706702,422
24760,960
3,2921755,960
,000c
30,596100,7147705,000
24760,960
3,4271654,840
,000b
25,75288,2658706,120
24760,960
3,5771553,651
,000a
21,97278,5909707,309ModellModell
ANOVAf
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
f. Abhängige Variable: Y
225 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation: Koeffizienten
StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
KoeffizientenNicht standardisierte
Koeffizienten
(Konstante)
x1
x2
x3
x4
x5
x6
x7
x8
x9
(Konstante)
x1
x2
x3
x4
x5
x7
x8
x9
(Konstante)
x1
x2
x3
x4
1
2
3
,344,000,0502,113,164,081,172
,185-,076,389,885,105,062,055
,258,061,0033,431,244,046,159
,354,033,0212,540,338,076,193
-2,877-11,431,003-3,5292,027-7,154
,172-,068,374,914,121,057,052
,312,097,0014,040,352,051,205
,358-,044,1171,655,190,095,157
,002-,004,575-,572-,073,001,000
,545-,066,1161,660,228,144,240
,185-,084,441,790,096,063,050
,258,056,0053,285,239,048,157
,353,020,0302,376,326,079,187
5,238-14,713,329-1,0074,706-4,737
,177-,070,372,920,124,058,053
,316,095,0013,973,354,052,206
,373-,044,1131,683,199,098,165
,085-,147,573-,576-,045,054-,031
,002-,004,564-,589-,077,001,000
,561-,069,1171,664,235,148,246
,188-,089,458,761,095,065,049
,258,049,0073,127,234,049,153
,365,020,0312,381,337,081,193
6,926-14,609,459-,7605,052-3,842ModellModell
Koeffizientena
a. Abhängige Variable: Y
226 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.36 Das Vorwartsverfahren
I Bestimme diejenige Pradiktorvariable, die mit der abhangigenVariablen am starksten korreliert ist und berechne dasBestimmtheitsmaß R2.
I Ist R2 signifikant, wird diese Variable in das Modellaufgenommen.
I Fuge sukzessive diejenigen Variablen zu dem Modell hinzu, diezu dem großten Anstieg des Bestimmtheitsmaßes fuhren.
I Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuenVariablen das Bestimmtheitsmaß R2
”nicht signifikant”vergroßert.
227 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation
MethodeEntfernteVariablen
AufgenommeneVariablen
1
2
3
4
5 Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x4
Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x8
Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x2
Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x9
Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x1
ModellModell
Aufgenommene/Entfernte Variablena
a. Abhängige Variable: Y
228 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation
Standardfehlerdes Schätzers
KorrigiertesR-QuadratR-QuadratR
Änderung in Signifikanz
von Fdf2df1Änderung in FÄnderung in R-Quadrat
Änderungsstatistiken
1
2
3
4
5 ,0411914,810,0221,869,890,913,955e
,00220112,879,0702,039,869,891,944d
,0072118,876,0762,552,795,820,906c
,00022120,980,2442,973,721,744,863b
,00023123,059,5014,065,479,501,708a
ModellModell
Modellzusammenfassung
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
229 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation: ANOVA
SignifikanzFMittel der Quadratedf
Quadratsumme
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
1
2
3
4
5
24760,960
3,4931966,364
,000e
39,773138,9195694,596
24760,960
4,1582083,163
,000d
40,751169,4494677,797
24760,960
6,51021136,716
,000c
31,962208,0813624,244
24760,960
8,84122194,504
,000b
32,035283,2282566,456
24760,960
16,52123379,992
,000a
23,059380,9681380,968ModellModell
ANOVAf
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
230 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation: Koeffizienten
StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
KoeffizientenNicht standardisierte
Koeffizienten
(Konstante)
x1
(Konstante)
x1
x9
(Konstante)
x1
x9
x2
(Konstante)
x1
x9
x2
x8
(Konstante)
x1
x9
x2
x8
x4
1
2
3
4
5
,354,008,0412,193,173,083,181
,283,079,0013,706,311,049,181
,272,082,0013,903,271,045,177
,193,039,0053,147,271,037,116
,364,178,0006,076,474,045,271
-2,479-11,186,004-3,2852,080-6,833
,301,080,0023,589,327,053,190
,294,089,0013,908,293,049,192
,226,074,0014,101,350,037,150
,352,153,0005,286,442,048,253
-1,781-11,224,009-2,8732,263-6,502
,310,055,0072,979,279,061,183
,290,116,0004,862,474,042,203
,433,204,0005,776,558,055,319
2,849-7,052,387-,8832,380-2,101
,321,121,0004,580,515,048,221
,454,187,0004,983,560,064,320
5,542-5,415,981,0242,642,063
,579,230,0004,802,708,084,404
14,0644,111,0013,7782,4069,088ModellModell
Koeffizientena
a. Abhängige Variable: Y
231 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.37 Das schrittweise Verfahren
I Ruckwarts- und Vorwartsverfahren werden kombiniert!I Man fuhrt ein Vorwartsverfahren durch, wobei in jedem Schritt
untersucht wird, ob bei Entfernen einer bereits aufgenommenenVariable das Bestimmtheitsmaß signifikant abnehmen wurde.
232 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation
MethodeEntfernteVariablen
AufgenommeneVariablen
1
2
3
4
5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).
.x4
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).
.x8
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).
.x2
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).
.x9
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).
.x1
ModellModell
Aufgenommene/Entfernte Variablena
a. Abhängige Variable: Y
233 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation
Standardfehlerdes Schätzers
KorrigiertesR-QuadratR-QuadratR
Änderung in Signifikanz
von Fdf2df1Änderung
in FÄnderung in R-Quadrat
Änderungsstatistiken
1
2
3
4
5 ,0411914,810,0221,869,890,913,955e
,00220112,879,0702,039,869,891,944d
,0072118,876,0762,552,795,820,906c
,00022120,980,2442,973,721,744,863b
,00023123,059,5014,065,479,501,708a
ModellModell
Modellzusammenfassung
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
234 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation: ANOVA
SignifikanzFMittel der QuadratedfQuadratsumme
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
1
2
3
4
5
24760,960
3,4931966,364
,000e
39,773138,9195694,596
24760,960
4,1582083,163
,000d
40,751169,4494677,797
24760,960
6,51021136,716
,000c
31,962208,0813624,244
24760,960
8,84122194,504
,000b
32,035283,2282566,456
24760,960
16,52123379,992
,000a
23,059380,9681380,968ModellModell
ANOVAf
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
235 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation: Koeffizienten
StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze
95%-Konfidenzintervall für BStandardisierte
KoeffizientenNicht standardisierte
Koeffizienten
(Konstante)
x1
(Konstante)
x1
x9
(Konstante)
x1
x9
x2
(Konstante)
x1
x9
x2
x8
(Konstante)
x1
x9
x2
x8
x4
1
2
3
4
5
,354,008,0412,193,173,083,181
,283,079,0013,706,311,049,181
,272,082,0013,903,271,045,177
,193,039,0053,147,271,037,116
,364,178,0006,076,474,045,271
-2,479-11,186,004-3,2852,080-6,833
,301,080,0023,589,327,053,190
,294,089,0013,908,293,049,192
,226,074,0014,101,350,037,150
,352,153,0005,286,442,048,253
-1,781-11,224,009-2,8732,263-6,502
,310,055,0072,979,279,061,183
,290,116,0004,862,474,042,203
,433,204,0005,776,558,055,319
2,849-7,052,387-,8832,380-2,101
,321,121,0004,580,515,048,221
,454,187,0004,983,560,064,320
5,542-5,415,981,0242,642,063
,579,230,0004,802,708,084,404
14,0644,111,0013,7782,4069,088ModellModell
Koeffizientena
a. Abhängige Variable: Y
Page 1
236 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.38 Bemerkung zu den verschiedenenMerkmalselektionsverfahren
I Beachte: Verschiedene Verfahren liefern verschiedeneErgebnisse (es gibt kein richtig oder falsch!)
I Beispiel (Arbeitsmotivation)
Ruckwartsverfahren Vorwartsverfahren Schrittweises VerfahrenEhrgeiz Ehrgeiz Ehrgeiz
Kreativitat Kreativitat KreativitatHierarchie Hierarchie Hierarchie
Lernpotential Anspruch AnspruchVielfalt Vielfalt Vielfalt
R2 = .916 R2 = .913 R2 = .913
237 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.6 Nichtlineare Zusammenhange
238 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Nichtlineare Zusammenhange
I Die (multiplen) linearen Regressionsmodelle beruhen auf derAnnahme, dass der Zusammenhang zwischen jederPradiktorvariable und der abhangigen Variablen linear ist, d. h.durch eine Gerade beschrieben werden kann.
I Diese Annahme muss nicht immer erfullt sein. Zusammenhangezwischen Variablen konnen im Grunde beliebige Form haben.
I Man spricht in diesen Fallen von nichtlinearenZusammenhangen
239 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.39 Beispiel: Gedachtnistest
I Mehrere Personen machen einen GedachtnistestI 30 Ortsnamen (aus Mongolei) werden vorgegebenI y(x): Anzahl der Ortsnamen, die nach x Tagen noch im
Gedachtnis geblieben sind (Mittelwerte)
x 1 2 3 4 5 6 7 8 9 10y(x) 24.9 19.7 17.0 13.2 11.0 8.5 7.9 5.8 5.5 5.0
240 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-output: Streudiagramm fur die Daten ausBeispiel 2.39 (Gedachtnistest)
Tage
1086420
An
zah
l der
Ort
snam
en
30,0
20,0
10,0
,0
241 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-output: Streudiagramm fur die Daten ausBeispiel 2.39 (Gedachtnistest)
2 4 6 8 10
510
1520
25
Tage
Anz
ahl d
er O
rtsn
amen
242 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-output: Lineare Regression fur die Datenaus Beispiel 2.39 (Gedachtnistest)
Tage
1086420
An
zah
l der
Ort
snam
en30,0
20,0
10,0
,0
Die Gleichung der geschatzten Geraden:y = 10.579− 0.429x
243 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-output: Lineare Regression fur die Daten ausBeispiel 2.39 (Gedachtnistest)
2 4 6 8 10
05
1525
Tage
Anz
ahl d
er O
rtsn
amen
Die Gleichung der geschatzten Geraden:
y = 10.579− 0.429x
244 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-output: Residuenanalyse bei linearerRegression fur die Daten aus Beispiel 2.39(Gedachtnistest)
Standardized Predicted Value
1,500001,00000,50000,00000-,50000-1,00000-1,50000
Sta
nd
ard
ized
Res
idu
al
2,00000
1,00000
,00000
-1,00000
245 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-output: Residuenanalyse bei linearer Regressionfur die Daten aus Beispiel 2.39 (Gedachtnistest)
5 10 15 20
−3
−1
13
Fitted values
Res
idua
ls
lm(y ~ x)
Residuals vs Fitted
110
6
246 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-output: QQ - Plot bei linearer Regressionfur die Daten aus Beispiel 2.39 (Gedachtnistest)
Beobachteter Wert
210-1-2
Erw
arte
ter
Wer
t vo
n N
orm
al
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
Q-Q-Diagramm von Normal von Standardized Residual
247 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-output: QQ - Plot bei linearer Regression furdie Daten aus Beispiel 2.39 (Gedachtnistest)
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.
00.
01.
02.
0
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(y ~ x)
Normal Q−Q
110
6
248 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beachte:I Ein lineares Regressionsmodell ist fur die Beschreibung des
Zusammenhangs ungeeignet!I Quadratisches Regressionsmodell
Yi = b0 + b1xi + b2x2i + εi
I Schatzung der Parameter mit der Methode der kleinstenQuadrate und die entsprechenden Standardfehler
b0 = 29.088 b1 = −4.876 b2 = 0.249sb0 = 0.558 sb1 = 0.233 sb2 = 0.021
249 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Konfidenzbereiche und TestsI Man geht wie in 2.12 und 2.14 bzw. 2.29 vor.
I 90% Konfidenzintervall fur b2 (man beachte: das Modell hat 3Parameter)
t10−3,0.95 = 1.8946 b2 = 0.249 sb2 = 0.021
⇒ [b2 − t7,0.95 sb2 , b2 + t7,0.95 sb2 ] = [0.2092, 0.2888]
ist 90% Konfidenzintervall fur b2.
I Die Hypothese H0 : b2 = 0 wird (zum Niveau 10%) verworfen,falls ∣∣∣ b2
sb2
∣∣∣ > t10−3,0.95
gilt (im Beispiel wird also H0 abgelehnt).I Beachte: 10− 3 Freiheitsgrade, da 10 Daten und 3 Parameter
in der Parabelgleichung
250 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-Output: Schatzer fur quadratischeRegression
StandardfehlerB Beta Sig.t
StandardisierteKoeffizienten
Nicht standardisierte Koeffizienten
Tage
Tage ** 2
(Konstante) ,00052,136,55829,088
,00012,0551,257,021,249
,000-20,927-2,183,233-4,876
Koeffizienten
251 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Schatzer fur quadratische RegressionCall:
lm( formula = y ˜ x + x2)
Residuals :
Min 1Q Median 3Q Max
-0.63121 -0.27023 -0.06689 0.26064 0.75136
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) 29.08833 0.55793 52.14 2.50e -10 ***
x -4.87629 0.23302 -20.93 1.43e -07 ***
x2 0.24886 0.02064 12.05 6.17e -06 ***
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 0.4744 on 7 degrees of freedom
Multiple R- squared : 0.9962 , Adjusted R- squared : 0.9951
F- statistic : 911.2 on 2 and 7 DF , p- value : 3.466e -09
252 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Streudiagramm fur die Daten aus Beispiel 2.39mit der geschatzten Parabel
Tage
1086420
30,0
20,0
10,0
0,0
Anzahl der Ortsnamen
QuadratischBeobachtet
253 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Streudiagramm fur die Daten aus Beispiel 2.39mit der geschatzten Parabel
2 4 6 8 10
510
1520
25
Tage
Anz
ahl d
er O
rtsn
amen
254 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-Output: Residuenanalyse fur die Daten ausBeispiel 2.39 bei quadratischer Regression
Standardized Predicted Value
2,000001,500001,00000,50000,00000-,50000-1,00000
Sta
nd
ard
ized
Res
idu
al
2,00000
1,00000
,00000
-1,00000
-2,00000
255 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: Residuenanalyse fur die Daten ausBeispiel 2.39 bei quadratischer Regression
5 10 15 20 25
−0.
50.
00.
5
Fitted values
Res
idua
ls
lm(y ~ x + x2)
Residuals vs Fitted
7
2
1
256 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-Output: QQ-Plot fur die Daten ausBeispiel 2.39 bei quadratischer Regression
Beobachteter Wert
210-1-2
Erw
arte
ter
Wer
t vo
n N
orm
al
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
Q-Q-Diagramm von Normal von Standardized Residual
257 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
R-Output: QQ-Plot fur die Daten aus Beispiel2.39 bei quadratischer Regression
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.
50.
01.
02.
0
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(y ~ x + x2)
Normal Q−Q
7
2
1
258 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
SPSS-Output: Histogramm fur die Residuen ausBeispiel 2.39 bei quadratischer Regression
Regression Standardisiertes Residuum
210-1-2
Häu
fig
keit
2,5
2,0
1,5
1,0
0,5
0,0
Histogramm
Abhängige Variable: Anzahl der Ortsnamen
Mittelwert =3,96E-16Std.-Abw. = 0,882
N =10
259 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.40 Polynomiale RegressionsmodelleModelle zur polynomialen Regression
Ordnung Modell0. Y = b0 + ε1. Y = b0 + b1x1 + ε2. Y = b0 + b1x1 + b2x2 + ε...
...k. Y = b0 + b1x1 + b2x2 + . . .+ bkxk + ε
Beachte:I In der Regel werden nur Modelle von niedrigem Grad
verwendet (k ≤ 3)!I Schatzung der Parameter erfolgt mit der Methode der
kleinsten Quadrate.I Konfidenzintervalle, Tests und Residuenanalyse werden wie
bei der linearen bzw. multiplen Regression durchgefuhrt(Allgemeines lineares Modell)
260 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.41 Mehrdimensionale Polynome
I Sind mehrere Pradiktorvariablen verfugbar, so konnen nebenPotenzen auch Produkte von zwei oder mehr Variablen in dieRegressionsgleichung aufgenommen werden.
I Beispiele:
Y (x) = b0 + b1x1 + b2x2 + b12x1x2 + ε
Y (x) = b0 + b1x1 + b2x2 + b12x1x2 + b02x21 + b20x2
2 + ε
Y (x) = b0 + b1x1 + b2x2 + b3x3 + b120x1x2 + b103x1x3
+ b023x2x3 + b123x1x2x3 + ε
261 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
3D-Streudiagramm mit der geschatzten Funktion
−6−4
−20
24
−4
−2
0
2
4
6−60
−40
−20
0
20
40
60
80
100
X1
X2
Y
Die geschatzte Funktion ist:
y(x) = 2.23 + 3.52x1 + 5.77x2 + 3.96x1x2.
262 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
3D-Streudiagramm mit der geschatzten FunktionPolynomiale Terme und Produkte der Pradiktoren konnen naturlichauch gemeinsam vorkommen.
Beispiel:
y(x) = b0 + b11x1 + b12x21 + b21x2 + b23x3
2 + b11;21x1x2 + ε.
−6−4
−20
24
−4
−2
0
2
4
6−60
−40
−20
0
20
40
60
80
100
X1
X2
Y
Die angepasste Funktion hat die Form
y(x) = 1 + 2.15x1 + 6.59x21 + 1.66x2 + 3.07x3
2 + 3.76x1x2
263 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.7 Partielle und Semipartielle Korrelation
264 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.42 Beispiel: Entwicklungspsychologie
I Im Rahmen einer Studie in der Entwicklungspsychologie soll derZusammenhang zwischen
I Abstraktionsfahigkeit (x) undI sensomotorischer Koordination (y)
untersucht werden.
I Zusatzlich wird das Alter der Kinder erhoben (z)
I Insgesamt werden 15 Kinder im Alter von 6 - 10 Jahrenuntersucht.
265 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Daten
Kind Abstraktions- sensomotor. Alterfahigkeit (x) Koord. (y) (z)
1 9 8 62 11 12 83 13 14 94 13 13 95 14 14 106 9 8 77 10 9 88 11 12 99 10 8 8
10 8 9 711 13 14 1012 7 7 613 9 10 1014 13 12 1015 14 12 9
266 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Auswertung:I Fur den Korrelationskoeffizient von Pearson (vgl. 2.2) erhalt
man fur die Korrelation der Variablen x (Abstraktionsfahigkeit)und y (sensomotorische Koordination)
rx ,y = 0.89
I Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielenFallen sinnvoll zu untersuchen, ob dieser hohe Wert auf einenEinfluss der dritten ”Variablen” (Alter) zuruckfuhrbar ist.
I In einem solchen Fall spricht man von einer
”Scheinkorrelation”. D. h. rx ,y ist zwar im mathematischenSinn eine Korrelation, aber der gefundene Zusammenhangzwischen Abstraktionsfahigkeit und sensomotorischerKoordination ist (teilweise) durch eine dritte Variable erklarbarund kann nicht als kausal interpretiert werden.
I Ziel: Berechnung einer Korrelation, die von dem Einfluss derdritten Variablen Alter ”bereinigt” ist. =⇒ Partialkorrelation.
267 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.43 PartialkorrelationI Modell: Daten (xi , yi , zi )i=1, ... ,n. Im Beispiel ist xi die
Abstraktionsfahigkeit, yi die sensomotorische Koordination undzi das Alter des i-ten Kindes
I Gesucht: Ein um den Einfluss der Variablen z ”bereinigtes”Abhangigkeitsmaß zwischen den Variablen x und y
I Methode:I Berechne die (lineare) Regressionsgerade fur die Daten
(x1, z1), . . . , (xn, zn):x = a0 + a1z
(vgl. 2.11) und die Residuenx∗i = xi − (a0 + a1zi ) i = 1, . . . , n
I Berechne die (lineare) Regressionsgerade fur die Daten(y1, z1), . . . , (yn, zn):
y = b0 + b1z(vgl. 2.11) und die Residuen
y∗i = yi − (b0 + b1zi ) i = 1, . . . , n
268 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
I Bestimme die Korrelation zwischen den Residuen(x∗1 , y∗1 ), . . . , (x∗n , y∗n )
rx ,y ·z = rx∗,y∗ =
∑ni=1(x∗i − x∗· )(y∗i − y∗· )√∑n
i=1(x∗i − x∗· )2∑ni=1(y∗i − y∗· )2
I Die Großerx ,y ·z
heißt Partialkorrelation zwischen x und y , aus der dasMerkmal z ”herauspartialisiert” wurde.
I Die Partialkorrelation ist also eine bivariate Korrelation zwischenRegressionsresiduen.
269 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.44 BemerkungI Man kann zeigen, dass gilt:
rx ,y ·z =rx ,y − rx ,z ry ,z√
(1− r 2x ,z )(1− r 2
y ,z )(1)
Dabei istI rx,y der Korrelationskoeffizient zwischen den Variablen x und yI rx,z der Korrelationskoeffizient zwischen den Variablen x und zI ry,z der Korrelationskoeffizient zwischen den Variablen y und z
I Die Partialkorrelation ist ein Maß fur den linearenZusammenhang von zwei Variablen x und y , aus dem der lineareEinfluss einer dritten Variablen z eliminiert wurde.Genauer: Die Partialkorrelation bemisst, inwieweit man aus denVorhersagefehlern bei der linearen Prognose von x durch z dieVorhersagefehler bei der linearen Prognose von y durch z linearvorhersagen kann - und umgekehrt.
I Gibt es mehr als drei Variablen, so konnen Partialkorrelationenhoherer Ordnung gebildet werden, indem die Residuen x∗i , y∗imit Hilfe des multiplen linearen Regressionsmodells (vgl.Methodenlehre II, 2.23) bestimmt werden.
270 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Beispiel (Fortsetzung von Beispiel 2.42)I Lineare Regression von x bzgl. z
x = 1.246z + 0.464
I Lineare Regression von y bzgl. z
y = 1.420z − 1.13
I Regressionsresiduenx∗ y∗
1,06 0,610,57 1,771,32 2,351,32 1,351,07 0,93
-0,19 -0,81-0,43 -1,23-0,68 0,35-0,43 -2,23-1,19 0,190,07 0,93
-0,94 -0,39-3,92 -3,070,07 -1,072,32 0,35
271 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
I rx ,y ·z = 0.72
I Die Korrelation zwischen Abstraktionsfahigkeit undsensomotorischen Koordinationsleistungen der Kinder ist somitvon 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter derKinder zuruckzufuhren
I Beachte: Mit den Werten
I rx,y = 0.89I rx,z = 0.77I ry,z = 0.80
kann man die Partialkorrelation rx ,y ·z auch mit Hilfe der Formel(1) berechnen.
272 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Signifikanztest fur partielle Korrelationen
Ein Test zum Niveau α fur die Hypothese ”die Merkmale X und Yunter Z sind unkorreliert”
H0 : ρx ,y .z = 0
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρx ,y .z 6= 0
ab, falls ∣∣∣∣∣∣√
n − 3rx ,y .z√1− r 2
x ,y .z
∣∣∣∣∣∣ > tn−3,1−α2
gilt. Man vergleiche diesen Test mit dem Test auf eine signifikanteKorrelation zwischen zwei Merkmalen (vgl. 2.5)
273 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Partielle Korrelationen in SPSS
sensomotorischeKoordination
Abstraktionsfähigkeit
Korrelation
Signifikanz (zweiseitig)
Freiheitsgrade
Korrelation
Signifikanz (zweiseitig)
Freiheitsgrade
Abstraktionsfähigkeit
sensomotorischeKoordination
Alter
012
.,004
1,000,722
120
,004.
,7221,000KontrollvariablenKontrollvariablen
Korrelationen
274 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Partielle Korrelationen in R$estimate
x y z
x 1.0000000 0.7220272 0.1882497
y 0.7220272 1.0000000 0.4095360
z 0.1882497 0.4095360 1.0000000
$p. value
x y z
x 0.0000000000 0.0003002053 0.5066983
y 0.0003002053 0.0000000000 0.1199311
z 0.5066982702 0.1199311224 0.0000000
$statistic
x y z
x 0.0000000 3.615123 0.6639876
y 3.6151228 0.000000 1.5550628
z 0.6639876 1.555063 0.0000000
$n
[1] 15
$gp
[1] 1
$method
[1] " pearson "
275 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
2.45 SemipartialkorrelationenI Wird die dritte Variable z nur aus einer Variablen (z.B. x)
herauspartialisiert, so spricht man von einerSemipartialkorrelation.
I Man berechnet die (lineare) Regressionsgerade fur die Daten(x1, z1), . . . , (xn, zn):
x = a0 + a1z
und betrachtet die Vorhersagefehler
x∗i = xi − a0 − a1zi
I Dann bestimmt man die Korrelation zwischen(x∗1 , y1), . . . , (x∗n , yn):
ry(x ·z) = rx∗,y =
∑ni=1(x∗i − x∗· )(yi − y ·)√∑n
i=1(x∗i − x∗· )2∑ni=1(yi − y ·)2
276 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Alternative Darstellung fur dieSemipartialkorrelationen
I Man kann zeigen dass gilt:
ry(x ·z) =rx ,y − rx ,z ry ,z√
1− r 2x ,z
(2)
Dabei istI rx,y der Korrelationskoeffizient zwischen den Variablen x und yI rx,z der Korrelationskoeffizient zwischen den Variablen x und zI ry,z der Korrelationskoeffizient zwischen den Variablen y und z
I Bemerkung:I Die Semipartialkorrelation bemisst, inwieweit man aus den
Vorhersagefehlern bei der linearen Prognose von x durch z dieWerte von y linear vorhersagen kann.
I Die quadrierte Semipartialkorrelation ist der Anteil der Varianzvon y , der durch die Variable x zusatzlich zu der Variablen zerklart werden kann.
I Die Semipartialkorrelation ist immer kleiner als diePartialkorrelation.
277 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Berechnung der Semipartialkorrelationen inBeispiel 2.42
I Lineare Regression von x bzgl. z
x = 1.246z + 0.464
I Regressionsresiduen und Beobachtungen
x∗ y1,06 80,57 121,32 141,32 131,07 14
-0,19 8-0,43 9-0,68 12-0,43 8-1,19 90,07 14
-0,94 7-3,92 100,07 122,32 12
278 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
I ry(x ·z) = 0.43
I Die Korrelation zwischen Abstraktionsfahigkeit undsensomotorischen Koordinationsleistungen der Kinder ist somitvon 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter derKinder zuruckzufuhren.
I Beachte: Mit den Werten
I rx,y = 0.89I rx,z = 0.77I ry,z = 0.80
kann man die Semipartialkorrelation ry(x ·z) auch mit Hilfe derFormel (2) berechnen.
279 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Semipartialkorrelationen in SPSSI Die Semipartialkorrelationen (in SPSS heißen diese
Teil-Korrelationen) werden (auf Wunsch) als Erganzung zu denKleinsten Quadrate-Schatzungen im multiplen linearenRegressionsmodell (vgl. 2.23) ausgegeben.
I Signifikanztest fur die Semipartialkorrelationen fehlen.
StandardfehlerRegressionskoeffizientB Beta Sig.T
StandardisierteKoeffizienten
Nicht standardisierte Koeffizienten
(Konstante)
Alter
Abstraktionsfähigkeit
1
,0043,615,671,202,730
,1461,555,289,328,510
,429-,8181,795-1,469ModellModell
Koeffizientena
a. Abhängige Variable: sensomotorische Koordination
TeilPartiellNullter
Ordnung
Korrelationen
Alter
Abstraktionsfähigkeit
1
,431,722,892
,185,410,803ModellModell
Koeffizientena
a. Abhängige Variable: sensomotorische Koordination
280 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Semipartialkorrelationen in RCall:
lm( formula = y ˜ x + z)
Residuals :
Min 1Q Median 3Q Max
-1.9145 -0.7943 0.1447 0.8599 1.3851
Coefficients :
Estimate Std. Error t value Pr(>|t|)
( Intercept ) -1.4690 1.7955 -0.818 0.42922
x 0.7300 0.2019 3.615 0.00355 **
z 0.5104 0.3282 1.555 0.14590
---
Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error : 1.107 on 12 degrees of freedom
Multiple R- squared : 0.8298 , Adjusted R- squared : 0.8014
F- statistic : 29.25 on 2 and 12 DF , p- value : 2.433e -05
estimate p. value statistic n gp Method
1 0.1852102 0.513832 0.6528826 15 1 pearson
estimate p. value statistic n gp Method
1 0.4305663 0.09842207 1.652552 15 1 pearson
281 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineareRegression
2.4 Multikollinearitat undSuppressionseffekte
2.5 Variablenselektion
2.6 NichtlineareZusammenhange
2.7 Partielle undSemipartielle Korrelation
3. Das allgemeinelineare Modell
Bemerkung:
Ob ein Partial- oder Semipartialkorrelationskoeffizient zurBeschreibung eines Zusammenhangs gewahlt wird, hangt vontheoretischen Uberlegungen ab:
I Beeinflusst eine dritte Variable (z) ”ursachlich” beide Variablenx und y Partialkorrelation
I Wird der Zusammenhang zwischen den Variablen x und y durchdie dritte Variable z ”vermittelt” (z ist mit y korreliert undbeeinflusst x) Semipartialkorrelation
282 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3. Das allgemeine lineare Modell
3.1 Matrizen und Vektoren, Kodierung
3.2 Addition und Multiplikation von Matrizen
3.3 Das allgemeine lineare Modell (ALM), Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.5 Zweifaktorielle Varianzanalyse
3.6 Kovarianzanalyse
3.7 Modelle mit Messwiederholungen
283 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Eine grundsatzliche Bemerkung zu Beginn
I Es bestehen viele ”Ahnlichkeiten” zwischen den bisherbetrachteten Beispielen (Zwei-Stichproben t-Test, einfaktorielleVarianzanalyse, lineare und multiple Regression)
I Zerlegung der VarianzI F -Verteilung (das Quadrat der t-Verteilung mit k
Freiheitsgraden ist eine F -Verteilung mit (1, k) Freiheitsgraden)I R2 (welcher Teil der Variation ist durch das Modell erklarbar)
I Ziel: ein Modell, in dem alle bisher behandelten SituationenSpezialfalle sind!
−→ Das allgemeine lineare Modell (ALM)
Y = Xb + ε
I Hilfsmittel: Matrizenrechnung
284 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.1 Matrizen und Vektoren, Kodierung
285 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
I Vektoren und Matrizen sind nutzliche mathematischeHilfsmittel fur die
I Beschreibung der Position eines ObjektesI Beschreibung von Bewegungen und KraftenI etc.I In unserem Fall: Zusammenfassung und die ”Kodierung” der
beobachteten VariablenI Beispiele fur Vektoren
(13
);
2.11
3.2
;
1234
I Die Anzahl der Zeilen in einem Vektor heißt Dimension des
Vektors.
286 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Vektoren und Matrizen
I In Matrizen fasst man mehrere Vektoren gleicher Dimensionzusammen
I Beispiele fur Matrizen
(1 03 1
);
2.1 0 3.41 1 1
3.2 0 −3
;
1 0 2 −72 1 1.1 13 −1 3 −24 0 1 3
I Eine Matrix mit Variablenx1 x2 x3 x4 x5
y1 y2 y3 y4 y5z1 z2 z3 z4 z5
;
(cos ρ sin ρ− sin ρ cos ρ
)
287 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Mehr uber Matrizen: ”Zeilen vor Spalten (ZVS)”I Matrix mit 2 Zeilen und 4 Spalten (2 x 4 Matrix)(
2.1 1.2 6.1 3.41.2 −0.5 2.7 −1.9
)I Matrix mit 4 Zeilen und 2 Spalten (4 x 2 Matrix)
2 10 16 2−1 3
I Matrix mit einer Spalte = VektorI Matrix mit einer Zeile und 6 Spalten (1 x 6 Matrix)
(Zeilen-Vektor); (3 1 1.2 −3.4 0 −2.7
)
288 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.1 Beispiel: Erkennen von Zahlenreihen(Fortsetzung von Beispiel 1.10)
I Studierende der Fachrichtungen Mathematik und Psychologiemachen einen Zahlengedachtnistest
I Wie viele Ziffern konnen sich maximal gemerkt werdenI Wiedergabe in Original und umgekehrter Reihenfolge
I DatenM 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16M 14 17 15 13 16 13 - -P - - - - - - - -
I Frage: Haben Studierende der Psychologie ein besseresZahlengedachtnis als Studierende der Mathematik?
289 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Kodierung des Merkmals Mathematik (1, 0) undPsychologie (0, 1)
I Betrachte in jeder der beiden Gruppen nur die ersten 5 Daten(aus Platzgrunden)
Y =
14141512131314131216
X =
1 01 01 01 01 00 10 10 10 10 1
I Alle Daten der abhangigen Variablen werden in einem Vektor
zusammengefasst (Dimension 10)I Alle Daten der unabhangigen Variablen (Studienfach) werden in
einer Matrix zusammenfasst (10 Zeilen, 2 Spalten)I Die Matrix enthalt nur Nullen und Einsen, wobei die Kodierung
(1, 0) in einer Zeile fur das Fach Mathematik und (0, 1) fur dasFach Psychologie verwendet wird. Man spricht auch von einerDummy-Kodierung
I Beispiel: In der dritten Zeile von X steht (1, 0), d. h. derEintrag in der dritten Zeile von Y gehort zu einemMathematikstudenten. 290 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.2 Beispiel (Fortsetzung von Beispiel 1.10)
I An dem Zahlengedachtnistest (vgl. Beispiel 1.10) nehmen auchnoch 6 Studierende der Geisteswissenschaften teil.
I Daten:M 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16G 11 13 13 10 13 12 13 -M 14 17 15 13 16 13 - -P - - - - - - - -G - - - - - - - -
I Frage: Existieren Unterschiede hinsichtlich desZahlengedachtnisses zwischen den Studierenden der Psychologie,Mathematik und Geisteswissenschaften?
291 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Kodierung der Merkmale Mathematik (1, 0, 0),Psychologie (0, 1, 0), Geisteswissenschaften (0,0, 1)
I Betrachte in jeder Gruppe die ersten 5 Daten (aus Platzgrunden)
Y =
141415121313141312161113131013
X =
1 0 01 0 01 0 01 0 01 0 00 1 00 1 00 1 00 1 00 1 00 0 10 0 10 0 10 0 10 0 1
I Y ist 15-dimensionaler Vektor, X ist 15 x 3 MatrixI Beispiel: In der zwolften Zeile von X steht (0, 0, 1), d. h. der
Eintrag in der zwolften Zeile von Y (13) gehort zu einemStudierenden der Geisteswissenschaften.
292 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.3 Beispiel: Arbeitsmotivation (Fortsetzung vonBeispiel 2.1)
I Untersuchung zur Motivation am Arbeitsplatz in einemChemie-Konzern
I 25 Personen werden zufallig ausgewahlt und verschiedeneVariablen gemessen.
I y : Motivation (Einschatzung durch Experten)x : Leistungsstreben (Fragebogen)
I Frage: Besteht ein Zusammenhang zwischen der Variablen
”Motivation” und der Pradiktorvariablen ”Leistungsstreben”?
I Datenx 20 30 15 39 5 6 12 0 35y 32 14 12 27 20 13 17 8 22x 8 34 26 32 26 12 36 27 26y 19 25 23 17 22 19 27 26 20x 13 19 25 30 18 21 11 - -y 11 24 19 19 22 24 17 - -
293 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
”Kodierung” von quantitativen Merkmalen (hierfur die ersten 9 Daten)Beachte:
I Die quantitative Variable x wird nicht ”kodiert”, sondern direktin der Matrix verwendet
Y =
321412272013178
22
X =
1 201 131 151 391 51 61 121 01 35
I In der Matrix X wurde zusatzlich eine Spalte mit Einsen
eingefugt (der Grund wird spater klar). Y ist 9-dimensionalerVektor; X ist 9 x 2 Matrix.
294 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Mehr uber Matrizen: die Position eines Elements
I Das Element in der Position (2, 3) in der Matrix(2.1 1.2 6.1 3.41.2 −0.5 2.7 −1.9
)ist das Element in der 2-ten Zeile und 3-ten Spalte, also dieZahl 2.7
I Das Element in der Position (4, 1) in der Matrix2 10 16 2−1 3
ist das Element in der 4-ten Zeile und 1-ten Spalte, also dieZahl −1
295 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die m × n Matrix (m Zeilen, n Spalten)
A =
a11 a12 a13 · · · a1na21 a22 a23 · · · a2na31 a32 a33 · · · a3n
......
.... . .
...am1 am2 am3 · · · amn
aij ist das Element in der Position (i , j), d. h. das Element in deri-ten Zeile und j-ten Spalte der Matrix A.
Beispiel: Das Element in der Position (2, 3) (also in der 2-ten Zeileund 3-ten Spalte) der Matrix7 6 3 −1
4 1 −5 21 3 −4 1
ist die Zahl -5.
296 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die Multiplikation von Matrizen mit einer Zahl:
I Jedes Element der Matrix wird mit einer Zahl multipliziertI Beispiele:
1.2 ·(
2.1 1 3−1.3 2.2 −4.1
)=
(1.2 · 2.1 1.2 · 1 1.2 · 3
1.2 · (−1.3) 1.2 · 2.2 1.2 · (−4.1)
)=
(2.32 1.2 3.6−1.56 2.64 −4.92
)
3 ·
1−11.5
=
3 · 13 · (−1)3 · 1.5
=
3−34.5
297 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.2 Addition und Multiplikation von Matrizen
298 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Rechnen mit Matrizen: Die Addition
I Matrizen mit gleicher Zeilen- und Spaltenanzahl konnen addiertwerden, in dem man die Elemente addiert, die an denentsprechenden Positionen stehen: 1.1 1.6−1.2 2.42.4 −3.1
+
−0.5 0.11.0 0−2.1 7.1
=
1.1− 0.5 1.6 + 0.1−1.2 + 1.0 2.4 + 02.4− 2.1 −3.1 + 7.1
=
0.6 1.7−0.2 2.40.3 4.0
(
4.5 −2.1 3.41.7 5.1 −8.2
)+
(0 2 31 −1 −5
)=
(4.5 −0.1 6.42.7 4.1 −13.2
)
299 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die Addition von zwei m × n Matrizen
a11 a12 · · · a1na21 a22 · · · a2n
......
. . ....
am1 am2 · · · amn
+
b11 b12 · · · b1nb21 b22 · · · b2n
......
. . ....
bm1 bm2 · · · bmn
=
a11 + b11 a12 + b12 · · · a1n + b1na21 + b21 a22 + b22 · · · a2n + b2n
......
. . ....
am1 + bm1 am2 + bm2 · · · amn + bmn
Beachte: Es konnen ausschließlich Matrizen addiert werden, diegleiche Zeilen- und Spaltenzahl haben!
300 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Rechnen mit Matrizen: Die Multiplikation
I Das Produkt A · B der Matrizen A and B kann gebildet werden,falls die Anzahl der Spalten der Matrix A gleich der Anzahlder Zeilen der Matrix B ist. Die Berechnung wird hier nur anBeispielen erlautert
A =
(3 −2 61 4 2
)B =
7 1 −1 21 3 1 0−2 0 1 −1
A · B =
(3 · 7− 1 · 2− 2 · 6 −3 1 01 · 7 + 4 · 1− 2 · 2 13 5 0
)=
(7 −3 1 07 13 5 0
)I Beachte:
A ist 2× 3 MatrixB ist 3× 4 Matrix
A · B ist 2× 4 Matrix
301 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Multiplikation einer Matrix mit einem Vektor
A =
4 −1 2 10 2 1 31 3 −1 −2
Y =
1234
A · Y =
4 · 1− 1 · 2 + 2 · 3 + 1 · 40 · 1 + 2 · 2 + 1 · 3 + 3 · 41 · 1 + 3 · 2− 1 · 3− 2 · 4
=
1219−4
Beachte:
A ist 3× 4 MatrixY ist 4× 1 Matrix (4-dimensionaler Vektor)
A · Y ist 3× 1 Matrix
302 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Auf die Reihenfolge kommt es an
Beachte: Bei der Multiplikation von Matrizen darf die Reihenfolgenicht vertauscht werden! Beispiel:
A =
(1 21 3
)B =
(1 10 1
)A · B =
(1 31 4
)6= B · A =
(2 51 3
)
303 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.4 Beispiel: das Modell der linearen Regressionin Matrixschreibweise
Beispiel: Multiplikation mit Kodierungsmatrix bei linearerRegression (vgl. Beispiel 3.3):
1 201 131 151 391 51 61 121 01 35
·(
b0b1
)=
b0 + 20b1b0 + 13b1b0 + 15b1b0 + 39b1b0 + 5b1b0 + 6b1
b0 + 12b1b0 + 0b1
b0 + 35b1
304 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.4 Beispiel: das Modell der linearen Regressionin Matrixschreibweise
Y =
Y1Y2...
Yn
=
1 x11 x2...
...1 xn
︸ ︷︷ ︸
X
·(
b0b1
)︸ ︷︷ ︸
b
+
ε1ε2...εn
︸ ︷︷ ︸
ε
Beachte:I X hat n Zeilen und 2 SpaltenI Die i-te Zeile von Y = Xb + ε ergibt die Gleichung (der Fall
i = 2 in blau)
Yi = b0 + b1xi + εi i = 1, . . . , n
I Schreibweise: Y = Xb + ε
305 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.5 Beispiel: Das Modell der einfaktoriellenVarianzanalyse in Matrixschreibweise (vgl.Beispiel 3.2)Beispiel: Matrixmultiplikation mit einer Kodierungsmatrix(einfaktorielle Varianzanalyse)
1 0 01 0 01 0 00 1 00 1 00 0 10 0 10 0 1
µ1µ2µ3
=
µ1µ1µ1µ2µ2µ3µ3µ3
Beachte: Auf der rechten Seite steht der Vektor der Erwartungswerte
µ1 = 1 · µ1 + 0 · µ2 + 0 · µ3
306 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Fortsetzung Beispiel 3.5:Mathematisches Modell
I
Yij := µi + εij j = 1, . . . , ni ; i = 1, 2, 3
(n1 = 14, n2 = 8, n3 = 7)
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i(Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften:i = 3)
µi : unbekannter Erwartungswert in der Population i(Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften:i = 3)
307 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Matrixschreibweise in Beispiel 3.5: Y = Xb + ε
Y =
Y11...
Y114Y21
.
.
.Y28Y31
.
.
.Y37
=
1 0 0...
.
.
....
1 0 00 1 0...
.
.
....
0 1 00 0 1...
.
.
....
0 0 1
︸ ︷︷ ︸
X
·(µ1µ2µ3
)︸︷︷︸
b
+
ε11...
ε114ε21
.
.
.ε28ε31
.
.
.ε37
︸ ︷︷ ︸
ε
Beachte: Liest man die Gleichung zeilenweise der Reihe nach, so gilt:Y11=µ1 + ε11
Y12 = µ1 + ε12
...Y21=µ2 + ε21
...Y37=µ3 + ε37
308 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Matrixschreibweise Beispiel 3.5: Y = Xb + ε
Y =
Y11...
Y114Y21
.
.
.Y28Y31
.
.
.Y37
=
1 0 0...
.
.
....
1 0 00 1 0...
.
.
....
0 1 00 0 1...
.
.
....
0 0 1
︸ ︷︷ ︸
X
·(µ1µ2µ3
)︸︷︷︸
b
+
ε11...ε14ε21
.
.
.ε28ε31
.
.
.ε37
︸ ︷︷ ︸
ε
I Beachte: Liest man alle Gleichungen zeilenweise, so gilt:
Yij = µi + εij i = 1, 2, 3; j = 1, . . . , ni
I X hat 14 + 8 + 7 = 29 Zeilen und 3 Spalten. In der i-ten Spaltestehen genau ni Einsen (n1 = 14, n2 = 8, n3 = 7)
I Schreibweise: Y = Xb + ε
309 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Das Modell der einfaktoriellen Varianzanalyse mitk Gruppen in Matrixschreibweise:
Y = Xb + ε
X =
1 0 · · · 0...
.
.
.. . .
.
.
.1 0 · · · 00 1 · · · 0...
.
.
.. . .
.
.
.0 1 · · · 0...
.
.
.. . .
.
.
.0 0 · · · 1...
.
.
.. . .
.
.
.0 0 · · · 1
b =
µ1µ2
.
.
.µk
ε =
ε11...
ε1n1ε21
.
.
.ε2n2
.
.
.εk1
.
.
.εknk
Beachte:
I n = n1 + . . .+ nk GesamtstichprobenumfangI X hat n Zeilen und k SpaltenI die j-te Spalte von X enthalt nur in den Zeilen
n1 + n2 + . . .+ nj−1 + 1, . . . , n1 + n2 + . . .+ nj
Einsen (fur die 1-te Spalte sind das die Zeilen 1, . . . , n1) 310 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.6 Beispiel: Das Modell der multiplen linearenRegression in Matrixschreibweise
Y =
Y1Y2Y3...
Yn
=
1 x11 x21 · · · xk11 x12 x22 · · · xk21 x13 x23 · · · xk3...
......
. . ....
1 x1n x2n · · · xkn
︸ ︷︷ ︸
X
·
b0b1......
bk
︸ ︷︷ ︸
b
+
ε1ε2ε3...εn
︸ ︷︷ ︸
ε
Beachte: Y = Xb + ε
I X hat n Zeilen und k + 1 SpaltenI Die i-te Zeile von Y liefert die Gleichung (der Falle i = 3 in
blau)
Yi = b0 + b1x1i + b2x2i + . . .+ bkxki + εi i = 1, . . . , n
311 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Mehr Matrizenrechnung: TranspositionI Mit AT wird diejenige Matrix bezeichnet, die man aus der
Matrix A erhalt, wenn man die Zeilen als Spalten (bzw. dieSpalten als Zeilen) schreibt. Beispiel:
1 2 3 4−1 2 1 03 7 1 −2
T
=
1 −1 32 2 73 1 14 0 −2
I Beachte: Ist A m × n-Matrix (m Zeilen, n Spalten), dann ist
AT n ×m-Matrix (n Zeilen, m Spalten). Beispiel:
A =
−1 −13 14 −21 −1
︸ ︷︷ ︸
4×2 Matrix
AT =
(−1 3 4 1−1 1 −2 −1
)︸ ︷︷ ︸
2×4 Matrix
312 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Mehr Matrizenrechnung: Inversion einer MatrixI Die Matrix (nur auf der Diagonalen Einsen, sonst Nullen)
I =
1 0 0 · · · 00 1 0 · · · 00 0 1 · · · 0...
......
. . ....
0 0 0 · · · 1
heißt Identitatsmatrix oder Einheitsmatrix (das ist dasPendant zur Zahl 1 bei der Multiplikation von Zahlen)
I Ist A m ×m-Matrix, so ist die inverse Matrix A−1 diejenigeMatrix, fur die gilt:
A · A−1 = A−1A = I
(das ist das Pendant des Kehrwerts bei Multiplikation vonZahlen: A = 3 ⇒ A−1 = 1
3 )I Beachte: A−1 existiert nicht immer (man kann nicht durch 0
teilen)313 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel: Inversion einer 2× 2 Matrix
Die Inverse der MatrixA =
(2 12 4
)ist die Matrix
A−1 =
( 23 − 1
6− 1
313
),
denn
A · A−1 =
(2 · 2
3 − 1 · 13 −2 · 1
6 + 1 · 13
2 · 23 − 4 · 1
3 −2 · 16 + 4 · 1
3
)=
(1 00 1
)A−1 · A =
( 23 · 2−
16 · 2 − 2
3 · 1− 1 16 · 4
− 13 · 2 + 1
3 · 2 − 13 · 1 + 1
3 · 4
)=
(1 00 1
)Beachte: Gewohnlich muss die Bestimmung einer Inversen Matrixmit numerischen Methoden erfolgen.
314 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.3 Das Allgemeine Lineare Modell, Methode derkleinsten Quadrate
315 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Allgemeines lineares Modell (ALM):
Y = Xb + ε
I Y : Vektor von ZufallsvariablenI b: ParametervektorI ε: Vektor der zufalligen ”Fehler” (mit gleicher Varianz)I X : Designmatrix (dadurch wird das betrachtete Modell
spezifiziert). In den vorigen Beispielen erhalt man furverschiedene Matrizen X
I Lineares Regressionsmodell (vgl. Beispiel 3.4)I Einfaktorielle Varianzanalyse (vgl. Beispiel 3.5)I Multiples lineares Regressionsmodell (vgl. Beispiel 3.6)
I Es gibt viel mehr Modelle, die man durch das ALM beschreibenkann (z. B. zweifaktorielle Varianzanalyse, Kovarianzanalyse,etc.)
I Aus diesem Grund werden die Verfahren (Schatzen, Testen, etc.)im ALM entwickelt, und diese konnen in den Spezialfallen dannverwendet werden.
316 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.7 Die Methode der kleinsten Quadrate im ALMI Sind Yi und (Xb)i die Elemente in der i-ten Zeile der
Vektoren Y und Xb, so wird die Schatzung fur b sobestimmt, dass die Summe der quadrierten Differenzen
n∑i=1
[Yi − (Xb)i ]2
zwischen beobachten Werten (Yi ) und durch das Modellvorhergesagten Werten ((Xb)i ) minimiert wird.
I Mathematische Statistik: Der beste Schatzer fur b lautet:
b = (X T X )−1X T Y
I (X T X)−1 die inverse Matrix von X T XI X T die Transposition der Matrix X
I Wichtig ist nicht die Formel, sondern die Erkenntnis, dassman in jedem linearen Modell den Schatzer immerausrechnen kann (falls die inverse Matrix existiert)!
317 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.8 Beispiel: Arzneimittelstudie zur Behandlungeiner Depressiven Erkrankung
I Drei Behandlungsformen der Depression (Placebo, einfacheDosis, doppelte Dosis)
I Je 10 Patienten werden mit der jeweiligen Dosierung behandelt(insgesamt 30 Probanden)
I DatenFaktor A
Placebo einfache Dosis doppelte Dosis(1) (2) (3)22 16 1325 16 1222 16 1221 15 1322 15 1218 19 1619 20 1417 17 1621 16 1319 16 14
I Es gibt einen (kontrollierbaren) Faktor, der einen Einfluss aufdas Ergebnis der Therapie hat. Faktor A: Behandlungsform;
318 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.8(a): Einfaktorielle Varianzanalyse imALM
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat).
I Mathematisches Modell (n1 = n2 = n3 = 10):
Yij = µi + εij j = 1, . . . , ni ; i = 1, 2, 3
I µi Einfluss der i-ten FaktorstufeI εij zufallige Fehler
I In der Schreibweise des ALM
Y = Xb + ε
(die Matrix X und der Datenvektor y werden auf der nachstenFolie gezeigt)
319 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die Matrix X und der Datenvektor y im Beispiel3.8(a)
y =
2225...
1916...
1613...
14
X =
1 0 0...
......
1 0 00 1 0...
......
0 1 00 0 1...
......
0 0 1
b =
µ1µ2µ3
320 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Schatzung von b mit der Methode der kleinstenQuadrate bei Modellierung 3.8(a)
I
X T X =
10 0 00 10 00 0 10
⇒ (X T X )−1 =
1/10 0 00 1/10 00 0 1/10
I
X T y =
∑10
j=1 y1j∑10j=1 y2j∑10j=1 y3j
= 10 ·
y 1·y 2·y 3·
I
b = (X T X )−1X T y =
y 1·y 2·y 3·
=
20.616.613.3
321 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.8(b): Alternatives ALM fur dieeinfaktorielle Varianzanalyse
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat)
I Mathematisches Modell (n1 = n2 = n3 = 10):
Yij = µ+ αi + εij j = 1, . . . , n1 ; i = 1, 2, 3
I µ = (µ1 + µ2 + µ3)/3 GesamtmittelwertI αi Einfluss der i-ten FaktorstufeI εij zufallige Fehler
I Beachte: α1 + α2 + α3 = 0; µi = µ+ αi (i = 1, 2, 3)I In der Schreibweise des ALM
Y = Xb + ε
(die Matrix X und der Datenvektor y werden auf der nachstenFolie gezeigt)
322 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die Matrix X und der Datenvektor y im Beispiel3.8(b)
y =
2225...
1916...
1613...
14
X =
1 1 0 0...
......
...1 1 0 01 0 1 0...
......
...1 0 1 01 0 0 1...
......
...1 0 0 1
b =
µα1α2α3
323 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Schatzung von b mit der Methode der kleinstenQuadrate bei Modellierung 3.8(b)
I Mit einer ”ahnlichen” Methode wie in 3.7 erhalt man
b =
µα1α2α3
=
y ··
y 1· − y ··y 2· − y ··y 3· − y ··
=
16.93.7−0.3−3.4
I Beachte: Hier schatzt man den Gesamtmittelwert (16.9) und
die Abweichungen der Gruppenmittelwerte vomGesamtmittelwert.
324 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.9 Die Genauigkeit der Schatzungen
I b = (b1, . . . , bn)T sei der kleinste Quadrate Schatzer(vgl. Beispiel 3.7)
I Fur i = 1, . . . , n sei di das Element in der Position (i , i) derMatrix (X T X )−1 (man spricht vom i-ten Diagonalelement)
I Dann istsbi
=√
s2di =√
di s
der Standardfehler von b (s2b ist eine Schatzung fur die Varianz
von b), wobei
s2 =1
n − r
n∑i=1
[Yi − (Xb)i ]2
eine Schatzung fur die Varianz der zufalligen Fehler ist(r bezeichnet die Anzahl der (unabhangigen) Parameter imALM. In Beispiel 3.8(a) und 3.8(b) sind das 3!
325 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.4 Der F -Test im ALM
326 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung von Hypothesen im ALM
I Y = Xb + ε
I b sei r -dimensionaler VektorI K sei s × r Matrix
I NullhypotheseH0 : Kb = 0
I Beachte: Kb ist ein s-dimensionaler Vektor; 0 ist eins-dimensionaler Vektor (alle Eintrage 0)
327 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.10(a): Fortsetzung von Beispiel3.8(a) (Einfaktorielle Varianzanalyse)
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat).
I Daten
X =
1 1 · · · 1 0 · · · 0 0 · · · 0 00 0 · · · 0 1 · · · 1 0 · · · 0 00 0 · · · 0 0 · · · 0 1 · · · 1 1
T
y = (22, 25, . . . , 19, 16, . . . , 16, 13, . . . , 14)T
b = (µ1, µ2, µ3)T
I Mathematisches Modell Y = Xb + ε (n1 = n2 = n3 = 10).Zeilenweise gelesen ergibt das
Yij = µi + εij j = 1, . . . , n1 ; i = 1, 2, 3
I µi Einfluss der i-ten FaktorstufeI εij Storgroßen
328 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Hypothese in Beispiel 3.8(a)
I
b =
µ1µ2µ3
I Mit
K =
(1 −1 01 0 −1
)kann die Nullhypothese
H0 : µ1 = µ2 = µ3
geschrieben werden als
H0 : Kb =
(µ1 − µ2µ1 − µ3
)=
(00
)
329 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.10(b): Fortsetzung von Beispiel3.8(a) (Einfaktorielle Varianzanalyse)
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat)
I Daten
X =
1 1 · · · 1 1 · · · 1 1 · · · 1 11 1 · · · 1 0 · · · 0 0 · · · 0 00 0 · · · 0 1 · · · 1 0 · · · 0 00 0 · · · 0 0 · · · 0 1 · · · 1 1
T
y = (22, 25, . . . , 19, 16, . . . , 16, 13, . . . , 14)T
b = (µ, α1, α2, α3)T
I Mathematisches Modell (n1 = n2 = n3 = 10)
Yij = µ+ αi + εij j = 1, . . . , ni ; i = 1, 2, 3
I µ = (µ1 + µ2 + µ3)/3 GesamtmittelwertI αi Einfluss der i-ten FaktorstufeI εij Storgroßen
I Beachte: α1 + α2 + α3 = 0; µi = µ+ αi (i = 1, 2, 3)330 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Hypothese in Beispiel 3.8(b)I
b =
µα1α2α3
I Mit
K =
0 1 0 00 0 1 00 0 0 1
kann die Nullhypothese
H0 : αi = 0 i = 1, 2, 3
geschrieben werden als
H0 : Kb =
α1α2α3
=
000
331 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.11 Beispiel: Fortsetzung von Beispiel 3.6 (multiple lineareRegression)
Y =
Y1Y2Y3...
Yn
=
1 x11 x21 · · · xk11 x12 x22 · · · xk21 x13 x23 · · · xk3...
......
. . ....
1 x1n x2n · · · xkn
︸ ︷︷ ︸
X
·
b0b1......
bk
︸ ︷︷ ︸
b
+
ε1ε2ε3...εn
︸ ︷︷ ︸
ε
Beachte: Y = Xb + ε
I X hat n Zeilen und k + 1 SpaltenI Die i-te Zeile von Y liefert die Gleichung (der Fall i = 3 in blau)
Yi = b0 + b1x1i + b2x2i + . . .+ bkxki + εi i = 1, . . . , n
332 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Nullhypothesen in Beispiel 3.6:Testen von allen Koeffizienten
I
b =
b0...
bk
I Mit der k × (k + 1)-Matrix
K =
0 1 0 0 · · · 0 00 0 1 0 · · · 0 0...
.
.
....
.
.
.. . .
.
.
....
0 0 0 0 · · · 0 1
kann man die Nullhypothese
H0 : bj = 0 fur alle j = 1, . . . , k
schreiben als
H0 : Kb =
b1...
bk
=
0...0
333 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Nullhypothesen in Beispiel 3.6:Testen von einzelnen Koeffizienten
I
b =
b0b1...
bk
I Mit der 1× (k + 1)-Matrix [beachte: die ”1” steht an der Stelle
(1, j + 1)]K = (0, 0, . . . , 0, 1, 0, . . . , 0)
kann man die Hypothese
H0 : bj = 0
schreiben alsH0 : Kb = 0
334 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
3.12 F -Test fur lineare Hypothesen im ALM
I Modell: Y = Xb + ε
I Nullhypothese: H0 : Kb = 0; H1 : Kb 6= 0I Voraussetzungen (sind zu prufen): Die Komponenten des
Vektors ε (zufallige Fehler) sindI unabhangigI normalverteilt mit Erwartungswert 0 und derselben Varianzσ2 > 0
I Mathematische Statistik: Die Designmatrix X und dieHypothesenmatrix K definieren eine Statistik Fs,n−r(n: Stichprobenumfang)
I Die Nullhypothese H0 wird zu Gunsten der Alternative H1abgelehnt, falls Fs,n−r großer als das entsprechende Quantil derF -Verteilung ist bzw. der p-Wert < α ist:
335 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Die Statistik Fs,n−rI
Fs,n−r =1s (Kb)T (K (X T X )−1K T )−1(Kb)
1n−r yT (I − X (X T X )−1X T )y
I b = (X T X )−1X T Y ist der Kleinste-Quadrate-Schatzer fur bI r ist die Anzahl der Parameter im ALMI Die Nullhypothese: H0 : Kb = 0 wird verworfen, falls
Fs,n−r > Fs,n−r ,1−α
gilt (bzw. der p-Wert < α ist). Dabei ist Fs,n−r ,1−α das(1− α)-Quantil der F -Verteilung mit (s, r) Freiheitsgraden
I Beachte: Die Statistik Fs,n−r kann man aus X (Designmatrix),K (Hypothesenmatrix) und y (Datenvektor) berechnen (⇒Software wie z. B. SPSS).
s2 =1
n − r yT (I − X (X T X )−1X T )y
ist die Schatzung fur die Varianz der zufalligen Fehler im Modell.336 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Eine anschauliche Interpretation der StatistikFs,n−r
I
s2 =1
n − r yT (I − X (X T X )−1X T )y
ist die Schatzung fur die Varianz der zufalligen Fehler im ModellY = Xb + ε
I s2K sei die Schatzung fur die Varianz der zufalligen Fehler im
Modell Y = Xb + ε und der zusatzlichen Annahme, dass dieNullhypothese gilt.
I Es gilt
Fs,n−r =n − r
s
(n − r − s
n − rs2K
s2 − 1)
I Beachte: Der F -Test vergleicht also die Schatzung der Varianzunter Modellannahme des ALM mit der Schatzung der Varianzunter der Modellannahme des ALM und der Annahme, dass dieNullhypothese gilt!
337 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.13(a): Fortsetzung von Beispiel3.8(a) (F -Test in einfaktorieller Varianzanalyse)
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat).
I Daten
X =
1 1 · · · 1 0 · · · 0 0 · · · 0 00 0 · · · 0 1 · · · 1 0 · · · 0 00 0 · · · 0 0 · · · 0 1 · · · 1 1
T
y = (22, 25, . . . , 19, 16, . . . , 16, 13, . . . , 14)T
b = (µ1, µ2, µ3)T
I Mathematisches Modell Y = Xb + ε (n1 = n2 = n3 = 10).Zeilenweise gelesen ergibt das
Yij = µi + εij j = 1, . . . , n1 ; i = 1, 2, 3
I µi Einfluss der i-ten FaktorstufeI εij Storgroßen
338 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Hypothese in Beispiel 3.8(a)
I b = (µ1, µ2, µ3)T
I H0 : µ1 = µ2 = µ3
I MitK =
(1 −1 01 0 −1
)kann die Nullhypothese geschrieben werden als
H0 : Kb =
(µ1 − µ2µ1 − µ3
)=
(00
)I Diese Designmatrix X , die Hypothesenmatrix K und der
Datenvektor y werden in die allgemeine Formel eingesetzt undman erhalt die Statistik fur den F -Test (in Softwareimplementiert).
339 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
SPSS-Output fur die Daten aus Beispiel 3.8:Oneway ANOVA (Modell 3.8(a))
SignifikanzFMittel der Quadratedf
Quadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt 29348,700
3,5302795,300
,00035,896126,7002253,400
ONEWAY ANOVA
Beobachtung
340 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Zerlegung der Summe der Quadrate (vgl. Beispiel1.14):
k∑i=1
ni∑j=1
(yij − y ··)2
︸ ︷︷ ︸Gesamtvarianz
=k∑
i=1
ni∑j=1
(yij − µi )2
︸ ︷︷ ︸Fehler
+k∑
i=1ni (y ·· − µi )
2
︸ ︷︷ ︸Varianz zwischen Gruppen
Beachte:
I Gesamtstichprobenumfang: n =∑k
i=1 ni
I”Gesamtmittelwert”
y ·· =1n
k∑i=1
ni∑j=1
yij
I Mittelwert der Gruppe i : µi = y i· = 1ni
∑nij=1 yij
341 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Statistische Tests im Modell 3.8(a) (einfaktorielleVarianzanalyse)
I H0 : µ1 = µ2 = µ3 (der Faktor ”Dosierung” hat keinen Einfluss)
Fµ =12 253.41
27 95.3=
126.73.53 = 35.89 =⇒ p-Wert ≈ 0.000
D. h. die Nullhypothese wird zum Niveau 5% verworfen
I R2µ =
227 Fµ
1+ 227 Fµ
= 0.727
c. a. 72.7% der Variation in der Variablen ”Depression” sind aufden Faktor ”Dosierung” zuruckfuhrbar.
342 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Beispiel 3.13(b): Fortsetzung von Beispiel3.8(b) (F -Test in einfaktorieller Varianzanalyse)
I Untersuche den Einfluss eines Faktors (z. B. Behandlungsform)auf die abhangige Variable (z. B. Depressivitat)
I Daten
X =
1 1 · · · 1 1 · · · 1 1 · · · 1 11 1 · · · 1 0 · · · 0 0 · · · 0 00 0 · · · 0 1 · · · 1 0 · · · 0 00 0 · · · 0 0 · · · 0 1 · · · 1 1
T
y = (22, 25, . . . , 19, 16, . . . , 16, 13, . . . , 14)T
b = (µ, α1, α2, α3)T
I Mathematisches Modell (n1 = n2 = n3 = 10)
Yij = µ+ αi + εij j = 1, . . . , ni ; i = 1, 2, 3
I µ = (µ1 + µ2 + µ3)/3 GesamtmittelwertI αi Einfluss der i-ten FaktorstufeI εij Storgroßen
I Beachte: α1 + α2 + α3 = 0; µi = µ+ αi (i = 1, 2, 3)343 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Formulierung der Hypothese in Beispiel 3.8(b)I b = (µ, α1, α2, α3)T
I H0 : αi = 0 i = 1, 2, 3I Mit
K =
0 1 0 00 0 1 00 0 0 1
kann die Nullhypothese geschrieben werden als
H0 : Kb =
α1α2α3
=
000
I Weitere Hypothese H0 : µ = 0 ⇒ verwende die
HypothesenmatrixK = (1, 0, 0, 0),
dann erhalt man: H0 : Kb = µ = 0
344 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
SPSS-Output fur die Daten aus Beispiel 3.8:Allgemeines lineares Modell, univariat (Modell3.8(b))
SignifikanzFMittel der Quadratedf
Quadratsummevom Typ III
Korrigiertes Modell
Konstanter Term
A
Fehler
Gesamt
KorrigierteGesamtvariation 29348,700
308917,000
3,5302795,300
,00035,896126,7002253,400
,0002427,5358568,30018568,300
,00035,896126,7002253,400a
QuelleQuelle
Tests der Zwischensubjekteffekte
Abhängige Variable:Beobachtung
a. R-Quadrat = ,727 (korrigiertes R-Quadrat = ,706)
345 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Zerlegung der Summe der quadriertenBeobachtungen in Beispiel 3.8(b):
k∑i=1
ni∑j=1
y 2ij︸ ︷︷ ︸
Gesamt
=k∑
i=1
ni∑j=1
(yij − y ··)2
︸ ︷︷ ︸korrigierte Gesamtvarianz
+ (n y ··)2︸ ︷︷ ︸konstanterTerm
=k∑
i=1
ni∑j=1
(yij − µ− αi )2
︸ ︷︷ ︸Fehler
+k∑
i=1ni (y ·· − µ− αi )
2
︸ ︷︷ ︸Varianz zwischen Gruppen
+ (n y ··)2︸ ︷︷ ︸konstanterTerm
Beachte: µ = y ··, µ+ αi = µi
346 / 347
Methodenlehre II,SoSe 2015
Holger Dette
1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests
2. Korrelation, LineareRegression undmultiple Regression
3. Das allgemeinelineare Modell3.1 Matrizen und Vektoren,Kodierung
3.2 Addition undMultiplikation von Matrizen
3.3 Das Allgemeine LineareModell, Methode derkleinsten Quadrate
3.4 Der F -Test im ALM
Statistische Tests im Modell 3.8(b) (einfaktorielleVarianzanalyse)
I H0 : µ = 0 (Gesamtmittelwert = 0)
Fµ =11 8568.3
127 95.3
=8568.3
3.53 = 2427.535 =⇒ p-Wert ≈ 0.000
D. h. die Hypothese wird zum Niveau 5% verworfen.I H0 : αi = 0 (i = 1, 2, 3) (der Faktor ”Dosierung” hat keinen
Einfluss)
Fα =12 253.41
27 95.3=
126.73.53 = 35.89 =⇒ p-Wert ≈ 0.000
D. h. die Nullhypothese wird zum Niveau 5% verworfen
I R2α =
227 Fα
1+ 227 Fα
= 0.727
c. a. 72.7% der Variation in der Variablen ”Depression” sind aufden Faktor ”Dosierung” zuruckfuhrbar.
347 / 347