Statistik &Methodenlehre
Folie 1
Mathematische und statistische Methoden I
Prof. Dr. G. Meinhardt6. Stock, Wallstr. 3(Raum 06-206)
Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung.
Dr. Malte [email protected]
http://psymet03.sowi.uni-mainz.de/
WS 2010/2011Fachbereich Sozialwissenschaften
Psychologisches InstitutJohannes Gutenberg Universität Mainz
Statistik &Methodenlehre
Folie 2
Multiple RegressionGrundlagen
Multiple Regression Polynomische Regression
Oft werden in psychologischen Untersuchungen nicht nur ein sondern mehrere UVn betrachtet, die eine AVbeeinflussen.
Beispiele: Abhängigkeit der Lebenszufriedenheit von sozialem, ökonomischem und Gesundheitsstatus; Beeinflussung sportlicher Leistung durch Trainingszustand und Anwesenheit von Zuschauern.
Solche Fragestellungen werden auch als multifaktoriellbezeichnet
Problem: Die Berechnung vieler paarweiser Korrelationen im multifaktoriellen Fall vernachlässigt mögliche Zusammenhänge zwischen den Prädiktoren
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
Statistik &Methodenlehre
Folie 3
Multiple RegressionGrundgleichung
Die vorherzusagende Variable (AV, y-Wert) wird als Kriterium bezeichnet, die vorhersagenden Variablen (UVn, x-Werte) als Prädiktoren.
Die Vorhersagegleichung der multiplen Regression mit kPrädiktoren wird geschrieben als
Bei standardisierten Daten verwendet man das Symbol β für die k Regressionsparameter (bzw. „-gewichte“)
0 1 1 2 2ˆ k ky b b x b x b x= + ⋅ + ⋅ + + ⋅…
1 1 2 2ˆ k ky z z zβ β β= ⋅ + ⋅ + + ⋅…
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 4
RegressionMethode der kleinsten Quadrate (KQ-Kriterium)
Zur Minimierung des Vorhersagefehlers wird oft das Kleinste-Quadrate Kriterium verwendet (KQ; oder Ordinary Least Squares, OLS)
Parameter der multiplen Regressionsgleichung werden so gewählt, dass das Quadrat der Abweichungen von gemessenem und geschätztem Wert minimiert wird
Für eine Versuchsperson i aus allen n gelte:
beobachteter Kriteriumswert = vorhergesagter Wert + Messfehler
Dann soll für alle n Datenwerte erreicht werden, dass
ˆ ˆ i i i i i iy y e e y y= + ⇔ = −
( )2 2
1 1
ˆ minn n
i i ii i
y y e= =
− = →∑ ∑Minimierung der Quadratsumme des Vorhersagefehlers
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 5
RegressionMethode der kleinsten Quadrate (KQ-Kriterium)
Mithilfe der Allgemeinen Gleichung der einfachen linearen Regression lässt sich für die Streuung des Vorhersagefehlers QSe also schreiben:
bzw. in der standardisierten Form
Die Minimierung der Regressionsparameter erfolgt über partielle Differenzierung nach jedem einzelnen der b-bzw. β-Gewichte
( ) ( )2 20 1 1 2 2
1 1
ˆ minn n
e i i i i i k iki i
QS y y y b b x b x b x= =
= − = − − ⋅ − − − →∑ ∑ …
( ) ( )1 2
2 2
1 21 1
ˆ mini i i i i ik
n n
e y y y x x k xi i
QS z z z z z zβ β β= =
= − = − ⋅ − − − →∑ ∑ …
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 6
RegressionNormalgleichungen der multiplen Regression
Die partielle Differenzierung der nichtstandardisierten Gleichung mit k Prädiktoren führt immer auf ein System von k+1 Normalgleichungen, das wie folgt aufgebaut ist:
0 1 1 2 21 1 1 1 1
21 0 1 1 1 2 1 2 1
1 1 1 1 1
22 0 2 1 1 2 2 2 2
1 1 1 1 1
0 1 1 2 21 1 1 1
n n n n n
k ki i i i i
n n n n n
k ki i i i in n n n n
k ki i i i i
n n n n
k k k ki i i i
y b b x b x b x
yx b x b x b x x b x x
yx b x b x x b x b x x
yx b x b x x b x x
= = = = =
= = = = =
= = = = =
= = = =
= + + + +
= + + + +
= + + + +
= + + +
∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
…
…
…
…
2
1
n
k ki
b x=
+ ∑…
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 7
In der standardisierten Form ergibt sich ein System von k Normalgleichungen:
1 1 1 2 1
2 1 2 2 2
1 2
21 2
1 1 1 1
21 2
1 1 1 1
21 2
1 1 1 1
k
k
k k k k
n n n n
x y x x x k x xi i i in n n n
x y x x x k x xi i i i
n n n n
x y x x x x k xi i i i
z z z z z z z
z z z z z z z
z z z z z z z
β β β
β β β
β β β
= = = =
= = = =
= = = =
= + + +
= + + +
= + + +
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
…
…
…
…
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
RegressionNormalgleichungen der multiplen Regression
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 8
Die partielle Differenzierung einer multiplen Regressionsgleichung mit k Prädiktoren führt immer auf ein System von k+1 (bzw. k) Normalgleichungen
Prinzip: Die summierte Ausgangsgleichung wird nacheinander mit Prädiktor x0…xk (bzw. z1…zk) multipliziert
Die Normalgleichungen liefern dann für k+1 (bzw. k) unbekannte Regressionsparameter genau so viele Gleichungen.
Dieses Gleichungssystem kann nun durch Substitution oder Diagonalisierung für die Parameter gelöst werden
Grundlagen
Gleichung
Minimierung
Normal-gleichungen
RegressionMultiple Regression - Zusammenfassung
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 9
Matrixalgebraische Berechnungder multiplen Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Wir haben gesehen, dass die Normalgleichungen der multiplen Regression für standardisierte Daten lauteten:
Weiterhin ist die Korrelation zweier Variablen xp und xq:
1 1 1 2 1
2 1 2 2 2
1 2
21 2
1 1 1 1
21 2
1 1 1 1
21 2
1 1 1 1
k
k
k k k k
n n n n
x y x x x k x xi i i in n n n
x y x x x k x xi i i i
n n n n
x y x x x x k xi i i i
z z z z z z z
z z z z z z z
z z z z z z z
β β β
β β β
β β β
= = = =
= = = =
= = = =
= + + +
= + + +
= + + +
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
…
…
…
…
, ,1
1p q p q
n
x x i x i xi
r z zn =
= ∑
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 10
Matrixalgebraische Berechnungder multiplen Regression
Damit reduziert sich das Normalgleichungssystem zu:
In Matrixnotation ist dies:
mit
1 1 2 1 3 1
2 1 2 2 3 2
3 1 3 2 3 3
1 2 3
1 2 3
1 2 3
1 2 3
1 2 3
k
k
k
k k k k
x y x x x x k x x
x y x x x x k x x
x y x x x x k x x
x y x x x x x x k
r r r r
r r r r
r r r r
r r r r
β β β β
β β β β
β β β β
β β β β
= + + + +
= + + + +
= + + + +
= + + + +
…
…
…
……
xx xyR rβ× = 1 TxxR Z Z
n= ⋅
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 11
Matrixalgebraische Berechnungder multiplen Regression
In Matrixnotation ist dies:
mit
wobei:
xx xyR rβ× =
Matrix der PrädiktorinterkorrelationenxxR k k= ×
1 TxxR Z Z
n= ⋅
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 12
Exkurs: Die Korrelationsmatrix RAufbau und Bedeutung
Die Korrelationsmatrix R stellt die Korrelationen zwischen k Variablen in Matrixschreibweise dar.
Sie ist quadratisch und enthält k×k Korrelationen
12 1
21 2
1 2
1
2
2
1
1
1
1
k
k
k
k
k k
r rr r
x x
x
x r
xx
r
⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
…Die Hauptdiagonaleenthält die Korrelationen der Variablen mit sich selbst (rxx = 1)
Die untere und obere Dreiecksmatrix sind symmetrisch
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 13
Matrixalgebraische Berechnungder multiplen Regression
In Matrixnotation ist dies:
mit
wobei:
Lösung: Inverse Interkorrelationsmatrix vormultiplizieren
xx xyR rβ× =
Matrix der PrädiktorinterkorrelationenxxR k k= ×
1 Vektor der Kriteriumskorrelationenxyr k= ×
1 Vektor der Regressionsgewichtekβ = ×
1 1xx xx xx xyR R R rβ− −× = 1
xx xyR rβ −=⇔
1 TxxR Z Z
n= ⋅
Vektor der z-standardisierten DatenZ n k= ×
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 14
Matrixalgebraische BerechnungRückrechnung der unstandardisierten Parameter
Wurden die β-Parameter für die z-standardisierten Daten matrixalgebraisch bestimmt, kann die Berechnung der unstandardisierten b-Parameter vorgenommen werden über
Die Konstante b0 wird dann berechnet als
mit 1, 2,...,i
yi i
x
SDb i k
SDβ= =
0 1 1 2 2 ... k kb y b x b x b x= − − − −
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 15
Interpretation der Lösungb- und β-Gewichte
Die Größe eines b-Gewichtes gibt an, um wieviele Einheiten sich der Wert des unstandardisierten Kriteriums verändert, wenn der Betrag des unstandardisierten Prädiktors um 1 steigt.
Die Größe des β-Gewichtes gibt dasselbe für die standardisierten Variablen an
Das b-Gewicht beantwortet die Frage: „Ich möchte einen der Prädiktoren um 1 erhöhen. Welchen sollte ich wählen, damit das Kriterium maximal steigt?“
Das β-Gewicht beantwortet die Frage: „Mit welchem Prädiktor erhöhe ich das Kriterium am effizientesten?“
Das b-Gewicht liefert also eine absolute, das β-Gewicht eine relative Information.
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 16
RegressionVereinfachung bei nur einem Prädiktor
Bei nur einem Prädiktor vereinfachtsich die Berechnung der Regressions-gewichte erheblich.
1y
xyx
sb r
s= ⋅1. Steigung: oder
2. y-Achsenabschnitt: 0 1b y b x= − ⋅
1 2
cov( , )
x
x ybs
=
0 1y b b x= + ⋅
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 17
RegressionZusammenfassung
Oft ist in der Psychologie die Vorhersage des Wertes einer bestimmten Variablen unter Kenntnis der Ausprägung anderer Variablen gefordert.
Die bekannten Variablen wird dabei als Prädiktoren, Unabhängige Variablen (UVn) oder Erklärende Variablen bezeichnet
Die vorherzusagende Variable wird als Kriterium, Abhängige Variable (AVn) oder Response bezeichnet
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 18
RegressionZusammenfassung
Drei Hauptfragestellungen der Regressionsrechnung:
1. Gibt es eine statistische Beziehung zwischen zwei Variablen, die die Vorhersage der AV aus der UV erlaubt?
2. Kann eine möglichst einfache mathematische Regel formuliert werden, die diesen Zusammenhang beschreibt?
3. Wie gut ist diese Regel im Hinblick auf die Vorhersage?
0 1 1 2 2ˆ k ky b b x b x b x= + ⋅ + ⋅ + + ⋅…
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 19
RegressionZusammenfassung
Gründe für die Annahme einer linearen Gleichung:
Lineare Zusammenhänge sind einfach zu verstehen
Lineare Zusammenhänge sind mathematisch und statistisch einfach zu behandeln
Lineare Gleichungen haben sich vielfach als gute Approximationen für komplexe Beziehungen erwiesen
Achtung: Auch wenn die Beziehung zwischen zwei ZVn linear „aussieht“, muss es sich nicht zwangsläufig um einen linearen Zusammenhang handeln.
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 20
RegressionZusammenfassung
Vorsicht bei der Interpretation der Regressionsgleichung
Bei der Korrelationsrechnung bedeutet ein Zusammenhang niemals Kausalität, lediglich Assoziation
Bei der Regressionsrechnung gilt zunächst dasselbe
Die Kausalitätsvermutung wird (wenn überhaupt) schon bei der Aufstellung der Regressionsgleichung getroffen, nicht erst bei der Interpretation der Ergebnisse.
Um tatsächlich Kausalität festzustellen, müssen weitere Randbedingungen vorliegen (z.B. zeitliche Antezedenz von Ursache vor Wirkung).
Multiple Regression Polynomische Regression
Matrixalgebra-ische Berech-nung
Interpretation der b und β
Zusammen-fassung
Statistik &Methodenlehre
Folie 21
Relevante Excel Funktionen
Multiple Regression• MMULT()• MTRANS()• MINV()
Statistik &Methodenlehre
Folie 2
Kennwerte der multiplen Regression1. Der multiple Korrelationskoeffizient R
Definition: Der multiple Korrelationskoeffizient Rrepräsentiert die Korrelation zwischen dem Kriterium yund allen Prädiktoren x1…xk
Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie)
Der multiple Korrelationskoeffizient R ist definiert als
Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-Werten und den vorhergesagten ydach-Werten, also
1 21
k j
k
y x x x j x yj
R rβ⋅=
= ∑…
1 2 ˆky x x x yyR r⋅ =…
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 3
Kennwerte der multiplen Regression2. Der multiple Determinationskoeffizient R²
Kennwerte
Test der Gewichte gegen Null
Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die allePrädiktoren x1…xk am Kriterium y leisten
Der multiple Determinationskoeffizient R² ist definiert als
Rechnerisch:
2 Erklärte Streuung Fehlerstreuung1Gesamt-Streuung Gesamt-Streuung
R = = −
2
2 1
2
1
1 ˆ( )ˆ( ) ( )11( ) ( ) ( )
n
in
i
y yVar y Var e nRVar y Var y y y
n
=
=
−= = − =
−
∑
∑
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 4
Erklärung: Bei perfekt unab-hängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix Rxx gleich der Identitätsmatrix I.
Damit gilt für den multiplenKorrelationskoeffizienten R
Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen
xy xyI r rβ β= × ⇔ =
1 2
2
1k j
k
y x x x x yj
R r⋅=
= ∑…
Kennwerte der multiplen Regression3. Abhängigkeit
Kennwerte
Test der Gewichte gegen Null
1 2
2 2
1k j
k
y x x x x yj
R r⋅=
= ∑…
a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 5
a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte
b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden:
1. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich.
1. Der Prädiktor enthält Information, die bereits andere Prädiktoren enthalten: er ist redundant
2. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor
Kennwerte der multiplen Regression3. Abhängigkeit
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 6
Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird
Die Nützlichkeit einer Variablen xj berechnet sich als
Uj ist also der Betrag, um den R² wächst, wenn die Variable xj in die multiple Regressionsgleichung aufgenommen wird.
1,2,..., , 1,2,...,
2 2, ,k j kj y x y xU R R= −
Kennwerte der multiplen Regression3a. Nützlichkeit
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 7
Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte → unerwünschter Aspekt
Die Variable xj ist redundant zur Vorhersage von Variable ywenn gilt
Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit „teilweise redundant“. Echte Redundanz liegt aber erst gemäß obiger Definition vor.
Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten → extremer Fall von Redundanz.
2j j jx x y x yr rβ ⋅ <
Kennwerte der multiplen Regression3b. Redundanz
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 8
rx1 x2
yx2x1
rx2 y=0
rx1 y
x2 „bindet“ irrelevante Prädiktorinformation
x2 hängt nicht mit y zusammen, trotzdem erhöht sie R²
Kennwerte der multiplen Regression3c. Suppression
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 9
Defintion: Eine Variable xj ist ein Suppressor, wenn gilt:
Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung.
Vereinfachung: Bei nur zwei Prädiktoren x1 und x2 ist x2 ein Supressor, wenn gilt:
2j jx x yU r>
1 2
1 2 1
2
2
. 2
1-1-
x xx z x x z
x z
rr r
r> ⋅
Kennwerte der multiplen Regression3c. Suppression
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 10
Statistischer Test der GewichteFragestellung
Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt
Grundgedanke: Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert βj = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert βj ≠ 0 haben.
Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein β-Gewicht niemals perfekt Null sein („Stichprobenfehler“).
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 11
Statistischer Test der GewichteFragestellung
Frage: Wie unterschiedlich zu Null muss ein β-Gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist?
Es existieren einfache statistische Verfahren zur (probabilistischen) Beantwortung dieser Fragestellung
Ebenso kann geprüft werden, ob der multiple Korrelationskoeffizient zufällig zustande gekommen ist oder auf tatsächlichen systematischen Zusammen-hängen zwischen Kriterium und Prädiktoren beruht
Kennwerte
Test der Gewichte gegen Null
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 12
Nichtlineare RegressionGrundlagen
Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV.
Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten
Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen:
Grundlagen
LinearisierbareFormen
Polynome
1. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen
2. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 13
Nichtlineare RegressionLinearisierbare und polynomische Formen
Fall 1: Linearisierende Transformation, z.B.
(hier nicht behandelt)
Fall 2: Nicht (einfach) linearisierbar
( ) ( ) ( ) ( )1ln
0 0 1ˆ ˆln ln lnby b x y b b x•= ⋅ ⎯⎯⎯→ = + ⋅
Grundlagen
LinearisierbareFormen
Polynome
20 1 2y b b x b x= + ⋅ + ⋅
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 14
Nichtlineare RegressionBeispiel: Logistische Regression
Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und 1
Umformung der y-Werte durch Logarithmieren bewirkt eine Linearisierung der Daten
Mithilfe dieser neuen y-Werte kann eine lineare Regression bestimmt werden, um die Parameter b0 und b1 zu errechnen
-8
-6
-4
-2
0
2
4
6
-20 0 20 40 60
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40
Grundlagen
LinearisierbareFormen
Polynome
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 15
Polynomische RegressionGrundlagen und Durchführung
Häufig können Merkmalszusammenhänge durch Polynome 2. oder 3. Ordnung gut beschrieben werden, d.h.
oder
Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.
20 1 2y b b x b x= + ⋅ + ⋅
2 30 1 2 3y b b x b x b x= + ⋅ + ⋅ + ⋅
Grundlagen
LinearisierbareFormen
Polynome
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 16
Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden
Dann wird eine übliche lineare multiple Regressiondurchgeführt
Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen
Es können alle Kennwerte und Gütemaße der multiplen Regression bestimmt werden.
Die polyn. Regression ist auch über die KQ-Methode(inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.
Grundlagen
LinearisierbareFormen
Polynome
Polynomische RegressionGrundlagen und Durchführung
Multiple Regression Polynomische Regression
Statistik &Methodenlehre
Folie 2
Voraussetzungen der RegressionMathematische und statistische Betrachtung
Voraus-setzungen
Residualplot
Multiple Regression
Mathematisch ist eine multiple Regression praktisch immer zu rechnen, da nur in Ausnahmefällen die Invertierung der Prädiktorinterkorrelationsmatrixfehlschlägt
Statistisch aber sollen eine Reihe von Voraussetzungen erfüllt sein, damit
• Kennwerte und inferenzstatistische Verfahren (z.B. der statistische Test der β–Gewichte) anwendbar sind
• die Regressionsgleichung empirische Aussagekraft besitzt
Statistik &Methodenlehre
Folie 3
Voraussetzungen der Regression1. Skalenniveaus
Die Prädiktoren können entweder intervallskaliert oder dichotom sein
Das Kriterium muss intervallskaliert sein und die Skala soll unbeschränkt sein (keine untere und obere Schranke → Ungebundenheit)
Für andere Skalenniveaus des Kriteriums existieren verschiedene Regressionsvarianten:
• Logistische Regression für dichotome Kriteriumsvariablen
• Multinomiale Regression für nominalskalierte Kriterien
• Ordinale Regression für ordinalskalierte Kriterien
Voraus-setzungen
Residualplot
Multiple Regression
Statistik &Methodenlehre
Folie 4
Voraussetzungen der Regression2. Eigenschaften der Prädiktoren
Keine zu hohen Interkorrelationen zwischen den Prädiktoren, i.e. Vermeidung von Multikollinearität
Es sollen alle wesentlichen Einflussvariablen des Kriteriums erfasst werden, d.h. hinreichend hohes R²
Der Zusammenhang zwischen den Prädiktoren und dem Kriteriums soll dem Modell der Regressionsgleichung entsprechen (linear, polynomisch etc.)
Es soll eine hinreichend hohe Stichprobengrößevorliegen, Daumenregeln empfehlen hier zwischen 15 und 25 Personen pro Prädiktor
Voraus-setzungen
Residualplot
Multiple Regression
Statistik &Methodenlehre
Folie 5
Voraussetzungen der Regression3. Eigenschaften der Fehler bzw. Residuen
Hinweis: Der Vorhersagefehler in der Regression wird auch als Residuum bezeichnet
Die Residuen dürfen nicht untereinander korreliertsein, d.h. die Höhe des Vorhersagefehlers für Merkmalsträger 1 darf nicht den Fehler für Merkmalsträger 2 beeinflussen
Die Residuen sollen normalverteilt sein
Für die Residuen soll der erwartete Mittelwert 0 sein
Die Residuen sollen dem Gebot der Homoskedastizität genügen, d.h. ihre Varianz soll unabhängig vom Kriteriumswert sein.
Voraus-setzungen
Residualplot
Multiple Regression
Statistik &Methodenlehre
Folie 6
Der ResidualplotEigenschaften der Fehler bzw. Residuen
Für die meisten der Fehlereigenschaften gibt es statistische Tests zur Voraussetzungsprüfungz.B. Variance Inflation Factor (VIF) für Multikollinearität, Durbin-Watson Test für Unkorreliertheit, Levene-Test für Homoskedastizität, Kolmogoroff-Smirnov Test für Normalverteilung
Der Residualplot ist ein optisches Verfahren zur Prüfung der Voraussetzungen
Er stellt die beobachteten Kriteriumswerte (x-Achse) und die Residuen (y-Achse) gegenüber
An ihm kann man Homoskedastizität, Modellpassung (und auch Normalverteiltheit) optisch gut überprüfen
Voraus-setzungen
Residualplot
Multiple Regression
Statistik &Methodenlehre
Folie 7
Der ResidualplotEigenschaften der Fehler bzw. Residuen
Voraus-setzungen
Residualplot
Multiple Regression
Hinweis: Für die Residuen werden zumeist die z-standardisierten Residuen gewählt
Statistik &Methodenlehre
Folie 8
Der ResidualplotEigenschaften der Fehler bzw. Residuen
Voraus-setzungen
Residualplot
Multiple Regression