mathematische und statistische methoden...

43
Statistik & Methodenlehre Folie 1 Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Dr. Malte Persike } [email protected] http://psymet03.sowi.uni-mainz.de/ WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Upload: donguyet

Post on 17-Sep-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 1

Mathematische und statistische Methoden I

Prof. Dr. G. Meinhardt6. Stock, Wallstr. 3(Raum 06-206)

Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung.

Dr. Malte [email protected]

http://psymet03.sowi.uni-mainz.de/

WS 2010/2011Fachbereich Sozialwissenschaften

Psychologisches InstitutJohannes Gutenberg Universität Mainz

Page 2: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 2

Multiple RegressionGrundlagen

Multiple Regression Polynomische Regression

Oft werden in psychologischen Untersuchungen nicht nur ein sondern mehrere UVn betrachtet, die eine AVbeeinflussen.

Beispiele: Abhängigkeit der Lebenszufriedenheit von sozialem, ökonomischem und Gesundheitsstatus; Beeinflussung sportlicher Leistung durch Trainingszustand und Anwesenheit von Zuschauern.

Solche Fragestellungen werden auch als multifaktoriellbezeichnet

Problem: Die Berechnung vieler paarweiser Korrelationen im multifaktoriellen Fall vernachlässigt mögliche Zusammenhänge zwischen den Prädiktoren

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

Page 3: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 3

Multiple RegressionGrundgleichung

Die vorherzusagende Variable (AV, y-Wert) wird als Kriterium bezeichnet, die vorhersagenden Variablen (UVn, x-Werte) als Prädiktoren.

Die Vorhersagegleichung der multiplen Regression mit kPrädiktoren wird geschrieben als

Bei standardisierten Daten verwendet man das Symbol β für die k Regressionsparameter (bzw. „-gewichte“)

0 1 1 2 2ˆ k ky b b x b x b x= + ⋅ + ⋅ + + ⋅…

1 1 2 2ˆ k ky z z zβ β β= ⋅ + ⋅ + + ⋅…

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

Multiple Regression Polynomische Regression

Page 4: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 4

RegressionMethode der kleinsten Quadrate (KQ-Kriterium)

Zur Minimierung des Vorhersagefehlers wird oft das Kleinste-Quadrate Kriterium verwendet (KQ; oder Ordinary Least Squares, OLS)

Parameter der multiplen Regressionsgleichung werden so gewählt, dass das Quadrat der Abweichungen von gemessenem und geschätztem Wert minimiert wird

Für eine Versuchsperson i aus allen n gelte:

beobachteter Kriteriumswert = vorhergesagter Wert + Messfehler

Dann soll für alle n Datenwerte erreicht werden, dass

ˆ ˆ i i i i i iy y e e y y= + ⇔ = −

( )2 2

1 1

ˆ minn n

i i ii i

y y e= =

− = →∑ ∑Minimierung der Quadratsumme des Vorhersagefehlers

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

Multiple Regression Polynomische Regression

Page 5: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 5

RegressionMethode der kleinsten Quadrate (KQ-Kriterium)

Mithilfe der Allgemeinen Gleichung der einfachen linearen Regression lässt sich für die Streuung des Vorhersagefehlers QSe also schreiben:

bzw. in der standardisierten Form

Die Minimierung der Regressionsparameter erfolgt über partielle Differenzierung nach jedem einzelnen der b-bzw. β-Gewichte

( ) ( )2 20 1 1 2 2

1 1

ˆ minn n

e i i i i i k iki i

QS y y y b b x b x b x= =

= − = − − ⋅ − − − →∑ ∑ …

( ) ( )1 2

2 2

1 21 1

ˆ mini i i i i ik

n n

e y y y x x k xi i

QS z z z z z zβ β β= =

= − = − ⋅ − − − →∑ ∑ …

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

Multiple Regression Polynomische Regression

Page 6: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 6

RegressionNormalgleichungen der multiplen Regression

Die partielle Differenzierung der nichtstandardisierten Gleichung mit k Prädiktoren führt immer auf ein System von k+1 Normalgleichungen, das wie folgt aufgebaut ist:

0 1 1 2 21 1 1 1 1

21 0 1 1 1 2 1 2 1

1 1 1 1 1

22 0 2 1 1 2 2 2 2

1 1 1 1 1

0 1 1 2 21 1 1 1

n n n n n

k ki i i i i

n n n n n

k ki i i i in n n n n

k ki i i i i

n n n n

k k k ki i i i

y b b x b x b x

yx b x b x b x x b x x

yx b x b x x b x b x x

yx b x b x x b x x

= = = = =

= = = = =

= = = = =

= = = =

= + + + +

= + + + +

= + + + +

= + + +

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

2

1

n

k ki

b x=

+ ∑…

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

Multiple Regression Polynomische Regression

Page 7: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 7

In der standardisierten Form ergibt sich ein System von k Normalgleichungen:

1 1 1 2 1

2 1 2 2 2

1 2

21 2

1 1 1 1

21 2

1 1 1 1

21 2

1 1 1 1

k

k

k k k k

n n n n

x y x x x k x xi i i in n n n

x y x x x k x xi i i i

n n n n

x y x x x x k xi i i i

z z z z z z z

z z z z z z z

z z z z z z z

β β β

β β β

β β β

= = = =

= = = =

= = = =

= + + +

= + + +

= + + +

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

RegressionNormalgleichungen der multiplen Regression

Multiple Regression Polynomische Regression

Page 8: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 8

Die partielle Differenzierung einer multiplen Regressionsgleichung mit k Prädiktoren führt immer auf ein System von k+1 (bzw. k) Normalgleichungen

Prinzip: Die summierte Ausgangsgleichung wird nacheinander mit Prädiktor x0…xk (bzw. z1…zk) multipliziert

Die Normalgleichungen liefern dann für k+1 (bzw. k) unbekannte Regressionsparameter genau so viele Gleichungen.

Dieses Gleichungssystem kann nun durch Substitution oder Diagonalisierung für die Parameter gelöst werden

Grundlagen

Gleichung

Minimierung

Normal-gleichungen

RegressionMultiple Regression - Zusammenfassung

Multiple Regression Polynomische Regression

Page 9: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 9

Matrixalgebraische Berechnungder multiplen Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Wir haben gesehen, dass die Normalgleichungen der multiplen Regression für standardisierte Daten lauteten:

Weiterhin ist die Korrelation zweier Variablen xp und xq:

1 1 1 2 1

2 1 2 2 2

1 2

21 2

1 1 1 1

21 2

1 1 1 1

21 2

1 1 1 1

k

k

k k k k

n n n n

x y x x x k x xi i i in n n n

x y x x x k x xi i i i

n n n n

x y x x x x k xi i i i

z z z z z z z

z z z z z z z

z z z z z z z

β β β

β β β

β β β

= = = =

= = = =

= = = =

= + + +

= + + +

= + + +

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

, ,1

1p q p q

n

x x i x i xi

r z zn =

= ∑

Multiple Regression Polynomische Regression

Page 10: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 10

Matrixalgebraische Berechnungder multiplen Regression

Damit reduziert sich das Normalgleichungssystem zu:

In Matrixnotation ist dies:

mit

1 1 2 1 3 1

2 1 2 2 3 2

3 1 3 2 3 3

1 2 3

1 2 3

1 2 3

1 2 3

1 2 3

k

k

k

k k k k

x y x x x x k x x

x y x x x x k x x

x y x x x x k x x

x y x x x x x x k

r r r r

r r r r

r r r r

r r r r

β β β β

β β β β

β β β β

β β β β

= + + + +

= + + + +

= + + + +

= + + + +

……

xx xyR rβ× = 1 TxxR Z Z

n= ⋅

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 11: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 11

Matrixalgebraische Berechnungder multiplen Regression

In Matrixnotation ist dies:

mit

wobei:

xx xyR rβ× =

Matrix der PrädiktorinterkorrelationenxxR k k= ×

1 TxxR Z Z

n= ⋅

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 12: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 12

Exkurs: Die Korrelationsmatrix RAufbau und Bedeutung

Die Korrelationsmatrix R stellt die Korrelationen zwischen k Variablen in Matrixschreibweise dar.

Sie ist quadratisch und enthält k×k Korrelationen

12 1

21 2

1 2

1

2

2

1

1

1

1

k

k

k

k

k k

r rr r

x x

x

x r

xx

r

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

…Die Hauptdiagonaleenthält die Korrelationen der Variablen mit sich selbst (rxx = 1)

Die untere und obere Dreiecksmatrix sind symmetrisch

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 13: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 13

Matrixalgebraische Berechnungder multiplen Regression

In Matrixnotation ist dies:

mit

wobei:

Lösung: Inverse Interkorrelationsmatrix vormultiplizieren

xx xyR rβ× =

Matrix der PrädiktorinterkorrelationenxxR k k= ×

1 Vektor der Kriteriumskorrelationenxyr k= ×

1 Vektor der Regressionsgewichtekβ = ×

1 1xx xx xx xyR R R rβ− −× = 1

xx xyR rβ −=⇔

1 TxxR Z Z

n= ⋅

Vektor der z-standardisierten DatenZ n k= ×

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 14: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 14

Matrixalgebraische BerechnungRückrechnung der unstandardisierten Parameter

Wurden die β-Parameter für die z-standardisierten Daten matrixalgebraisch bestimmt, kann die Berechnung der unstandardisierten b-Parameter vorgenommen werden über

Die Konstante b0 wird dann berechnet als

mit 1, 2,...,i

yi i

x

SDb i k

SDβ= =

0 1 1 2 2 ... k kb y b x b x b x= − − − −

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 15: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 15

Interpretation der Lösungb- und β-Gewichte

Die Größe eines b-Gewichtes gibt an, um wieviele Einheiten sich der Wert des unstandardisierten Kriteriums verändert, wenn der Betrag des unstandardisierten Prädiktors um 1 steigt.

Die Größe des β-Gewichtes gibt dasselbe für die standardisierten Variablen an

Das b-Gewicht beantwortet die Frage: „Ich möchte einen der Prädiktoren um 1 erhöhen. Welchen sollte ich wählen, damit das Kriterium maximal steigt?“

Das β-Gewicht beantwortet die Frage: „Mit welchem Prädiktor erhöhe ich das Kriterium am effizientesten?“

Das b-Gewicht liefert also eine absolute, das β-Gewicht eine relative Information.

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Multiple Regression Polynomische Regression

Page 16: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 16

RegressionVereinfachung bei nur einem Prädiktor

Bei nur einem Prädiktor vereinfachtsich die Berechnung der Regressions-gewichte erheblich.

1y

xyx

sb r

s= ⋅1. Steigung: oder

2. y-Achsenabschnitt: 0 1b y b x= − ⋅

1 2

cov( , )

x

x ybs

=

0 1y b b x= + ⋅

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Multiple Regression Polynomische Regression

Page 17: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 17

RegressionZusammenfassung

Oft ist in der Psychologie die Vorhersage des Wertes einer bestimmten Variablen unter Kenntnis der Ausprägung anderer Variablen gefordert.

Die bekannten Variablen wird dabei als Prädiktoren, Unabhängige Variablen (UVn) oder Erklärende Variablen bezeichnet

Die vorherzusagende Variable wird als Kriterium, Abhängige Variable (AVn) oder Response bezeichnet

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 18: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 18

RegressionZusammenfassung

Drei Hauptfragestellungen der Regressionsrechnung:

1. Gibt es eine statistische Beziehung zwischen zwei Variablen, die die Vorhersage der AV aus der UV erlaubt?

2. Kann eine möglichst einfache mathematische Regel formuliert werden, die diesen Zusammenhang beschreibt?

3. Wie gut ist diese Regel im Hinblick auf die Vorhersage?

0 1 1 2 2ˆ k ky b b x b x b x= + ⋅ + ⋅ + + ⋅…

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 19: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 19

RegressionZusammenfassung

Gründe für die Annahme einer linearen Gleichung:

Lineare Zusammenhänge sind einfach zu verstehen

Lineare Zusammenhänge sind mathematisch und statistisch einfach zu behandeln

Lineare Gleichungen haben sich vielfach als gute Approximationen für komplexe Beziehungen erwiesen

Achtung: Auch wenn die Beziehung zwischen zwei ZVn linear „aussieht“, muss es sich nicht zwangsläufig um einen linearen Zusammenhang handeln.

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 20: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 20

RegressionZusammenfassung

Vorsicht bei der Interpretation der Regressionsgleichung

Bei der Korrelationsrechnung bedeutet ein Zusammenhang niemals Kausalität, lediglich Assoziation

Bei der Regressionsrechnung gilt zunächst dasselbe

Die Kausalitätsvermutung wird (wenn überhaupt) schon bei der Aufstellung der Regressionsgleichung getroffen, nicht erst bei der Interpretation der Ergebnisse.

Um tatsächlich Kausalität festzustellen, müssen weitere Randbedingungen vorliegen (z.B. zeitliche Antezedenz von Ursache vor Wirkung).

Multiple Regression Polynomische Regression

Matrixalgebra-ische Berech-nung

Interpretation der b und β

Zusammen-fassung

Page 21: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 21

Relevante Excel Funktionen

Multiple Regression• MMULT()• MTRANS()• MINV()

Page 22: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 2

Kennwerte der multiplen Regression1. Der multiple Korrelationskoeffizient R

Definition: Der multiple Korrelationskoeffizient Rrepräsentiert die Korrelation zwischen dem Kriterium yund allen Prädiktoren x1…xk

Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie)

Der multiple Korrelationskoeffizient R ist definiert als

Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-Werten und den vorhergesagten ydach-Werten, also

1 21

k j

k

y x x x j x yj

R rβ⋅=

= ∑…

1 2 ˆky x x x yyR r⋅ =…

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 23: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 3

Kennwerte der multiplen Regression2. Der multiple Determinationskoeffizient R²

Kennwerte

Test der Gewichte gegen Null

Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die allePrädiktoren x1…xk am Kriterium y leisten

Der multiple Determinationskoeffizient R² ist definiert als

Rechnerisch:

2 Erklärte Streuung Fehlerstreuung1Gesamt-Streuung Gesamt-Streuung

R = = −

2

2 1

2

1

1 ˆ( )ˆ( ) ( )11( ) ( ) ( )

n

in

i

y yVar y Var e nRVar y Var y y y

n

=

=

−= = − =

Multiple Regression Polynomische Regression

Page 24: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 4

Erklärung: Bei perfekt unab-hängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix Rxx gleich der Identitätsmatrix I.

Damit gilt für den multiplenKorrelationskoeffizienten R

Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen

xy xyI r rβ β= × ⇔ =

1 2

2

1k j

k

y x x x x yj

R r⋅=

= ∑…

Kennwerte der multiplen Regression3. Abhängigkeit

Kennwerte

Test der Gewichte gegen Null

1 2

2 2

1k j

k

y x x x x yj

R r⋅=

= ∑…

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte

Multiple Regression Polynomische Regression

Page 25: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 5

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte

b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden:

1. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich.

1. Der Prädiktor enthält Information, die bereits andere Prädiktoren enthalten: er ist redundant

2. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor

Kennwerte der multiplen Regression3. Abhängigkeit

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 26: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 6

Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird

Die Nützlichkeit einer Variablen xj berechnet sich als

Uj ist also der Betrag, um den R² wächst, wenn die Variable xj in die multiple Regressionsgleichung aufgenommen wird.

1,2,..., , 1,2,...,

2 2, ,k j kj y x y xU R R= −

Kennwerte der multiplen Regression3a. Nützlichkeit

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 27: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 7

Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte → unerwünschter Aspekt

Die Variable xj ist redundant zur Vorhersage von Variable ywenn gilt

Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit „teilweise redundant“. Echte Redundanz liegt aber erst gemäß obiger Definition vor.

Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten → extremer Fall von Redundanz.

2j j jx x y x yr rβ ⋅ <

Kennwerte der multiplen Regression3b. Redundanz

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 28: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 8

rx1 x2

yx2x1

rx2 y=0

rx1 y

x2 „bindet“ irrelevante Prädiktorinformation

x2 hängt nicht mit y zusammen, trotzdem erhöht sie R²

Kennwerte der multiplen Regression3c. Suppression

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 29: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 9

Defintion: Eine Variable xj ist ein Suppressor, wenn gilt:

Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung.

Vereinfachung: Bei nur zwei Prädiktoren x1 und x2 ist x2 ein Supressor, wenn gilt:

2j jx x yU r>

1 2

1 2 1

2

2

. 2

1-1-

x xx z x x z

x z

rr r

r> ⋅

Kennwerte der multiplen Regression3c. Suppression

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 30: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 10

Statistischer Test der GewichteFragestellung

Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt

Grundgedanke: Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert βj = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert βj ≠ 0 haben.

Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein β-Gewicht niemals perfekt Null sein („Stichprobenfehler“).

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 31: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 11

Statistischer Test der GewichteFragestellung

Frage: Wie unterschiedlich zu Null muss ein β-Gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist?

Es existieren einfache statistische Verfahren zur (probabilistischen) Beantwortung dieser Fragestellung

Ebenso kann geprüft werden, ob der multiple Korrelationskoeffizient zufällig zustande gekommen ist oder auf tatsächlichen systematischen Zusammen-hängen zwischen Kriterium und Prädiktoren beruht

Kennwerte

Test der Gewichte gegen Null

Multiple Regression Polynomische Regression

Page 32: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 12

Nichtlineare RegressionGrundlagen

Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV.

Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten

Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen:

Grundlagen

LinearisierbareFormen

Polynome

1. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen

2. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

Multiple Regression Polynomische Regression

Page 33: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 13

Nichtlineare RegressionLinearisierbare und polynomische Formen

Fall 1: Linearisierende Transformation, z.B.

(hier nicht behandelt)

Fall 2: Nicht (einfach) linearisierbar

( ) ( ) ( ) ( )1ln

0 0 1ˆ ˆln ln lnby b x y b b x•= ⋅ ⎯⎯⎯→ = + ⋅

Grundlagen

LinearisierbareFormen

Polynome

20 1 2y b b x b x= + ⋅ + ⋅

Multiple Regression Polynomische Regression

Page 34: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 14

Nichtlineare RegressionBeispiel: Logistische Regression

Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und 1

Umformung der y-Werte durch Logarithmieren bewirkt eine Linearisierung der Daten

Mithilfe dieser neuen y-Werte kann eine lineare Regression bestimmt werden, um die Parameter b0 und b1 zu errechnen

-8

-6

-4

-2

0

2

4

6

-20 0 20 40 60

0

0.2

0.4

0.6

0.8

1

0 10 20 30 40

Grundlagen

LinearisierbareFormen

Polynome

Multiple Regression Polynomische Regression

Page 35: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 15

Polynomische RegressionGrundlagen und Durchführung

Häufig können Merkmalszusammenhänge durch Polynome 2. oder 3. Ordnung gut beschrieben werden, d.h.

oder

Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.

20 1 2y b b x b x= + ⋅ + ⋅

2 30 1 2 3y b b x b x b x= + ⋅ + ⋅ + ⋅

Grundlagen

LinearisierbareFormen

Polynome

Multiple Regression Polynomische Regression

Page 36: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 16

Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden

Dann wird eine übliche lineare multiple Regressiondurchgeführt

Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen

Es können alle Kennwerte und Gütemaße der multiplen Regression bestimmt werden.

Die polyn. Regression ist auch über die KQ-Methode(inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.

Grundlagen

LinearisierbareFormen

Polynome

Polynomische RegressionGrundlagen und Durchführung

Multiple Regression Polynomische Regression

Page 37: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 2

Voraussetzungen der RegressionMathematische und statistische Betrachtung

Voraus-setzungen

Residualplot

Multiple Regression

Mathematisch ist eine multiple Regression praktisch immer zu rechnen, da nur in Ausnahmefällen die Invertierung der Prädiktorinterkorrelationsmatrixfehlschlägt

Statistisch aber sollen eine Reihe von Voraussetzungen erfüllt sein, damit

• Kennwerte und inferenzstatistische Verfahren (z.B. der statistische Test der β–Gewichte) anwendbar sind

• die Regressionsgleichung empirische Aussagekraft besitzt

Page 38: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 3

Voraussetzungen der Regression1. Skalenniveaus

Die Prädiktoren können entweder intervallskaliert oder dichotom sein

Das Kriterium muss intervallskaliert sein und die Skala soll unbeschränkt sein (keine untere und obere Schranke → Ungebundenheit)

Für andere Skalenniveaus des Kriteriums existieren verschiedene Regressionsvarianten:

• Logistische Regression für dichotome Kriteriumsvariablen

• Multinomiale Regression für nominalskalierte Kriterien

• Ordinale Regression für ordinalskalierte Kriterien

Voraus-setzungen

Residualplot

Multiple Regression

Page 39: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 4

Voraussetzungen der Regression2. Eigenschaften der Prädiktoren

Keine zu hohen Interkorrelationen zwischen den Prädiktoren, i.e. Vermeidung von Multikollinearität

Es sollen alle wesentlichen Einflussvariablen des Kriteriums erfasst werden, d.h. hinreichend hohes R²

Der Zusammenhang zwischen den Prädiktoren und dem Kriteriums soll dem Modell der Regressionsgleichung entsprechen (linear, polynomisch etc.)

Es soll eine hinreichend hohe Stichprobengrößevorliegen, Daumenregeln empfehlen hier zwischen 15 und 25 Personen pro Prädiktor

Voraus-setzungen

Residualplot

Multiple Regression

Page 40: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 5

Voraussetzungen der Regression3. Eigenschaften der Fehler bzw. Residuen

Hinweis: Der Vorhersagefehler in der Regression wird auch als Residuum bezeichnet

Die Residuen dürfen nicht untereinander korreliertsein, d.h. die Höhe des Vorhersagefehlers für Merkmalsträger 1 darf nicht den Fehler für Merkmalsträger 2 beeinflussen

Die Residuen sollen normalverteilt sein

Für die Residuen soll der erwartete Mittelwert 0 sein

Die Residuen sollen dem Gebot der Homoskedastizität genügen, d.h. ihre Varianz soll unabhängig vom Kriteriumswert sein.

Voraus-setzungen

Residualplot

Multiple Regression

Page 41: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 6

Der ResidualplotEigenschaften der Fehler bzw. Residuen

Für die meisten der Fehlereigenschaften gibt es statistische Tests zur Voraussetzungsprüfungz.B. Variance Inflation Factor (VIF) für Multikollinearität, Durbin-Watson Test für Unkorreliertheit, Levene-Test für Homoskedastizität, Kolmogoroff-Smirnov Test für Normalverteilung

Der Residualplot ist ein optisches Verfahren zur Prüfung der Voraussetzungen

Er stellt die beobachteten Kriteriumswerte (x-Achse) und die Residuen (y-Achse) gegenüber

An ihm kann man Homoskedastizität, Modellpassung (und auch Normalverteiltheit) optisch gut überprüfen

Voraus-setzungen

Residualplot

Multiple Regression

Page 42: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 7

Der ResidualplotEigenschaften der Fehler bzw. Residuen

Voraus-setzungen

Residualplot

Multiple Regression

Hinweis: Für die Residuen werden zumeist die z-standardisierten Residuen gewählt

Page 43: Mathematische und statistische Methoden Ipsymet03.sowi.uni-mainz.de/download/Lehre/WS2010_2011/StatistikI/... · Statistik & Methodenlehre Folie 3 Multiple Regression Grundgleichung

Statistik &Methodenlehre

Folie 8

Der ResidualplotEigenschaften der Fehler bzw. Residuen

Voraus-setzungen

Residualplot

Multiple Regression