modellprämissen der linearen regression

16
Modellprämissen der linearen Regression Anzahl der erklärenden Variablen < Anzahl der Fälle Linearität in den Regressionsparametern Keine exakte Multikollinearität (keine exakte Abhängigkeit der Prädiktoren) relevant bei der multiplen Regressionsanalyse Residuendiagnostik (e i ): Residuen haben einen Erwartungswert von Null Homoskedastizität (alle Residuen besitzen die gleiche konstante Varianz) Normalverteilung der Residuen Keine Autokorrelation (für jedes Residuenpaar e i und e j ist die Korrelation gleich Null) relevant bei der Analyse von Zeit-reihen

Upload: venus

Post on 29-Jan-2016

36 views

Category:

Documents


0 download

DESCRIPTION

Modellprämissen der linearen Regression. Anzahl der erklärenden Variablen < Anzahl der Fälle Linearität in den Regressionsparametern Keine exakte Multikollinearität (keine exakte Abhängigkeit der Prädiktoren )  relevant bei der multiplen Regressionsanalyse Residuendiagnostik (e i ): - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Modellprämissen der linearen Regression

Modellprämissen der linearen Regression

• Anzahl der erklärenden Variablen < Anzahl der Fälle• Linearität in den Regressionsparametern• Keine exakte Multikollinearität (keine exakte Abhängigkeit der

Prädiktoren) relevant bei der multiplen Regressionsanalyse

Residuendiagnostik (ei): • Residuen haben einen Erwartungswert von Null• Homoskedastizität (alle Residuen besitzen die gleiche konstante

Varianz)• Normalverteilung der Residuen• Keine Autokorrelation (für jedes Residuenpaar ei und ej ist die

Korrelation gleich Null) relevant bei der Analyse von Zeit-reihen

Page 2: Modellprämissen der linearen Regression

Linearität (Modellverstoß: keine Linearität):

• Im Fall von Nichtlinearität liefert die Regressionsgerade nicht mehr die besten Schätzer (d.h. sie minimieren nicht mehr den Abstand zwischen tatsächlichen und geschätzten Werten)

• Die Folge ist eine Verzerrung der Schätzwerte der Parameter, d.h. die Schätzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte βj.

 

Prüfung:

1. Begutachtung der Punkteverteilung im Streudiagramm (Plot)

2. Begutachtung der Partialdiagramme: Regression der bereinigten Regressoren auf das bereinigte Kriterium (Partielle Korrelation, Korrelation der Regressionsresiduen)

Page 3: Modellprämissen der linearen Regression

Begutachtung der Punkteverteilung im Streudiagramm:

Begutachtung der Partialdiagramme:

Grundsätzliche Lösungstrategie: Transformation der unabhängigen Variablen, z.B. Quadrierung: y = a + b ∙ x2,

Logarithmierung: y = a + b ∙ ln(x)

Nach Elimination der Effekte der anderen Einflussgrößen verbleibt ein starker linearer Zusammenhang zwischen X und Y.

Page 4: Modellprämissen der linearen Regression

(Keine exakte) Multikollinearität:

• Mit zunehmender Multikollinearität werden die Schätzungen der Regressionsparameter unzuverlässiger. Dies macht sich bemerk-bar am Standardfehler der Regressionskoeffizienten (sb), der größer wird.

• Bei perfekter Multikollinearität ist eine Schätzung der Regressi-onskoeffizienten bj nicht mehr möglich.

Prüfung:

1. Betrachtung der Korrelationsmatrix der unabhängigen Variablen

2. Besser: Durchführung von Regressionsanalysen jeder unab-hängigen Variablen X auf die übrigen unabhängigen Variablen

3. Am besten: Berechnung der Toleranz und des VIF-Wertes

Page 5: Modellprämissen der linearen Regression

Toleranz der Regressoren:

R2j: Bestimmtheitsmaß, unter Zugrundelegung eines Regressionsmodells, in dem Xj

die abhängige Variable und die übrigen X des ursprünglichen Regressions-modells die unabhängigen Variablen bilden.

• Die Toleranz einer Variablen gibt den Varianzanteil wieder, der durch die anderen unabhängigen Variablen in der Modellgleichung nicht erklärt wird.

• Eine Variable mit einer geringen Toleranz wird durch die anderen unabhängigen Variablen in hohem Maße determiniert.

Grenzwert der Toleranz: • R = 0,7 (Grenzwert, ab da großes Anwachsen von sb)

R2 = 0,49, Tj = 1 - 0,49 = 0,51 • R = 0,8 (Grenzwert in der Praxis)

R2 = 0,64, Tj = 1 - 0,64 = 0,36

2jj R1T Koeffizient der Nichtdetermination:

Der Wertebereich ist [0; 1]

Page 6: Modellprämissen der linearen Regression

Variance Inflation Factor (VIF) der Regressoren:

Allgemein gilt:

• Bei T- und VIF-Werten nahe 1 kann (nahezu) von linearer Unabhängigkeit der Regressoren ausgegangen werden.

• Niedrige Toleranzwerte und hohe VIF-Werte weisen dagegen auf Multikollinearitätsprobleme hin.

Lösungsstrategie:

• Entfernung von Prädiktor(en) mit hoher Multikollinearität

• Zusammenfassung von hoch korrelierenden Prädiktoren (z.B. Indexbildung)

2j

j R1

1VIF

VIF ist der Kehrwert (Inverse) der Toleranz. Der

Standardfehler wird um den Faktor √VIF erhöht.

Beispiel: Tj = 0,51 VIF = 1,96, Tj = 0,36 VIF = 2,78

Page 7: Modellprämissen der linearen Regression

Erwartungswert der Residuen ist gleich Null (E(e/ε) = 0) (Modellverstoß: E(ε) ≠ 0):

E(ε) = 0: • Residuen erfassen nur zufällige Effekte. D.h. Schwankungen der

Residuen gleichen sich im Mittel aus.E(ε) ≠ 0 (Systematik in den Fehlertermen):• Wenn relevante Regressoren nicht berücksichtigt sind, eine

falsche funktionale Form angenommen wird, die Stichprobenaus-wahl nicht zufällig ist, die Messwerte von Y systematisch zu hoch/niedrig gemessen werden, dann erfassen die Residuen systematische Effekte.

• Folge: Der systematische Fehler geht in die Berechnung von a ein (verzerrte Schätzung), Schätzverfahren sind nicht mehr erwar-tungstreu und ungültig.

Page 8: Modellprämissen der linearen Regression

Homoskedastizität (Varianzhomogenität der Residuen) (Modellverstoß: Heteroskedastizität):

• Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhängigen Variablen nicht konstant ist, d.h. wenn die Fehlerterme systematisch streuen, dann liegt Heteroske-dastizität vor.

• Heteroskedastizität führt zu Ineffizienz der Schätzung und verfälscht den Standardfehler des Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls und der Testverfahren ungenau und unzuverlässig.

• Möglicher Grund: Residualwerte sind abhängig von einem oder mehreren Regressoren

Prüfung:

• Residuenplot: Standardisierte Residuen werden gegen die standardisierten geschätzten yi-Werte geplottet.

Page 9: Modellprämissen der linearen Regression

Berechnung standardisierter vorhergesagter Werte:

y

'i

y s

yyZ '

i

Berechnung standardisierter Residuen:

e

i

e

i

e

ie s

e

s

0e

s

eeZ

i

ei = yi - y’i

se = Standardfehler des Schätzers

Mittelwert = 0, s = 1

Mittelwert = 0, s = 1

Page 10: Modellprämissen der linearen Regression

Residuenplot:

Idealtypisch ist, wenn die Residuen unsystematisch um die Nulllinie schwanken.

Page 11: Modellprämissen der linearen Regression

Ein statistischer Test zur Prüfung von Heteroskedastizität:

Goldfeld-Quandt-Test:

1. Unterteilung der Stichprobe in zwei Unterstichproben z.B. nach: a. dem Zeitfaktor t bei Zeitreihen

b. einer bestimmten Variablen bei Querschnittsdaten (z.B. Schulbildung)

2. Getrennte OLS-Regression und Vergleich der Varianzen auf signifikante Unterschiede

• Grundidee: Bestimmte Variable verursacht die Heteroskedastizi-tät und muss beseitigt werden.

• Nachteil: Nur einfache Formen von Heteroskedastizität (d.h. von einer Variable ausgehend) identifizierbar.

Mit dem White-Test können höhere Formen von Heteroskedastizitätgeprüft werden.

Page 12: Modellprämissen der linearen Regression

Normalverteilung der Residuen:

• Bei Verletzung der Linearitäts- oder Varianzhomogenitätsan-nahme kann die Normalverteilung der Residuen nicht geprüft werden.

• Die Annahme ist für die Durchführung statistischer Tests (T-Test, F-Test) von Bedeutung. Hierbei wird unterstellt, dass b0 und bj normalverteilt sind. Wäre dies nicht der Fall, wären auch die Tests nicht gültig.

• Aber: Je größer die Stichprobe ist, desto eher kann man von einer asymptotischen Normalverteilung der Fehler ausgehen.

Prüfung: (1) Histogramm für die standardisierten Residuen mit eingezeichneter

Normalverteilungskurve und (2) P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus

tatsächliche Residuen.- Zudem Statistische Tests zur Prüfung der Normalverteilungsannahme:

Kolmogorov-Smirnov-Test, Skewness-Kurtosis Test, Shapiro-Wilk Test

Page 13: Modellprämissen der linearen Regression

P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus tatsächliche Residuen:

Vergleich: Kumulierte Häufigkeitsver-teilung der standardisierten Residuen mit kumulierter Normalverteilung (durchgezogene Linie).

Histogramm für die standardi-sierten Residuen mit eingezeich-neter Normalverteilungskurve:

Vergleich: Häufigkeitsverteilung der standardisierten Residuen mit Normalverteilungskurve.

Residuen weichen nicht von Normal-verteilung ab: kein Verstoß

Page 14: Modellprämissen der linearen Regression

(Keine) Autokorrelation:

• Autokorrelation (Korrelation zwischen zwei aufeinander folgen-de Residualgrößen ei und ej) tritt vor allem bei Zeitreihen auf.

• Die Abweichungen von der Regressionsgeraden sind dann nicht mehr zufällig, sondern von den Abweichungen der vorangehen-den Werte abhängig.

• Autokorrelation führt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls verzerrt.

Prüfung:

• Durbin-Watson-Test

Page 15: Modellprämissen der linearen Regression

Durbin-Watson-Test:

Berechnung des Durbin-Watson-Wertes d:

Es gilt:

d = 0 Perfekt positive Autokorrelation

d = 2 Keine Autokorrelation

d = 4 Perfekt negative Autokorrelation

T

1t2t

T

2t2

1tt

e

)ee(d Wertebereich: 0 < d < 4

Page 16: Modellprämissen der linearen Regression

• Die Nullhypothese (H0) lautet: Es liegt keine Autokorrelation vor (ρ = 0).

• Die Alternativhypothese (H1) lautet: Es liegt Autokorrelation vor (ρ 0).

Zusammenhang zwischen d und ρ :d = 0 ρ = 1 Perfekt positive Autokorrelationd = 2 ρ = 0 Keine Autokorrelationd = 4 ρ = -1 Perfekt negative Autokorrelation

• ρ gibt die Stärke der Autokorrelation an

• Anhand einer Tabelle (Kritischer Wert der Durbin-Watson-Statis-tik) kann der Vertrauensbereich abgelesen werden. Liegt d außer-halb dieses Bereichs, wird H0 abgelehnt.

i1ii veρe Berechnung: