1
7. Sitzung
Alexander Spermann Universität Freiburg
Wann spricht man von Multikollinearität? Wenn zwei oder mehrere erklärende Variablen in einem
linearen Zusammenhang zueinander stehen. Dabei ist die zugrundeliegende Frage nicht, ob
Multikollinearität besteht oder nicht, sondern wie stark diese ausgeprägt ist.
Da sich Multikollinearität auf die nicht stochastischen exogenen Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht der Grundgesamtheit.
Einige Faustregeln zur Erkennung von Multikollinearität:1. Hohes R2, bei gleichzeitig insignifikanten t-Werten 2. Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist
hoch, d.h. > 0.83. Bei mehr als zwei erklärenden Variablen: Überprüfung der
partiellen Korrelationskoeffizienten4. Um in einer Mehrfachregression zu prüfen, welche Variablen
sich wie beeinflussen, kann eine Hilfsregression durchgeführt werden
Multikollinearität
2
7. Sitzung
Alexander Spermann Universität Freiburg
Beispiel :Hohe Korrelation zwischen erklärenden Variablen x1 und x2
kann ein Indiz für Multikollinearität sein
Sichtbar an: r1,2 1 (Korrelationskoeffizient misst die lineare
Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h. hoch)
Multikollinearität
3
7. Sitzung
Alexander Spermann Universität Freiburg
Eigenschaften:
Perfekte Multikollinearität liegt fast nie vor
Wird Multikollinearität „diagnostiziert“, handelt es sich dabei meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden Daten – exogenen Variablen – mangelt es an Informationsgehalt
Multikollinearität bedeutet nicht zwingend schlechte Datenqualität, wenn z.B. die Störgröße einen geringen Einfluss hat
Multikollinearität
4
7. Sitzung
Alexander Spermann Universität Freiburg
Multikollinearität
Je höher die Multikollinearität, umso höher die Varianz der Schätzer
Bei Regression mit zwei erklärenden Variablen lautet Varianz von b1:
Hohe Multikollinearität kann durch große Variation s211
oder durch geringe Störgrößenvarianz 2 kompensiert werden:
)1()(
212
211
2
1rs
bVar
5
7. Sitzung
Alexander Spermann Universität Freiburg
Allgemein gilt: Genauigkeit eines Schätzers ist um so größer
(Varianz und Standardfehler umso kleiner), je größer die
Varianz der erklärenden Variablen ist.
Multikollinearität
6
7. Sitzung
Alexander Spermann Universität Freiburg
Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in einer Mehrfachregression vorliegen:
y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u,
x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter
Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen Variablen ein Indikator für Multikollinearität war, ist es nun das Bestimmtheitsmaß R2
4_123...n einer sog. Hilfsregression in Falle von Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen Variablen steht:
x4 = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + u, x4 = Alter Interpretation: R2
4_123...n misst die Erklärungskraft der Variablen x1 , x2 usw. für die Werte der Variable x4 , wobei hohes R2
4_123..n hohe Multikollinearität signalisiert
Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen der Mehrfachregression
Multikollinearität
7
7. Sitzung
Alexander Spermann Universität Freiburg
Beispiel : r4_12...n = 0.999787
Multikollinearität
8
7. Sitzung
Alexander Spermann Universität Freiburg
Praktische Konsequenzen der Multikollinearität:
Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeit beeinträchtigt
Die hohen Varianzen bzw. Kovarianzen führen zu breiten Konfidenzintervallen, und somit zu
- einer höheren Akzeptanz der Nullhypothese: Ho=0 ,
d.h. Irrtumswahrscheinlichkeit für den Fehler 2. Art – falsche
Hypothese wird nicht verworfen – steigt - insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes
R2
Multikollinearität
9
7. Sitzung
Alexander Spermann Universität Freiburg
MultikollinearitätDarstellung von Varianzen und Kovarianzen einzelner Variablen einer Zweifachregression:
A B
L
IH
K
J
Keine Überschneidung zwischen den Variationen der zwei exogenen Variablen: Variablen unabhängig, KEINE Multikollinearität Überschneidungen mit der endogenen Variable (A und B) dienen zu Parameterschätzung
F
DC
G
E
Überschneidungen E und F: geringe Multikollinearität Lediglich C und D liefern Informationen für die Parameterschätzung Informationen in E sind den exogenen Variablen nicht individuell zurechenbar: gemeinsamer Einfluss G ist Variation der endogenen Variable, die nicht durch die exogenen Variablen erklärt werden kann: Einfluss der Störgrößen
Überschneidungen J und K zwischen den Variationen der exogenen Variablen J > E , aber L < G: d.h. stärkere Multikollinearität, ABER höhere Erklärungsgüte H und I liefern Informationen für die Parameterschätzung
10
7. Sitzung
Alexander Spermann Universität Freiburg
Veranschaulichung der Folgen anhand der Variablen Berufserfahrung und Alter
y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u,
x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter
Schwierigkeiten, getrennte Effekte beider Variablen nachzuweisen
ungenaue Schätzer, d.h. sehr hohe Varianz
niedrige t-Werte, insignifikante Koeffizienten
Multikollinearität
11
7. Sitzung
Alexander Spermann Universität Freiburg
Multikollinearität
12
7. Sitzung
Alexander Spermann Universität Freiburg
Interpretation des Outputs, bei dem zwei erklärende Variablen – Alter und Berufserfahrung - hoch korreliert sind:
Die Koeffizienten für die korrelierten Variablen sind nicht signifikant von Null verschieden, da die Werte der t-Statistik I t I < 2 sind:
I tAlter I = 1,06 und I tBerufserf I = 1,38
Auch haben die Variablen Alter und Berufserfahrung vergleichsweise hohe Standardfehler
Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und Prob.Berufserf=17% hoch
Insignifikant
Lösungen?
Multikollinearität
13
7. Sitzung
Alexander Spermann Universität Freiburg
1. Lösungsansatz: Erhöhung der Anzahl der Observationen - Zeitreihen: z.B. Quartalsdaten statt
Jahresdaten - Querschnitt: z.B. OECD statt G7
- Paneldaten
2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen
3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen
4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann allerdings auch zu Verzerrung der Schätzung führen, falls die exogene Variable trotz Korrelation einen großen Erklärungsgehalt hat
Multikollinearität