Download - Korrelation
![Page 1: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/1.jpg)
Korrelation
• (Benninghaus S 304-344)• Korrelation: Maß für den Zusammenhang zweier
metrischer Variablen (intervall- oder verhältnisskaliert)
• setzt Linearität des Zusammenhangs voraus• ist ein Maß für symmetrische Hypothesen: es wird
nicht zwischen unabhängiger und abhängiger Variable unterschieden
• zur Veranschaulichung wird der Zusammenhang in einem Streudiagramm dargestellt
![Page 2: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/2.jpg)
Lineare (a,b) und nicht lineare Zusammenhänge
![Page 3: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/3.jpg)
fast perfekte positive Korrelation
![Page 4: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/4.jpg)
fast perfekte negative Korrelation
![Page 5: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/5.jpg)
keine Korrelation
![Page 6: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/6.jpg)
positive Korrelation mittlerer Höhe
![Page 7: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/7.jpg)
Beispiel nach Gehring und Weins
• Es soll die Annahme überprüft werden, dass in Orten mit hohem Katholikenanteil der Anteil der CDU-Wähler besonders groß ist. Die Annahme muss bestätigt werden, wenn in Orten mit überdurchschnittlichem Katholikenanteil auch der CDU-Wähler-Anteil überdurchschnittlich ist und wenn in Orten mit unterdurchschnittlichem K-Anteil auch der Anteil der CDU-Wähler unterdurchschnittlich ist. Was über/unterdurchschnittlich ist, erkennen wir am Vergleich mit dem Mittelwert.
![Page 8: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/8.jpg)
![Page 9: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/9.jpg)
![Page 10: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/10.jpg)
Beispiel
• Wenn der Zusammenhang hoch ist, variieren beide Variablen gemeinsam, haben also eine hohe Kovarianz:
n
yyxxyx
n
iii
1
)()(),cov(
![Page 11: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/11.jpg)
Beispiel
• Da die Kovarianz sich mit der Maßeinheit ändert, sind Kovarianzen nicht vergleichbar, daher standardisiert man sie, indem man durch die Standardabweichungen beider Variablen teilt (Korrelation ist Kovarianz durch Standardabweichungen)
![Page 12: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/12.jpg)
Formeln für Korrelation
yx
n
iii
ssn
yyxxr
1
)()(
Korrelation = Kovarianz durch Standardabweichungen,
reicht von -1 bis 1
![Page 13: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/13.jpg)
])(][)([ 2222
iiii
iiii
yyNxxN
yxyxNr
Formel nach Benninghaus
![Page 14: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/14.jpg)
Formel zum einfacheren Rechnen im Glossar von Andreß
SAP Summe der Abweichungsprodukte
SAQ Summe der Abweichungsquadrate
![Page 15: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/15.jpg)
Praktisches Vorgehen: Arbeitstabelle
![Page 16: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/16.jpg)
Regression
• Regression: auch hier geht es um den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert)
• setzt Linearität des Zusammenhangs voraus
• ist geeignet für asymmetrische Hypothesen: es wird zwischen unabhängiger (x) und abhängiger Variable (y) unterschieden
• man spricht von der Regression von y auf x (d.h. auf Grund von x), man will die Varianz von y durch x erklären
![Page 17: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/17.jpg)
Wichtige Begriffe
• Regressionsgerade: y = a + b xWird so in die Punktwolke eingefügt, dass die Summe der quadrierten Abweichungen jedes Meßwerts von der Regressionsgerade ein Minimum erreicht
• aus dieser Vorgabe ergeben sich die Werte der Regressionskoeffizienten a und b (Achsenabschnitt und Steigung)
• es läßt sich ein PRE-Maß formulieren (Determinationskoeffizient R²)
![Page 18: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/18.jpg)
![Page 19: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/19.jpg)
![Page 20: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/20.jpg)
2)(
))((
xx
yyxxb
i
ii
xbya
Formeln für die Regressionskoeffizienten (auch als b1 und b0 bezeichnet)
![Page 21: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/21.jpg)
am obigen Beispiel
![Page 22: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/22.jpg)
Interpretation der Regressionsgeraden
• b: Wenn x um eine Einheit steigt, steigt y um b Einheiten (hier 0.19).
• a: Wenn x Null wäre, läge y bei a.
• a ist nur sinnvoll zu interpretieren, wenn x den Wert Null annehmen kann und wenn y bei x=0 sinnvoll hochzurechnen ist. Beim Zusammenhang zwischen Alter und Einkommen macht es keinen Sinn, das Einkommen beim Alter von 0 Jahren hochzurechnen.
![Page 23: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/23.jpg)
Lineare Einfachregression: Annahmen und OLS-Schätzung (1)
Fragen zur Vorlesung
Frage: Warum betrachtet man die quadrierten Abweichungen von der
Regressionsgeraden und nicht die einfachen Abweichungen?
Antwort: Weil die Summe der einfachen Abweichungen für jede
Regressionsgerade, die durch den Schwerpunkt (x-quer, y-quer) der
Punktwolke verläuft, gleich Null ist.
Frage: Gibt es einen Punkt, durch den jede Regressionsgerade laufen
muß?
Antwort: Ja, der Schwerpunkt der Punktwolke. Der Schwerpunkt
entspricht dem Punkt mit den Koordinaten x=x-quer und y=y-quer.
![Page 24: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/24.jpg)
Frage: Gibt es statt Probieren eine mathematische Methode, wie man
die Gerade (genauer: die Parameter der Geradengleichung) bestimmen
kann, die die Summe der quadrierten Abweichungen minimiert?
Antwort: Die Minimierung einer Funktion, hier die Summe der
Abweichungsquadrate als Funktion der Parameter b0 und b1, SAQ =
f(b0, b1), ist ein Problem der Differentialrechnung. Bildet man die ersten
Ableitungen der Funktion SAQ = f(b0, b1) und setzt diese Null, ergeben
sich die Formeln für b0 und b1 in der Formelsammlung.
Lineare Einfachregression: Annahmen und OLS-Schätzung (2)
![Page 25: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/25.jpg)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Ohne Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Mittelwert y quer vorher.
• Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten vom Mittelwert y quer (Gesamtvariation)
yyi
2)(
![Page 26: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/26.jpg)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Mit Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Wert vorher, der sich aus der Regressionsgeraden ergibt: y´i = a + b xi
• Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten von den geschätzten Werten y´i (nicht erklärte Variation)
2)( ii yy
![Page 27: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/27.jpg)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Erklärte Variation dagegen sind die quadrierten Abweichungen der geschätzten Werte y ´i vom Mittelwert y quer
2)( yyi
![Page 28: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/28.jpg)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Varianzzerlegung: Die Gesamtvariation ist die Summe der erklärten und nicht erklärten Variation. Die Gesamtvarianz ist die Summe der erklärten und der nicht erklärten Varianz:
![Page 29: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/29.jpg)
![Page 30: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/30.jpg)
![Page 31: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/31.jpg)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Fehlerreduktion (E1-E2) / E1
• (Gesamtvariarion – nicht erklärte Variation)geteilt durch Gesamtvariation
• identisch mit: erklärte Variation durch Gesamtvariation
• man erhält die gleichen Werte, wenn man statt der Variation die Varianz verwendet
• das Maß für die Fehlerreduktion heißt R² oder Determinationskoeffizient, er bezeichnet den Teil der erklärten Varianz an der Gesamtvarianz. R² ist ein symmetrisches Maß, ergibt sich also genauso bei der Regression von x auf y.
![Page 32: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/32.jpg)
22
22
1
21 rs
ss
E
EE
y
yy
![Page 33: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/33.jpg)
![Page 34: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/34.jpg)
![Page 35: Korrelation](https://reader035.vdokument.com/reader035/viewer/2022062323/5681586d550346895dc5cc4f/html5/thumbnails/35.jpg)
Zusammenhang zwischen Korrelation und Regression
Das Bestimmtheitsmaß R2 entspricht dem Quadrat des
Korrelationskoeffizienten.
Korrelation ist identisch mit dem Regressionskoeffizienten b bei der
Regression der z-transformierten Variable y auf die z-transformierte
Variable x.
Interpretation r: das Maß, in dem eine Steigung einer Variablen mit der
Steigung (oder dem Absinken bei negativen Korrelationen) einer anderen
Variablen einhergeht.
Interpretation R²: der Anteil der erklärten Varianz von y durch x (damit ist
aber noch keine kausale Aussage verknüpft)