methoden ii - ls4.soziologie.uni-muenchen.de · punktewolke in einzelne abschnitte auf der x-achse...
TRANSCRIPT
Methoden IIZusammenhangsmaße für kategorialeund metrische Variablen
Institut für SoziologieDipl. Soz. Maximilian Sonnauer
Organisatorisches
Prüfungsanmeldung Methoden II
• Die Anmeldung zur Prüfung läuft über die Tafelübung.
• Aus Einfachheitsgründen ist Maximilian Sonnauer als einzigerPrüfer eingetragen.
• Unabhängig von Ihrem Übungstermin melden ALLETeilnehmer*innen von Methoden II ihre Prüfung bei MaximilianSonnauer an.
# 222.05.2017Maximilian Sonnauer
Programm
1. Wiederholung Chi² Unabhängigkeitstest
2. Zusammenhang bei kategorialen Variablen• Cramers V
3. Metrische Zusammenhänge grafisch darstellen• Streudiagramme
• Nichtlineare Verfahren
4. Zusammenhangsmaße metrischer Variablen• Pearsons Korrelationskoeffizient r
# 322.05.2017Maximilian Sonnauer
Programm
1. Wiederholung Chi² Unabhängigkeitstest
2. Zusammenhang bei kategorialen Variablen• Cramers V
3. Metrische Zusammenhänge grafisch darstellen• Streudiagramme
• Nichtlineare Verfahren
4. Zusammenhangsmaße metrischer Variablen• Pearsons Korrelationskoeffizient r
# 422.05.2017Maximilian Sonnauer
Wiederholungχ²-Unabhängigkeitstest
Welche Eigenschaften hat der χ²-Unabhängigkeitstest?
• Anwendung bei kategorialen Variablen• Vergleicht beobachtete Häufigkeiten mit erwarteten
Häufigkeiten unter Unabhängigkeit
# 522.05.2017Maximilian Sonnauer
Okm: beobachtete HäufigkeitenEkm : erwartete Häufigkeiten
622.05.2017Maximilian Sonnauer
Wiederholungχ²-Unabhängigkeitstest – fiktives Beispiel
Geschlecht
weiblich männlich
Polit
isch
eAu
sric
htun
g Rechts von derMitte
O1· 125 125250
E1· 150 100
MitteO2· 250 200
450E2· 270 180
Links von derMitte
O3· 225 75300
E3· 180 120
600 400 1000
7
Wiederholungχ²-Unabhängigkeitstest
SignifikanztestVergleich der berechneten Teststatistik ( ) mit dem kritischen Wert aus derVergleichstabelle. Unabhängigkeit wird abgelehnt, wenn gilt:
α entspricht dem festgelegten Signifikanzniveau (Fehler 1. Art). In der Tabellemuss für 1-α nachgeschlagen werden.
df
df = (3-1)(2-1) = 21-α = 0.95
22.05.2017Maximilian Sonnauer
Zusammenhangsmaß fürnominalskalierte Variablen
822.05.2017Maximilian Sonnauer
Nachteile von c²
Keine Interpretation der Stärke eines Zusammenhangs, denn…§ die Höhe des Koeffizienten hängt von der Fallzahl ab.
§ die Höhe des Koeffizienten hängt von der Anzahl der Zellen einerTabelle ab, welche die Freiheitsgrade bestimmen (k – 1)*(m – 1).
Programm
1. Wiederholung Chi² Unabhängigkeitstest
2. Zusammenhang bei kategorialen Variablen• Cramers V
3. Metrische Zusammenhänge grafisch darstellen• Streudiagramme
• Nichtlineare Verfahren
4. Zusammenhangsmaße metrischer Variablen• Pearsons Korrelationskoeffizient r
# 922.05.2017Maximilian Sonnauer
Cramers V
Cramers V
• Ausgangspunkt ist der Chi² Test
• Normierung des Wertebereichs zwischen 0 und 1.
• Aussagen über die Stärke eines Zusammenhangs möglich
• Keine Aussage über die Richtung des Zusammenhangsmöglich (Vorzeichen ignorieren)
# 1022.05.2017Maximilian Sonnauer
Zusammenhangsmaßefür nominale Variablen: Cramers V
1122.05.2017Maximilian Sonnauer
Formel:
Eigenschaften:
Wertebereich von [0,1]
Interpretation
V = 0 → kein Zusammenhang zwischen Xund Y
V = 1 → perfekter Zusammenhangzwischen X und Y
Achtung:Keine Interpretation des Vorzeichens möglich
Kann für k x m-Tabellen berechnet werden (wobei k=m sein darf)
§ k steht für „Zeile“ und m steht für „Spalte“§ Man wählt entweder Anzahl der Spalten
oder der Zeilen, je nachdem,was kleiner ist
)1,1min(*
2
--=
mkNV c
1222.05.2017Maximilian Sonnauer
Stata Syntax für Cramers V:
tabulate abhvar unabhvar, chi2 V
„chi2“ ruft den Chi-Quadrat Test auf [siehe letzte Woche]
Durch „V“ wird Cramers V angezeigt
Cramers VStata-Syntax
1322.05.2017Maximilian Sonnauer
Beispiel von letzter Woche:
H1: Amerikanische und ausländische Autos unterscheiden sich inihrer Reparaturanfälligkeit.
Verwendete Variablen:Dummy zu Herkunft: foreign
Anzahl der bisherigen Reparaturen: rep78
Cramers VStata-Beispiel
1422.05.2017Maximilian Sonnauer
tab rep78 foreign, nofreq column
Cramers VStata-Beispiel
Total 100.00 100.00 100.00
5 4.17 42.86 15.94 4 18.75 42.86 26.09 3 56.25 14.29 43.48 2 16.67 0.00 11.59 1 4.17 0.00 2.90
1978 Domestic Foreign TotalRecord Car typeRepair
>
><
>
<
Unterdrückt dieAnzeige derabsolutenHäufigkeiten
Der Chi-Quadrat Wert istmit einem p-Wert = 0.000höchst signifikant.
Es muss davonausgegangen werden, dassein Unterschied besteht.
Cramers V ist mit0.6286 mittel bis stark.
22.05.2017Maximilian Sonnauer 15
Cramers VStata-Beispiel
Cramér's V = 0.6286 Pearson chi2(4) = 27.2640 Pr = 0.000
Total 100.00 100.00 100.00
5 4.17 42.86 15.94 4 18.75 42.86 26.09 3 56.25 14.29 43.48 2 16.67 0.00 11.59 1 4.17 0.00 2.90
1978 Domestic Foreign Total Record Car type Repair
tab rep78 foreign, nofreq column chi2 V
Programm
1. Wiederholung Chi² Unabhängigkeitstest
2. Zusammenhang bei kategorialen Variablen• Cramers V
3. Metrische Zusammenhänge grafisch darstellen• Streudiagramme
• Nichtlineare Verfahren
4. Zusammenhangsmaße metrischer Variablen• Pearsons Korrelationskoeffizient r
# 1622.05.2017Maximilian Sonnauer
Metrische Zusammenhänge grafischdarstellen
• Bisher wurden univariate grafische Verfahren betrachtet
Beispiel: Variable Länge
• Diese Grafen zeigen immer nur Verteilung einer Variable an
# 1722.05.2017Maximilian Sonnauer
0.2
.4.6
.8De
nsity
3.5 4 4.5 5 5.5 6Länge (m)
0.2
.4.6
Den
sity
3.5 4 4.5 5 5.5 6Länge (m)
kernel = epanechnikov, bandwidth = 0.2152
Kernel density estimate
3.5
44.
55
5.5
6Lä
nge
(m)
Metrische Zusammenhänge grafischdarstellen
• Eine Kernkompetenz empirischer Sozialforscher*innen ist dieFähigkeit relevante Ergebnisse grafisch darzustellen.
• „Gut gestaltete Graphiken sind nämlich mitunter die einfachsteund zugleich wirkungsvollste Möglichkeit zur Analyse undKommunikation statistischer Information.“ (Bauer 2010)
# 1822.05.2017Maximilian Sonnauer
Streudiagramme
• Wertepaare der zwei Variablenwerden als Punktwolke(Scatterplot) im Koordinaten-system abgebildet.
• Mögliches Muster der Punkte kannAufschluss über Beziehungzwischen den Variablen geben
• Achtung: Grafische Verfahrensollten immer mit statistischenTests kombiniert werden
22.05.2017Maximilian Sonnauer 19
Unabhängige Variable auf der X-Achse
Ab
hän
gig
eV
aria
ble
auf
der
Y-A
chse
StreudiagrammStata-Syntax
Stata Syntax für Streudiagramme:
graph twoway scatter abhvar unabhvar
zweidimensionale Grafik scatterplot
Oder (Kurzform)
scatter abhvar unabhvar
22.05.2017Maximilian Sonnauer 21
Streudiagramme
Beispiel mit dem Auto-Datensatz:
H2: Je länger ein Auto ist, desto größer ist der Wendekreis.
Variablen:
UV: Länge der Autos in Metern (laenge, bereits erstellt)
AV: Wendekreis in Metern (wend)gen wend = turn*0.3048
lab var wend"Wendekreis (m)"
# 2222.05.2017Maximilian Sonnauer
Streudiagramme
graph twoway scatter wend laenge
# 2322.05.2017Maximilian Sonnauer
810
1214
16W
ende
krei
s(m
)
3.5 4 4.5 5 5.5 6Länge (m)
• Tendenziell linearerZusammenhangerkennbar
• Längere Autos habeneinen größerenWendekreis
Nichtlineare Verfahren
• Auf der Basis von Streudiagrammen kann ein erster Eindrucküber Zusammenhänge gewonnen werden
• Nichtlineare (oder nonparametrische) Verfahren unterteilenPunktewolke in einzelne Abschnitte auf der X-Achse
• In den jeweiligen Abschnitten werden lokale Werte errechnet§ Gibt Einblick in Verlauf eines Zusammenhangs, ohne weitere
Überlegungen hinsichtlich Verteilung etc. zu benötigen
# 2422.05.2017Maximilian Sonnauer
Nichtlineare Verfahren
Median Bands
• Unterteilung der Daten in k Abschnitte
• Für jeden Abschnitt wird jeweils ein lokaler Median gebildet
Stata Syntax:
graph twoway mband AV UV , bands(k)
Anzahl der Abschnitte
# 2522.05.2017Maximilian Sonnauer
Nichtlineare Verfahren
Zurück zum Beispielgraph twoway mband wend laenge, bands(10)
# 2622.05.2017Maximilian Sonnauer
1011
1213
1415
Med
ian
band
s
3.5 4 4.5 5 5.5 6Länge (m)
1
2 3 4
5
6
7
89
10 • Linear-positiverZusammenhangscheint sich zubestätigen
• In Abschnitt 6jedoch „Delle“nach unten
Nichtlineare Verfahren
• In Stata können mehrere twoway-Grafiken miteinanderkombiniert werden
• Zur Kombination verwendet man
|| (also zweimal den Operator für „oder“)
# 2722.05.2017Maximilian Sonnauer
Nichtlineare Verfahren
graph twoway scatter wend laenge || mband wend laenge ,bands(10)
# 2822.05.2017Maximilian Sonnauer
810
1214
16
3.5 4 4.5 5 5.5 6Länge (m)
Wendekreis (m) Median bands
Programm
1. Wiederholung Chi² Unabhängigkeitstest
2. Zusammenhang bei kategorialen Variablen• Cramers V
3. Metrische Zusammenhänge grafisch darstellen• Streudiagramme
• Nichtlineare Verfahren
4. Zusammenhangsmaße metrischer Variablen• Pearsons Korrelationskoeffizient r
# 2922.05.2017Maximilian Sonnauer
Zusammenhangsmaße:Kovarianz und Korrelationskoeffizient
Fragestellung:
Besteht ein linearer Zusammenhang zwischen zwei metrischenVariablen?
Wie stark ist dieser Zusammenhang?
Anforderungen von Kovarianz und Korrelationskoeffizient nachPearson:
• Beide Variablen müssen metrisch skaliert (Intervall-, Verhältnis-oder Absolutskala) sein
• Ein linearer Zusammenhang musst unterstellt werden können
22.05.2017Maximilian Sonnauer 30
− ̅ ∗ − • ist positiv im 1. und 3.
Quadranten
• ist negativ im 2. und 4.Quadranten
Zusammenhangsmaßefür metrische Variablen: Kovarianz
y
x x
y
0
Berechnung der Kovarianz:
2
4
1
3
22.05.2017Maximilian Sonnauer 31
, =1− 1 − ̅ ∗ −
3222.05.2017Maximilian Sonnauer
Zusammenhangsmaßefür metrische Variablen: Korrelation
Formel:
Eigenschaften:
Wertebereich von [-1,+1]In
terp
reta
tion
r = -1 Perfekter, negativ-linearer Zusammenhang
Je größer X, desto kleiner Y
r = 0 Kein linearer Zusammenhang.
Je größer X, desto größer Y
r = 1 Perfekter, positiv-linearer Zusammenhang.
Vorteile§ Symmetrisches Maß, d.h. abhängige und unabhängig Variablen können
vertauscht werden.§ Das Korrelationsmaß informiert darüber, wie nah die Datenpunkte um
eine lineare Gerade streuen, welche an die Beobachtungen angepasst ist.§ Die Richtung des Zusammenhangs lässt sich interpretieren.
Nachteile§ Das Korrelationsmaß ist ausreißeranfällig, d.h. sehr große Werte haben
ein starken Einfluss auf die Maßzahl§ Das Maß informiert nicht darüber, wie stark bei Veränderung der einen
Variable die Veränderung der anderen Variable ist (gibt keinen Aufschlussüber Kausalität).
22.05.2017Maximilian Sonnauer 33
Zusammenhangsmaßefür metrische Variablen: Korrelation
Zusammenhangsmaß KorrelationStata-Syntax
Stata Syntax für Korrelationen:
correlate abhvar unabvar
22.05.2017Maximilian Sonnauer 34
Zusammenhangsmaß KorrelationStata-Beispiel
Zurück zum Beispiel:
correlate wend laenge
22.05.2017Maximilian Sonnauer 35
• Es gibt eine stark positive Korrelation zwischen der Länge einesAutos und dem Wendekreis
Aber: Ist dieser Zusammenhang auch überzufällig (signifikant)?
laenge 0.8643 1.0000 wend 1.0000
wend laenge
Zusammenhangsmaß KorrelationStata-Beispiel
Für detailliertere Korrelationstabellen verwenden wir den Befehle
pairwise-correlation:
pwcorr abhvar unabvar , sig
pwcorr wend laenge , sig
22.05.2017
0.0000 laenge 0.8643 1.0000
wend 1.0000
wend laenge
Maximilian Sonnauer 36
„sig“ zeigt das Signifikanzniveau jeder Variable an
p < 0,0000:à Zusammenhang ist höchst
signifikant
à Längere Autos haben einensignifikant größerenWendekreis
Übersicht der Zusammenhangsmaße
GriechischerBuchstabe
Skalenniveau Tabellengröße
Wertebe-reich
Sym-metrisch
PRE-Maß Stärke/Rich-tung
Chi² Χ² nominal -
Phi Φ nominal 2*2k*m
[-1, 1][0, 1]
Ja Nein Stärke
Cramers V V nominal k*m [0, 1] Ja Nein Stärke
Lambda λ nominal k*m [0, 1] Nein Ja Stärke
Gamma γ ordinal k*m [-1, 1] Ja Ja StärkeRichtung
Kendall‘sTau b
τb ordinal k*m [-1, 1] Ja Nein StärkeRichtung
Kendall‘sTau c
τc ordinal k*m [-1, 1] Ja Nein StärkeRichtung
eta undeta²
ηη²
UV:nominal/ordinal
AV: metrisch
[0, 1] Nein eta²: jaeta: nein
StärkeRichtung
Korrelation r metrisch r: [-1;1] Ja r: nein StärkeRichtung
3722.05.2017Maximilian Sonnauer
Befehlsübersicht
Cramers V: tabulate AV UV , chi2 V
Scatterplot: graph twoway scatter AV UV if X==
Median Bands: graph twoway mband AV UV, bands(k)
komb. Grafen: graph twoway plot1 || plot2
Korrelation: correlate AV UV
Korr. detailiert: pwcorr AV UV , sig
# 3822.05.2017Maximilian Sonnauer
Übungsaufgaben
Sie vermuten, dass der Zusammenhang zwischen der Länge von Autosund dem Wendekreis sich je nach der Herkunft der Autos unterscheidet.
Überprüfen Sie diese Vermutung.
1) Erstellen Sie vier Variablen um folgende Unterscheidung treffen zukönnen:
2) Unterziehen Sie beide Herkunftsgruppen einer grafischen Analyse
3) Stützen Sie die grafische Analyse mittels einer geeignetenstatistischen Maßzahl
4) Interpretieren Sie die Ergebnisse inhaltlich3922.05.2017Maximilian Sonnauer
Herkunft
Domestic Foreign
Wendekreis wend_dom wend_for
Länge laenge_dom laenge_for