statistik: 21.10.04 relationen zwischen qualitativen merkmalen
TRANSCRIPT
Statistik: 21.10.04
Relationen zwischen qualitativen Merkmalen
21.10.04 PI Statistik, WS 2004/05 (4) 2
Beispiel: UnfälleFür 165 Unfälle wurden registriert:
Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
21.10.04 PI Statistik, WS 2004/05 (4) 3
Unfälle: Häufigkeitsverteilung
Unfallhäufigkeiten und Personenschaden
0
10
20
30
40
50
60
70
Stadt Land
ja
nein
StadtLand
ja
nein0
1020
30
40
50
60
70
Unfälle und Personenschaden
ja
nein
Gruppiertes Säulendiagramm
3D-Säulen
21.10.04 PI Statistik, WS 2004/05 (4) 4
Kontingenztafel
Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung Auch Kreuztabellen oder Kreuzklassifikation genannt
X Y y1 … ysSumm
e
x1 n11 … n1s n1.
… … … … …
xr nr1 … nrs nr.
Summe
n.1 … n.r nZelle Randverteilung
en
21.10.04 PI Statistik, WS 2004/05 (4) 5
Unfälle: Häufigkeitsverteilungen
StadtLand
ja
nein010
20
30
40
50
60
70
Unfälle und Personenschaden
0
10
20
30
40
50
60
70
80
90
Stadt Land
0
20
40
60
80
100
120
ja nein
Randverteilung nach • Personenschaden• Stadt/Land
(bedingte) Verteilung nach Personen-schäden von Unfällen in der Stadt
21.10.04 PI Statistik, WS 2004/05 (4) 6
Rand- und bedingte Verteilungen
ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X
n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y
„.“ gibt an, dass über alle möglichen Werte des Index summiert wurde
ni. = j nij
ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj
nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi
21.10.04 PI Statistik, WS 2004/05 (4) 7
Unfälle: Häufigkeitsverteilungen
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
Randverteilung nach • Personenschaden• Stadt/Land
(bedingte) Verteilung nach Personen-schäden von (82!) Unfällen in der Stadt
Gemeinsame Verteilung
21.10.04 PI Statistik, WS 2004/05 (4) 8
Relative Häufigkeiten
Gemeinsame relative Häufigkeiten
, 1,..., , 1,...,ijij
np i r j s
n
z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen
Bedingte relative Häufigkeiten
z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt
sjn
npri
n
np
i
ijij
j
ijji ,,1,,,,1,
.|
.|
21.10.04 PI Statistik, WS 2004/05 (4) 9
Unfälle: Relative Häufigkeiten
P-Schaden
Stadt
Land Summe
ja 10.3 21.2 31.5
nein 39.4 29.1 68.5
Summe 49.7 50.3 100.0
Randverteilung nach • Stadt/Land• Personenschaden
Gemeinsame Verteilung
21.10.04 PI Statistik, WS 2004/05 (4) 10
Unfälle: Bedingte relative Häufigkeiten
P-Schaden
Stadt
Land Summe
ja 32.7 67.3 100.0
nein 57.5 42.5 100.0
Summe 49.7 50.3 100.0
Bedingte Verteilungen für Unfälle • mit• ohne
Personenschaden
Analog bedingte Verteilungen für Unfälle in Stadt und Land
nach Personenschaden
21.10.04 PI Statistik, WS 2004/05 (4) 11
Bedingte Verteilungen
Unfälle mit und ohne Personenschäden
20,7%42,2%
79,3%57,8%
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
120,0%
Stadt Land
Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden
Gestapeltes Säulendiagramm
21.10.04 PI Statistik, WS 2004/05 (4) 12
Beziehung zwischen Merkmalen
Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen
Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte
21.10.04 PI Statistik, WS 2004/05 (4) 13
Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen
21.10.04 PI Statistik, WS 2004/05 (4) 14
Sind Ort und Personenschäden bei Unfällen unabhängig?
Was sagen uns: bedingte Verteilungen für Unfälle mit und ohne
Personenschäden bedingte Verteilungen für Unfälle in Stadt und Land nach
Personenschaden
Pers.-Schaden
Stadt Land Summe
ja 32.7 67.3 100.0
nein 57.5 42.5 100.0
Summe 49.7 50.3 100.0
21.10.04 PI Statistik, WS 2004/05 (4) 15
Erwartete Häufigkeiten
Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten
n
nnn jiij
..ˆ
Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt
21.10.04 PI Statistik, WS 2004/05 (4) 16
Unfälle: Erwartete Häufigkeiten
P-Schaden
Stadt LandSumm
e
ja 25,8 26,2 52
nein 56,2 56,8 113
Summe 82 83 165
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
Beobachtet:
Bei Unabhängig-keit erwartet:
21.10.04 PI Statistik, WS 2004/05 (4) 17
Chiquadrat-Statistik
Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen
2
1
2
1
2
ˆ
)ˆ(
i j ij
ijij
n
nnT
Bei Unabhängigkeit der Merkmale: T = 0Bei Abhängigkeit: T ist wesentlich größer als 0
Bei Unabhängigkeit folgt die Chiquadrat-Statistik derChiquadrat-Verteilung
21.10.04 PI Statistik, WS 2004/05 (4) 18
Unfälle
Chiquadrat-Statistik:T = 8.78
p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003Unabhängigkeit der Merkmale ist unplausibel
21.10.04 PI Statistik, WS 2004/05 (4) 19
(r x s) - Kontingenztafel
Verallgemeinerung der 2x2-TafelChiquadrat-Statistik:
Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden
r
i
s
j ij
ijij
n
nnT
1 1
2
ˆ
)ˆ(
)1)(1(2 srT
21.10.04 PI Statistik, WS 2004/05 (4) 20
Homogenität
Das Merkmal Y charakterisiert die PopulationHomogenität: die bedingten Verteilungen
pi|j, i =1, …, r
sind für alle j Populationen gleichZum Überprüfen der Homogenität: Chiquadrat-Statistik
21.10.04 PI Statistik, WS 2004/05 (4) 21
Kontingentzkoeffizienten
Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße:Pearson´scher Kontingenzkoeffizient
Cramér´scher Kontingenzkoeffizient
bei Unabhängigkeit: P = 0, C = 0 Maximalwert: P < 1, C ≤ 0
Tn
TP
)1,1min(
srn
TC
21.10.04 PI Statistik, WS 2004/05 (4) 22
Unfälle
8.78 8.780.225, 0.231
165 8.78 165P C
Für die Kontingenzkoeffizienten erhalten wir
21.10.04 PI Statistik, WS 2004/05 (4) 23
Beispiel: Nochmals UnfälleFür 165 Unfälle wurden registriert:
Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn Personenschaden: ja/nein
P-Schaden Orts-Geb.
Land-Staße
Auto-bahn
Summe
ja 17 23 12 52
nein 65 44 4 113
Summe 82 67 16 165
2x3 Kontingenztafel
21.10.04 PI Statistik, WS 2004/05 (4) 24
Beispiel, Forts.
Chiquadrat-Statistik: T = 18.68
Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 FreiheitsgradenDer p-Wert beträgt 0.000088 !Pearson´scher Kontingenzkoeffizient:
P = 0.319Cramér'scher Kontingenzkoeffizient:
C = 0.336