vorlesung statistik i grundlagen sozialwissenschaftlicher datenanalyse (b.mzs.11: statistik i) le 6:...
Post on 05-Apr-2015
133 Views
Preview:
TRANSCRIPT
Vorlesung Statistik I
Grundlagen sozialwissenschaftlicher
Datenanalyse
(B.MZS.11: Statistik I)
• LE 6: Streuungsmaße und weitere Kenngrößen• LE 7: Lineartransformationen (und Zusammenfassungen
von Gruppen)
Vorlesung Statistik I
Streuungsmaße für nominalskalierte Variablen
gültigeKonfession Häudigkeit Prozent Prozentevang. ohne Freikirchen 1169 34.2 34.3evang. Freikirche 89 2.6 2.6Römisch-katholisch 1042 30.5 30.6andere christl. Religion 76 2.2 2.2nicht-christliche Religion 138 4.0 4.1ohne Religionszugehör. 890 26.0 26.2verweigert 10 0.3 --keine Angabe 8 0.2 --Total: 3422 100.0 100.0Gültige Fälle 3404 Fehlende Fälle: 18(Allbuss 2006 Ost-West-gewichtet)
Index qualitativer Variation: K
2k
k 1
KIQV 1 p
K 1
Beispiel: IQV = (1 .3432 .0262 .3062 .0222 .0412 .2622) 6/(61) = 0.861.Bei Gleichverteilung wird Maximum von 1 erreicht.
Absolute Devianz DX bzw. relativen Devianz dX:
K K
kX k k k
k 1 k 1
nD 2 n ln 2 n ln p
n
K
xX k k
k 1
Dd 2 p ln p
n
-2·nk·ln(pk) -2·pk·ln(pk)2501.718 0.73404 649.639 0.189782467.811 0.72471 580.140 0.16794 881.595 0.261922384.151 0.701859465.054 2.78024
K
X k kk 1
Kx
X k kk 1
D 2 n ln p 9465.054
Dd 2 p ln p 2.780
n
Vorlesung Statistik I
Devianz – Nominalskaliertes Streuungsmaß
Vorlesung Statistik I
Beispielaufgaben:
Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ?
K
Y k kk 1
d 2 p ln p 2 1.8867 3.7734
Vorlesung Statistik I
Streuung von ordinalen Variablen
Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße. Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von Abstandsinformationen.Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz. Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation genutzt wird.
Alter in Jahren15202530354045505560657075808590
.000
.005
.010
.015
.020
.025
E
mp
iris
che
Dic
hte
Alter in Jahren
Mod
usM
edian
Mitt
elwertrechtsschiefe Verteilung
Schiefe
Hinweise auf die Schiefe (engl.: skewness)• Für unimodale, symmetrische Verteilungen gilt
Modus = Median = Mittelwert,bei mehrgipfligen, symmetrischen Verteilungen gilt:Median = Mittelwert;
• bei einer eindeutig rechtsschiefen Verteilung gilt:Modus < Median < Mittelwert;• bei einer eindeutig linksschiefen Verteilung gilt:
Modus > Median > Mittelwert.
Vorlesung Statistik I
Lerneinheit 6: Streuungsmaße und weitere Kenngrößen
Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt. Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen:
0
10
20
30
40
1 2 3 4 5 a a 1 2 3 4 5 a a 1 2 3 4 5
W X Y
Wert nk pk cpk nk pk cpk nk pk
cpk
1 10 0.1 0.1 20 0.2 0.2 40 0.4 0.4
2 20 0.2 0.3 20 0.2 0.4 10 0.1 0.5
3 40 0.4 0.7 20 0.2 0.6 0 0.0 0.5
4 20 0.2 0.9 20 0.2 0.8 10 0.1 0.6
5 10 0.1 1.0 20 0.2 1.0 40 0.4 1.0
100 1.0 100 1.0 100 1.0
Vorlesung Statistik I
Streuungsmaße für metrische Variablen
Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung.
(n) (1)R x x RW = 5 – 1 = 4 RX = 5 – 1 = 4 RY = 5 – 1 = 4
Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil:
0.75 0.25IQR Q Q
W X Y
Wert nk pk cpk nk pk cpk nk pk
cpk
1 10 0.1 0.1 20 0.2 0.2 40 0.4 0.4
2 20 0.2 0.3 20 0.2 0.4 10 0.1 0.5
3 40 0.4 0.7 20 0.2 0.6 0 0.0 0.5
4 20 0.2 0.9 20 0.2 0.8 10 0.1 0.6
5 10 0.1 1.0 20 0.2 1.0 40 0.4 1.0
100 1.0 100 1.0 100 1.0
IQRW=2 IQRX=2 IQRY=4
Mittlere Quartilabstand : 0.75 0.25Q QmIQR
2
Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezei-chenbereinigten Differenzen aller Realisierungen vom Mittelwert:
n
ii 1
1AD x x
n
ADW=0.8 ADX=1.2 ADY=1.8
Metrische Streuungsmaße
Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt immer Null!
Vorlesung Statistik I
n
ii 1
1AD x x
n
2
1
( )n
X ii
SS x x
2 2 2 2
1 1
1 1( )
n nX
X i ii i
SSs x x x x
n n n
2X Xs s
1
( ) 0n
ii
x x
Durchschnittliche Abweichung vs.
Standardabweichung
1 2
Vorlesung Statistik I
1,5x
2 2
1 1,5 2 1,50,5
2
(1 1,5) (2 1,5)0,5
2X
AD
s
1 2 3 2x
2 2 2
1 2 2 2 3 20,667
3
(1 2) (2 2) (3 2)0,816
3X
AD
s
Vorlesung Statistik I
W nk pk cpk
1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0 100 1.0
pk·wk pk·|wk–3|
0.1 0.2 0.4 0.2 1.2 0.0 0.8 0.2 0.5 0.2 3.0 0.8
Streuungsmaße für metrische Variablen
Berechnung der durchschnittlichen absoluten Abweichung:
3 3 4 5 6 7 7 8 11
6x
3 6 3 6 4 6 5 6 7 6 7 6 8 6 11 6
918
29
AD
n
ii 1
1AD x x
n
3x
K
K Kk 1
1AD n x x
n
10 1 3 20 2 3 40 3 3 20 4 3 10 5 30.8
100AD
nk·|wk–3|
20
20
0
20
20
=80
Vorlesung Statistik I
Streuungsmaße für metrische Variablen
Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SSX): Summe der quadrierten Abweichungen vom Mittelwert:
n
2
x ii 1
SS x x
W nk pk cpk
1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0 100 1.0
pk·wk nk·(wk–3)2
0.1 40 0.4 20 1.2 0 0.8 20 0.5 40 3.0 120
X nk pk cpk
1 20 0.2 0.2 2 20 0.2 0.4 3 20 0.2 0.6 4 20 0.2 0.8 5 20 0.2 1.0 100 1.0
pk·xk nk·(xk–3)2
0.2 80 0.4 20 0.6 0 0.8 20 1.0 80 3.0 200
Y nk pk cpk
1 40 0.4 0.4 2 10 0.1 0.5 3 0 0.0 0.5 4 10 0.1 0.6 5 40 0.4 1.0 100 1.0
pk·yk nk·(yk–3)2
0.4 160 0.2 10 0.0 0 0.4 10 2.0 160 3.0 340
n n2 2 2
X i i ii 1 i 1
n n2 2i i
i 1 i 1
n n2 2 2 2i i
i 1 i 1
SS x x x x 2 x x
x n x 2 x x
x n x 2 x n x x n x
Für die Berechnung werden nur Fallzahl, Summe und Quadratsumme über alle Realisierungen benötigt:
Vorlesung Statistik I
0
10
20
30
40
1 2 3 4 5 a a 1 2 3 4 5 a a 1 2 3 4 5
Streuungsmaße für metrische Variablen
WSS 120 XSS 200 YSS 340
(Stichproben-) Varianz: die durchschnittliche quadrierte Abweichung vom Mittelwert:
n
22 XX i
i 1
1 SSs x x
n n
2W Ws 1.2 ; s 1.095 2
X xs 2.0 ; s 1.414 2Y Ys 3.4 ; s =1.844
Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz:
n
22 XX X i
i 1
1 SSs s x x
n n
Vorlesung Statistik I
Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix
2n
in n n2 i 12 2 2
X i i ii 1 i 1 i 1
x
SS x x x n x xn
29
ini 12
ii 1
2
n2 2
X ii 1
2
SS x n x
x
xn
50530251
930251 9 56.111 58587.111
Alter2
(X2)
4225230426014761
missing27041444774427041764
505Summe
56.111valid
Summe
n 9
30251
3361.222
Alter(X)
65485169
missing5238885242
Fallnr.IS
1943196019571939
missing19561970192019561966
Die Variation berechnet sich aus diesen Summen nach:
Für die Beispieldaten ergibt sich:
2X X Xs s : s 212.7654321 14.586 im Beispiel
X X
X
V s / x
V 14.58648 / 56.11111 0.2600 26.0%im Beispiel :
2 XX X
SS 58587.111s : s 212.7654321
n 9 im Beispiel
Vorlesung Statistik I
Rechenschema für Häufigkeitstabellen
n K K
2K
k kKk 12
kk 1
2 2 2 2X i k k
i 1 k 1k
k 1k kSS x x n x x n x n x
n x
n xn
K2 2 2 XX k k
k
2KK2
k kk kk 1k 1
21
1 SSs n x x
n xn x
n nn n
W nk pk cpk
1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0 100 1.0
nk·wk nk·(wk)2
10 10 40 80120 360 80 320 50 250 300 1020
2
W
300SS 1020 120
100
22W 2
1020 300 120s 1.2
100 100 100
2X XSS n s
K K2 2 2
2K K2
kX k k k k k kk
kk 1 1 kk 11
p x ps p x x x xp x
pk·wk pk·(wk)2
0.10 0.10 0.40 0.80 1.20 3.60 0 80 3.20 0.50 2.50 3.00 10.20
WSS 100 1.2 120
2 2Ws 10.20 3 1.2
Vorlesung Statistik I
Streuungsmaße für metrische Variablen
2X Xx
X
s SSsV
x x n x
Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel:
W W
1.095s 1.095 ; w 3 V 0.365 36.5%
3 X X
1.414s 1.414 ; x 3 V 0.471 47.1%
3
Y Y
1.844s 1.844 ; y 3 V 0.615 61.5%
3
Welches Streuungsmaßes sollte verwendet werden?- Spannweite: empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt- Quartilabstand: robust gegenüber Ausreißern, aber wenig Informationsgehalt- Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informations-
gehalt Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in Box-
Plots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet.
x x 2
1p x k s X x k s 1
k
Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom Mittelwert mindestens 11/k2 aller Realisierungen liegen:
Vorlesung Statistik I
Momente
Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden:Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen einer Verteilung:
n/ kk i
i 1
1k-tes Rohmoment m x
n
Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die zentralen Momente:
n k/
k i 1i 1
1k-tes zentrales Moment m x m
n
Schiefekoeffizient:
n3
i3i 1
33X
2
1x x
mns m
Steilheit (relativ zur Normalverteilung):
n4
i4i 1
2 222X
1x x
mnKurtosis 3 3
ms
Vorlesung Statistik I
Lerneinheit 7:Lineartransformationen und Zusammenfassungen von Gruppen
Lineartransformation: Y = a + b·X
Lineare Gleichungen lassen sich in einem Koordinatensystem als Graden einzeich-nen.Die Konstante a gibt dabei den Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senk-rechten Y-Achse. Das Gewicht b gibt die Steigung der Ge-raden an. Immer, wenn der Wert von X um +1 Einheit ansteigt, verändert sich der Wert von Y um b Einheiten.
-3-2-10123456789
-5 -4 -3 -2 -1 0 1 2 3 4 5
Y = 2 +1·X
-3-2-10123456789
-5 -4 -3 -2 -1 0 1 2 3 4 5
Y = 4 +1·X
-3-2-10123456789
-5 -4 -3 -2 -1 0 1 2 3 4 5
Y = 4 +0.5·X
Y = 2 –1·X
yi = a + b·xi für i = 1,2,...,n
n n n n n
i i i ii 1 i 1 i 1 i 1 i 1
1 1 1 1 1 by y a b x a b x n a x a b x
n n n n n n
n n n n
2 22 22 2Y i i i i X
i 1 i 1 i 1 i 1
SS y y a b x a b x b x x b x x b SS
2
2 2 2 2 2 2Y XY X Y Y X X
SS b SSs b s und s s b s b s
n n
Lineartransformationen
Y = a+b*X
• Intervallskalenniveau => Y = a+b*X
• Ratioskalenniveau => Y = b*X
Intervallskalenniveau
Beispiel a) Islamischer (Mond)Kalender
33 33622 2009 622 1430
32 32H C
Intervallskalenniveau
Beispiel b) TemperaturIst es in Rom doppelt so warm wie in Göttingen?
32 1,8F C
28 14 14
28 in 32 1,8 28 82,4
14 in 32 1,8 14 57,2
82,4 57,2 25,2
C C C
Rom F
Göttingen F
F F F
Ratioskalenniveau
Beispiel a) Zoll in cm
1" 2,54
2" 5,08
24" 60,96
cm
cm
cm
Y b X
Ratioskalenniveau
Beispiel b) Währung
Hat Gabi doppelt soviel Geld wie Peter?
1000€
500€
1000€ 45,095 45095
500€ 45,095 22547,5
Gabi
Klaus
Rub Rub
Rub Rub
1€ 45,095Rub
Vorlesung Statistik I
Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden Kennwerten des Geburtsjahrs berechnet werden.
Geburts- jahr(X)
1943196019571939
missing19561970192019561966
Geburts- jahr2
(X2)
3775249385160038298943759721missing38259363880900368640038259363865156
Alter(Y)
65485169
missing5238885242
17567
1951.889
Summe
Summe
9
34290747
3910083
2X
2X
X
x 17567 / 9 1951.889
SS 34290747 17567 / 9 1914.8889
s 1914.8889 / 9 212.7654
s 212.7654 14.586
LineartransformationY = 2008 +(–1)·X
Alter2
(Y2)
4225230426014761
missing27041444774427041764
505Summe
56.111Summe
9
30251
3361.222
2Y
2Y
Y
y 505 / 9 56.111
SS 30251 505 / 9 1914.8889
s 1914.8889 / 9 212.7654
s 212.7654 14.586
y a b x
2008 1 1951.889
56.111
2Y X
2
X
SS b SS
1 SS
1914.8889
2 2 2Y X
2
s b s
1 212.7654
Y Xs b s
1 14.586
Lineartransformationen
Vorlesung Statistik I
Standardisierung
Standardisierung: Mittelwert ist 0 und Varianz ist 1. Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standar-disierende Transformation als Z-Transformation:
2Z Z Z
X X X X X
x 1 x 1 X xZ a b X mit a und b : Z X z 0 ; SS n ; s 1 ; s 1
s s s s s
Alter2
(X2)
4225230426014761
missing27041444774427041764
505Summe
56.111Summe
9
30251
3361.222
Xx 56.111 ; s 14.586
Alter(X)
65485169
missing5238885242
Y X 56.111
Y
8.889–8.111–5.11112.889missing–4.111
–18.11131.889–4.111
–14.111
Y2
79.01265.79026.123
166.123missing16.901
328.0121016.901
16.901199.123
0.001
0.000
1914.886
212.765
Y
Y
y 0 ; SS 1914.886
s 14.586
Y2
19.85910.83012.22622.378missing12.7106.787
36.39912.7108.291
34.622
3.847
142.190
15.7998
Y
2Y Y
y 3.847 ; SS 9
s 1 ; s 1
Y
4.4563.2913.4974.731
missing3.5652.6056.0333.5652.879
Y X /14.586 Z X 56.111 /14.586
Z
0.609–0.556–0.3500.884
missing–0.282–1.2422.186
–0.282–0.967
Z2
0.3710.3090.1230.781
missing0.0801.5434.7790.0800.935
0.000
0.000
9.001
1.000
Y
2Y Y
x 0 ; SS 9.00
s 1 ; s 1
Vorlesung Statistik I
Beispielaufgaben zu Lineartransformationen
Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transfor-miert werden, um sie zu standardisieren?
X
X x X 45 X 45 1Z 5 X
s 9 981
90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65 und +1.65. Durch eine Lineartransformation der Gleichung Y = 5 + 3X werden alle Realisierun-gen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Ver-teilung?Die beiden Ausgangsquantilwerte müssen transformiert werden:
1.653 + 5 = 0.05; 1.65 3 + 5 = 9.95. Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und 9.95.
Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf?
2 2 2 2Y Xy a b x 5 3 0 5 ; s b s 3 1 9
Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Für die transformierte Verteilung folgt dann:
top related