häufigkeitsauszählungen, zentrale statistische kennwerte ... · pdf...
TRANSCRIPT
®
Häufigkeitsauszählungen,zentrale statistische Kennwerte
und Mittelwertvergleiche
30. November 2007
Michael Tiemann,Bundesinstitut für Berufsbildung,
AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“
Lehrveranstaltung „Empirische Forschung und Politik beratung“der Universität Bonn, WS 2007/2008
AB 2.2 Michael Tiemann
®
Empirische Forschung und PolitikberatungEinleitung
Bisher:
• Einführungen ins Thema, den Mikrozensus, Klassifikationen, SPSS (Datenbearbeitung)
Heute und die folgenden drei Sitzungen:
• Statistik
• Statistische Kennwerte, Mittelwertvergleiche
• Grundlegendes zu Kreuztabellen
• Zusammenhangsmaße
• Drittvariablenkontrolle
AB 2.2 Michael Tiemann
®
Empirische Forschung und PolitikberatungEinleitung
Statistische Kennwerte
• Mittelwerte
• Range
• Perzentile und Quartile
• Darstellungen
Mittelwertvergleiche
• Parametrische und nichtparametrische Tests
AB 2.2 Michael Tiemann
®
Empirische Forschung und PolitikberatungEinleitung
Zunächst:
Die Daten sind da!
Campus-File MIKROZENSUS 2002
AB 2.2 Michael Tiemann
Literatur zu den Campus-Files:
Allgemein:
Zwick, Markus: „CAMPUS-Files – Kostenfreie Public Use Files für die Lehre“
(http://kolloq.destatis.de/2006/zwick.pdf)
®
Empirische Forschung und PolitikberatungInteressante Variablen
Einige interessante Variablen(die Liste bitte der eigenen Fragestellung anpassen ):
AB 2.2 Michael Tiemann
StaatsangehörigkeitEF52
AlterEF30
GeschlechtEF32
AusbildungsabschlussEF289
SchulabschlussEF287
WirtschaftszweigEF129
ErwerbsberufEF128
ErwerbstätigkeitEF95
®
Empirische Forschung und PolitikberatungStatistische Kennwerte - Einführung
Mittelwerte:• Arithmetisches Mittel
• Durchschnitt: Summe aller Merkmalsausprägungen / An zahl• Median
• Der Wert, der die der Größe nach geordneten Messwer te halbiert• Modus
• Der häu figste Wert
Weitere Kennzahlen:• Varianz
• Mittlere quadratische Abweichung (Summe der quad. A bweichungen vom Mittelwert dividiert durch n)
• Standardabweichung• Wurzel aus der Varianz
• Spannweite / Range• Spannweite vom kleinsten bis zum größten Wert
• Perzentile• Die Werte, die jeweils einen bestimmten Prozentsatz der Verteilung
„abschneiden“
Achtung: Immer das Skalenniveau beachten!AB 2.2 Michael Tiemann
®
Empirische Forschung und PolitikberatungStatistische Kennwerte am Beispiel der Verteilung d es Alters
Am Beispiel des Alters:
• Konsistenzprüfung
• Lagemaße
AB 2.2 Michael Tiemann
Aufgaben zur Konsistenzprüfung:
1. Stimmen Alter und Geburtsjahr überein?
2. In welchem Alter wurden die jeweiligen höchsten Schulabschlüsse erworben? Ist das in jedem Fall plausibel?
®
Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Konsistenzprüfun g
AB 2.2 Michael Tiemann
Musterlösungen zur Konsistenzprüfung:
Wie sind die Abweichungen zu interpretieren?
• Geburtsdatum wurde genauer als über das Jahr erfass t?
• Erhebung zog sich über den Jahreswechsel?
Mit Anonymisierung entfernte Variable EF34:
• „Sind Sie in den Monaten Januar bis April oder Mai b is Dezember geboren?“
®
Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Konsistenzprüfun g
AB 2.2 Michael Tiemann
Wie sind die Abweichungen zu interpretieren?
• Über temp. select if Fälle heraussuchen und prüfen, evtl. ausschließen.
®
Statistiken
ef3029190
0
41,78
,132
42,00
41
22,494
505,965
,022
,014
-,908
,029
95
0
95
10,00
20,00
24,00
28,00
35,00
42,00
48,00
56,00
60,00
63,00
72,00
Gültig
Fehlend
N
Mittelwert
Standardfehler des Mittelwertes
Median
Modus
Standardabweichung
Varianz
Schiefe
Standardfehler der Schiefe
Kurtosis
Standardfehler der Kurtosis
Spannweite
Minimum
Maximum
10
20
25
30
40
50
60
70
75
80
90
Perzentile
Deskriptive Statistik
29190 95 0 95 41,78 ,132 22,494 505,965 ,022 ,014 -,908 ,029
29190
ef30
Gültige Werte(Listenweise)
Statistik Statistik Statistik Statistik StatistikStandardfehler Statistik Statistik Statistik
Standardfehler Statistik
Standardfehler
NSpannw
eiteMinimu
mMaximu
m MittelwertStandardabweichung Varianz Schiefe Kurtosis
Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Lagemaße
AB 2.2 Michael Tiemann
Menüführung: Syntax:Analysieren
– Deskriptive Statistiken
– Häufigkeiten
oder
Analysieren
– Deskriptive Statistiken
– Deskriptive Statistiken
Alter als intervallskaliert betrachten:
Mittelwert: 41,78 (Standardabweichung: 22,494)
Median: 42,00 Modus: 41,00
®
Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Lagemaße
AB 2.2 Michael Tiemann
Alter als ordinalskaliert betrachten:
Zunächst: Variable kategorisieren
Modus = 12
Median = 7
®
Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters – Lagemaße (Darste llung)
AB 2.2 Michael Tiemann
Für mindestens intervallskalierte Variablen:
Boxplot
Ein Beispiel aus BIBB/BAuA 2006:
Ausreisser
Höchster Wert (ohne Ausreisser)
Oberes Quartil
Median
Unteres Quartil
Niedrigster Wert (ohne Ausreisser)
®
Empirische Forschung und PolitikberatungPause
AB 2.2 Michael Tiemann
Pause
®
Empirische Forschung und PolitikberatungMittelwertvergleiche
AB 2.2 Michael Tiemann
MittelwertvergleicheVoraussetzungen:
• Normalverteilung der Messwerte
• Tests auf Normalverteilung
• Gleichheit der Varianzen in den Gruppen
• Prüft SPSS bei den Tests
Bei zwei unabhängigen Stichproben kommen in Frage:
• Student-t-Test für intervallskalierte und normalvert eilteVariablen
• Mann-Whitney-Test (oder Kolmogorov-Smirnov-Test) für ordinalskalierte oder nicht normalverteilte Variablen
Wichtig: Gewichtung und Hochrechnung ausschalten!
®
Empirische Forschung und PolitikberatungMittelwertvergleiche
AB 2.2 Michael Tiemann
Mögliche Fragen :
• Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?
• Gibt es Unterschiede in der wöchentlichen Arbeitsze it von Männern und Frauen?
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ
AB 2.2 Michael Tiemann
Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?
Einkommen ist ordinal erfasst, daher:
Mittelwertvergleich mit Mann-Whitney-Test
Menüführung:
Analysieren
– Nichtparametrische Tests
– Zwei unabhängige Stichproben
Syntax:
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ
AB 2.2 Michael Tiemann
Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?
Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis
Deskriptive Statistiken
25137 29,38 37,382 1 99 5,00 8,00 90,00
11211 56,54 24,000 1 99 35,00 55,00 75,00
ef372
ef129
N MittelwertStandardabweichung Minimum Maximum 25. 50. (Median) 75.
Perzentile
Ränge
960 561,36 538902,00
271 809,57 219394,00
1231
ef12952
65
Gesamt
ef372N Mittlerer Rang Rangsumme
Statistik für Test a
77622,000
538902,000
-10,190
,000
Mann-Whitney-U
Wilcoxon-W
Z
AsymptotischeSignifikanz (2-seitig)
ef372
Gruppenvariable: ef129a.
Es gibt einen signifikanten Unterschied im Einkommen zwischen den Branchen.
Mittlere Ränge aber sind nicht aussagekräftig, daher werden die Mediane der Branchen berechnet.
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ
AB 2.2 Michael Tiemann
Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?
Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis
Menüführung:
Analysieren
– Berichte
– Fälle zusammenfassen
Syntax:
MedianNef129
271
960
9,065
6,052
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen
AB 2.2 Michael Tiemann
Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?
1. Normalverteilung der Messwerte prüfen
Menüführung:
Analysieren
– Deskriptive Statistiken
– Explorative Datenanalyse
Syntax:
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen
AB 2.2 Michael Tiemann
1. Normalverteilung der Messwerte prüfen: Ergebnis ( graphisch)
Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen
AB 2.2 Michael Tiemann
1. Normalverteilung der Messwerte prüfen: Ergebnis
Die Werte sind nicht normalverteilt und die Varianzen nicht homogen.
Daher: Mann-Whitney-Test
Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?
Test auf Homogenität der Varianz
889,194 1 11209 ,000
520,989 1 11209 ,000
520,989 1 10996,851 ,000
933,350 1 11209 ,000
Basiert auf dem Mittelwert
Basiert auf dem Median
Basierend auf demMedian und mitangepaßten df
Basiert auf demgetrimmten Mittel
ef141
Levene-Statistik df1 df2 Signifikanz
Tests auf Normalverteilung
,328 6132 ,000
,199 5079 ,000
ef321
2
ef141Statistik df Signifikanz
Kolmogorov-Smirnova
Signifikanzkorrektur nach Lillieforsa.
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen
AB 2.2 Michael Tiemann
2. Mittelwertvergleich mit Mann-Whitney-Test: Ergebni s
Es gibt einen signifikanten Unterschied in der Arbeitszeit zwischen Männern und Frauen.
Mediane:
Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?
Deskriptive Statistiken
11211 36,51 12,750 1 98 35,00 39,00 40,00
25137 1,52 ,500 1 2 1,00 2,00 2,00
ef141
ef32
N MittelwertStandardabweichung Minimum Maximum 25. 50. (Median) 75.
Perzentile
Ränge
6132 6622,52 40609284,50
5079 4378,73 22239581,50
11211
ef321
2
Gesamt
ef141N Mittlerer Rang Rangsumme
Statistik für Test a
9338921,500
22239581,500
-37,087
,000
Mann-Whitney-U
Wilcoxon-W
Z
AsymptotischeSignifikanz (2-seitig)
ef141
Gruppenvariable: ef32a.
Zusammenfassung von Fällen
ef141
6132 40,00
5079 38,00
11211 39,00
ef321
2
Insgesamt
N Median
®
Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen
AB 2.2 Michael Tiemann
Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?
Frage zum Abschluss und Ausblick auf das nächste Mal :
Wie sind eigentlich die Arbeitszeiten verteilt?
Und wie verteilen sie sich auf männliche und weibli che
Erwerbstätige?