häufigkeitsauszählungen, zentrale statistische kennwerte ... · pdf...

23
® Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael Tiemann, Bundesinstitut für Berufsbildung, AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“ Lehrveranstaltung „Empirische Forschung und Politikberatung“ der Universität Bonn, WS 2007/2008 AB 2.2 Michael Tiemann

Upload: dangkhanh

Post on 07-Feb-2018

218 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Häufigkeitsauszählungen,zentrale statistische Kennwerte

und Mittelwertvergleiche

30. November 2007

Michael Tiemann,Bundesinstitut für Berufsbildung,

AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“

Lehrveranstaltung „Empirische Forschung und Politik beratung“der Universität Bonn, WS 2007/2008

AB 2.2 Michael Tiemann

Page 2: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungEinleitung

Bisher:

• Einführungen ins Thema, den Mikrozensus, Klassifikationen, SPSS (Datenbearbeitung)

Heute und die folgenden drei Sitzungen:

• Statistik

• Statistische Kennwerte, Mittelwertvergleiche

• Grundlegendes zu Kreuztabellen

• Zusammenhangsmaße

• Drittvariablenkontrolle

AB 2.2 Michael Tiemann

Page 3: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungEinleitung

Statistische Kennwerte

• Mittelwerte

• Range

• Perzentile und Quartile

• Darstellungen

Mittelwertvergleiche

• Parametrische und nichtparametrische Tests

AB 2.2 Michael Tiemann

Page 4: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungEinleitung

Zunächst:

Die Daten sind da!

Campus-File MIKROZENSUS 2002

AB 2.2 Michael Tiemann

Literatur zu den Campus-Files:

Allgemein:

Zwick, Markus: „CAMPUS-Files – Kostenfreie Public Use Files für die Lehre“

(http://kolloq.destatis.de/2006/zwick.pdf)

Page 5: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungInteressante Variablen

Einige interessante Variablen(die Liste bitte der eigenen Fragestellung anpassen ):

AB 2.2 Michael Tiemann

StaatsangehörigkeitEF52

AlterEF30

GeschlechtEF32

AusbildungsabschlussEF289

SchulabschlussEF287

WirtschaftszweigEF129

ErwerbsberufEF128

ErwerbstätigkeitEF95

Page 6: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte - Einführung

Mittelwerte:• Arithmetisches Mittel

• Durchschnitt: Summe aller Merkmalsausprägungen / An zahl• Median

• Der Wert, der die der Größe nach geordneten Messwer te halbiert• Modus

• Der häu figste Wert

Weitere Kennzahlen:• Varianz

• Mittlere quadratische Abweichung (Summe der quad. A bweichungen vom Mittelwert dividiert durch n)

• Standardabweichung• Wurzel aus der Varianz

• Spannweite / Range• Spannweite vom kleinsten bis zum größten Wert

• Perzentile• Die Werte, die jeweils einen bestimmten Prozentsatz der Verteilung

„abschneiden“

Achtung: Immer das Skalenniveau beachten!AB 2.2 Michael Tiemann

Page 7: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte am Beispiel der Verteilung d es Alters

Am Beispiel des Alters:

• Konsistenzprüfung

• Lagemaße

AB 2.2 Michael Tiemann

Aufgaben zur Konsistenzprüfung:

1. Stimmen Alter und Geburtsjahr überein?

2. In welchem Alter wurden die jeweiligen höchsten Schulabschlüsse erworben? Ist das in jedem Fall plausibel?

Page 8: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Konsistenzprüfun g

AB 2.2 Michael Tiemann

Musterlösungen zur Konsistenzprüfung:

Wie sind die Abweichungen zu interpretieren?

• Geburtsdatum wurde genauer als über das Jahr erfass t?

• Erhebung zog sich über den Jahreswechsel?

Mit Anonymisierung entfernte Variable EF34:

• „Sind Sie in den Monaten Januar bis April oder Mai b is Dezember geboren?“

Page 9: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Konsistenzprüfun g

AB 2.2 Michael Tiemann

Wie sind die Abweichungen zu interpretieren?

• Über temp. select if Fälle heraussuchen und prüfen, evtl. ausschließen.

Page 10: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Statistiken

ef3029190

0

41,78

,132

42,00

41

22,494

505,965

,022

,014

-,908

,029

95

0

95

10,00

20,00

24,00

28,00

35,00

42,00

48,00

56,00

60,00

63,00

72,00

Gültig

Fehlend

N

Mittelwert

Standardfehler des Mittelwertes

Median

Modus

Standardabweichung

Varianz

Schiefe

Standardfehler der Schiefe

Kurtosis

Standardfehler der Kurtosis

Spannweite

Minimum

Maximum

10

20

25

30

40

50

60

70

75

80

90

Perzentile

Deskriptive Statistik

29190 95 0 95 41,78 ,132 22,494 505,965 ,022 ,014 -,908 ,029

29190

ef30

Gültige Werte(Listenweise)

Statistik Statistik Statistik Statistik StatistikStandardfehler Statistik Statistik Statistik

Standardfehler Statistik

Standardfehler

NSpannw

eiteMinimu

mMaximu

m MittelwertStandardabweichung Varianz Schiefe Kurtosis

Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Lagemaße

AB 2.2 Michael Tiemann

Menüführung: Syntax:Analysieren

– Deskriptive Statistiken

– Häufigkeiten

oder

Analysieren

– Deskriptive Statistiken

– Deskriptive Statistiken

Alter als intervallskaliert betrachten:

Mittelwert: 41,78 (Standardabweichung: 22,494)

Median: 42,00 Modus: 41,00

Page 11: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters - Lagemaße

AB 2.2 Michael Tiemann

Alter als ordinalskaliert betrachten:

Zunächst: Variable kategorisieren

Modus = 12

Median = 7

Page 12: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungStatistische Kennwerte des Alters – Lagemaße (Darste llung)

AB 2.2 Michael Tiemann

Für mindestens intervallskalierte Variablen:

Boxplot

Ein Beispiel aus BIBB/BAuA 2006:

Ausreisser

Höchster Wert (ohne Ausreisser)

Oberes Quartil

Median

Unteres Quartil

Niedrigster Wert (ohne Ausreisser)

Page 13: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungPause

AB 2.2 Michael Tiemann

Pause

Page 14: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche

AB 2.2 Michael Tiemann

MittelwertvergleicheVoraussetzungen:

• Normalverteilung der Messwerte

• Tests auf Normalverteilung

• Gleichheit der Varianzen in den Gruppen

• Prüft SPSS bei den Tests

Bei zwei unabhängigen Stichproben kommen in Frage:

• Student-t-Test für intervallskalierte und normalvert eilteVariablen

• Mann-Whitney-Test (oder Kolmogorov-Smirnov-Test) für ordinalskalierte oder nicht normalverteilte Variablen

Wichtig: Gewichtung und Hochrechnung ausschalten!

Page 15: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche

AB 2.2 Michael Tiemann

Mögliche Fragen :

• Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?

• Gibt es Unterschiede in der wöchentlichen Arbeitsze it von Männern und Frauen?

Page 16: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ

AB 2.2 Michael Tiemann

Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?

Einkommen ist ordinal erfasst, daher:

Mittelwertvergleich mit Mann-Whitney-Test

Menüführung:

Analysieren

– Nichtparametrische Tests

– Zwei unabhängige Stichproben

Syntax:

Page 17: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ

AB 2.2 Michael Tiemann

Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?

Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis

Deskriptive Statistiken

25137 29,38 37,382 1 99 5,00 8,00 90,00

11211 56,54 24,000 1 99 35,00 55,00 75,00

ef372

ef129

N MittelwertStandardabweichung Minimum Maximum 25. 50. (Median) 75.

Perzentile

Ränge

960 561,36 538902,00

271 809,57 219394,00

1231

ef12952

65

Gesamt

ef372N Mittlerer Rang Rangsumme

Statistik für Test a

77622,000

538902,000

-10,190

,000

Mann-Whitney-U

Wilcoxon-W

Z

AsymptotischeSignifikanz (2-seitig)

ef372

Gruppenvariable: ef129a.

Es gibt einen signifikanten Unterschied im Einkommen zwischen den Branchen.

Mittlere Ränge aber sind nicht aussagekräftig, daher werden die Mediane der Branchen berechnet.

Page 18: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Einkommensunterschiede zwische n WZ

AB 2.2 Michael Tiemann

Gibt es Unterschiede im Einkommen zwischen den Wirt schaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)?

Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis

Menüführung:

Analysieren

– Berichte

– Fälle zusammenfassen

Syntax:

MedianNef129

271

960

9,065

6,052

Page 19: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen

AB 2.2 Michael Tiemann

Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?

1. Normalverteilung der Messwerte prüfen

Menüführung:

Analysieren

– Deskriptive Statistiken

– Explorative Datenanalyse

Syntax:

Page 20: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen

AB 2.2 Michael Tiemann

1. Normalverteilung der Messwerte prüfen: Ergebnis ( graphisch)

Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?

Page 21: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen

AB 2.2 Michael Tiemann

1. Normalverteilung der Messwerte prüfen: Ergebnis

Die Werte sind nicht normalverteilt und die Varianzen nicht homogen.

Daher: Mann-Whitney-Test

Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?

Test auf Homogenität der Varianz

889,194 1 11209 ,000

520,989 1 11209 ,000

520,989 1 10996,851 ,000

933,350 1 11209 ,000

Basiert auf dem Mittelwert

Basiert auf dem Median

Basierend auf demMedian und mitangepaßten df

Basiert auf demgetrimmten Mittel

ef141

Levene-Statistik df1 df2 Signifikanz

Tests auf Normalverteilung

,328 6132 ,000

,199 5079 ,000

ef321

2

ef141Statistik df Signifikanz

Kolmogorov-Smirnova

Signifikanzkorrektur nach Lillieforsa.

Page 22: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen

AB 2.2 Michael Tiemann

2. Mittelwertvergleich mit Mann-Whitney-Test: Ergebni s

Es gibt einen signifikanten Unterschied in der Arbeitszeit zwischen Männern und Frauen.

Mediane:

Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?

Deskriptive Statistiken

11211 36,51 12,750 1 98 35,00 39,00 40,00

25137 1,52 ,500 1 2 1,00 2,00 2,00

ef141

ef32

N MittelwertStandardabweichung Minimum Maximum 25. 50. (Median) 75.

Perzentile

Ränge

6132 6622,52 40609284,50

5079 4378,73 22239581,50

11211

ef321

2

Gesamt

ef141N Mittlerer Rang Rangsumme

Statistik für Test a

9338921,500

22239581,500

-37,087

,000

Mann-Whitney-U

Wilcoxon-W

Z

AsymptotischeSignifikanz (2-seitig)

ef141

Gruppenvariable: ef32a.

Zusammenfassung von Fällen

ef141

6132 40,00

5079 38,00

11211 39,00

ef321

2

Insgesamt

N Median

Page 23: Häufigkeitsauszählungen, zentrale statistische Kennwerte ... · PDF fileHäufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

®

Empirische Forschung und PolitikberatungMittelwertvergleiche – Arbeitszeiten bei Männern und Frauen

AB 2.2 Michael Tiemann

Gibt es Unterschiede in der Arbeitszeit zwischen Mä nnern und Frauen?

Frage zum Abschluss und Ausblick auf das nächste Mal :

Wie sind eigentlich die Arbeitszeiten verteilt?

Und wie verteilen sie sich auf männliche und weibli che

Erwerbstätige?