F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Statistik mit SPSSKurs im Sommersemester 2009
Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen
Forschungsinstitut Freie BerufeLeuphana Universität Lüneburg
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Organisatorisches (I)
Freitag 10:00 – 12:00 C 12.108 (Theorie)
12:00 – 13:00 Pause
13:00 – 19:00 7.111 und 7.114 (Praxis)
Samstag 10:00 – 12:00 C 12.108 (Theorie)
12:00 – 13:00 Pause
13:00 – 16:00 7.111 und 7.114 (Praxis)
Literatur:
- Skript - Backhaus, u.a.: „Multivariate Analysemethoden“
Termine:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Organisatorisches (II)
Prüfungsleistung Diplomstudiengänge:• 4 CP (Wahlpflichtfach EWF oder Freier Bereich)• Hausarbeit: - Aufgaben (ohne Zusatzaufgabe)
- 1-2 Personen - Umfang: ca. 20 Seiten
- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de
- Abgabetermin: 15. September 2009
Prüfungsleistung Komplementärstudium • 5 CP• Hausarbeit: - Aufgaben (mit Zusatzaufgabe)
- 1-2 Personen - Umfang: ca. 25 Seiten
- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de
- Abgabetermin: 15. September 2009
Alternativ: Teilnahmeschein (+ PCP)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
1. Arten von Merkmalen2. Deskriptive Statistik3. Induktive Statistik4. Korrelation5. Regression→ Kurzeinführung in SPSS
6. Logistische Regression7. Faktorenanalyse8. Clusteranalyse
Übersicht
Tag 1
Tag 2
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
1. Arten von Merkmalen – Skalenniveaus
Nominalskala
Ordinalskala
Metrische Skalen
Unterscheidung möglich
+ Reihenfolge
Geschlecht, Staatsangehörigkeit, …
Größenangaben, Geld, Stückzahlen, Alter,…
+ konstanter Wertabstand
Schulnoten, Güteklassen, …
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
1. Arten von Merkmalen – Skalenniveaus
Entscheidungsbaum
Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen?
Nominalskala(Z.B. Geschlecht)
nein ja
Sind die Abstände quantifizierbar?
nein ja
Ordinalskala(Z.B. Güteklassen)
Metrische Skalen(Z.B. Einkommen)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
2. Deskriptive Statistik
Ziel: Verdichtung von Informationen
Methoden: - Darstellung von Häufigkeiten (HK)→ von einem Merkmal→ von zwei Merkmalen
- Lage- und Streuungsparameter
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
HK-Verteilung: Darstellung eines Merkmals
• Absolute Häufigkeit ni einer Merkmalsausprägung• Relative Häufigkeit hi einer Merkmalsausprägung
• Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …
Merkmal Geschlecht ni hi
männlich 300 0,3
weiblich 700 0,7
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
HK-Verteilung: Darstellung zweier Merkmale
• Kreuztabellen
• Grafen: Zweidimensionale Balkendiagramme, …
Stadt Land
männlich h11=20% h12=25%
weiblich h21=25% h22=30%
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Lage- und Streuungsparameter
Einkommen [Euro]1000 2000 3000 4000
Lage des Datenfeldesz.B. Mittelwert
Einkommen [Euro]
“Aussehen” des Datenfeldesz.B. Spannweite
1000 2000 3000 4000
Lageparameter: Geben die Position des Datenfeldes wieder.
Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
• Lageparameter: Position des Datenfeldes
Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile)
• Streuungsparameter: ‚Form‘ des Datenfeldes
Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm.
Mittel) - Standardabweichung
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit
Methoden: 1. Punktschätzung2. Intervallschätzung3. Statistische Tests
Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)
3. Induktive Statistik
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Intervall- und Punktschätzung
Beispiel: Wahlprognose• Stichprobe: n = 1000• Grundgesamtheit: N = 50 Mio.
Partei StichprobePunkt-
schätzungIV
(95%)IV
(99%)
CDU 36,0 36,0 33,0 39,0 32,1 39,9
SPD 28,0 28,0 25,2 30,8 24,3 31,7
FDP 10,0 10,0 8,1 11,9 7,6 12,4
Grüne 10,0 10,0 8,1 11,9 7,6 12,4
Linke 12,0 12,0 10,0 14,0 9,4 14,6
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Theorie: Aufbau eines Tests in fünf Schritten
1. Formulierung der zu überprüfenden Hypothesen (H0 und HA)→ überprüfbare Hypothese ist HA
→ Gleichheitszeichen in H0
2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …)
3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt
4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt
5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung
Statistische Tests
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiele für Hypothesen:
• Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig)H0: pSchwarz/Gelb ≤ 0,50
HA: pSchwarz/Gelb > 0,50
• Fällt die SPD unter die 25%-Grenze? (Linksseitig)H0: pSPD ≥ 0,25
HA: pSPD < 0,25
• Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig)
H0: pGRÜNE = pLINKE
H0: pGRÜNE ≠ pLINKE
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Hypothesen und Fehlerarten:
→ Fehler 1. Art (α)→ Fehler 2. Art (β)
Entscheidung
In Wirklichkeit gilt H0 ablehnen („HA“) H0 beibehalten („H0“)
H0 ist richtigFehler 1. Art (α)
P („HA“| H0)kein Fehler
H0 ist falsch kein Fehler Fehler 2. Art (β)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden?
1. H0: μ=0 HA: μ≠0 (zweiseitiger Test)
2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5%
unterlaufen
3. Berechnung der Prüfgröße: , mit
4. Bestimmung des kritischen Wertes aus der (theoretischen) t-Verteilung
5. Vergleich der Prüfgröße mit dem kritischen Wert:
H0 wird abgelehnt wenn:
0 0
ˆˆ X
X XT
Var X
X
S
n
1
beob kritt t
Testen mit SPSS – einfaches Beispiel (konstruiert):
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
μ0=0
σ
tkrit
α/2α/2
H0 ablehnenH0 annehmen
H0 ablehnen
Testentscheidung
H0: μ = 0 HA: μ ≠ 0
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
• SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde.
→ Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig:
Sig. < 0,05: „ HA“
Sig. > 0,05: „ H0“
• SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.
Anmerkungen zu Tests mit SPSS:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Einstichprobentest mit H0: μ = 0
Beispieloutput von SPSS:
Statistik bei einer Stichprobe
100 1,0500 2,90115 ,29011TemperaturN Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
3,619 99 ,000 1,05000 ,4743 1,6257TemperaturT df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 0
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele:
1. Einstichprobentest- Test auf den Erwartungswert μ - Test auf einen Anteilswert p - (...)
2. Zweistichprobentests – Test auf Differenz ... - zweier Erwartungswerte μ- zweier Anteilswerte p- (...)
3. weitere Tests - Tests bei Regressionsanalyse (F-Test, t-Test, …)- Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)- (...)
Mögliche Tests mit SPSS:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Liegt ein Zusammenhang von zwei Merkmalen vor?
Interdependenzanalyse (keine kausale Richtung der Abhängigkeit)
Arten: Kontingenzkoef. Mindestens ein Merkmal nominal skaliert
Normierung: 0 ≤ KK ≤ 1 (Stärke)
Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig)
0 (Kein Zusammenhang)+1 (Absolut gleichläufig)
(Stärke und Richtung)
Pearson Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman
4. Korrelation
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Gibt es einen Zusammenhang von Berufswahl und Geschlecht?Geschlecht und Tätigkeit sind nominalskaliert
→ Analyse mit dem Kontingenzkoeffizienten
Korrelation - Kontingenzkoeffizient(In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik)
Geschlecht * Art der Tätigkeit Kreuztabelle
157 27 74 258
197,6 14,7 45,7 258,0
206 0 10 216
165,4 12,3 38,3 216,0
363 27 84 474
363,0 27,0 84,0 474,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Männlich
Weiblich
Geschlecht
Gesamt
Büro Bewachung Management
Art der Tätigkeit
Gesamt
54,4 %
45,6 %
100 %76,6 % 5,7 % 76,6 %17,7 %
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Ist der Zusammenhang signifikant? (α =0,05)Hypothesen:
H0: ρ = 0HA: ρ > 0
Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000
→ H0 kann abgelehnt werden → signifikanter Zusammenhang
Korrelation - Kontingenzkoeffizient
Symmetrische Maße
,379 ,000
474
KontingenzkoeffizientNominal- bzgl. Nominalmaß
Anzahl der gültigen Fälle
WertNäherungsweise
Signifikanz
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Korrelation – Spearman
Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?
Höchster Schulabschluß
613 64,3 64,3 64,3
71 7,4 7,4 71,7
184 19,3 19,3 91,0
86 9,0 9,0 100,0
954 100,0 100,0
Hauptschule (Quali.)
Mittlere Reife
Abitur
Universität/FH
Gesamt
Gültig
Häufigkeit ProzentGültigeProzente
KumulierteProzente
politische Selbteinschätzung
21 2,2 2,2 2,2
134 14,0 14,0 16,2
168 17,6 17,6 33,9
423 44,3 44,3 78,2
208 21,8 21,8 100,0
954 100,0 100,0
sehr liberal
liberal
eher liberal
gemäßigt
eher konservativ
Gesamt
Gültig
Häufigkeit ProzentGültigeProzente
KumulierteProzente
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Korrelation – Spearman
Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0
HA: ρ ≠ 0
Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008
→ H0 kann abgelehnt werden → signifikant negativer Zusammenhang
Korrelationen
1,000 -,086
. ,008
954 954
Korrelationskoeffizient
Sig. (2-seitig)
N
politische SelbteinschätzungSpearman-Rho
politischeSelbteinsch
ätzungHöchster
Schulabschluß
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen?→ Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient
Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0
HA: ρ ≠ 0Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000→ H0 kann abgelehnt werden → signifikant positiver Zusammenhang
Korrelationen
1 ,437
,000
1496 1430
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Anzahl Schuljahre
AnzahlSchuljahre
Familieneinkommen 1991
Einkommen
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Dependenzanalyse (Richtung des Zusammenhangs bekannt)
Abhängige Variable: Metrisch(=erklärte Variable; =endogene Variable)
Unabhängige Variablen: Metrisch(=erklärende Variable; =exogene Variable)
Ordinale Variablen Umwandlung in Dummyvariablen (0/1) !!!Nominale Variablen Umwandlung in Dummyvariablen (0/1) !!!
5. Regression
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Regression: Methode der kleinsten Quadrate
yabhängige Variable
(Z.B. Konsum)
x unabhängige Variable
(Z.B. Einkommen)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Regression: Methode der kleinsten Quadrate
ei
ei2
yabhängige Variable
(Z.B. Konsum)
x unabhängige Variable
(Z.B. Einkommen)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Regression: Interpretation
Interpretation des Ausdrucks:Gesamterklärungsgüte: R², F-TestKoeffizienten: b, t-Tests
Schätzung des Modells:
yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi
β0 entspricht Ordinatenabschnitt im x-y-Diagrammβ1 entspricht der Steigung der Geraden im x-y-Diagramm
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Umwandlung in Dummys: Beispiel FamilienstandEs liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor:
1 = verheiratet; 2 = ledig; 3 = geschieden
Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable)
Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden.
Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!
Nominal/Ordinalskalierte Merkmale in der Regression
Ausprägung des jeweiligen Dummys für …
Verheiratete Ledige Geschiedene
Dummy verheiratet. 1 0 0
Dummy ledig 0 1 0
Dummy geschieden 0 0 1
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi
Regression – Beispiel SPSS Output
Koeffizientena
6,499 ,600 10,834 ,000
,109 ,013 ,245 8,138 ,000
2,725 ,327 ,251 8,322 ,000
,717 ,604 ,036 1,187 ,236
2,477 ,410 ,187 6,044 ,000
4,063 ,543 ,232 7,475 ,000
(Konstante)
Alter
Geschlecht
Realschule
Abitur
UniFH
Modell
1
B Standardfehler
Nicht standardisierteKoeffizienten
Beta
StandardisierteKoeffizienten
T Signifikanz
Abhängige Variable: Einkommen des Befragtena.
Mann
Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Bestimmtheitsmaß/R²Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden?
R2 = 0,210
21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.
Regression – Beispiel SPSS Output
Modellzusammenfassung
,459a ,210 ,206 4,839
Modell
1
R R-QuadratKorrigiertesR-Quadrat
Standardfehlerdes Schätzers
Einflußvariablen : (Konstante), UniFH, Alter, Geschlecht,Realschule, Abitur
a.
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
F-Test
Ist das geschätzte Modell insgesamt signifikant?
H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant)
HA: βk ≠ 0 (k=1,…, K)
Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden Modell insgesamt signifikant
Regression – Beispiel SPSS Output
ANOVA
5488,562 5 1097,712 46,871 ,000
20586,022 879 23,420
26074,583 884
Regression
Residuen
Gesamt
Modell
1
Quadratsumme dfMittel derQuadrate F Signifikanz
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Ansichten in SPSS
SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben:
• Hauptfenster Variablenansicht Datenansicht
• Ausgabefenster • verschiedene Editorenfenster• Syntaxfenster für die Skriptsprache
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Hauptfenster Variablenansicht (Var. definieren)
• Variablentyp• Variablenlabel• Wertelabel• Messniveau
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Hauptfenster Datenansicht
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Ausgabefenster
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Syntax Fenster
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
6. Logistische Regression
Bisher: lineare Regression→ abhängige Variable ist metrisch
Jetzt: Schätzung einer Gruppenzugehörigkeit → abhängige Variable ist kategorial
Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme?• beschäftigt oder arbeitslos nach einer Ausbildung?• Person unterhalb der Armutsgrenze?• etc.
→ binäre (dichotome oder zweiwertige) abhängige Variablen→ Binäre Logistische Regression
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Binäre logistische Regression
xunabhängige Variable
(Z.B. Einkommen)
yabhängige
Variable(Z.B. Produktkauf)
0
1
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x)
Nicht linearer Zusammenhang
Schätzung über Maximum Likelihood
Logistische Regression
i
E(y| ) F( ) F logistischeoder
Normalverteilungsfunktion
1P(Y 1| )
1 e
i
-x 'β
x xβ
x
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiel: ehrenamtliche Aktivität
Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht.
Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein)
Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt:
- Geschlecht- Alter- Erwerbstätigkeit- Berufsgruppe
Binäre logistische Regression
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Variablen in der Gleichung
-,325 ,033 98,012 1 ,000 ,723
-,087 ,027 10,134 1 ,001 ,917
,013 ,006 4,530 1 ,033 1,013
,000 ,000 1,545 1 ,214 1,000
,269 ,069 15,167 1 ,000 1,308
-,310 ,110 7,923 1 ,005 ,733
nicht erwerbstätig
Frau
Alter
Alter2
Selbständig
Konstante
Schritt1
RegressionskoeffizientB
Standardfehler Wald df Sig. Exp(B)
Marginale Effekte im Logit/Probit:
ii k
k k
E(y| ) F( )f( )
x x
x xβxβ → Abhängig vom Niveau aller x-Ausprägungen
Koeffizienteninterpretation:→ marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen→ nicht linearer Zusammenhang; nur Vorzeichen interpretierbar→ positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1
Binäre logistische Regression: Beispiel Ehrenamt
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Binäre logistische Regression: Beispiel Ehrenamt
Omnibus-Tests der Modellkoeffizienten
212,176 5 ,000
212,176 5 ,000
212,176 5 ,000
Schritt
Block
Modell
Schritt 1Chi-Quadrat df Sig.
Modellzusammenfassung
31374,732 ,009 ,012Schritt1
-2Log-
LikelihoodCox & SnellR-Quadrat
NagelkerkesR-Quadrat
Klassifizierungstabelle
7722 4213 64,7
6418 4467 41,0
53,4
Beobachtet0
1
Ehrenamt
Gesamtprozentsatz
Schritt 10 1
Ehrenamt Prozentsatzder Richtigen
Vorhergesagt
Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?
„Bestimmtheitsmaße“ - Vergleich unterschiedlicher Modelle
Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
RegressandAbhängige Variable
Regressoren
Unabhängige Variablen
Modell
metrischmetrisch dichotom
lineare Regression
OLS
dichotom
Dummy (0/1)metrisch dichotom
Logit / Probit
polytommetrisch dichotom
Multinomiales Logit
ordinalmetrisch dichotom
Ordered Logit/Probit
Übersicht Skalierung & Regressionsmodelle
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
7. Faktorenanalyse
Ziel:
Dimensionsreduktion einer gegebenen Anzahl von Variablen
→ Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren.
Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8
Faktor 1 Faktor 2 Faktor 3
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiel:
• Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“?
• Hier: Deutsch, Englisch, Physik und Mathematik
• Schritt 1: Korrelationsmatrix
Deutsch Englisch Physik Mathe
Deutsch 1,00
Englisch 0,58 1,00
Physik 0,25 0,30 1,00
Mathe 0,17 0,25 0,74 1,00
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Faktorenanalyse – Das Modell
• Ansatz: zwei Variablen und ein Faktor f
z1k: Wert von Variable 1 (standardisiert: )fk: Wert des Faktorsa1: Faktorladung der ersten Variable
(= Maßzahl für den Zsh. zw. Faktor und Variable)k: Beobachtung k
• Generelle Schreibweise: P Variablen und M Faktoren
zz 0 und s 1
Faktorwerte • Faktorladungen
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Zur Interpretation der Faktorladungen (aij):
(1) Kommunalitäten:Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird.
(2) Eigenwert eines Faktors:Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.
2ih( )
j( )
M2 2 2i ij i
j 1
h a 0 h 1
;
P2
j ij ji 1
a 0 P
;
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Faktorenanalyse – Generelle Vorgehensweise
(1) Korrelationsmatrix berechnen• Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0)• Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium
→ mindestens 0,5 – möglichst größer 0,8
(2) Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte• Bestimmung der Faktorenzahl• Gängigstes Kriterium: Kaiser-Kriterium
→ nur Faktoren mit Eigenwert größer 1
(3) Rotation der Faktoren• VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen)
(4) Interpretation der Faktoren und Bestimmung der Faktorwerte
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Faktorenanalyse – Beispiel
→ Wichtigkeitsfragen bei Autos (1 – 10)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(1) Korrelationsmatrix
Kaiser-Meyer-Olkin-Kriterium = 0,824
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(2a)Eigenwerte
Kaiser-Kriterium: Wahl von zwei Faktoren
→ Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt?
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(2b)Kommunalitäten
→ Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(3) Rotation der Faktoren
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(4) Interpretation der Faktoren
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
8. Clusteranalyse
Ziel:
• Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster)
• Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen.
Person Var 1 (Alter) Var 2 (Einkommen)1 (…) (…)
2 (…) (…)
3 (…) (…)
4 (…) (…)
5 (…) (…)
Cluster 1
Cluster 2
• Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Clusteranalyse – Einführung
Hierarchische agglomerative Clustermethoden:
• jedes Objekt bildet zunächst seinen eigenen Cluster• sukzessives Zusammenfügen zu (temporären) Clustern
→ Ähnlichkeits- bzw. Distanzmaß→ Fusionierungsalgorithmus
• schließlich fusionieren alle Objekte zu einem einzelnen Cluster.
Beispiel:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Clusteranalyse – Distanzmaße
Schritt 1: Bestimmung einer Distanzmatrix
• Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j• Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte• Distanzmaße (metrische Variablen):
- Quadrierte Euklidische Distanz
- Euklidische Distanz
• Distanzmaße (nominalskalierte Variablen):→ vgl. Backhaus et al.
K 2
ij ik jkk 1
d QE x x
( )
K 2
ij ik jkk 1
d E x x
( )
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
→ Exemplarisch:
Distanz zwischen erster (i=1) und zweiter (j=2) Person
212 (43 38) 5d
Beispiel:(nur 1 Var.)
Distanzmatrix auf Basis der euklidischen Distanz:
Person (Alter)1 43
2 38
3 6
4 47
5 37
6 9
{1,2,3, 4,5,6}
1
2
3
4
5
6
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Clusteranalyse – Fusionierungsalgorithmen
Schritt 2: Fusionierung der Objekte
• Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst?
• Algorithmen:(1) Single Linkage (‚nächster Nachbar‘)(2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus(3) Ward-Verfahren
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz
{1,2,3, 4,5,6}
1
2
3
4
5
6
• Fusionierung von Person 2 und Person 5
• Nächster Nachbar:
{{2,5},1,3, 4,6}
{2,5}
1
3
4
6
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Dendogramm (Single Linkage)
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiel in SPSS:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion) Basis: Quadr. Euklid. Distanz
• Fusionierung von Person 2 und Person 5
• Ward:
{1,2,3, 4,5,6}
1
2
3
4
5
6
{{2,5},1,3, 4,6}
{2,5}
1
3
4
6
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
Beispiel in SPSS:
F F B
P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg
Statistik mit SPSS
(1) Single Linkage (‚nächster Nachbar‘)• Vereinigung von Objekten, die die kleinste Distanz aufweisen• es entstehen viel kleine und wenig große Cluster• Problem: Kettenbildung
(2) Ward-Verfahren• es werden die Objekte zu Gruppen zusammengefasst, die die
Varianz in einer Gruppe so wenig wie möglich erhöhen• bildet etwa gleich große Gruppen
Vergleich Fusionierungsalgorithmen: