Download - Pool Status - Thu Jan 26 09:23:53 CET 2017
Verteilungsanalyse
Johannes Hain
Lehrstuhl fur Mathematik VIII – Statistik
1 / 35
Datentypen
Als Sammeln von Daten bezeichnet man in der Statistik dasAufzeichnen von Fakten. Erhobene Daten klassifziert man inunterschiedliche Skalenniveaus:
kategoriale (= nominal skalierte) Daten: GrobstesSkalenniveau; klassifiziert Daten nur in verschiedeneKategorien ohne Ordnung.Beispiele: Farben, Stadte, Automarken
Metrische Daten sind Messungen, die durch Zahlen sinnvollinterpretiert werden konnen. Man unterscheidet hierbei nochdie beiden folgenden Skalenniveaus:
ordinalskalierte Daten: Daten liegt interne Ordnungzugrunde, sodass Bildung einer Reihenfolge moglich ist.Beispiele: Schulnoten, Schulabschlusseintervallskalierte Daten: Daten besitzen luckenlosenWertebereich, Abstande zwischen den einzelnen Daten sindvon Bedeutung und interpretierbar.Beispiele: Korpergroße, Temperatur
2 / 35
Verteilungsanalyse metrischer Daten
Die Verteilung von kategorialen Daten veranschaulicht man sichz.B. mit Hilfe von Balkendiagrammen. Dies ist bei metrischenDaten wegen des stetigen Wertebereichs (meist) nicht moglich. DieVerteilung wird in diesem Fall mit einem Histogramm dargestellt:
Groesse des Manns in cm
200,0190,0180,0170,0160,0150,0
Ha
eu
fig
ke
it
40
30
20
10
0
3 / 35
Histogramme
Erstellung eines Histogramms in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Haufigkeiten
→ Wahle die zu untersuchende Variable aus und gehe auf dasFeld Diagramme
→ Wahle als Diagrammtyp das Feld Histogramme aus
Als Alternative kann man sich Histogramme auch ausgeben lassenunter:
Diagramme → Veraltete Diaglogfelder → Histogramme
4 / 35
Verteilungsanalyse metrischer DatenApproximation durch eine Kurve
Versucht man nun eine Kurve durch das Histogramm zu legen, diedie Lage der Balken moglichst gut approximiert, ergibt sichfolgendes Bild:
Groesse des Manns in cm
200,0190,0180,0170,0160,0150,0
Haeu
fig
keit
40
30
20
10
0
5 / 35
Histogramme
Histogramme mit Normalverteilungskurve in SPSS
→ Gehe vor wie bei der Erstellung eines Histogramm,beschreiben auf Folie 4
→ Wahle zusatzlich noch das Feld Mit Normalverteilungskurveaus
Als Alternative geht dies auch unter:
Diagramme → Veraltete Diaglogfelder → Histogramme
Im daraufhin erscheinenden Dialogfeld setzt man im FeldNormalverteilungskurve anzeigen ein Hackchen.
6 / 35
Verteilungsanalyse metrischer DatenDichtefunktion
Die eingezeichnete Approximationskurve ist die sogenannte Dichteder Normalverteilung. Wir verallgemeinern
Definition: Dichte
Die Dichte einer Verteilung fX ist eine Funktion, mit der sich dieWahrscheinlichkeit berechnen lasst, dass eine Zufallsvariable vomstetigen Typ in ein gewisses Intervall fallt.
Ubersetzung ins Mathematische:
Eine Funktion fX heißt Dichte einer Zufallsvariable X , falls gilt
P(a < X < b) =
∫
b
a
fX (t) dt.
7 / 35
Verteilungsanalyse metrischer DatenDichtefunktion der Normalverteilung
Die Dichtefunktion der Normalverteilung lautet:
fµ,σ(x) =1√2πσ
· exp(
−(x − µ)2
2σ2
)
, x ∈ R.
Beispiel: Fur µ = 0 und σ2 = 1 ergibt sich dieStandardnormalverteilung, N(0, 1):
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Dichte der Standardnormalverteilung N(0,1)
8 / 35
Verteilungsanalyse metrischer DatenAndere Wahrscheinlichkeitsverteilungen
Es existieren in der Statistik aber noch viele andereWahrscheinlichkeitsverteilungen, z.B.
die Poissonverteilung: fλ(x) = e−λ λx
x!
→ Anzahl der Selbstmorde pro Tag, Anzahl der Storfalle in einemKernkraftwerk, usw.
die Exponentialverteilung: fλ(x) = λe−λx
→ Zeit zwischen zwei Meteoriteneinschlagen, Lebensdauer vonelektronischen Bauelementen, usw.
die Lognormalverteilung:
fµ,σ(x) =1
√
2πσxexp
(
− (log(x)−µ)2
2σ2
)
→ Aktienkurse, Brutto-/Nettoeinkommen einer Bevolkerung,usw.
9 / 35
Kenngroßen der Normalverteilung
Die Normalverteilung wird charakterisiert durch zwei wichtigeKenngroßen: den Erwartungswert und die Varianz.
Interpretation des Erwartungswertes
Der Erwartungswert einer Zufallsvariablen, E (X ), beschreibtdenjenigen Wert, den man bei sehr haufiger Wiederholung von Xim Mittel beobachten wird. (Dies bezeichnet man auch als dasGesetz der großen Zahlen.)
Definition der Varianz
Die Varianz σ2 einer Zufallsvariablen definiert sich als die mittlerequadratische Abweichung vom Erwartungswert, d.h.
σ2 := Var(X ) := E(
(X − E (X ))2)
.
Die Standardabweichung σ ist definiert durch: σ :=√
Var(X ).
10 / 35
Kenngroßen von Zufallsvariablen
Den Erwartunswert nennt man auch Lageparameter derVerteilung:
−4 −2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4
Gleiche Varianz, verschiedene Erwartungswerte
11 / 35
Kenngroßen von Zufallsvariablen
Die Varianz nennt man auch Streuungsparameter einerVerteilung:
−4 −2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4
Gleiche Erwartungswerte, verschiedene Varianzen
12 / 35
Empirische Kenngroßen
Dilemma in der Statistik
Die Kenngroßen einer Zufallsvariablen sind von zentralerBedeutung, aber unbekannt!
Man behilft sich durch die Berechnung von Schatzern basierendauf der Stichprobe X1, . . . ,Xn:
Schatzer des Erwartungswertes µ: X := 1n
∑
n
i=1 Xi
Schatzer der Varianz σ2: S2 := 1n−1
∑
n
i=1(Xi − X )2
Schatzer der Standardabweichung σ: S :=√S2
Die Schatzer hangen von der zufalligen Stichprobe ab, sind alsoselbst wiederum zufallig sind. Man unterliegt beim Schatzen einertheoretischen Kenngroße also stets einer gewissen Unsicherheit.
13 / 35
Empirische Kenngroßen
Berechnung der empirischen Schatzer in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Deskriptive Statistik...
→ Ziehe die zu untersuchenden Variablen in das FeldVariable(n): und bestatige mit OK.
14 / 35
Robuste Kenngroßen
Nachteil von X und S2
Die beiden Schatzer X und S2 von Mittelwert und Varianz habenallerdings einen praktischen Nachteil: sie sind sehr anfalliggegenuber Ausreißern.
Beispiel:Der Datensatz Milliardaer.sav zeigt sehr deutlich, wie eineinziger Ausreißer den Mittelwert und die Standardabweichungverandern kann. Durch die Hinzunahme eines einzigen extremenWertes verschiebt sich der Mittelwert und die Standardabweichungsehr stark, obwohl sich die Daten kaum geandert haben.
Die Motivation nach Lokations- und Dispersionsparametern,die weniger ausreißeranfallig sind, wird in diesem Beispielklar.
15 / 35
Robuste Kenngroßen
Lokations- und Dispersionsparameter, die weit weniger sensibel aufeinzelne Ausreißer in einem Datensatz reagieren sind:
der Median:Dieser ist ein Maß fur das Zentrum der Verteilung; links undrechts des Medians befinden sich genau 50% derBeobachtungen.
der Interquartilabstand (IQR):Der IQR ist Maß fur die Streuung der Daten und gibt dieBreite des Bereichs an, in dem genau die mittleren 50% derBeobachtungen liegen.
Lage- und Streuungsparameter die ausreißerunanfallig sindbezeichnet man auch als robuste Maße.
16 / 35
Robuste Kenngroßen
Die Berechnung von Median und IQR ist in SPSS ein wenigumstandlich:
Berechnung von Median und IQR in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Explorative Datenanalyse
→ Ziehe die zu untersuchenden Variablen in das Feld AbhangigeVariablen (ggfs. kann man im Feld Faktorenliste noch eineGruppierungsvariable bestimmen)
→ Wahle im Feld Anzeige die Option Statistiken aus
→ Klicke das Feld Optionen an und wahle dann die OptionPaarweiser Fallausschluss
17 / 35
VerteilunganalyseWiederaufgreifen der Problematik
Das ursprungliche Ziel zu Beginn war die Analyse der Verteilungvon Daten sowie die Bestimmung der Wahrscheinlichkeitsverteilungeiner Messgroße.
Fur unsere Zwecke betrachten wir eine vereinfachte Fragestellung:
Fragestellung bei der Verteilungsananlyse
Sind die vorliegenden stetigen Daten normalverteilt oder sind sienicht normalverteilt?
→ Wie geht man hier vor?
18 / 35
Verteilungsanalyse: Allgemeine Situation
Um Aussagen uber die Verteilungseigenschaften von Daten zumachen, kann man sowohl grafische Hilfsmittel heranziehen, alsauch Hypothesentests durchfuhren. Man sollte aber stets beideMoglichkeiten betrachten!
Die beiden wichtigsten grafischen Hilfsmittel zurVerteilungsanalyse sind:
Histogramm und
Boxplot.
Es existieren noch weitere grafische Hilfsmittel wie beispielsweiseder Normal-Probability-Plot (Q-Q-Plot) oder dasStamm-Blatt-Diagramm. Die beiden oben genanntenDarstellungen der Daten sind aber die gebrauchlichsten, weshalbauf die Einfuhrung weiterer Darstellungen verzichtet wird.
19 / 35
Histogramme
Wie oben beschrieben kann man mittels eines Histogrammserkennen, ob die Daten normalverteilt sind. Je nach dem wie gutdie Anpassung an die theoretische Normalverteilungsdichte sprichtdies eher fur oder gegen einer Normalverteilung.
Groesse des Manns in cm
200,0190,0180,0170,0160,0150,0
Haeu
fig
keit
40
30
20
10
0
Alter des Manns
70605040302010
Haeu
fig
keit
15
10
5
0
20 / 35
Boxplots
Ein weiteres wichtiges grafisches Hilfsmittel zur Beschreibung einesDatensatzes ist der Box-Whisker-Plot, kurz Boxplot.
Konstruktion eines Boxplots
Ein Boxplot basiert auf dem Interquartilabstand (IQR), der genaudie Werte in der
”Box“ umfasst. Der Balken in der Mitte der Box
ist der Median. Die Whisker beschreiben die Lage der Daten in denAußenbereichen und enden an den Stellen ±1.5 · IQR . Alle Werteunter- und uberhalb davon werden als Ausreißer gekennzeichnet.
=⇒ Der Vorteil des Boxplots besteht darin, dass man nicht nuruber die Lokation der Daten, sondern auch uber die Streuungder Daten (=Dispersion) auf einen Blick informiert wird.
=⇒ Sind die Daten beispielsweise nicht symmetrisch, konnen dieWhisker unterschiedlich lang sein, sowie der Median nicht inder Mitte der Box liegen.
21 / 35
Boxplots
Beispiel fur einen Boxplot:
22 / 35
Boxplots
Erstellung eines Boxplots in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Explorative Datenanalyse
→ Wahle das Feld Diagramme aus und wahle im Feld Boxplotsdie gewunschte Option (z.B. Faktorstufen zusammen)
Als Alternative kann man sich Boxplots auch ausgeben lassenunter:
Diagramme → Veraltete Diaglogfelder → Boxplot
23 / 35
Normalverteilungstests
Neben den grafischen Hilfsmittel gibt es auch inferenzstatistischeMoglichkeiten, Aussagen daruber zu machen, ob die Daten einerNormalverteilung folgen.
In SPSS sind die beiden Standardtests hierfur:
Kolmogorov-Smirnov-Test
Shapiro-Wilk-Test
Zu bevorzugen ist jedoch stets der Shapiro-Wilk-Test. Um zuverstehen wie ein statistischer Test durchgefuhrt wird und wie manein Testergebnis korrekt interpretiert, behandeln wir zunachst dieGrundlagen von statistischen Hypothesentests.
24 / 35
Induktive Statistik
Neben der deskriptiven und der explorativen Statistik, ist das drittegroße Teilgebiet der Statistik die induktive Statistik (auchschließende Statistik genannt).
Gegenstand der induktiven Statistik
Es wird versucht mit Hilfe einer Stichprobe auf Eigenschaften derGrundgesamtheit zu schließen. Diese Grundgesamtheit ist imAllgemeinen sehr viel großer als der Umfang der Stichprobe.
Die Methoden der induktiven Statistik bezeichnet man auch auchals Testverfahren. Dabei wird eine zu uberprufende Hypothese,auch Nullhypothese (oder H0) aufgestellt, die mit einem Test aufKorrektheit uberpruft wird.
Merke:Nullhypothesen sind Prazisierungen der zu untersuchendenFragestellung.
25 / 35
HypothesentestenBeispiele fur Nullhypothesen
Beispiele fur Nullhypothesen:
H0 : Die Zufallsvariable X ist nach irgendeiner NormalverteilungN(µ, σ2)-verteilt, wobei µ und σ2 beliebig seien.
H1 : Die Zufallsvariable X ist nicht normalverteilt.
H0 : Manner und Frauen haben einen gleich hohen IQ-Wert.
H1 : Der IQ-Wert von Mannern und Frauen ist nicht gleich.
H0 : In der Firma XY verdienen Frauen genauso viel oder mehr alsManner.
H1 : In der Firma XY verdienen Frauen weniger als Manner.
26 / 35
Hypothesentesten
Fassen wir zusammen:
Zu einer aufgestellten Nullhypothese H0 wird auch immer eineinhaltlich komplementare Alternativhypothese H1 formuliert.
Die Nullhypothese H0 stellt dann die Basis dar, von der ausentschieden wird, ob die Alternativhypothese H1 akzeptiertwerden kann oder nicht.
=⇒ Die eigentlich zu prufende Hypothese muss also in dieAlternativhypothese H1 gesteckt werden!!
Achtung: Warum ist die Formulierung von
H0 : Wohlhabende Kinder und sozial schwache Kinderunterschieden sich nicht in ihren Lesefahigkeiten.
H1 : Wohlhabende Kinder konnen besser lesen als sozial schwacheKinder.
statistisch nicht korrekt?27 / 35
HypothesentestenTeststatistik
Grundlegende Idee zur Uberprufung von H0
Anhand einer gegebenen Stichprobe X1, . . . ,Xn von unabhangigund identisch verteilten Zufallsvariablen wird ein konkreter Wert,die sog. Teststatistik T = T (X1, . . . ,Xn) berechnet. Anhand vonT und seiner Verteilung wird dann eine Entscheidung getroffen.
Beispiele fur Teststatistiken werden wir bei der Besprechung derTestverfahren viele kennen lernen.
Die popularste Methode zur Hypothesenbeurteilung basierend aufeiner Teststatistik T ist die Betrachtung des p-Wertes.
28 / 35
HypothesentestenDer p-Wert
Der p-Wert
Der p-Wert ist die Wahrscheinlichkeit dafur, dass man unter derNullhypothese H0 das tatsachlich beobachtete Resultat oder sogarein noch extremeres erhalt.
=⇒ Je unwahrscheinlicher also die Gultigkeit von H0, desto kleinerwird der p-Wert. Wenn eine gewisse Wahrscheinlichkeitsgrenzeunterschritten wird, ist H0 also so unwahrscheinlich, dass mansich fur die Gultigkeit der Alternativhypothese H1 entscheidet.
→ Die popularste Grenze fur die Wahrscheinlichkeit betragt 0.05,d.h. ab einem p-Wert von kleiner oder gleich 0.05 wird H0
abgelehnt.
=⇒ Der p-Wert ist sozusagen also ein Maß fur dieGlaubwurdigkeit der Nullhypothese.
29 / 35
HypothesentestenKorrekte Interpretation des Testergebnisses
Ein Signifikanztest gestattet nur eine der beiden folgendenEntscheidungen:
Ablehnung von H0 = Annahme von H1
oder
Nicht-Ablehnung von H0 6= Annahme von H0
Dies bedeutet also:
=⇒ Die Nicht-Ablehnung von H0 darf keinesfalls als ein Nachweisder statistischen Richtigkeit der Nullhypothesefehlinterpertiert werden.
=⇒ Streng genommen bedeutet eine Nicht-Ablehnung von H0 alsoeine Stimmenthaltung, d.h. das Stichprobenergebnis ist mitder Nullhypothese vereinbar.
30 / 35
HypothesentestenFehler bei der Testentscheidung
Bei einer Entscheidung basierend auf einem Signifikanztest hatman niemals absolute Sicherheit – egal wie man sich entscheidet esbesteht also immer die Gefahr eine Fehlentscheidung zu treffen:
H0 ist wahr H0 ist nicht wahr
Entscheidung fur H0 kein Fehler Fehler 2. Art (β)
Entscheidung fur H1 Fehler 1. Art (α) kein Fehler
Bei einem Signifikanztest kann man leider immer nur denFehler 1. Art kontrollieren. Dieser ist stehts ≤ 0.05.
Der Fehler 2. Art hingegen kann unter Umstanden relativ großwerden.
→ Dies ist die Begrundung fur das Vorgehen auf Folie 27, dassdie eigentlich zu prufende Hypothese als H1 formuliert werdenmuss.
31 / 35
Ruckkehr zum eigentlichen Problem
Nachdem die Grundzuge der Testtheorie behandelt wurden, konnenwir nun zum Test auf Normalverteilung zuruckkehren. In SPSS gibtes zwei Tests auf Normalverteilung, den
Kolmogorov-Smirnov-Test und den
Shapiro-Wilk-Test.
Zu bevorzugen ist jedoch stets der Shapiro-Wilk-Test. DieNullhypothese bei diesen Tests lautet:
H0 : Die Stichprobe ist normalverteilt
Man beachte hierbei, dass man in diesem Fall daran interessiert istH0 nicht zu verwerfen – im Idealfall der p-Wert also großer als 0.05sein sollte!
32 / 35
Normalverteilungstests
Erstellung von Normalverteilungstests in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Explorative Datenanalyse
→ Wahle das Feld Diagramme aus und klicke dort das FeldNormalverteilungsdiagramm mit Tests an.
=⇒ Zusammen mit den Normalverteilungstest werden in SPSSimmer auch die zugehorigen Q-Q-Plots, sowie dietrendbereinigten Q-Q-Plots ausgegeben (siehe oben).
33 / 35
Zusammenfassung
Man hat nun also zwei Moglichkeiten die Verteilungseigenschaftender Daten zu uberprufen:
grafisch: Boxplots, Histogramme, Q-Q-Plots, . . .
inferenzstatistisch: Shapiro-Wilk-Test, . . .
Dabei ist aber immer zu beachten:
Grundregel bei der Verteilungsanalyse
Man betrachtet aber nie nur eine der beiden Moglichkeiten,sondern immer beide zusammen!
Manchmal verrat eine der beiden Moglichkeiten namlich mehr uberdie Eigenschaften der Daten als die andere . . .
34 / 35
Voraussetzungen von Testverfahren
Zu jedem Testverfahren, gibt es gewisse Voraussetzungen an dieDaten, die erfullt sein mussen um die Aussagekraft desTestverfahrens sicher zu stellen (z.B. muss beim t-Test dieNormalverteilungsannahme erfullt sein).
Man beachte stets
Aussagen in der Statistik sind hochstens so sicher wie dieVoraussetzungen dieser Aussagen.
=⇒ Sind die Voraussetzugen eines Testverfahrens nicht oder nurteilweise erfullt, so muss dies in der entsprechendenvorsichtigen Interpretation des Resultates berucksichtigtwerden!
=⇒ Im Zweifelsfall ist es besser auf statistische Tests zu verzichtenund sich mit einer einfachen Beschreibung der Daten anhandtabellarischer und grafischer Darstellungen zu begnugen!
35 / 35