deskriptive statistik 2 2.1 darstellung univariater stichproben 2.2 darstellung bivariater...
Post on 05-Apr-2015
124 Views
Preview:
TRANSCRIPT
Deskriptive Statistik
2
2.1 Darstellung univariater Stichproben
2.2 Darstellung bivariater Stichproben
2.3 Kennwerte univariater Verteilungen
2.4 Kennwerte bivariater Verteilungen
Deskriptive Statistik2
Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik)
Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs
univariate und bivariate Betrachtungen:
univariat bivariat
Deskriptive Statistik2 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala
2. Differenzierungsmerkmal empirischer Daten: “spezielle Genauigkeit“ - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten 1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren
metrisch ordinal (separat)
ordinal (Mittelung)
1,7 1 1
2,3 2 2,5
2,3 3 2,5
2,5 4 4
Darstellung univariater Stichproben2.1
Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich):
Bsp. 1: Verkehrsmittel vondeutschen Urlaubern (n=100)
Bsp. 2: Körpergrößevon 10-jährigen (n=200)
nominalskaliert
metrisch, singulär mitBindungen
Darstellung univariater Stichproben2.1
einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste):
erste Strukturen erkennbar, aber imrechten Fall immer noch zu unübersichtlich
graphische Darstellung gefordert: je nachFragestellung
Darstellung univariater Stichproben2.1
gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit
Stabdiagramm
zweidimensionales Histogramm
dreidimensionales Histogramm
Pfeilspitzen nur bei metrischen Daten
Darstellung univariater Stichproben2.1 je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm
%100%100
1
n
h
h
hf k
m
kk
kk m = Anzahl der Klassen
n = Anzahl der Probanden
relative Häufigkeitin %
bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig
Darstellung univariater Stichproben2.1
bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide
100% 0 100%
1985 1990
Bahn
Bus
PKW
Flugzeug
Sonstige
Darstellung univariater Stichproben2.1
bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten
k
ii
c
k
k
ii
c
k
ff
hh
1
1
Messwertklassen
kumulativPolygon Summen-
polygon
Darstellung univariater Stichproben2.1 Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen
Gruppierung metrischer Daten: - untere Grenze der Klasse xi: xi,u
- obere Grenze der Klasse xi: xi,o
- Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: xi,o= xi+1,u ; xi,u= xi-1,o
- Klassenmitte: x*i = (xi,u + xi,o)/2
- Klassenbreite: bi = xi,o – xi,u , bi = const(i\r)
- offene Randklassen: xiru: xi,u = - ; xiro: xi,o = - Leerklassen: x i: hi = fi = 0
Darstellung univariater Stichproben2.1
Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1:
- Kriterium 2:
Wahl der Reduktionslage x1,u:
- eindeutiger Fall: xmin = 0 , x [0,] x1,u = 0
- kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert:
nk ]20,10[k
a) Bestimmung von k:
b) Bestimmung von b:
c) b wird so gerundet, dass es nicht genauer als die Messwerte ist
d) Hilfsgröße:
nk
dk
dxxdb
minmax,
n = Anzahl der Messwerted = Genauigkeit der Messungxmin = kleinster Messwertxmax = größter Messwert
dxxbk )(2
1minmax
Darstellung univariater Stichproben2.1
Beispiel:
e) Reduktionslage für mod(Δ,d)=0:
Reduktionslage für mod(Δ,d)≠0:
f) in der Folge gilt:
g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)≠0
h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1
2min,1
dxx u
min,1 xx u
bxxx uuo ,1,2,1
Punkte 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Häufigkeit 1 2 3 5 5 9 7 10 12 9 7 2 1 4 2 3 1
Klassenanzahl:
Klassenbreite:
Hilfsgröße:
Randklassen überprüfen:
Reduktionslage:
911,983 k
212289,119
1723
b
0)1;5,0mod(5,01)723(292
1
9125,0 k
n = 83xmin = 7xmax = 23d = 1
5,65,07,1 ux7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5
hk
Klassenmitte
Darstellung univariater Stichproben2.1
typische Verteilungsformen (Häufigkeitspolygone):
a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig)
b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage)
c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen)
d) J-förmig, großer Extremwert häufig, davor monoton ansteigend
e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag)
f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen)
g) schmalgipflig, geringe Streuung um einen zentralen Wert
h) breitgipflig, starke Streuung um einen zentralen Wert
Darstellung bivariater Stichproben2.2
wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!):
absolute Häufigkeiten der bivari-aten Merkmalsausprägung in Kon-tingenztafel:
)(
)(
),(
jj
ii
jiij
yhS
xhZ
yxhn
Darstellung bivariater Stichproben2.2 unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen
bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich
stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung)
nichtlineareKorrelation
Darstellung bivariater Stichproben2.2
weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet
X
Y
Kennwerte univariater Stichproben2.3
meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen
wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis)
je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen
fi
xi
Kennwerte univariater Stichproben2.3
Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt
- Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung
Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern
fifi
?
Kennwerte univariater Stichproben2.3
Bsp. Modalwert:
D : “PKW“ D : 150
Messwert Häufigkeit
11 1
12 2
13 3
14 3
15 1
16 1
D : 13,5
Messwert Häufigkeit
11 1
12 3
13 2
14 1
15 3
16 1
D1 : 12 D2 : 15
Kennwerte univariater Stichproben2.3
Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)≠0 : Beobachtungswert auf Rangplatz
- bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen)
Bsp. Median:
2
12
1n
xZn
21
2,
2
122
nnxx
Znn
Rang Beliebtheit
1 Jennifer
2 Petra
3 Bert
4 Steffi
5 Hans
6 Paul
7 Mathilde
Z : “Steffi“
Proband Leistung
1 12 h
2 11 h
3 9,5 h
4 9 h
5 8,5 h
6 8 h
Z : 9,25 h
Proband Rangplatz
Michael 1
Claudia 2
Beate 3
Georg 4
Simone 5
Jürgen 6
Z : zwischen Wert von Beate und Georg
Kennwerte univariater Stichproben2.3
bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5)
- bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse:
m
c
m
um n
nn
bxZ1
,2
xm,u : untere Klassengrenze der Medianklasse (hier: 12,5)
b : Klassenbreite (hier: 3)n : STP-Umfang (hier: 60)nc
m-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27)
nm : absolute Häufigkeit der Medianklasse (hier: 15)
Z=13,1
Klassenmittel: Z=14
Kennwerte univariater Stichproben2.3
arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte:
- mehrfach vorliegende Messwerte: (gewichtetes Mittel)
- Messwertklassen ohne offene Randklassen näherungsweise: (sonst x*
1 = - bzw. x*k = )
Bsp. arithmetisches Mittel:
n
xxxx
nx n
n
ii
...1 21
1
n
hffxhx
nx i
k
iiii
k
iii
11
,1
k
iii hx
nx
1
*1
n : STP-Umfangxi : Messwertehi : absolute Häufigkeitenfi : relative Häufigkeitenk : Anzahl der Klassenx*
i : Klassenmitten
Proband Wert
1 1,2
2 2,3
3 1,7
4 2,9
5 2,4
6 1,5
x=2,0 n=6
Wert Häufigkeit
14 33
17 36
22 14
9 11
19 29
21 18
x=17,1 n=141
Klassen Häufigkeit
71-80 11
81-90 24
91-100 32
101-110 33
111-120 25
121-130 14
x=101,2 n=139
Kennwerte univariater Stichproben2.3
arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung
die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null:
die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a:
axbyaxbyxn
x ii
n
ii
1
1
lineare Transformation
Proband alter Wert neuer Wert
1 1,2 3,4
2 2,3 5,6
3 1,7 4,4
4 2,9 6,8
5 2,4 5,8
6 1,5 4,0
x=2,0 x=5,0
yi = 2 • xi + 1
0)(1
n
ii xx
min)()(!
1
2
1
2
n
ii
n
ii axxx
Kennwerte univariater Stichproben2.3
arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich-teten arithmetischen Mitteln von Teilmengen der STP berechnet werden:
Lage von Modus, Median und arithmetischemMittel bei symmetrischen und asymmetrischenVerteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmeti- schem Mittel
k
ii
k
i hxn
x1
1n : STP-Umfangk : Anzahl der Teilmengen (Klassen)hi : Anzahl der Objekte in der Teilmengexk
i : Teilmittelwertex : Gesamtmittelwert
mittlerer Niederschlag über Land (149 Mio km2): 900 mmmittlerer Niederschlag über Wasser (361 Mio km2): 1050 mm
mittlerer Niederschlag auf der Erde (510 Mio km2): 1006 mm
rechtsschief
linksschief
Kennwerte univariater Stichproben2.3
Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (“normaler“) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig
- Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen
- arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren
fi
Fahrtzeit mit der DBD=2h Z=3h x=4h
Kennwerte univariater Stichproben2.3
in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen
gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler-entfernungen, Niederschlag): rechtsschief
deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei xi > 0
- hyperbolische Transformation:
- logarithmische Transformation:
- auch wichtig für Verfahren der schließenden Statistik
n
ii
i
i
xbaH
x
baz
1
1
n
n
iiii xbaGxbaz
1
log
“Harmonisches Mittel“
“Geometrisches Mittel“
Kennwerte univariater Stichproben2.3
je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen:
Kennwerte univariater Stichproben2.3
Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße
Variationsbreite (Spannweite): - nur für metrische Variablen
- nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n ≤ 12), da Ausreißer unwahr- scheinlicher
minmax xxv
xmin
xmax
v=157-126=31
Kennwerte univariater Stichproben2.3
mittlere absolute Abweichung: - nur für metrische Variablen
- berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt:
n
ii xx
ne
1
1
min1 !
11
n
ii
n
ii
z ZxZxn
e
Proband Wert |xi-x|
1 1,2 0,8
2 2,3 0,3
3 1,7 0,3
4 2,9 0,9
5 2,4 0,4
6 1,5 0,5
x = 2,0
e = 0,53
Z = 2,0
ez = 0,53
Kennwerte univariater Stichproben2.3
empirische Varianz: - nur für metrische Variablen
- mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U2
- gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein)
empirische Standardabweichung: - nur für metrische Variablen
- mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (“unverzerrter Schätzer“)
n
ii
n
ii xxSSSS
nxx
ns
1
2
1
22 ,1
1
1
1
2
1
2
1
1sxx
ns
n
ii
Proband Wert (xi-x)2
1 1,2 0,64
2 2,3 0,09
3 1,7 0,09
4 2,9 0,81
5 2,4 0,16
6 1,5 0,25
x = 2,0 s2 = 0,41
SS = 2,04 s = 0,64
Kennwerte univariater Stichproben2.3
Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte
Variationsbreite Standardabweichung
Variabilität der täglichen Mitteltemperaturen im Januar und Juli
CFFCCF 2545329
5132
5
91
Kennwerte univariater Stichproben2.3
bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler:
bei einer linearen Transformation der Daten skaliert die Standard-abweichung mit b, ist aber invariant gegenüber a:
n
i
n
iii
n
ii
n
ii
n
i
n
iii
n
i
n
ii
n
ii
n
iii
n
ii
xn
xxnx
xnxnxx
xnxxx
xxxx
xxxxxxSS
1
2
1
22
1
2
2
1
2
1
2
1
2
1
2
11
2
1
22
1
2
1
2
2
2
2
xyii
n
iix sbsaxbyxx
ns
1
2
1
1
lineare Transformation
Kennwerte univariater Stichproben2.3
Quadratsumme bei mehrfach auftretenden Messwerten:
Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise:
Werte innerhalb der Messwertklassen meist schiefverteilt, so dass Klassenmitte nicht repräsentativ undempirische Standardabweichung s zu groß; deshalbSheppard‘sche Korrektur (empirisch):
Beispiel:
k
iii
k
iii
k
iii
k
iii xh
nxxh
nxhxxhSS
1
2
11
2
1
2 1,
1
n : STP-Umfangxi : Messwertehi : absolute Häufigkeitenk : Anzahl der Klassenx*
i : Klassenmittenx* : arithmetisches Mittel der Klassenmitten
2
1
*
1
2*
1
2** 1
k
iii
k
iii
k
iii xh
nxhxxhSS
Würfel hi hixi hixi2
1 12 12 12
2 18 36 72
3 15 45 135
4 19 76 304
5 20 100 500
6 16 96 576
Σ 100 365 1599641,175,266
99
1
75,266365100
11599 2
s
SS12
22 bsscorr
Kennwerte univariater Stichproben2.3
in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht
1. Möglichkeit: mittlere empirische Varianz
Beispiel:
l
ilM s
ls
1
22 1
9,0,4,5
1,1,8,2
22
11
sx
sx
alle STP gleich groß:
l
ii
l
iiiM nNsn
lNs
11
22 ,)1(1
STP unterschiedlich groß:
STP ni xi si2
1 36 2,8 1,1
2 40 5,4 0,9
3 37 3,3 1,3
4 31 4,5 0,8
ni : Umfang der STP ixi : Mittelwert der STP isi
2 : Varianz der STP i
03,1
8,0303,1369,0391,1354144
1
144
4
2
Ms
N
l
Kennwerte univariater Stichproben2.3
2. Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage
Beispiel:
Gesamtvarianz ist immer größer odergleich der mittleren Varianz der l STP
l
iiiG
l
ii
l
iGii
l
iiiG
xnN
x
nN
xxnsnN
s
1
1
1
2
1
22
1
)()1(1
1
ni : Umfang der STP ixi : Mittelwert der STP isi
2 : Varianz der STP i
STP ni xi si2
1 36 2,8 1,1
2 40 5,4 0,9
3 37 3,3 1,3
4 31 4,5 0,8
10,2
)02,45,4(31)02,43,3(37)02,44,5(40)02,48,2(368,0303,1369,0391,1351144
1
02,45,4313,3374,5408,236144
1
144
4
22222
G
G
s
x
N
l
22
MG ss
Kennwerte univariater Stichproben2.3
empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente:
- genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q1 und Q3 heißt empirischer Interquartilsbereich
- bei metrischen Daten heißt (Q3-Q1) auch empirischer Quartilsabstand
Q1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte
Q2 : Median = Abgrenzung von 50 % der Werte
Q3 : oberes Quartil = Abgrenzung der 25% der größten Werte
Kennwerte univariater Stichproben2.3
allgemeine Bestimmung der Quartile: - Bestimmung des Medians:
- Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median:
- Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert:
- wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q:
1
2
12 nRQZ
4
31
2
11
2
11
nRnRQ
4
131
2
1
2
13
nRnnRQ
uouQu xxRRxQ
Q : QuartilRQ : berechneter nicht ganzzahliger Rangplatz von QRu : ganzzahliger Rangplatz unterhalb von RQ
Ro : ganzzahliger Rangplatz unterhalb von RQ
xu : Messwert auf Rangplatz Ru
xo : Messwert auf Rangplatz Ro
Kennwerte univariater Stichproben2.3
Beispiel für die Bestimmung von Quartilen und Quartilsabstand:
Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen
Beispiel:
0,201729625,61725,64
183
5,879275,2775,24
38
1312142
15,4)18(
2
1
3
1
2
RRQ
RRQ
RRQZ
Rangplatz 1 2 3 4 5 6 7 8
Messwert 3 7 9 12 14 17 29 33
Kennwerte univariater Stichproben2.3
bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben:
Beispiel:
bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet:
132
1QQQA
75,55,80,202
1AQRangplatz 1 2 3 4 5 6 7 8
Messwert 3 7 9 12 14 17 29 33
3
3
3
1
1
1
1,
,
*
3
1,
,
*
1
*
1
*
3
43
4
2
1
q
qc
uq
q
qc
uq
A
n
nn
bxQ
n
nn
bxQ
QQQ
q1 : Nummer der (unteren) Quartilklasse von Q1
q3 : Nummer der (oberen) Quartilklasse von Q3
xq1,u : untere Klassengrenze der Q1-Klassexq3,u : untere Klassengrenze der Q3-Klassenq : Häufigkeit in der jeweiligen Quartilklassenc,q-1: kumulative Häufigkeit in der Klasse q-1b : Klassenbreite
Q1* : trennt die ersten 25% der Histogrammfläche ab
Q3* : trennt die letzten 25% der Histogrammfläche ab
Kennwerte univariater Stichproben2.3
bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q1- und Q3-Klasse:
Beispiel: Klassifizierung der Stürme
4
3
4
3
1
nRQ
nRQ
große Streuung: Q1 und Q3 fallen in die Randklassen
kleine Streuung: Q1 und Q3 fallen in die gleiche Klasse
5,524
703
5,174
70
RR
RR Q1 fällt in die Klasse “stark“
Q3 fällt in die Klasse “schwach“} die wesentliche Streuung
erfolgt zwischen “stark“ und “schwach“
Kennwerte univariater Stichproben2.3
Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: “
graphisch anhand von kumuliertenHäufigkeitsverteilungen (Verteilungs-funktionen) zu veranschaulichen:
Kennwerte univariater Stichproben2.3
relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien
- für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien
wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus)
]1,0[
0:0ln00
ln
lnlnln
ln
1
1
1
1
h
n
nN
kk
nnNN
N
k
N
n
N
n
kh
i
k
ii
k
iiik
i
ii
k : Anzahl der KategorienN : Gesamtzahl der Datenni : absolute Häufigkeit jeder Kategorie
Kennwerte univariater Stichproben2.3
Beispiel: “richtiges Symbol in Zeichenkette“
Zeichenkette:
Elementtypen:
?
Schüler 2. Klasse: 4 5 2 6 3Schüler 4. Klasse: 1 0 1 18 0
Modalwert: D2. Klasse = D4. Klasse =
25,05ln5
18ln181ln11ln120ln20
20
5
96,05ln5
3ln36ln62ln25ln54ln420ln20
20
5
20
5
.4
.2
Klasse
Klasse
h
h
N
k
Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen
Kennwerte univariater Stichproben2.3
je nach Datenart sind nur bestimmte Streumaße zugelassen:
Kennwerte univariater Stichproben2.3
bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig
bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich
bei normalverteilten Variablen sind arithmetisches Mittel und Standard-abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve)
x = Z = D : genau in der Mitte der symmetrischen Verteilungx ± 1•s : schließt ca. 68,0 % der Werte ein x ± 2•s : schließt ca. 95,5 % der Werte einx ± 3•s : schließt ca. 99,7 % der Werte ein
Näherungsformel für große normalverteilte STP: 6
vs
Kennwerte univariater Stichproben2.3
häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen → Kilometer , m/s → km/h , °C → °F , … - Skalierung des Mittelwertes:
- Skalierung der Standardabweichung:
um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form zi = b• xi +a
- danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel:
axbyaxbyxn
x ii
n
ii
1
1
xyii
n
iix sbsaxbyxx
ns
1
2
1
1
11
01
1
ss
s
s
xx
sz
s
xxss
xxz
z
a
i
b
ii
xi 18,2 23,4 19,0 21,1 15,3 27,9 24,5 20,7
zi -0,8 0,5 -0,6 -0,1 -1,5 1,7 0,8 -0,2
0,4,3,21 sx
Kennwerte univariater Stichproben2.3
in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient:
- bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht
%100x
sV
1x
2x
2s
1s21
21
21
VV
ss
xx
Kennwerte univariater Stichproben2.3
Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika
Kennwerte univariater Stichproben2.3 empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente):
- zentrale Momente:
- arithmetischer Mittelwert entspricht dem ersten Moment m1
- Varianz entspricht annähernd dem zweiten zentralen Moment mz2
- es gilt grundsätzlich mz1=0
- Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment:
- Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment:
n
i
k
ik xn
m1
1
n
i
ki
n
i
ki
zk x
nxx
nm
11
'11
fi
xi
3
3
s
mS
z
34
4 s
mE
z
Kennwerte univariater Stichproben2.3
zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe:
zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur quali- tativen Bestimmung des Exzesses:
s
DxS
*
19
13
2*
DeDe
QQE
Q1 : unteres QuartilQ3 : oberes QuartilDe1 : unteres DezilDe9 : oberes Dezil
Kennwerte bivariater Stichproben2.4
bei vielen Fragestellungen in der Geographie bivariate Verteilungen: - zwei Merkmalsausprägungen bzgl. jedes Untersuchungselements
- z.B. Einwohnerzahl und Kriminalität bzgl. Flächeneinheiten - z.B. horizontale Windkomponenten in einer Modellgitterbox - z.B. Temperatur und Niederschlag an einer Klimastation
bivariate Verteilungen lassen sich ebenfalls durch Kennwerte wie Mittelwerte und Streumaße charakterisieren
ferner läßt sich der Zusammenhang zwischen den beiden Variablen in Form von Maßzahlen (Korrelationskoeffizienten) ausdrücken (s. Kapitel 5)
Kennwerte bivariater Stichproben2.4
arithmetisches Mittelzentrum ist typischer Lageparameter für bivariate Verteilungen: - Schwerpunkt einer zweidimensionalen Punktverteilung - entweder Verteilung einer Variablen in der Fläche:
Variable X : W-E-Richtung (x-Achse) Variable Y : N-S-Richtung (y-Achse)
- oder Verteilung der Untersuchungselemente bzgl. zwei Variablen:
Variable X : Temperatur (x-Achse) Variable Y : Niederschlag (y-Achse)
- Berechnung aus den arithmetischen Mittelwerten der Koordinaten:
- auch höherdimensional möglich:
n
ii
n
ii y
nyx
nxyxP
11
1und
1,,
geogr. Länge Temperatur
geo
gr.
Bre
ite
Nie
der
sch
lag
Temperaturwert Klimastation
kk xxxP ,...,, 21
Kennwerte bivariater Stichproben2.4
arithmetisches Mittelzentrum (Forts.): - P minimiert die Summe der quadrierten Abstände zwischen allen Punkten und sich selbst:
- für gruppierte Daten läßt sich der Schwerpunkt analog zum univariaten arithmetischen Mittel berechnen
gewichtetes arithmetisches Mittelzentrum, wenn statt reiner Punkt-verteilung Bezugseinheiten mit unterschiedlicher Größe (z.B. Verwaltungs-einheiten mit unterschiedlicher Einwohnerzahl):
min!
1 1
22
n
i
n
iii yyxx
l
ii
y
i
k
ii
x
i yhn
yxhn
xyxP1
*
1
* 1und
1,,
xi : Klassenmitten auf der x-Achseyi : Klassenmitten auf der y-Achsehi*: absolute Häufigkeit von xi
hi*: absolute Häufigkeit von yi
k : Anzahl der Klassen auf der x-Achsel : Anzahl der Klassen auf der y-Achse
k
ii
k
iii
gk
ii
k
iii
ggg
g
ygy
g
xgxyxP
1
1
1
1
ˆund
ˆ,,
: Koordinaten des Mittelpunktes der Bezugseinheit igi : Gewicht der Bezugseinheit i
häufig normiert auf:
ii yx ˆ,ˆ
k
iig
1
1
Kennwerte bivariater Stichproben2.4
Beispiel für Schwerpunkt von grup-pierten Daten: - Kundenwohnungen eines Kaufhauses - Aufteilung in Gitternetz mit b = 2km - Kaufhaus bei (0,0) - Schwerpunkt (n=446):
- Kundenschwerpunkt ca. 1,9 km nach Nordwesten verschoben
Beispiel für gewichteten Schwerpunkt: - Verlagerung des Bevölkerungsschwer- punktes in den USA 1754-1960 - auf Basis von bevölkerungsgewichteten Verwaltungseinheiten - Verlagerung im Zuge der Pioneerbewegung
km
km
yh
xh
nP
l
ii
y
i
k
ii
x
i
46,1
24,11
1
*
1
*
NW
22 yxd
Kennwerte bivariater Stichproben2.4
Modalzentrum einer bivariaten STP direkt aus zweidimensionaler Häufigkeitsmatrix (Kontingenztafel) abzulesen: - kann wie im univariaten Fall unimodal, bimodal oder multimodal sein - hier bimodal
Medianzentrum einer bivariaten STP definiert als derjenige Punkt in der Fläche, für den die Summe der Abstände zu allen anderen Punkten minimal ist:
- exakte Berechnung i.d.R. nicht möglich - stattdessen iteratives Verfahren:
- Medianzentrum kennzeichnet optimalen Standort für Betriebe und Geschäfte nach dem Prinzip der minimalen Entfernungen
min)()(),(),(),(:,!
1
22
1
n
iii
n
iiiZZ yyxxyxyxyxfyxP
a) grobmaschiges Gitternetz über die Flächeb) über alle Gitterpunkte Gj(xj,yj) wird f(Gj)=min bestimmtc) engmaschigeres Gitternetz über die Fläche der Gitterbox mit f(Gj)=mind) Iteration ab Schritt b)
Abbruch der Iteration, wenn sich Koordinaten xjund yj kaum mehr ändern
Kennwerte bivariater Stichproben2.4 Standarddistanz bei bivariaten STP entspricht Standardabweichung bei univariaten STP (Varianz und Variationskoeffizient analog): - Maß für die Streuung der Punkte auf der Fläche um den Schwerpunkt:
- auch als Maß für den mittleren Abstand aller Punkte zueinander zu verstehen:
Standarddistanz ist absolutes Streumaß, das beiunterschiedlich großen Bezugsflächen keinen Ver-gleich zulässt:
- dann relative Distanz durch Division mit Flächenmaß:
n
iiid
iici
n
ici
n
icid
yyxxn
s
yyxxddn
dn
s
1
22
22
,1
,1
2
,
)()(1
)()(,11
22
,1 1
2
,2)()(,
2
1jijiji
n
i
n
jjid yyxxdd
ns
bab
d
a
d FFss ,
Kreisfläche: Quadrat:r
ss d
reld ,s
ss dreld
,
r : Radius des Kreisess : Seitenlänge des Quadrats
Kennwerte bivariater Stichproben2.4
anschaulich lässt sich sd als Kreis um den Schwerpunkt mit dem Radius
vorstellen
wie beim arithmetischen Mittelzentrum lässt sich die Standarddistanz auch im höher-(k-)dimensionalen (multivariaten) Fall berechnen:
Beispiel: Standarddistanz von Bevölkerung und zentralen Einrichtungen auf Basis von Verwaltungseinheiten in einer Großstadt:
- Standarddistanz in Metern - relative Distanz im Verhältnis zur Standarddistanz der Bevölkerung Supermärkte und Friseure streuen ähnlich stark über das Stadtgebiet wie die Bevölkerung Boutiquen, Ärzte und Banken sind stärker konzentriert
n
icidn 1
,
1
Bevölkerung Supermärkte Boutiquen Friseure Banken Ärzte
sd 2870 2440 1300 2230 780 1560
sd,rel 1 0,85 0,45 0,78 0,27 0,54
n
ikkiiikd xxxxxx
ns
1
2
,
2
22,
2
11,, )(...)()(1
“Take-away“
Bei der graphischen Darstellung von uni- und bivariaten Stichproben kommt den Häufigkeitsdiagrammen mit Messwertklassen eine zentrale Bedeutung zu.
Die empirische Verteilung von Beobachtungswerten kann durch einige wenige Maßzahlen hinreichend charakterisiert werden: Lageparameter, Streuparameter, Schiefe, Exzess.
Die Wahl der Kennwerte uni- und bivariater Verteilungen hängt vom Skalenniveau der Variablen und der Fragestellung ab.
Bei univariaten metrischen Verteilungen sind arithmetisches Mittel und empirische Standardabweichung am gebräuchlichsten.
Bei bivariaten metrischen Verteilungen sind arithmetisches Mittelzentrum und Standarddistanz am gebräuchlichsten.
Die Kennwerte der deskriptiven Statistik treffen nur Aussagen über die STP-Verteilung, nicht über die Verteilung der Grundgesamtheit.
2
top related