Deskriptive Statistik 2 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte

Deskriptive Statistik

2

2.1 Darstellung univariater Stichproben

2.2 Darstellung bivariater Stichproben

2.3 Kennwerte univariater Verteilungen

2.4 Kennwerte bivariater Verteilungen

Deskriptive Statistik2

Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik)

Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs

univariate und bivariate Betrachtungen:

univariat bivariat

Deskriptive Statistik2 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala

2. Differenzierungsmerkmal empirischer Daten: “spezielle Genauigkeit“ - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten 1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren

metrisch ordinal (separat)

ordinal (Mittelung)

1,7 1 1

2,3 2 2,5

2,3 3 2,5

2,5 4 4

Darstellung univariater Stichproben2.1

Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich):

Bsp. 1: Verkehrsmittel vondeutschen Urlaubern (n=100)

Bsp. 2: Körpergrößevon 10-jährigen (n=200)

nominalskaliert

metrisch, singulär mitBindungen

Darstellung univariater Stichproben2.1

einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste):

erste Strukturen erkennbar, aber imrechten Fall immer noch zu unübersichtlich

graphische Darstellung gefordert: je nachFragestellung

Darstellung univariater Stichproben2.1

gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit

Stabdiagramm

zweidimensionales Histogramm

dreidimensionales Histogramm

Pfeilspitzen nur bei metrischen Daten

Darstellung univariater Stichproben2.1 je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm

%100%100

1

n

h

hf k

m

kk

kk m = Anzahl der Klassen

n = Anzahl der Probanden

relative Häufigkeitin %

bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig

Darstellung univariater Stichproben2.1

bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide

100% 0 100%

1985 1990

Bahn

Bus

PKW

Flugzeug

Sonstige

Darstellung univariater Stichproben2.1

bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten

k

ii

c

k

ii

c

k

ff

hh

1

Messwertklassen

kumulativPolygon Summen-

polygon

Darstellung univariater Stichproben2.1 Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen

Gruppierung metrischer Daten: - untere Grenze der Klasse xi: xi,u

- obere Grenze der Klasse xi: xi,o

- Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: xi,o= xi+1,u ; xi,u= xi-1,o

- Klassenmitte: x*i = (xi,u + xi,o)/2

- Klassenbreite: bi = xi,o – xi,u , bi = const(i\r)

- offene Randklassen: xiru: xi,u = - ; xiro: xi,o = - Leerklassen: x i: hi = fi = 0

Darstellung univariater Stichproben2.1

Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1:

- Kriterium 2:

Wahl der Reduktionslage x1,u:

- eindeutiger Fall: xmin = 0 , x [0,] x1,u = 0

- kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert:

nk ]20,10[k

a) Bestimmung von k:

b) Bestimmung von b:

c) b wird so gerundet, dass es nicht genauer als die Messwerte ist

d) Hilfsgröße:

nk

dk

dxxdb

minmax,

n = Anzahl der Messwerted = Genauigkeit der Messungxmin = kleinster Messwertxmax = größter Messwert

dxxbk )(2

1minmax

Darstellung univariater Stichproben2.1

Beispiel:

e) Reduktionslage für mod(Δ,d)=0:

Reduktionslage für mod(Δ,d)≠0:

f) in der Folge gilt:

g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)≠0

h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1

2min,1

dxx u

min,1 xx u

bxxx uuo ,1,2,1

Punkte 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Häufigkeit 1 2 3 5 5 9 7 10 12 9 7 2 1 4 2 3 1

Klassenanzahl:

Klassenbreite:

Hilfsgröße:

Randklassen überprüfen:

Reduktionslage:

911,983 k

212289,119

1723

b

0)1;5,0mod(5,01)723(292

1

9125,0 k

n = 83xmin = 7xmax = 23d = 1

5,65,07,1 ux7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5

hk

Klassenmitte

Darstellung univariater Stichproben2.1

typische Verteilungsformen (Häufigkeitspolygone):

a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig)

b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage)

c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen)

d) J-förmig, großer Extremwert häufig, davor monoton ansteigend

e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag)

f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen)

g) schmalgipflig, geringe Streuung um einen zentralen Wert

h) breitgipflig, starke Streuung um einen zentralen Wert

Darstellung bivariater Stichproben2.2

wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!):

absolute Häufigkeiten der bivari-aten Merkmalsausprägung in Kon-tingenztafel:

)(

),(

jj

ii

jiij

yhS

xhZ

yxhn

Darstellung bivariater Stichproben2.2 unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen

bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich

stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung)

nichtlineareKorrelation

Darstellung bivariater Stichproben2.2

weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet

X

Y

Kennwerte univariater Stichproben2.3

meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen

wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis)

je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen

fi

xi

Kennwerte univariater Stichproben2.3

Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt

- Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung

Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern

fifi

?

Kennwerte univariater Stichproben2.3

Bsp. Modalwert:

D : “PKW“ D : 150

Messwert Häufigkeit

11 1

12 2

13 3

14 3

15 1

16 1

D : 13,5

Messwert Häufigkeit

11 1

12 3

13 2

14 1

15 3

16 1

D1 : 12 D2 : 15

Kennwerte univariater Stichproben2.3

Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)≠0 : Beobachtungswert auf Rangplatz

- bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen)

Bsp. Median:

2

12

1n

xZn

21

2,

2

122

nnxx

Znn

Rang Beliebtheit

1 Jennifer

2 Petra

3 Bert

4 Steffi

5 Hans

6 Paul

7 Mathilde

Z : “Steffi“

Proband Leistung

1 12 h

2 11 h

3 9,5 h

4 9 h

5 8,5 h

6 8 h

Z : 9,25 h

Proband Rangplatz

Michael 1

Claudia 2

Beate 3

Georg 4

Simone 5

Jürgen 6

Z : zwischen Wert von Beate und Georg

Kennwerte univariater Stichproben2.3

bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5)

- bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse:

m

c

m

um n

nn

bxZ1

,2

xm,u : untere Klassengrenze der Medianklasse (hier: 12,5)

b : Klassenbreite (hier: 3)n : STP-Umfang (hier: 60)nc

m-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27)

nm : absolute Häufigkeit der Medianklasse (hier: 15)

Z=13,1

Klassenmittel: Z=14

Kennwerte univariater Stichproben2.3

arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte:

- mehrfach vorliegende Messwerte: (gewichtetes Mittel)

- Messwertklassen ohne offene Randklassen näherungsweise: (sonst x*

1 = - bzw. x*k = )

Bsp. arithmetisches Mittel:

n

xxxx

nx n

n

ii

...1 21

1

n

hffxhx

nx i

k

iiii

k

iii

11

,1

k

iii hx

nx

1

*1

n : STP-Umfangxi : Messwertehi : absolute Häufigkeitenfi : relative Häufigkeitenk : Anzahl der Klassenx*

i : Klassenmitten

Proband Wert

1 1,2

2 2,3

3 1,7

4 2,9

5 2,4

6 1,5

x=2,0 n=6

Wert Häufigkeit

14 33

17 36

22 14

9 11

19 29

21 18

x=17,1 n=141

Klassen Häufigkeit

71-80 11

81-90 24

91-100 32

101-110 33

111-120 25

121-130 14

x=101,2 n=139

Kennwerte univariater Stichproben2.3

arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung

die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null:

die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a:

axbyaxbyxn

x ii

n

ii

1

lineare Transformation

Proband alter Wert neuer Wert

1 1,2 3,4

2 2,3 5,6

3 1,7 4,4

4 2,9 6,8

5 2,4 5,8

6 1,5 4,0

x=2,0 x=5,0

yi = 2 • xi + 1

0)(1

n

ii xx

min)()(!

1

2

1

2

n

ii

n

ii axxx

Kennwerte univariater Stichproben2.3

arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich-teten arithmetischen Mitteln von Teilmengen der STP berechnet werden:

Lage von Modus, Median und arithmetischemMittel bei symmetrischen und asymmetrischenVerteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmeti- schem Mittel

k

ii

k

i hxn

x1

1n : STP-Umfangk : Anzahl der Teilmengen (Klassen)hi : Anzahl der Objekte in der Teilmengexk

i : Teilmittelwertex : Gesamtmittelwert

mittlerer Niederschlag über Land (149 Mio km2): 900 mmmittlerer Niederschlag über Wasser (361 Mio km2): 1050 mm

mittlerer Niederschlag auf der Erde (510 Mio km2): 1006 mm

rechtsschief

linksschief

Kennwerte univariater Stichproben2.3

Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (“normaler“) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig

- Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen

- arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren

fi

Fahrtzeit mit der DBD=2h Z=3h x=4h

Kennwerte univariater Stichproben2.3

in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen

gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler-entfernungen, Niederschlag): rechtsschief

deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei xi > 0

- hyperbolische Transformation:

- logarithmische Transformation:

- auch wichtig für Verfahren der schließenden Statistik

n

ii

i

xbaH

x

baz

1

n

iiii xbaGxbaz

1

log

“Harmonisches Mittel“

“Geometrisches Mittel“

Kennwerte univariater Stichproben2.3

je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen:

Kennwerte univariater Stichproben2.3

Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße

Variationsbreite (Spannweite): - nur für metrische Variablen

- nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n ≤ 12), da Ausreißer unwahr- scheinlicher

minmax xxv

xmin

xmax

v=157-126=31

Kennwerte univariater Stichproben2.3

mittlere absolute Abweichung: - nur für metrische Variablen

- berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt:

n

ii xx

ne

1

min1 !

11

n

ii

n

ii

z ZxZxn

e

Proband Wert |xi-x|

1 1,2 0,8

2 2,3 0,3

3 1,7 0,3

4 2,9 0,9

5 2,4 0,4

6 1,5 0,5

x = 2,0

e = 0,53

Z = 2,0

ez = 0,53

Kennwerte univariater Stichproben2.3

empirische Varianz: - nur für metrische Variablen

- mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U2

- gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein)

empirische Standardabweichung: - nur für metrische Variablen

- mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (“unverzerrter Schätzer“)

n

ii

n

ii xxSSSS

nxx

ns

1

2

1

22 ,1

1

2

1

2

1

1sxx

ns

n

ii

Proband Wert (xi-x)2

1 1,2 0,64

2 2,3 0,09

3 1,7 0,09

4 2,9 0,81

5 2,4 0,16

6 1,5 0,25

x = 2,0 s2 = 0,41

SS = 2,04 s = 0,64

Kennwerte univariater Stichproben2.3

Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte

Variationsbreite Standardabweichung

Variabilität der täglichen Mitteltemperaturen im Januar und Juli

CFFCCF 2545329

5132

5

91

Kennwerte univariater Stichproben2.3

bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler:

bei einer linearen Transformation der Daten skaliert die Standard-abweichung mit b, ist aber invariant gegenüber a:

n

i

n

iii

n

ii

n

ii

n

i

n

iii

n

i

n

ii

n

ii

n

iii

n

ii

xn

xxnx

xnxnxx

xnxxx

xxxx

xxxxxxSS

1

2

1

22

1

2

1

2

1

2

1

2

1

2

11

2

1

22

1

2

1

2

xyii

n

iix sbsaxbyxx

ns

1

2

1

lineare Transformation

Kennwerte univariater Stichproben2.3

Quadratsumme bei mehrfach auftretenden Messwerten:

Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise:

Werte innerhalb der Messwertklassen meist schiefverteilt, so dass Klassenmitte nicht repräsentativ undempirische Standardabweichung s zu groß; deshalbSheppard‘sche Korrektur (empirisch):

Beispiel:

k

iii

k

iii

k

iii

k

iii xh

nxxh

nxhxxhSS

1

2

11

2

1

2 1,

1

n : STP-Umfangxi : Messwertehi : absolute Häufigkeitenk : Anzahl der Klassenx*

i : Klassenmittenx* : arithmetisches Mittel der Klassenmitten

2

1

*

1

2*

1

2** 1

k

iii

k

iii

k

iii xh

nxhxxhSS

Würfel hi hixi hixi2

1 12 12 12

2 18 36 72

3 15 45 135

4 19 76 304

5 20 100 500

6 16 96 576

Σ 100 365 1599641,175,266

99

1

75,266365100

11599 2

s

SS12

22 bsscorr

Kennwerte univariater Stichproben2.3

in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht

1. Möglichkeit: mittlere empirische Varianz

Beispiel:

l

ilM s

ls

1

22 1

9,0,4,5

1,1,8,2

22

11

sx

alle STP gleich groß:

l

ii

l

iiiM nNsn

lNs

11

22 ,)1(1

STP unterschiedlich groß:

STP ni xi si2

1 36 2,8 1,1

2 40 5,4 0,9

3 37 3,3 1,3

4 31 4,5 0,8

ni : Umfang der STP ixi : Mittelwert der STP isi

2 : Varianz der STP i

03,1

8,0303,1369,0391,1354144

1

144

4

2

Ms

N

l

Kennwerte univariater Stichproben2.3

2. Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage

Beispiel:

Gesamtvarianz ist immer größer odergleich der mittleren Varianz der l STP

l

iiiG

l

ii

l

iGii

l

iiiG

xnN

x

nN

xxnsnN

s

1

2

1

22

1

)()1(1

1

ni : Umfang der STP ixi : Mittelwert der STP isi

2 : Varianz der STP i

STP ni xi si2

1 36 2,8 1,1

2 40 5,4 0,9

3 37 3,3 1,3

4 31 4,5 0,8

10,2

)02,45,4(31)02,43,3(37)02,44,5(40)02,48,2(368,0303,1369,0391,1351144

1

02,45,4313,3374,5408,236144

1

144

4

22222

G

s

x

N

l

22

MG ss

Kennwerte univariater Stichproben2.3

empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente:

- genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q1 und Q3 heißt empirischer Interquartilsbereich

- bei metrischen Daten heißt (Q3-Q1) auch empirischer Quartilsabstand

Q1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte

Q2 : Median = Abgrenzung von 50 % der Werte

Q3 : oberes Quartil = Abgrenzung der 25% der größten Werte

Kennwerte univariater Stichproben2.3

allgemeine Bestimmung der Quartile: - Bestimmung des Medians:

- Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median:

- Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert:

- wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q:

1

2

12 nRQZ

4

31

2

11

2

11

nRnRQ

4

131

2

1

2

13

nRnnRQ

uouQu xxRRxQ

Q : QuartilRQ : berechneter nicht ganzzahliger Rangplatz von QRu : ganzzahliger Rangplatz unterhalb von RQ

Ro : ganzzahliger Rangplatz unterhalb von RQ

xu : Messwert auf Rangplatz Ru

xo : Messwert auf Rangplatz Ro

Kennwerte univariater Stichproben2.3

Beispiel für die Bestimmung von Quartilen und Quartilsabstand:

Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen

Beispiel:

0,201729625,61725,64

183

5,879275,2775,24

38

1312142

15,4)18(

2

1

3

1

2

RRQ

RRQZ

Rangplatz 1 2 3 4 5 6 7 8

Messwert 3 7 9 12 14 17 29 33

Kennwerte univariater Stichproben2.3

bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben:

Beispiel:

bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet:

132

1QQQA

75,55,80,202

1AQRangplatz 1 2 3 4 5 6 7 8

Messwert 3 7 9 12 14 17 29 33

3

1

1,

,

*

3

1,

,

*

1

*

1

*

3

43

4

2

1

q

qc

uq

q

qc

uq

A

n

nn

bxQ

n

nn

bxQ

QQQ

q1 : Nummer der (unteren) Quartilklasse von Q1

q3 : Nummer der (oberen) Quartilklasse von Q3

xq1,u : untere Klassengrenze der Q1-Klassexq3,u : untere Klassengrenze der Q3-Klassenq : Häufigkeit in der jeweiligen Quartilklassenc,q-1: kumulative Häufigkeit in der Klasse q-1b : Klassenbreite

Q1* : trennt die ersten 25% der Histogrammfläche ab

Q3* : trennt die letzten 25% der Histogrammfläche ab

Kennwerte univariater Stichproben2.3

bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q1- und Q3-Klasse:

Beispiel: Klassifizierung der Stürme

4

3

4

3

1

nRQ

große Streuung: Q1 und Q3 fallen in die Randklassen

kleine Streuung: Q1 und Q3 fallen in die gleiche Klasse

5,524

703

5,174

70

RR

RR Q1 fällt in die Klasse “stark“

Q3 fällt in die Klasse “schwach“} die wesentliche Streuung

erfolgt zwischen “stark“ und “schwach“

Kennwerte univariater Stichproben2.3

Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: “

graphisch anhand von kumuliertenHäufigkeitsverteilungen (Verteilungs-funktionen) zu veranschaulichen:

Kennwerte univariater Stichproben2.3

relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien

- für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien

wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus)

]1,0[

0:0ln00

ln

lnlnln

ln

1

h

n

nN

kk

nnNN

N

k

N

n

N

n

kh

i

k

ii

k

iiik

i

ii

k : Anzahl der KategorienN : Gesamtzahl der Datenni : absolute Häufigkeit jeder Kategorie

Kennwerte univariater Stichproben2.3

Beispiel: “richtiges Symbol in Zeichenkette“

Zeichenkette:

Elementtypen:

?

Schüler 2. Klasse: 4 5 2 6 3Schüler 4. Klasse: 1 0 1 18 0

Modalwert: D2. Klasse = D4. Klasse =

25,05ln5

18ln181ln11ln120ln20

20

5

96,05ln5

3ln36ln62ln25ln54ln420ln20

20

5

20

5

.4

.2

Klasse

h

N

k

Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen

Kennwerte univariater Stichproben2.3

je nach Datenart sind nur bestimmte Streumaße zugelassen:

Kennwerte univariater Stichproben2.3

bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig

bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich

bei normalverteilten Variablen sind arithmetisches Mittel und Standard-abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve)

x = Z = D : genau in der Mitte der symmetrischen Verteilungx ± 1•s : schließt ca. 68,0 % der Werte ein x ± 2•s : schließt ca. 95,5 % der Werte einx ± 3•s : schließt ca. 99,7 % der Werte ein

Näherungsformel für große normalverteilte STP: 6

vs

Kennwerte univariater Stichproben2.3

häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen → Kilometer , m/s → km/h , °C → °F , … - Skalierung des Mittelwertes:

- Skalierung der Standardabweichung:

um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form zi = b• xi +a

- danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel:

axbyaxbyxn

x ii

n

ii

1

xyii

n

iix sbsaxbyxx

ns

1

2

1

11

01

1

ss

s

xx

sz

s

xxss

xxz

z

a

i

b

ii

xi 18,2 23,4 19,0 21,1 15,3 27,9 24,5 20,7

zi -0,8 0,5 -0,6 -0,1 -1,5 1,7 0,8 -0,2

0,4,3,21 sx

Kennwerte univariater Stichproben2.3

in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient:

- bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht

%100x

sV

1x

2x

2s

1s21

21

VV

ss

xx

Kennwerte univariater Stichproben2.3

Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika

Kennwerte univariater Stichproben2.3 empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente):

- zentrale Momente:

- arithmetischer Mittelwert entspricht dem ersten Moment m1

- Varianz entspricht annähernd dem zweiten zentralen Moment mz2

- es gilt grundsätzlich mz1=0

- Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment:

- Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment:

n

i

k

ik xn

m1

1

n

i

ki

n

i

ki

zk x

nxx

nm

11

'11

fi

xi

3

s

mS

z

34

4 s

mE

z

Kennwerte univariater Stichproben2.3

zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe:

zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur quali- tativen Bestimmung des Exzesses:

s

DxS

*

19

13

2*

DeDe

QQE

Q1 : unteres QuartilQ3 : oberes QuartilDe1 : unteres DezilDe9 : oberes Dezil

Kennwerte bivariater Stichproben2.4

bei vielen Fragestellungen in der Geographie bivariate Verteilungen: - zwei Merkmalsausprägungen bzgl. jedes Untersuchungselements

- z.B. Einwohnerzahl und Kriminalität bzgl. Flächeneinheiten - z.B. horizontale Windkomponenten in einer Modellgitterbox - z.B. Temperatur und Niederschlag an einer Klimastation

bivariate Verteilungen lassen sich ebenfalls durch Kennwerte wie Mittelwerte und Streumaße charakterisieren

ferner läßt sich der Zusammenhang zwischen den beiden Variablen in Form von Maßzahlen (Korrelationskoeffizienten) ausdrücken (s. Kapitel 5)

Kennwerte bivariater Stichproben2.4

arithmetisches Mittelzentrum ist typischer Lageparameter für bivariate Verteilungen: - Schwerpunkt einer zweidimensionalen Punktverteilung - entweder Verteilung einer Variablen in der Fläche:

Variable X : W-E-Richtung (x-Achse) Variable Y : N-S-Richtung (y-Achse)

- oder Verteilung der Untersuchungselemente bzgl. zwei Variablen:

Variable X : Temperatur (x-Achse) Variable Y : Niederschlag (y-Achse)

- Berechnung aus den arithmetischen Mittelwerten der Koordinaten:

- auch höherdimensional möglich:

n

ii

n

ii y

nyx

nxyxP

11

1und

1,,

geogr. Länge Temperatur

geo

gr.

Bre

ite

Nie

der

sch

lag

Temperaturwert Klimastation

kk xxxP ,...,, 21

Kennwerte bivariater Stichproben2.4

arithmetisches Mittelzentrum (Forts.): - P minimiert die Summe der quadrierten Abstände zwischen allen Punkten und sich selbst:

- für gruppierte Daten läßt sich der Schwerpunkt analog zum univariaten arithmetischen Mittel berechnen

gewichtetes arithmetisches Mittelzentrum, wenn statt reiner Punkt-verteilung Bezugseinheiten mit unterschiedlicher Größe (z.B. Verwaltungs-einheiten mit unterschiedlicher Einwohnerzahl):

min!

1 1

22

n

i

n

iii yyxx

l

ii

y

i

k

ii

x

i yhn

yxhn

xyxP1

*

1

* 1und

1,,

xi : Klassenmitten auf der x-Achseyi : Klassenmitten auf der y-Achsehi*: absolute Häufigkeit von xi

hi*: absolute Häufigkeit von yi

k : Anzahl der Klassen auf der x-Achsel : Anzahl der Klassen auf der y-Achse

k

ii

k

iii

gk

ii

k

iii

ggg

g

ygy

g

xgxyxP

1

ˆund

ˆ,,

: Koordinaten des Mittelpunktes der Bezugseinheit igi : Gewicht der Bezugseinheit i

häufig normiert auf:

ii yx ˆ,ˆ

k

iig

1

Kennwerte bivariater Stichproben2.4

Beispiel für Schwerpunkt von grup-pierten Daten: - Kundenwohnungen eines Kaufhauses - Aufteilung in Gitternetz mit b = 2km - Kaufhaus bei (0,0) - Schwerpunkt (n=446):

- Kundenschwerpunkt ca. 1,9 km nach Nordwesten verschoben

Beispiel für gewichteten Schwerpunkt: - Verlagerung des Bevölkerungsschwer- punktes in den USA 1754-1960 - auf Basis von bevölkerungsgewichteten Verwaltungseinheiten - Verlagerung im Zuge der Pioneerbewegung

km

yh

xh

nP

l

ii

y

i

k

ii

x

i

46,1

24,11

1

*

1

*

NW

22 yxd

Kennwerte bivariater Stichproben2.4

Modalzentrum einer bivariaten STP direkt aus zweidimensionaler Häufigkeitsmatrix (Kontingenztafel) abzulesen: - kann wie im univariaten Fall unimodal, bimodal oder multimodal sein - hier bimodal

Medianzentrum einer bivariaten STP definiert als derjenige Punkt in der Fläche, für den die Summe der Abstände zu allen anderen Punkten minimal ist:

- exakte Berechnung i.d.R. nicht möglich - stattdessen iteratives Verfahren:

- Medianzentrum kennzeichnet optimalen Standort für Betriebe und Geschäfte nach dem Prinzip der minimalen Entfernungen

min)()(),(),(),(:,!

1

22

1

n

iii

n

iiiZZ yyxxyxyxyxfyxP

a) grobmaschiges Gitternetz über die Flächeb) über alle Gitterpunkte Gj(xj,yj) wird f(Gj)=min bestimmtc) engmaschigeres Gitternetz über die Fläche der Gitterbox mit f(Gj)=mind) Iteration ab Schritt b)

Abbruch der Iteration, wenn sich Koordinaten xjund yj kaum mehr ändern

Kennwerte bivariater Stichproben2.4 Standarddistanz bei bivariaten STP entspricht Standardabweichung bei univariaten STP (Varianz und Variationskoeffizient analog): - Maß für die Streuung der Punkte auf der Fläche um den Schwerpunkt:

- auch als Maß für den mittleren Abstand aller Punkte zueinander zu verstehen:

Standarddistanz ist absolutes Streumaß, das beiunterschiedlich großen Bezugsflächen keinen Ver-gleich zulässt:

- dann relative Distanz durch Division mit Flächenmaß:

n

iiid

iici

n

ici

n

icid

yyxxn

s

yyxxddn

dn

s

1

22

,1

2

,

)()(1

)()(,11

22

,1 1

2

,2)()(,

2

1jijiji

n

i

n

jjid yyxxdd

ns

bab

d

a

d FFss ,

Kreisfläche: Quadrat:r

ss d

reld ,s

ss dreld

,

r : Radius des Kreisess : Seitenlänge des Quadrats

Kennwerte bivariater Stichproben2.4

anschaulich lässt sich sd als Kreis um den Schwerpunkt mit dem Radius

vorstellen

wie beim arithmetischen Mittelzentrum lässt sich die Standarddistanz auch im höher-(k-)dimensionalen (multivariaten) Fall berechnen:

Beispiel: Standarddistanz von Bevölkerung und zentralen Einrichtungen auf Basis von Verwaltungseinheiten in einer Großstadt:

- Standarddistanz in Metern - relative Distanz im Verhältnis zur Standarddistanz der Bevölkerung Supermärkte und Friseure streuen ähnlich stark über das Stadtgebiet wie die Bevölkerung Boutiquen, Ärzte und Banken sind stärker konzentriert

n

icidn 1

,

1

Bevölkerung Supermärkte Boutiquen Friseure Banken Ärzte

sd 2870 2440 1300 2230 780 1560

sd,rel 1 0,85 0,45 0,78 0,27 0,54

n

ikkiiikd xxxxxx

ns

1

2

,

2

22,

2

11,, )(...)()(1

“Take-away“

Bei der graphischen Darstellung von uni- und bivariaten Stichproben kommt den Häufigkeitsdiagrammen mit Messwertklassen eine zentrale Bedeutung zu.

Die empirische Verteilung von Beobachtungswerten kann durch einige wenige Maßzahlen hinreichend charakterisiert werden: Lageparameter, Streuparameter, Schiefe, Exzess.

Die Wahl der Kennwerte uni- und bivariater Verteilungen hängt vom Skalenniveau der Variablen und der Fragestellung ab.

Bei univariaten metrischen Verteilungen sind arithmetisches Mittel und empirische Standardabweichung am gebräuchlichsten.

Bei bivariaten metrischen Verteilungen sind arithmetisches Mittelzentrum und Standarddistanz am gebräuchlichsten.

Die Kennwerte der deskriptiven Statistik treffen nur Aussagen über die STP-Verteilung, nicht über die Verteilung der Grundgesamtheit.

2

deskriptive statistik 2 2.1 darstellung univariater stichproben 2.2 darstellung bivariater...

Documents

stichproben-verfahren in der annahmekontrolle

iv. Ähnlichkeitsgesetze und dimensionslose kennwerte

anhang 1: werkstoffkennwerte -...

so bestimmst du statistische kennwerte mit excel 1. 2

biostatistik, ws 2015/2016 - staff.uni-mainz.de · t-test...

stahlton ct rückbaubare boden- und felsanker · =stahlton...

kapitel 3: der t-test - lehrbuch psychologie · t-test für...

2019: jugend (16-17 jahre), stichproben a-l3, m1-m2 + n-o...

informationssystem hydrologische kennwerte – wichtige...

stks statistische tests in kleinen stichproben Übersicht...

kennwerte – stromverbrauch 1. kurzinfo · 2008. 12....

sonderdruck kennwerte und einsatz von ventilen in der...

ausgleichungsrechnung i gerhard navratil induktive statistik...

stks statistische tests in kleinen stichproben tests für 2...

bautechnische kennwerte - ytong€¦ · 8 bautechnische...

grundbegriffe und kennwerte 02_grundbegriffe_kennwerte1...

t-test bei zwei stichproben - minitab€¦ · t-test bei...

kennwerte von daten: klassenstufe 8 excel grundlagen

v. Ähnlichkeitsgesetze und dimensionslose kennwerte ·...

kapitel 8: verfahren für rangdaten · der wilcoxon-test...