verteilungen & zentralmaße old/jahrgang 17_18/slides/stat_2.pdf · allgemeiner begriff...

Post on 03-Aug-2020

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Verteilungen & Zentralmaße

2

Ø Kurs Statistik & R Kurs Felix Wirth Termine: wöchentlich Do 10-14.00 fällt aus! Im Vorlesungsverzeichnis stehen aktuell: Sa 25.11.17 - So 26.11.17 (So, Sa) 09:00 - 17:00 Sa 16.12.17 - So 17.12.17 (So, Sa) 09:00 - 17:00 Sa 27.01.18 - So 28.01.18 (So, Sa) 09:00 - 17:00 Bitte achten Sie auch auf die Informationen auf den Folien von Felix Wirth! Der Klausurtermin wird bis 31.10. bekanntgegeben! Am 31.10. fällt der Kurs wegen eines Feiertags aus!

Nachtrag: Organisation

3

Verteilungen & Zentralmaße

http

://de

r-fa

rang

.com

/de/

page

s/aut

o-un

d-al

koho

l-ver

trag

en-s

ich-

nich

t

Alkohol erhöht die Verkehrssicherheit

5

Super, dann kann es ja losgehen...

Abgleich der Lernziele

Ich kenne die Begriffe... Kumulierte Häufigkeiten Quantile Klassierung Diskretes Merkmal Kontinuierliches Merkmal Histogramm Arithmetisches Mittel Median Modus

Ich kann anwenden... Zentralmaße berechnen

Was sind kumulierte Häufigkeiten?

7

Studie

8

A. HesselM. GeyerT. GunzelmannJ. SchumacherE. Brähler

Somatoforme Beschwerdenbei über 60-Jährigen in Deutschland

Z Gerontol Geriat 36:287–296 (2003)DOI 10.1007/s00391-003-0117-x

ZGG

117

Eingegangen: 3. Juni 2002Akzeptiert: 26. Juli 2002

Dr. med. Aike Hessel ())Prof. Dr. Michael GeyerUniversität LeipzigKlinik und Poliklinik für Psychotherapieund Psychosomatische MedizinK.-Tauchnitz-Str. 2504107 Leipzig, Germany

Jörg SchumacherUniversität LeipzigInstitut für Angewandte PsychologieSeeburgstr. 14–2004103 Leipzig, Germany

Prof. Dr. Elmar BrählerSelbständige Abteilungfür Medizinische Psychologieund Medizinische SoziologieLiebigstr. 2104103 Leipzig, Germany

Thomas GunzelmannKaulbachstr. 4590408 Nürnberg, Germany

Somatoform complaints in elderlyof Germany

n Zusammenfassung In der vor-liegenden Arbeit wird die Präva-lenz somatoformer Beschwerdenbei älteren Personen berichtet.Dazu wurden im Rahmen einerbevölkerungsrepräsentativen Er-hebung 630 über 60-jährige Per-sonen mittels des SOMS 2 (Scree-ning für Somatoforme Störungen,Rief et al. 1997) zur Häufigkeit

somatoformer Beschwerden be-fragt. Wie sich zeigt, sind soma-toforme Beschwerden im Altersehr verbreitet. So berichten fastDreiviertel der Befragten (71,8%)von mindestens einem Symptom,mehr als die Hälfte (50,5%) vonmindestens 4 Symptomen undfast ein Viertel (23,4%) von min-destens 8 Symptomen. Die Häu-figkeit somatoformer Symptomebei über 60-Jährigen ist im Ver-gleich zu den bis 60-Jährigen umein Vielfaches höher. Besondershäufig berichten die Befragtenüber Schmerzen unterschiedlicherLokalisationen. Im Gegensatz zuBefunden aus jüngeren Alters-gruppen schildern die älterenFrauen nicht mehr somatoformeBeschwerden als die älteren Män-ner. In Abhängigkeit vom Alter(„junge“ vs. „alte Alte“) findetsich eine Zunahme somatoformerBeschwerden mit steigendem Al-ter.

Die extreme Häufigkeit soma-toformer Einzelbeschwerden beiälteren Menschen steht in deutli-chem Gegensatz zu den in dervorliegenden Arbeit ermitteltensehr geringen Prävalenzen defi-nierter somatoformer Störungennach DSM-IV bzw. ICD-10 (0%bis 0,3%). Die ohnehin schongroßen Mängel in der Wahrneh-mung von Somatisierung im Alterwerden durch diese extreme Un-terschätzung der wahren Präva-

lenz somatoformer Störungendurch die restriktiven Kriteriender Diagnosesysteme weiter ver-stärkt.

n SchlüsselwörterSomatoforme Beschwerden –Somatisierung

n Summary The aim of this pa-per is to report on the prevalenceof somatoform disorders in olderage. A total of 630 representa-tively selected persons older than60 years were asked to completethe questionnaire SOMS 2(Screening for somatoform disor-ders, Rief et al., 1997). The resultsshow that somatoform pain isvery common in old age. Of thepeople, 71.8% report at least onesymptom, 50.5% on at least foursymptoms and 23.4% suffer fromat least eight symptoms. The fre-quency of somatoform symptomsis much higher in people over 60years old than in persons who areyounger than 60 years old. Painis very often localized in severalbody regions. In contrast to find-ings from younger age groups,older women do not report moresomatoform pain than older men.When looking at the differencesbetween “young olds” and “oldolds” somatoform pain increaseswith increasing age. The high fre-quency of somatoform pain inolder people is in clear contrast

ORIGINALARBEIT

Kumulierte Prozentzahlen

9

Tabelle 4 zeigt jeweils den Anteil der Untersu-chungspersonen, die eine bestimmte Zahl von Symp-tomen berichtet.

n Somatisierungsindices

Der SOMS bietet in Form der sog. Somatisierungs-indices eine weitere Auswertungsmöglichkeit an. DieSomatisierungsindices „Somatisierungsindex DSM-IV“ (Somatisierungsstörung nach DSM-IV), „Soma-tisierungsindex ICD-10“ (Somatisierungsstörungnach ICD-10) und „SAD-Index ICD-10“ (Somatofor-me autonome Funktionsstörung nach ICD-10) wer-den gebildet, indem die für die jeweilige Diagnoserelevanten Symptome unter Kontrolle der Ein- undAusschlusskriterien zusammengezählt werden:n Somatisierungsstörung nach DSM-IV: 33 Sympto-

me; keine adäquate körperliche Ursache, statt-gehabte Behandlungsversuche, Beginn vor dem

30. Lebensjahr, Bestehen seit mehreren Jahren,deutliche soziale, berufliche und andere Beein-trächtigungen;

n Somatisierungsstörung nach ICD-10: 14 Symptome;keine adäquate körperliche Ursache, Vorgeschichtevon mindestens 2 Jahren, andauerndes Leiden,mindestens 3 Arztkonsultationen bzw. andauerndeMedikation, Weigerung zu akzeptieren, dass keineausreichende körperliche Ursache vorliegt, Auftre-ten der Symptome nicht in Zusammenhang mit ei-ner phobischen oder Panikstörung;

n Somatoforme autonome Funktionsstörung nachICD-10: 12 Symptome; keine adäquate körperlicheUrsache, Auftreten der Symptome nicht in Zusam-menhang mit einer phobischen oder Panik-störung.

Die erzielten Befunde können jedoch nicht mit demVorliegen der entsprechenden Störung gleichgesetztwerden, da die in DSM-IV und ICD-10 für die Diag-nosevergabe geforderten Aufteilungen der Symptome(bestimmte Symptomzahlen innerhalb verschiedenerOrgansysteme) nicht berücksichtigt werden. Den-noch kommt es infolge der rigiden Limitierungdurch die Ein- und Ausschlusskriterien zu einer ex-tremen Reduzierung der Zahl der Untersuchungsper-sonen, für die die Somatisierungsindices überhauptberechnet werden dürfen. In der vorliegenden Stich-probe erfüllen lediglich drei Untersuchungspersonen(0,6%) die Ein- und Ausschlusskriterien für den „So-matisierungsindex DSM-IV“, fünf Personen (0,8%)die für den „Somatisierungsindex ICD-10“ und 12Personen (1,9%) die für den „SAD-Index ICD-10“.Wegen dieser geringen Stichprobenzahl wird auf dieDarstellung weiterer statistischer Angaben verzichtet.

292 Zeitschrift für Gerontologie und Geriatrie, Band 36, Heft 4 (2003)© Steinkopff Verlag 2003

Tab. 3 Beschwerdenindex

Gesamt(exkl.geschlechts-spezifische Items)

Frauen(inkl.„Frauenitems“)

Männer(inkl.„Männeritems“)

Mittelwert 4,8 4,9 4,8Standard-abweichung

5,2 5,2 5,2

Median 4 4 4Interquartil[25/75%]

[0,65/7,13] [0,68/7,65] [0,66/6,8]

Abb. 1 Kumulierte Häufigkeiten des SOMS-Beschwerdenindex

Präsentation von empirischen Verteilungen xj fj hj pj

30 5 0,10 10%

31 3 0,06 6%

32 4 0,08 8%

33 20 0,40 40%

34 2 0,04 4%

35 2 0,04 4%

36 8 0,16 16%

38 2 0,04 4%

39 3 0,06 6%

40 1 0,02 2%

Summe 50 1,00 100%

Kumulierte Häufigkeiten Ø Das Anwachsen der relativen oder prozentualen

Häufigkeiten von der kleinsten bis zur höchsten xj wird durch kumulierte Häufigkeiten (=Summenhäufigkeit) beschrieben werden.

Ø Sie geben Hinweise auf einzelne xj sowie den Gesamtverlauf einer Verteilung und dienen ebenfalls der Gliederung von Verteilungen

Kumulieren= Aufsummieren

Empirische Verteilungfunktion▲

xj fj hj pj 30 5 0,10 10% 31 3 0,06 6% 32 4 0,08 8% 33 20 0,40 40% 34 2 0,04 4% 35 2 0,04 4% 36 8 0,16 16% 38 2 0,04 4% 39 3 0,06 6% 40 1 0,02 2% Summe 50 1,00 100%

Empirische Verteilungsfunktion

Wieviel % der Werte treten unter 33 auf?

Weniger als 25%

[30; 35]

xj fj hj Hj pj Pj 30 5 0,10 0,10 10% 10% 31 3 0,06 0,16 6% 16% 32 4 0,08 0,24 8% 24% 33 20 0,40 0,64 40% 64% 34 2 0,04 0,68 4% 68% 35 2 0,04 0,72 4% 72% 36 8 0,16 0,88 16% 88% 38 2 0,04 0,92 4% 92% 39 3 0,06 0,98 6% 98% 40 1 0,02 1,00 2% 100% Summe 50 1,00 100%

[39; 40]

Warum gliedern wir jetzt Verteilungsverläufe mit Hilfe kumulierter Häufigkeiten?

15

1.  Weil wir oft keine detailreichen Einzelinformationen benötigen, sondern in „Bereichen“ denken.

2. In Testverfahren nutzen wir diese Form der Gliederung (wie viel Prozent liegt unterhalb eines Wertes?).

3. Nur mit Hilfe der kumulierten Häufigkeiten können diese Aussagen getroffen werden.

Gliederung einer Verteilung Ø Gliederung in 4 Gruppen/Teilflächen: Ø Bei einer solchen Gliederung in Flächenanteile

von jeweils genau oder annähernd 25% ergeben sich 3 Trennwerte. Diese Trennwerte werden als Quartile bezeichnet.

Ø Zur eindeutigen Bestimmung der Quartile besteht folgende Konvention:

Gliederung einer Verteilung Ø Das 1. Quartil (Q1) ist der Wert, unterhalb dessen

bis zu höchstens 25% der Merkmalsträger liegen. Ø Das 2. Quartils (Q2) ist der Wert, unterhalb dessen

bis zu höchstens 50% der Merkmalsträger liegen. Ø Das 3. Quartils (Q3) ist der Wert, unterhalb dessen

bis zu höchstens 75% der Merkmalsträger liegen.

Häufigkeit Prozente Kumulierte Prozente

1 3 20,0 20,0 2 1 6,7 26,7 3 3 20,0 46,7 4 1 6,7 53,3 5 3 20,0 73,3 6 1 6,7 80,0 7 3 20,0 100,0

Beispiel

Wo liegen die Quartile?

19

Häufigkeit Prozente Kumulierte Prozente

1 3 37,5 37,5 2 1 12,5 50,0 3 1 12,5 62,5 4 3 37,5 100,0

1, 3, 4

Häufigkeit Prozente Kumulierte Prozente

1 1 12,5 12,5 2 2 25,0 37,5 3 4 50,0 87,5 4 1 12,5 100,0

2, 3, 3

Gliederung in Dezile Ø Verteilungsflächen können auch in 10 (annährend)

gleich große Teilflächen eingeteilt werden. Ø Die 9 Trennwerte nennt man dann Dezile Ø Unterhalb des 1. Dezils liegt bis zu höchstens

10% der Verteilungsfläche Ø Unterhalb des 2. Dezils liegt bis zu höchstens

20% der Verteilungsfläche Ø ….

Gliederung in Perzentile Ø Die Verteilungsfläche wird in 100 (annähernd)

gleich große Teilflächen geteilt Ø Die 99 Trennwerte nennt man Perzentile Ø Unterhalb des 1. Perzentils liegt bis zu höchstens

1% der Verteilungsfläche Ø Unterhalb des 2. Perzentils liegt bis zu höchstens

2% der Verteilungsfläche Ø …

Allgemeiner Begriff Quantile Ø Quartile, Dezile und Perzentile sind Beispiele für

Quantile. Ø Ein Quantil ist eine Gliederung in eine bestimmte

Fläche. Ø Für eine vorgegebene relative Häufigkeit hj

kennzeichnet das h-Quantil diejenige Ausprägung xj unterhalb der bis zu höchstens h*100% der Verteilungsfläche liegt.

Ø Daher gilt: 1. Quartil= 0,25-Quantil, 2. Quartil= 0,5-Quantil, 3. Quartil= 0,75-Quantil

Warum klassieren wir?

23

1.  Wir wollen Informationen reduzieren.

2. Wenn nur wenige Informationen vorliegen. Zum Beispiel: Es gibt viele xj, aber nur geringe fj.

3. Wir wollen Gruppen bzw. Klassen bilden.

Klassierung von Daten Ø Klassierung = Gruppenbildung, Klassenbildung Ø Eine Zusammenfassung von einzelnen xj bewirkt

aber immer einen Informationsverlust und deshalb ist Vorsicht mit statistischen Formeln geboten!!

Grundsätzlich sollte die Klassierung inhaltlich begründet werden können. Eine Klassierung sollte nie den ursprünglichen Verteilungsverlauf wesentlich verfälschen.

Beispiel Schulleistung

Verteilung vor Klassierung

LEISTUNG

LEISTUNG

987654321

Häufigkeit

120

100

80

60

40

20

0

Beispiel Schulleistung

leist1

leist1

3,002,001,00

Häufigkeit

200

100

0

Verteilung nach zulässiger Klassierung

Beispiel Schulleistung

leist1

leist1

3,002,001,00

Häufigkeit

160

140

120

100

80

60

40

20

0

Verteilung nach unzulässiger Klassierung

28

Ungeeignete Klassenbreite verdeckt Strukturen in den Daten

29

Geeignete Klassenbreite enthüllt Strukturen in den Daten

Klassierung von Daten Bei einer Klassierung unterscheidet man diskrete und kontinuierliche Merkmale

Diskretes Merkmal = Alle xj sind konkret vorgegeben. Jede xj ist exakt ermittelbar und durch eine Zuordnung oder (potentiell) durch einen Zählvorgang bestimmbar. Beispiel: Konkrete Punktzahlen in einem Test

Klassierung von Daten Kontinuierliches Merkmal: Die xj sind Zahlen eines Intervalls, welches auch durchaus beliebig große positive bzw. negative Zahlen enthalten kann. Die xj lassen sich meistens nur näherungweise bestimmen. Es sind unendlich viele, fein abgestufte Merkmalsausprägungen denkbar. Beispiele: Temperatur, Körpergröße

Klassierung von Daten: Grafiken Bei einem diskreten Merkmal grenzen die Klassen der Klassierung nicht direkt aneinander. Bei einem kontinuierlichem Merkmal grenzen die Klassen direkt aneinander und es unterliegt der Vereinbarung, ob eine Klassengrenze der Klasse mit den kleineren oder den größeren Werten zugerechnet wird.

Klassierung von Daten Ø Um die Häufigkeitsverteilung eines

kontinuierlichen Merkmals grafisch zu beschreiben, müssen die durch die Klassierung entstandenen Intervalle diejenigen Säulenflächen darstellen, die die hj bzw. pj repräsentieren, mit denen xj in dem Intervall auftreten.

Ø Grafische Darstellung durch ein Histogramm

Beispiel: Histogramm

Homers-Art der Gliederung: Die Verteilungsfläche von 100% leidet...

35

36

Kleine Pause zur Stärkung (15 Minuten)!

37

Verteilungen & Zentralmaße

Kennzeichnung des Zentrums Ø Bislang wurden Verfahren vorgestellt, mit denen

sich Verteilungen von Merkmalen im Hinblick auf den jeweils gesamten Verteilungsverlauf beschreiben lassen.

Ø Jetzt: Aussage über charakteristische Maßzahlen Ø Sofern eine Maßzahl eine summarische Aussage

über den Informationsgehalt der erhobenen Daten macht, wird sie als Statistik bezeichnet.

Kennzeichnung des Zentrums Ø Zur Kennzeichnung des Zentrums einer Verteilung

wird als Lagemaß die zentrale Tendenz verwendet.

Ø Der hierdurch bestimmte Wert lässt sich als typischer Wert ansehen- im Sinne von:

Ø Durchschnittswert oder mittlerer Wert Ø Zentrale Tendenzen sind vom Skalenniveau

abhängig

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø Arithmetisches Mittel (kurz: Mittelwert, engl. mean):

Summe aller Werte eines Merkmals X geteilt durch die Anzahl der Werte n

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø Vereinfachte Berechnung z.B. durch:

Werte xj brauchen nur mit den fj multipliziert werden

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø Konvention: Ø Bei einer empirischen Verteilung wird das Zentrum

eines intervallskalierten Merkmals als Mittelwert und bei einer theoretischen Verteilung als Mitte beschrieben.

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø ACHTUNG: Bei der Berechnung des Mittelwerts gehen alle Werte gleichgewichtig in die Summe ein. Somit haben statistische Ausreißer, Outliers (extrem kleine oder extrem große Werte) eventuell einen verzerrenden Einfluß auf den Mittelwert.

Zentrale Tendenz bei intervallskalierten Merkmalen Ø Um statistische Ausreißer von der Berechnung

eines Mittelwerts auszuschließen, kann man z.B. einen um 5% getrimmten Mittelwert ermitteln, d.h. vor der Berechnung des Mittelwerts werden an beiden Verteilungsenden jeweils bis zu höchstens 5% der Verteilungsfläche abgeschnitten.

Ø Bei unimodalen/symmetrischen Verteilungen nur möglich!!!

Beispiel: Histogramm

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø Minimumeigenschaft des Mittelwerts: Ø Der Mittelwert ist derjenige Wert, der von allen

erhobenen Daten die geringste quadratische Abweichung besitzt. Dies bedeutet, dass die Summe der quadratischen Abweichungen aller Werte von einer beliebigen vorgegebenen Zahl x minimal ist, wenn man den Mittelwert für x einsetzt.

Zentrale Tendenz bei intervallskalierten Merkmalen

Ist minimal, wenn x= Mittelwert Jede andere Zahl x nimmt einen größeren Wert an!!

Es handelt sich hier um die Summe der Abweichungsquadrate, da die reine Summe der Abweichungen vom Mittelwert 0 ergibt.

Bitte mit Daten testen!

Zentrale Tendenz bei intervallskalierten Merkmalen

Ø Minimum Eigenschaft (Vorschau): Ø Soll unter Unkenntnis des jeweils tatsächlichen

Wertes für jeden Merkmalsträger seine Merkmalsausprägung vorhergesagt werden, so stellt der Mittelwert den besten Prognosewert dar, da die Summe der Abweichungen von den tatsächlichen Werten am geringsten ist.

Kommt später..., KEINE SORGE!!!

Trügerische  Mi,e  

Zentrale Tendenz bei ordinalskalierten Merkmalen

Ø Bei ordinalskalierten Merkmalen verwendet man als Kennzeichnung des Zentrums den Median (Zentralwert).

Ø Der Median ist definiert als das 2. Quartil, d.h.

unterhalb dieses Wertes liegt bis zu höchstens 50% der Verteilungsfläche.

Zentrale Tendenz bei ordinalskalierten Merkmalen

Ø anderes Verfahren zur Bestimmung:

Ø Ordne Daten aufsteigend nach Größe

Ø Der Median ist dann -  der mittlere Wert (ungerade Anzahl von Daten) -  der Mittelwert der beiden mittleren Werte (gerade Anzahl von Daten)

Zentrale Tendenz bei ordinalskalierten Merkmalen

Beispiele

53

Bitte bestimmen Sie den Median der folgenden Datenreihen: a) 2, 2, 3, 4, 4, 4, 4, 4 b) 100, 200, 300, 400, 500 c) 100, 200, 300, 400, 500, 6 000, 6 000 d) 5, 8, 8, 19, 22, 22, 45

Zentrale Tendenz bei ordinalskalierten Merkmalen

Ø Der Median ist unempfindlich gegenüber statistischen Ausreißern

Ø Der Median kann auch bei asymmetrischen und multimodalen Verteilungen berechnet werden

Mittleres Einkommen in Deutschland

55

„Das Mittlere Einkommen ... bezeichnet die Einkommenshöhe, das diejenige Person ... erhält, die die Menge der Personen in zwei gleich große Hälften teilt, die Hälfte der reicheren Personen und die der ärmeren Personen. Damit definiert der Median das mittlere Einkommen.“

(Wikipedia)

Median vs. Mittelwert

56

IQ von 20 Schülern MW: 101,4 MD: 101,2

+ 1 Schüler mit IQ 140 MW: 103,3 MD: 101,3

Apps

57

Median und Mittelwert im Vergleich App: http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html

Apps

58

Median und Mittelwert im Vergleich App: http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html

Zentrale Tendenz bei nominalskalierten Merkmalen

Ø Der Modus (Modalwert) kennzeichnet die zentrale Tendenz bei nominalskalierten Merkmalen.

Ø Der Modus ist definiert als derjenige Wert, der die größte absolute Häufigkeit fj besitzt.

Zentrale Tendenz bei nominalskalierten Merkmalen

61

Often cited quote

„... and the time may not be very remote when it will be understood that for complete initiation as an efficient citizen ... it is as necessary to be able to compute, to think in averages and maxima and minima, as it is now to be able to read and write.“ Herbert G. Wells (1866 - 1946) from his book Mankind in the Making.

Abgleich der Lernziele

Ich kenne die Begriffe... Kumulierte Häufigkeiten Quantile Klassierung Diskretes Merkmal Kontinuierliches Merkmal Histogramm Arithmetisches Mittel Median Modus

Ich kann anwenden... Zentralmaße berechnen

64

Variabilitätsmaße

Lernziele

Ich kenne die Begriffe... Variation Varianz Standardabweichung

Ich kann anwenden... Berechnungen per Hand

Warum müssen wir uns mit Variabilität beschäftigen?

66

1.  Weil ein Mittelwert alleine nichts darüber aussagt, wie die ursprünglichen Werte sich verteilen.

2. In Testverfahren wollen wir z.B. wissen, ob Personen einen ähnlichen IQ besitzen oder ob sie sehr unterschiedlich sind. (Für alle anderen Erhebungsverfahren gilt dieses natürlich auch)

3. Menschen sind unterschiedlich. Dieses berücksichtigt ausnahmsweise auch mal die Statistik. J

67

Kennzeichnung der Variabilität Ø Aussagen über die Konzentration der Werte um

das Zentrum (weitläufig oder eng) Ø Zielsetzung: Anhand von Statistiken der

Variabilität (Dispersion) können Aussagen über die Ähnlichkeit bzw. Unterschiedlichkeit von Merkmalsträgern im Hinblick auf einzelne Mermale getroffen werden.

Ø Statistiken zur Kennzeichnung der Variabilität sind besonders gut für einen Vergleich mehrerer Gruppen von Merkmalsträgern geeignet.

Beispiel: Histogramm

70

71

Abb.: Verteilungen der absoluten Häufigkeiten der Merkmale Leistung und Urteil auf Basis der Gesamtstichprobe

72

Abb.: Verteilungen der absoluten Häufigkeiten des Merkmals Leistung nach Geschlecht (links Männer, rechts Frauen)

Kennzeichnung der Variabilität Ø Fragestellung: Liegt Homogenität oder

Heterogenität der Merkmalsträger vor? Antwort: Eine geeignete Statistik zur Kennzeichnung der Variabilität mit folgender Eigenschaft wird gesucht: Ø Je kleiner der Wert der Statistik, desto häufiger

treten Werte auf, die relativ nahe am Zentrum liegen.

Kennzeichnung der Variabilität Ø Beispiel für unterschiedlich homogene Gruppen

(z.B. 1. Gruppe Männer und 2. Gruppe Frauen):

Bewertung der Dozenten-Performance

75

Gleiche durchschnittliche Performance, aber unterschiedliche Schwankungsbreite

M=7,5 M=7,3

çè

Folie Heckmann

Variabilität intervallskalierter Merkmale

Ø Insgesamt gibt es mehrere Ansätze zur Bestimmung der Variabilität bei intervallskalierten Merkmalen

Ø 1. Ansatz: Variation

= Summe der quadratischen Abweichungen vom Mittelwert Synonyme: -  Summe der Abweichungsquadrate -  engl.: Sum of Squares (SSQ)

Bewertung der Dozenten-Performance

77

Gleiche durchschnittliche Performance, aber unterschiedliche Schwankungsbreite

M=7,5 M=7,3 Variation=11,6 Variation=89,9

78

10 Minuten Pause

http://media.w

endland-net.de/files/1/s/1sq6x8ef6yqo/im

ages_1349363034_L.jpg

Tafelbild

79

Variabilität intervallskalierter Merkmale

Ø Die Verwendung der Variation ist problematisch, da die Gruppengröße n nicht einbezogen wird

Ø Bspw. für Gruppe 1: Ø Variation = (33-35)2 + (37-35)2 = 4 + 4 = 8

Variabilität intervallskalierter Merkmale Ø Um unterschiedlich große Gruppen vergleichen zu

können, teilt man die Variation durch die Anzahl der Freiheitsgrade.

Ø Anzahl der Freiheitsgrade= Bei einer Datenbasis mit n Werten müssen genau n-1 Werte vorgegeben sein, damit sich der n-te Wert aus der Kenntnis des Mittelwerts errechnen und die Variation bestimmen lässt.

Ø Freiheitsgrade (engl. degrees of freedom, kurz: df)

Variabilität intervallskalierter Merkmale

Ø Aus der Normierung der Variation mittels der Freiheitsgrade resultiert die Statistik Varianz sx² (=Variance)

Varianz = Variation geteilt durch die Anzahl der Freiheitsgrade = Summe der Abweichungsquadrate / Freiheitsgrade

Variabilität intervallskalierter Merkmale

Ø Die Verwendung der Variation ist problematisch, da die Gruppengröße n nicht einbezogen wird

Ø 1. Gruppe:

Ø 2. Gruppe:

Variabilität intervallskalierter Merkmale

Ø Generell gilt: Ø Je kleiner die Varianz, desto eher repräsentiert der

Mittelwert die Gruppe der Merkmalsträger. Ø Problem der Varianz: Ø Die Maßeinheit wird im Quadrat berechnet!!!

Bewertung der Dozenten-Performance

85

Schwankungsbreite wird durch die Varianz beschrieben

Varianz: 0,4 Varianz: 3,1

M=7,5 M=7,3 Variation=11,6 Variation=89,9

Variabilität intervallskalierter Merkmale

Ø Um die Variabilität in der Maßeinheit zu kennzeichnen, in der die Ausprägungen des Merkmals erhoben wurden, wird die Statistik Standardabweichung sx (3. Ansatz) verwendet.

Positive Quadratwurzel aus der Varianz Standardabweichung (engl. Standard deviation, kurz S.D. oder SD)

Bewertung der Dozenten-Performance

87

Schwankungsbreite wird durch die Standardabweichung anschaulich

SD: 0,63 SD: 1,76

SD SD

Varianz: 0,4 Varianz: 3,1

M=7,5 M=7,3 Variation=11,6 Variation=89,9

Variabilität intervallskalierter Merkmale

Ø Maßzahl zur Kennzeichnung der Standardabweichung einer theoretischen Verteilung: Streuung

Ø Bei einer empirischen Verteilung wird das Zentrum durch den Mittelwert und die Variabilität um den Mittelwert durch die Standardabweichung gekennzeichnet.

Ø Bei einer theoretischen Verteilung wird das Zentrum durch die Mitte und die Variabilität um die Mitte durch die Streuung beschrieben.

Herr M. Itte als Jäger unterwegs...

89

Abgleich der Lernziele

Ich kenne die Begriffe... Variation Varianz Standardabweichung

Ich kann anwenden... Berechnungen per Hand

top related