stat ii 4 - gesa.tadaa-data.de old/jahrgang 17_18/slidesii/stat_ii_4.pdf · –3 sd –2 sd –1 sd...

Post on 10-Sep-2019

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ZWEISEITIGER Z-TEST

1

2

Anwendungsbeispiel

Das Angstniveau eines Patienten wird auf einer Skala von 1 bis 10 gemessen. Der Wert des Patienten liegt bei 5. In der Population sei eine Mitte von 6 und eine Streuung von 1 bei unbehandelten Patienten bekannt. Testen Sie einseitig die rechte Seite (zu große Angst). Das Testniveau beträgt 5%. War die Therapie erfolgreich? 1)  Geben Sie die Hypothesen an. 2)  Berechnen Sie den kritischen Wert. 3)  Berechnen Sie den p-Wert. 4)  Skizzieren Sie beide Werte anhand der Testverteilung. 5)  Führen Sie den Inferenzschluss durch.

Lernziele Ich kenne die Begriffe...

Zweiseitiger z-Signifikanztest Ungerichtete H1 z-Test bei beliebigem n z-Test bei unbekannter Streuung Standardfehler des Mittelwertes

Ich kann anwenden...

Alle z-Test-Varianten

4

Einseitiger Test

Stichprobenverteilung für X

xµ µ0

H0

xµ µ0

H0Kritischer Wert

Ablehnungsbereich

keine Ablehnung

Prüfgröße VH0 nicht abgelehnt

Prüfgröße XH0 abgelehnt

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.15/74

Zweiseitiger Test

Stichprobenverteilung für X

xµ µ0

H0

xµ µ0

H0Kritischer Wert

↵ 2

Kritischer Wert

↵ 2

Ablehnungsbereich Ablehnungsbereich

keine Ablehnung

Prüfgröße VH0 nicht abgelehnt

Prüfgröße XH0 abgelehnt

Prüfgröße XH0 abgelehnt

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.16/74

Fehler beim Testen

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.17/74

Wiederholung

5

Der zweiseitige z-Test

Einseitiger Test

Stichprobenverteilung für X

xµ µ0

H0

xµ µ0

H0Kritischer Wert

Ablehnungsbereich

keine Ablehnung

Prüfgröße VH0 nicht abgelehnt

Prüfgröße XH0 abgelehnt

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.15/74

Zweiseitiger Test

Stichprobenverteilung für X

xµ µ0

H0

xµ µ0

H0Kritischer Wert

↵ 2

Kritischer Wert

↵ 2

Ablehnungsbereich Ablehnungsbereich

keine Ablehnung

Prüfgröße VH0 nicht abgelehnt

Prüfgröße XH0 abgelehnt

Prüfgröße XH0 abgelehnt

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.16/74

Fehler beim Testen

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.17/74

Zweiseitiger z-Test

6

Bisher: Die durchschnittliche Lehrveranstaltungsdauer beträgt mindestens 90 Minuten! Absicherung gegen die geringere Dauer Jetzt: Die durchschnittliche Dauer kann geringer und höher ausfallen!

Hypothesen

7

Die folgenden Hypothesen kennzeichnen einen zweiseitigen Signifikanztest (two-tailed test): H0= 90 H1≠ 90 H1 nennt man in diesem Fall auch eine ungerichtete Hypothese.

8

Rahmenbedingungen Für das N(µ, 2)-verteilte Merkmal X („Dauer einer Lehrveranstaltung“)

soll bei einem Testniveau von 5%

mittels einer Zufallsstichprobe vom Umfang n=1

die Nullhypothese H0(µ=90) gegen die H1(µ ≠ 90)

(mit dem Testwert xtest=89) geprüft werden!

9

Zu bestimmen sind daher ein unterer und ein oberer kritischer Wert!

10

Inferenzschluss Ø Liegt ein Testwert unterhalb des xkrito und oberhalb

des xkritu, so ist die H0 anzunehmen. Ø Ist ein Testwert größer oder gleich xkrito bzw.

kleiner oder gleich xkritu, ist die H1 anzunehmen.

11

Berechnung des oberen kritischen Wertes:

Es gilt:

Wegen der Symmetrie:

⎟⎠

⎞⎜⎝

⎛ −≥

−=≥==

290

290)(

2025,0 90

90krito

kritoxXprobxXprobα

)(290

9090

kritokrito zZprobzXprob ≥=⎟⎠

⎞⎜⎝

⎛ ≥−

=

zkrito =1,96

xkrito − 902

= zkrito =1,96

xkrito = 90+ (1, 96*2) = 93,92

08,86)2*96,1(90 =−=kritux

95,005,01)92,9308,86( 90 =−=<< Xprob

12

Anderer Ansatz: Berechnung des p-Wertes:

Es gilt:

Der p-Wert ist größer als das halbierte Testniveau, damit H0-Annahme.

prob(X90 ≤ 89) = probX90 − 902

≤89− 902

#

$%

&

'(= prob Z90 ≤ −0,5( )

prob(Z90 ≤ −0,5) = 0,3085

DER Z-TEST FÜR EIN BELIEBIGES N & BEKANNTER STREUUNG

13

14

Vermutung Wenn man bereit ist, einen größeren Aufwand zu betreiben, indem man die Dauer einer größeren Anzahl von Lehrveranstaltungen untersucht, so kann man eine größere Sicherheit bei der Test-Entscheidung erlangen! Zielsetzung: Verwendung einer Teststatistik mit möglichst geringer Streuung in der Testverteilung

Warum ist eine geringe Streuung wichtig?

15

Herleitung: Teststatistik Vorgehen:

Jedes Element einer Zufallsstichprobe lässt sich als Realisierung eines Exemplars der Teststatistik „Xµ0

“ auffassen!

X

Xµ0 , i : i-tes Exemplar der Teststatistik „Xµ0

16

Die Teststatistik

Gebildet wird:

X

17

Feststellung: Je größer der Umfang der Zufallsstichprobe ist, desto geringer ist die Streuung der Teststatistik µ0

X__

18

Die Teststatistik Durch eine z-Transformation lässt sich erreichen:

X

Mit den Testvoraussetzungen:

19

Durchführung des z-Tests:

(d) Zu berechnen ist der folgende Testwert:

20

Durchführung des z-Tests:

21

Beispiel für einen ein- & zweiseitigen z-Test

22

Einseitiger z-Test (H1<90) & n=16

Zunächst wird berechnet:

Deswegen gilt:

Zugehöriges p-Niveau beim einseitigen z-Test:

0,0228

x_=116

(4*88)+ (8*89)+ (4*90( )) = 89

ztest =_

x − 90216

=89− 90216

= −2

23

Zweiseitiger z-Test

Für den Inferenzschluss beim zweiseitigen z-Test ist der Wert „0,0228“ daher mit dem halbierten Testniveau von „0,05“ zu vergleichen!

DER Z-TEST BEI UNBEKANNTER STREUUNG

24

25

15 Minuten Pause

http://media.w

endland-net.de/files/1/s/1sq6x8ef6yqo/im

ages_1349363034_L.jpg

z-Test ohne σ

26

Bisher: Bei der Prüfung einer unbekannten Mitte war bislang stets die Kenntnis der Streuung unterstellt worden. Jetzt: Normalerweise ist die Streuung unbekannt.

27

z-Test ohne σ

Dies ist die Standardabweichung!

Teststatistik:

Dabei ist die Stichprobenfunktion SX wie folgt vereinbart:

Realisierung dieser Stichprobenfunktion:

28

Es gilt der Zentrale Grenzwertsatz

Es gilt:

Standardfehler des Mittelwerts:

29

30

31

Der feine Unterschied zwischen sx & SEM

(=Standard Error Mean)

Originalarbeit 259

Koschack J. Standardabweichung und Standardfehler … Z Allg Med 2008 ; 84: 258 – 260

nach bestimmten Kriterien zusammengestellte Teilgruppe der eigentlichen Grundgesamtheit, z. B. 20 allgemeinmedizinische Praxen aus dem Raum G ö ttingen als Stichprobe aus der Grund-gesamtheit aller allgemeinmedizinischen Praxen in Deutsch-land. Mit anderen Worten: Der Standardfehler zeigt die theore-tische Streubreite des Stichprobenmittelwerts, im Gegensatz zur Standardabweichung, die die reale Streubreite aller Werte der Stichprobe beschreibt. Der Standardfehler wird berechnet, in- dem die Varianz s der untersuchten Patientengruppe durch die Wurzel des Stichprobenumfangs n geteilt wird:

Es wird nun gerne behauptet, die Angabe des Standardfehlers sei sinnvoll, weil damit die Genauigkeit der Messung des Mittel-werts ersichtlich wird. In einer nicht nat ü rlichen Untersu-chungssituation, wie z. B. bei Experimenten mit genetisch iden-tischen Labortieren, ist dieses Argument nachvollziehbar: Da alle Tiere identisch sind, gehen die Unterschiede zwischen der Kontrollgruppe und der Experimentalgruppe allein auf die Ver-suchsanordnung zur ü ck. Ein Beispiel w ä re ein Laborwert, in dem sich die beiden Gruppen unterscheiden, weil die Tiere un-terschiedliches Futter bekommen haben. Dass nicht alle Tiere einer Gruppe den absolut identischen Laborwert aufweisen, liegt daran, dass die Bestimmung des Laborwerts einer gewissen Ungenauigkeit unterworfen ist. Es ist nicht auf die biologische Variabilit ä t zur ü ckzuf ü hren, da diese durch den Einsatz gene-tisch identischer Tiere konstant gehalten wurde. In klinischen Studien mit Patienten hingegen interessiert genau diese biolo-gische Variabilit ä t, die durch die Standardabweichung beschrie-ben wird! Die Angabe des Standardfehlers anstelle der Stan-dardabweichung verschleiert also gelegentlich die sehr gro ß e (biologisch bedingte) Streubreite des erhobenen Werts. Im Ge-gensatz zur Standardabweichung, die nur in einem geringen Ausma ß durch die Gr ö ß e der Stichprobe beeinfl u ß bar ist, wird der Standardfehler des Mittelwerts kleiner, je gr ö ß er die Stich-probe ist. Die Angabe der Standardabweichung ist also auf jeden Fall der des Standardfehlers vorzuziehen. Im Hinterkopf sollte aber be-halten werden, dass statistische Aussagen, z. B. ü ber einen signi-fi kanten Unterschied zwischen zwei Patientengruppen, mathe-matisch auf den Standardfehler zur ü ckgehen. Die Statistik trifft eine Aussage dar ü ber, ob der Unterschied zwischen zwei Pa-tientengruppen nicht nur zuf ä llig, sondern unter Ber ü cksichti-

gung der Me ß ungenauigkeit (Standardfehler!) statistisch signi-fi kant ist ( ! " Tab. 1 ).

Ein kleines Rechenbeispiel & Ein kleines Rechenbeispiel, basierend auf Daten einer realen Studie [4] , veranschaulicht die Zusammenh ä nge zwischen Stich-probengr ö ß e und Standardfehler und damit zusammenh ä ngend die Signifi kanz von Gruppenunterschieden. Der zuvor beschrie-bene Unterschied zwischen Standardabweichung und Standard-fehler wird ebenfalls deutlich. Gegeben seien zwei Gruppen mit jeweils 15 Patienten. Beide Gruppen setzen sich zusammen aus Patienten mit kardiovasku-l ä ren Risikofaktoren; Patienten der Gruppe A1 zeigen eine ein-geschr ä nkte Ejektionsfraktion, Patienten der Gruppe B1 hinge-gen haben unauff ä llige echokardiographische Ergebnisse. Ein Mittelwertsvergleich soll nun pr ü fen, ob sich die beiden Grup-pen bez ü glich eines Laborwerts, dem sogenannten NT-proBNP (N-terminal pro-brain natriuretic peptide), signifi kant unter-scheiden. Dahinter steht die Idee, diesen Laborparameter zu-k ü nftig zur Diagnostik einer eingeschr ä nkten linksventrikul ä ren Funktion und somit als Ersatz f ü r die Echokardiographie einzu-setzen. Als statistische Spielerei werden zwei weitere Gruppen A2 und B2 mit jeweils 45 Patienten dargestellt. Deren Daten er-geben sich durch eine simple Verdreifachung der realen Werte der Gruppen A1 und B1. ! " Tab. 2 zeigt nun die Mittelwerte, Standardfehler und Standardabweichungen sowie das Ergebnis des t-Tests f ü r unabh ä ngige Stichproben, mit dem ü berpr ü ft wurde, ob sich die beiden Gruppen bez ü glich des NT-proBNP statistisch signifi kant unterscheiden. Die in ! " Tab. 2 abgebildeten Zahlen verdeutlichen, in welchem Ausma ß der Standardfehler kleiner wird, wenn die Stichproben-gr ö ß e verdreifacht wird, n ä mlich um 44 % (Gruppe A2 zu A1 = 378 zu 670 bzw. Gruppe B2 zu B1 = 25 zu 45). Die Standardabwei-chung hingegen verringert sich lediglich um 2 % (Gruppe A2 zu A1 = 2 535 zu 2 595 bzw. Gruppe B2 zu B1 = 170 zu 174). Obwohl die Mittelwerte identisch bleiben und die biologische Variabili-t ä t ( = Standardabweichung) der Laborwerte sich nur unwesent-lich verringert, wird die Ü berpr ü fung der Gruppenunterschiede signifi kant. Jeder Kliniker w ü rde selbst bei diesem signifi kanten Ergebnis z ö gern, den Laborwert f ü r eine diagnostische Entschei-dung heranziehen, wenn er die sehr gro ß en Standardabwei-chungen in den Gruppen sieht. Es ist ihm klar, dass der Ü berlap-pungsbereich der Laborwerte der beiden Gruppen sehr gro ß ist, also sehr viele Werte keine klare Entscheidung zulassen, ob eine verminderte Ejektionsfraktion vorliegt oder nicht. Allenfalls ex-trem hohe oder sehr niedrige Werte sind aussagekr ä ftig; eine Vielzahl an Werten bleibt jedoch uneindeutig. Die Angabe der Standardfehler statt der Standardabweichungen verschleiert

Tab. 1 Vergleich zwischen Standardabweichung SD und Standardfehler SEM

Standardabweichung (SD) Standardfehler (SEM)

– ist eine Aussage ü ber die Streuung der erhobenen Werte in einer Stichprobe

– ist eine Aussage ü ber die „ Genauigkeit “ des Mittelwerts in einer Stichprobe

– h ä ngt von der biologischen Variabilit ä t ab

– h ä ngt von der Me ß genauigkeit ab

– ist ein beschreibenden Ma ß – ist ein statistisches Ma ß – ist nur wenig durch die Gr ö ß e der

Stichprobe beeinfl u ß bar – steht in direktem Verh ä ltnis zur

Gr ö ß e der Stichprobe

–4 SD

x

68%

4 SD3 SD2 SD1 SD–1 SD–2 SD–3 SD

Abb. 1 Normalverteilungskurve mit x als Mittelwert und SD als Standardabweichung.

SEM = sn

32

Der feine Unterschied zwischen sx & SEM

Der Standardfehler des Mittelwertes

Die Streuung der Verteilung der Mittelwerte wird auch als Standardfehler des Mittelwertes bezeichnet.

Der Standardfehler gibt an, wie nah ein empirischer Stichprobenmittelwert durchschnittlich am wahren Populationsmittelwert liegt.

Dieser Standardfehler des Mittelwertes kann direkt ermittelt werden, ohne dass man mehrere Stichproben erheben muss:

NNxx

xσσ

σ

==

2

- 33

Der Standardfehler des Mittelwertes

Beispiel: In einer bestimmten Population, z.B. in einer Hochbegabten-Klasse, soll für ein Forschungsprojekt der mittlere IQ bestimmt werden. Es werden 10 Kinder getestet.

Es ergibt sich ein Mittelwert von 125 bei einer geschätzten Populationsvarianz von 90.

Wie groß ist der Standardfehler dieses Mittelwertes?

Wie groß wäre der Standardfehler bei einer Varianz von 250?

Und wie groß, wenn 90 Kinder getestet worden wären?

391090

===xσ

52510250

===xσ

119090

===xσ- 34

Interpretation des Standardfehlers

Der Standardfehler ist die Standardabweichung der Stichprobenkennwerteverteilung. Da diese normalverteilt ist, kann die Wahrscheinlichkeit dafür berechnet werden, dass der Mittelwert in einem bestimmten Intervall liegt.

118 121 124 =127 130 133 136

0

0,1

0,2

0,3

0,4

M=125

Mit p=.68 ist der Populationsmittelwert höchstens einen Std.-Fehler vom Stichprobenmittelwert entfernt

- 35

Wichtig! Standardfehler Standardabweichung

Varianz

≠Standardabweichung der Stichprobenkennwert- Verteilung Standardfehler des Mittelwertes

NNxx

xσσ

σ

==

2

Streuung der Stichprobenkennwerte um den Mittelwert Populationsschätzer

1

)(ˆ 1_

22

−=∑

N

xxN

i ixσ

37

Standardfehler des Mittelwerts

Ø Untersucht man mehrere Stichproben aus derselben Population, wird man unterschiedliche Mittelwerte erhalten. Trotz großer Standardabweichung werden die Mittelwerte nahe beieinander liegen. Die Abstände zwischen den Mittelwerten werden umso kleiner, je größer n.

Ø Der Standardfehler des Mittelwerts liefert ein Maß dafür, wie sehr sich Mittelwerte unterschiedlicher Stichproben aus einer Population mit wahrem Mittelwert unterscheiden. Damit ist er ein Maß für die Genauigkeit, mit welcher der wahre Mittelwert durch einen Stichprobenmittelwert geschätzt wird.

38

Berechnung mit SPSS & R

FREQUENCIES VARIABLES=X /FORMAT=NOTABLES/STATISTICS=SEMEAN.

x <- c(1,2,3,4)!!

library(plotrix)!std.error(x)!!

Oder auch von Hand:!!

(var(x) / length(x))^.5!

39

Beim zweiseitigem z-Test akzeptieren Sie die H1, wenn ... a)  SN>TN b)  Testwert<xkrito

c)  Testwert<xkritu d)  TN>SN

40

Beispiel für einen ein- & zweiseitigen z-Test mit unbekannter Streuung

41

Testwert für den z-Test bei unbekannter Streuung:

Beispiel:

n=36 5,89=x

resultierender Testwert:

zugehöriger p-Wert: 0,0475

Testniveau: 0,05

zweiseitiger Test: einseitiger Test:

kein signifikantes Testergebnis! signifikantes Testergebnis!

sx =1,8

42

Anwendungsbeispiel Einseitiger Test auf Mittelwert // Beispiel

Bei einem neuen Automodell wurde bei 50 getesteten Fahrzeugenein durchschnittlicher Benzinverbrauch von x 6.7 l/100 kmermittelt. Vergleichbare Fahrzeuge haben eine Benzinverbrauchvon 6.8 l/100 km. Es ist außerdem bekannt, dass die Standard-abweichung 0.52 l/100 km beträgt.

Kann man bei einem Signifikanzniveau von ↵ 1% schließen,dass das neue Modell durchschnittlich weniger Benzin verbraucht?

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.36/74

Einseitiger Test auf Mittelwert // Lösung

H0: µ 6.8

HA

: µ 6.8

↵ 0.01

n 50

Kritischer Wert: 2.33

02.33

1%

H0 ablehnen

V

Teststatistik:

Z X µ0� n

6.7 6.80.52 50

1.36

Entscheidung:H0 wird nicht abgelehnt.

Interpretation:Das Modell verbraucht nichtsignifikant weniger Benzin.

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.37/74

Beobachtetes Signifikanzniveau:

Der p-Wert.

Eine andere Sichtweise

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.38/74

----------- Test

43

44

Anwendungsbeispiel

Der p-Wert

Dient zur Entscheidung, ob abgelehnt werden soll.H0 wird abgelehnt, falls p-Wert ↵.H0 wird nicht abgelehnt, falls p-Wert ↵.

Beobachtetes Signifikanzniveau.Kleinster Wert für ↵, für den H0 abgelehnt werden muss.

Ist die Wahrscheinlichkeit eine Teststatistik zu erhalten, diezumindest so extrem ( , ) ist wie die beobachteteTeststatistik, unter der Voraussetzung, dass H0 zutrifft.

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.39/74

Zweiseitiger Test auf Mittelwert // p-Wert

Eine Packung Cornflakes enthält laut Verpackung durchschnittlich368 g. Bei 25 zufällig ausgewählten Packungen wird eineDurchschnittsmenge von x 372.5 g festgestellt. Die Abfüll-maschine arbeitet mit einer Präzision von � 15 g.

Wie lautet der p-Wert?

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.40/74

Zweiseitiger Test auf Mittelwert // p-Wert

Z X µ0� n

372.5 36815 25

1.5 (Krit. Werte bei ↵ 0.05 : 1.96)

p-Wert P Z 1.5 oder Z 1.5 2 0.5 0.4332 0.1336

01.5 1.51.96 1.96

12 p-Wert 1

2 p-Wert0.4332

aus Tabelle

p-Wert ↵ 0.05, H0 wird nicht abgelehnt.

dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.41/74

top related