schließende statistik 4 4.1 schätzverfahren 4.2 fehlerrechnung 4.3 prinzip statistischer tests 4.4...

Schließende Statistik

4

4.1 Schätzverfahren

4.2 Fehlerrechnung

4.3 Prinzip statistischer Tests

4.4 Statistische Tests für Intervalldaten

4.5 Statistische Tests für Ordinaldaten

4.6 Statistische Tests für Nominaldaten

Schließende Statistik4

Anliegen der schließenden Statistik ist es, aus vorliegenden Daten (Stichproben) auf die Eigenschaften der entsprechenden Grundgesamtheit zu schließen : - deskriptive Statistik: Beschreibung der empirischen Kennwerte und Verteilungen von Stichproben (Kapitel 2) - Wahrscheinlichkeitstheorie: Definition eines theoretischen Modells mit Merkmalsraum, Ereignisfeld und Wahrscheinlichkeiten (Kapitel 3) schließende Statistik: Verbindung zwischen Empirie und Theorie

Zufallsvariable IQ:

STP GG

schließende

Statistik

Mittelwertempirische Varianzrelative Häufigkeiten

ErwartungswertVarianzWahrscheinlichkeit

Schließende Statistik4 in der schließenden Statistik gibt es zwei Arten von Fragestellungen: 1.) Frage nach den Eigenschaften (Parametern) der GG gegeben eine STP (Schätzverfahren) 2.) Frage nach Zugehörigkeit einer oder mehrerer STP zu einer bzw. der gleichen GG (Prüfverfahren)

da eine STP eine Zufallsauswahl aus der GG darstellt, sind die Aussagen der schließenden Statistik immer Wahrscheinlichkeitsaussagen und mit einer bestimmten Unsicherheit behaftet

Schätz- und Prüfverfahren basieren auf sog. STP-Funktionen: Schätz- und Prüffunktionen (manchmal beides)

Gehören die Temperatur-änderungen in A1 und B1zur gleichen GG?

Statistischer Jargon:Gibt es einen statistischsignifikanten Unterschiedzwischen A1 und B1?

Schließende Statistik4 Klassifikation der Prüfverfahren: - Orientierungshilfe für die Auswahl eines geeigneten Testverfahrens - Anpassungstests: gehört STP zu einer GG mit einer bestimmten vorgegebenen Verteilung? - Unterschiedstests: gehören zwei STP zu der gleichen oder zu unterschiedlichen GG

auf Mittelwert: Lokationstestsauf Varianz: Dispersionstestsauf Mittelwert und Varianz: Omnibustests

- abhängige versus unabhängige STP - Skalenniveau der Daten- eine, zwei oder mehrere STP- parametrische Tests: an bestimmte Verteilung gebunden; nur Parameter der Verteilung betrachtet (aussage- kräftiger, aber mehr Voraussetzun- gen zu erfüllen)- nichtparametrische Tests: keine An- nahme über Verteilung; alle Werte betrachtet- STP-Umfang: einfachere Näherungs- formeln bei großen STP

Schätzverfahren4.1

als Schätzverfahren wird jede Methode bezeichnet, die geeignet ist, um von der STP-Information auf die unbekannte GG zu schließen: - Aussagen über Kennwerte und Wahrscheinlichkeiten der GG - Vorhersagen über die Eigenschaften zukünftiger STP aus der gleichen GG

3 Problemkreise der Schätztheorie: - Punktschätzung: Schätzung bestimmter Kennwerte der GG über Schätzformel - Intervallschätzung: Schätzung des Unsicherheitsbereiches, in dem die Parameter der GG mit einer a-priori definierten Wahrscheinlichkeit vermutet werden (Konfidenzintervalle, Mutungsbereiche) - Ereignisschätzung: erwarteter zukünftiger Wertebereich oder Wahrscheinlich- keiten von STP-Realisierungen gegeben die theoretische GG-Verteilung (Exspektanz)

STP → GGPunktschätzung

1%

10%

90%

99%

x=50%

s+=84%

s-=16%

STP → GGIntervallschätzung

Schätzverfahren4.1 Kriterien der Parameterschätzung (Punktschätzung): - Frage nach geeigneten statistischen Kennwerten als Schätzwert eines Para- meters der GG - bislang z.B. arithmetisches Mittel der STP als Schätzer des Erwartungswertes der GG angenommen (Gesetz der großen Zahlen) - nach R.A. Fisher (1925) 4 Kriterien für einen geeigneten Schätzer:

hinsichtlich dieser 4 Kriterien sind arithmetisches Mittel und empirische Varianz der Stichprobe die besten Punktschätzer für den Erwartungswert μ und die Varianz σ2 der Grundgesamtheit:

im Hinblick auf die häufig realisierte Normalverteilung, die nur diese beiden Parameter enthält, sind und von zentraler Bedeutung in der schließenden Statistik

x2

- erwartungstreu

- konsistent

- erschöpfend

- effektiver als andere statistische Kennwerte

x 2

- Erwartungstreue

- Konsistenz

- Effizienz

- Exhaustivität

Schätzverfahren4.1

Intervallschätzung: - arithmetisches Mittel und empirische Varianz sind zwar geeignete Schätzer für die entsprechenden Parameter der GG - aber Punktschätzung schwankt natürlich zufällig von STP zu STP - gegeben nur eine STP mit arithmetischem Mittel , dann ist die Kennwerteverteilung bei Gültigkeit des zentralen Grenzwertsatzes bekannt:

- gegeben die Normalverteilung von liegt der tatsächliche Erwartungswert der GG mit einer bestimmten Wahrscheinlichkeit S in einem bestimmten Intervall [pu,po] um :

x

nxN

X

ˆˆ,

x

x

x

%100

%7,99ˆ3

%5,95ˆ2

%0,68ˆ1

Sx

Sx

Sx

Sx

X

X

X

Konfidenzintervall : [pu,po]

Sicherheitswahrscheinlichkeit : S = P(pu μ p0)

Irrtumswahrscheinlichkeit : α = 1 – S

Schätzverfahren4.1 Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich entsprechend der Wahrscheinlichkeit S ein bestimmter Anteil der möglichen GG-Parameter befindet, die den statistischen Kennwert der STP erzeugt haben könnten (hier zunächst für Erwartungswert μ) - typischerweise werden sog. Konfidenzkoeffizienten mit S=90%, S=95% oder S=99% vorgegeben - Bestimmung der Intervallgrenzen erfolgt über Quantile der standardisierten Normalverteilung:

- diese Quantile lassen sich zurücktransformieren gegeben und :

- allgemein gilt für das Konfidenzintervall des Erwartungswertes:

S α ±z

90% 10% 1,645

95% 5% 1,960

99% 1% 2,576

- kürzestes Konfidenzintervall

- symmetrisch um x

x X

Xu

X

u

Xo

X

o

zxpxp

z

zxpxp

z

ˆˆ

ˆˆ

n

szx

n

s

n

nzx

nzxzx

Xcrit

2222 44

34ˆˆ

Schätzverfahren4.1

Beispiel zum Konfidenzintervall für den Erwartungswert: - 250 Studenten wurden nach der Entfernung zwischen Wohnung und Uni gefragt - im Mittel 3400 m bei einer Standardabweichung von 1100 m - Konfidenzintervall der GG (alle Studenten) bei Irrtumswahrscheinlichkeit von 5% bzw. 1%?

- mit einer Sicherheit von 95% (99%) liegt der Erwartungswert der GG im Bereich 3264m bis 3536m (3221m bis 3579m)

%99)35793221(

1793400250

1100576,23400

576,2,%1

%95)35363264(

1363400250

110096,13400

96,1,%5

1100

3400

250

%5,2

2

%5,2

mmP

mmm

m

z

mmP

mmm

mn

szx

z

ms

mx

n

crit

crit

Schätzverfahren4.1

Konfidenzintervall für den Erwartungswert bei kleinen STP: - Voraussetzung der Normalverteilung der Stichprobenmittelwerte nur erfüllt für hinreichend große STP (zentraler Grenzwertsatz) - bei n < 30 ist der Quotient der z-Transformation t-verteilt mit n-1 Freiheits- graden:

- Beispiel: wie oben, aber mit n = 25 befragte Studenten:

- mit einer Sicherheit von 95% liegt der Erwartungswert der GG im Bereich 3256m bis 3544m

x

n

stxtx

nXncrit 2;12;1

ˆ

%95)35443256(

1443400250

1100064,23400

064,2

%5

1100

3400

25

2;1

%5,2;24

mmP

mmm

mn

stx

t

ms

mx

n

ncrit

Schätzverfahren4.1

Konfidenzintervall für die Varianz und Standardabweichung: - gegeben sind die empirischen Varianzen s2 von Zufalls-STP der Größe n - die Kennwerteverteilung der s2 ist dann χ2-verteilt mit n – 1 Freiheitsgraden - wegen der Asymmetrie der χ2-Verteilung sind zwei unterschiedliche Quantil- werte zu bestimmen:

- aus der Tabelle der Funktionswerte der χ2-Verteilung lassen sich die beiden Quantilwerte ablesen:

- Konfidenzintervall für die Varianz σ2 der GG gegeben die empirische Varianz s2 einer STP der Größe n:

- analog gilt für die Standardabweichung σ der GG:

21)(

2)(:

2)(:

22222

222

ooo

uu

PP

P

2

2;1

2

2

21;1

2

no

nu

2

21;1

22

2

2;1

2 )1()1(

nn

nsns

2

21;1

2

2

2;1

2 )1()1(

nn

nsns

Schätzverfahren4.1

Beispiel zum Konfidenzintervall für die Standardabweichung: - wie oben mit n = 250 befragten Studenten und α = 5%:

- mit einer Sicherheit von 95% liegt die Standardabweichung der GG im Bereich 1010m bis 1203m

%95)12031010(

12033,208

249)1100()1(

10105,295

249)1100()1(

3,208

5,295

%5

1100

250

2

2

21;1

2

2

2

2;1

2

2

%5,97;249

2

%5,2;249

mmP

mmns

p

mmns

p

ms

n

n

o

n

u

Schätzverfahren4.1 Exspektanz: - gegeben eine bekannte oder vermutete Verteilungsfunktion FX(x) der GG lässt

sich der Wertebereich bestimmen, in dem bei zukünftigen STP Werte mit einer bestimmten Wahrscheinlichkeit S auftreten - bei einem symmetrischen Wertebereich Δx um das arithmetische Mittel der STP mit den Grenzen xu, und xo gilt:

- Wertebereich Δx heißt Exspektanz: Mutungsbereich, in dem zukünftige STP- Werte mit einer Wahrscheinlichkeit S=1-α erwartet werden (bei NV):

- 2 komplementäre Fragestellungen:

- die Berechnung kann entweder direkt mit einer bekannten theoretischen oder mit einer empirischen Verteilungsfunktion durchgeführt werden - bei empirischen Verteilungen ist zunächst zu überprüfen, welche Verteilung der STP-Werte realisiert ist, um die richtigen Quantile bei der Berechnung der Konfidenzintervalle zu verwenden

x

SxFxFxxf uXoX

x

xX

o

u

)()(d)(

- S gegeben und Δx gesucht

- Δx gegeben und S gesucht

szxx 21

Standardabweichung s der STP wird hier nicht mit normiert, da es nicht um die Streuung des STP-Mittels, sondern der STP-Werte geht

n

Schätzverfahren4.1 Beispiel zur Exspektanz: - mittlere Oktobertemperaturen in Würzburg 1911-1960 (n = 50):

- Einteilung in 7 Klassen mit absoluten, relativen und akkumulierten Häufigkeiten:

- graphische Schnellprüfung der klassifizierten Messwerte auf Normalverteilung:

Wahrscheinlichkeitsnetz

- Abzisse: Klassenobergrenzen

- Ordinate: kumulative prozentuale Häufigkeiten

Gerade → NV(x,s)

Schätzverfahren4.1

Beispiel zur Exspektanz: - Kennwerte der STP:

- Konfidenzintervalle der GG-Parameter:

- obwohl das Konfidenzintervall für σ relativ groß ist, wird zunächst auch für die GG eine Normalverteilung angenommen - Frage: in welchem Wertebereich Δx ist in S=90% der Fälle eine beobachtete Oktobertemperatur zu erwarten? - Exspektanz um Stichprobenmittel wie folgt zu berechnen:

- wegen des großen Konfidenzintervalls von σ kann auch von einem zu kleinen STP-Umfang ausgegangen werden, was dann die Berechnung auf Basis der t- Verteilung impliziert:

Cs

Cx

43,1

97,7

%95)71,115,1(

%95)37,857,7(

P

P

%90)32,1062,5(

35,297,743,1645,197,721

CxXCP

CCCCszxx

%90)37,1057,5(

40,297,743,1675,197,72;1

CxXCP

CCCCstxxn

Schätzverfahren4.1

Festlegung des Stichprobenumfangs: - STP-Umfang, Irrtumswahrscheinlichkeit und Konfidenzintervalle hängen un- mittelbar zusammen - in der Praxis wird schmales Konfidenzintervall bei hoher Sicherheit bevorzugt - gegeben eine angestrebte Genauigkeit (L = Δcrit) und eine Irrtumswahrschein-

lichkeit α lässt sich der Mindestumfang der STP berechnen - STP-Umfang für Konfidenzintervall der Länge L von Erwartungswert μ mit bestimmtem Konfidenzkoeffizienten S:

- Beispiele zur Bestimmung des STP-Umfangs:

2

22

2

2

22

4

2

L

szn

n

szL

n

szx

n

szx

97)2(

)5(96,14

2,05,0,5

2

22

C

Cn

CLCs

385)1(

)5(96,14

1,05,0,5

2

22

C

Cn

CLCs

166)2(

)5(58,24

2,01,0,5

2

22

C

Cn

CLCs

Schätzverfahren4.1 Festlegung des Stichprobenumfangs: - mit kleiner werdender Konfidenzintervallbreite (KIB) wächst der benötigte STP-Umfang quadra- tisch an: für Halbierung des Konfidenzintervalls benötigt man den 4-fachen STP-Umfang - STP-Umfang ist auch Funktion der Irrtumswahr- scheinlichkleit α, aber weniger sensitiv - STP-Umfang hängt auch von der empirischen Varianz s2 innerhalb der STP ab:

- Beispiel:

- empirische Varianz a-priori meist nicht bekannt; dann u.U. kleine Voruntersuchung durchführen und σ2 = s2 iterativ festlegen

je kleiner die empirische Varianz der STP desto kleiner der Standardfehler der STP und desto kleiner der benötigte STP-Umfang Klumpen-STP statt Zufalls-STP

97)2(

)5(96,14

2,05,0,5

2

22

C

Cn

CLCs

35)2(

)3(96,14

2,05,0,3

2

22

C

Cn

CLCs

Fehlerrechnung4.2 in den Geowissenschaften beruhen viele STP-Daten auf physikalischen Messungen: - begrenzte Messgenauigkeit aus technischen Gründen - Variationen des Messsystems - Variationen durch die menschliche Handhabung Fluktuationen der Messwerte bei ansonsten gleichen Randbedingngen:

2 Arten von Messfehlern: - systematische Fehler: - bevorzugte Richtung der Abweichung vom Zielwert - potentiell erkennbar und eliminierbar - z.B. Strahlungseinfluss auf Thermometer - stochastische Fehler: - zufällige Streuung um Zielwert - prinzipiell nicht eliminierbar - z.B. Messgenauigkeit des Niederschlages Trennung der beiden Fehlerarten entweder kausal (Ursachen: z.B. Mess- apparatur) oder empirisch( z.B. durch systematische Abweichungen vom gesetzmäßigen Verhalten der zufälligen Fehler = Fehlerverteilungsgesetze)

),,,(),,,(),,,(),,,(),,,(),,,(ˆ tzyxtzyxtzyxytzyxtzyxytzyxy zss

Messwertan einem Ort

zu einem Zeitpunkt

Zielwert:deterministisch,beliebig genau

Messfehler systematischerMessfehler

(raumzeitunabh.)

systematischerMessfehler

(raumzeitabh.)

stochastischerMessfehler

(raumzeitabh.)

Fehlerrechnung4.2

Ursachen für das Auftreten von systematischen Fehlern: - Apparaturfehler: Messanordnung, Eichfehler, Skalenfehler, Trägheitsfehler - Handhabungsfehler: Parallaxenfehler beim Ablesen, Körpertemperatur, Erschütterungen, Bedienfehler - Auswertungsfehler: Umrechnung, Rundung, Statistik, graphische Darstellung - Interpretationsfehler: Fehlinterpretation wegen fehlender Metadaten

Fehlerverteilungsgesetze: - auch wenn keine systematischen Fehler vorliegen existieren immer zufällige Fehler - verbleibende Messwertvariationen verlaufen nach bestimmten Gesetzen: Fehlerverteilungsgesetze nach Gauß (1777-1855): bei unendlich vielen Messungen xi stellt sich bei diskreten (metrischen) Daten die Binomialvertei-

lung (Normalverteilung) exakt ein - anhand der Häufigkeitsverteilung der Messwerte lässt sich beurteilen, ob nur noch zufällige Fehler verbleiben:

xi xi

f fNV / b:nur εz

systematischer “Bias“:εs + εz

Fehlerrechnung4.2

Fehlerschätzung: - zufällige Fehler legen die Messgenauigkeit einer Versuchsapparatur fest - Bestimmung der Messgenauigkeit mit Hilfe der Fehlerschätzung nach Gauß - gegeben eine Messreihe xi , i=1..n unter konstanten Rahmenbedingungen:

einfache Fehlerschätzung - ohne stochastische Fehler sollte sich numerisch exakt der gleiche Wert für alle xi einstellen

- nach Gauß ist das arithmetische Mittel der xi der sog. Bestwert der Messung,

der sich im Falle εz = 0 einstellen würde

- zufällige Fehler werden als Unschärfe der Messwerte definiert: Zahlenwert- intervall im Sinne eines Mutungsbereiches - theoretisch mit Sicherheitswahrscheinlichkeit S zu verbinden, in der Praxis aber meist nur Bereich zwischen ±1∙s mit S = 68,26% (bei NV) angegeben:

- keine sehr konservative Schätzung für die Messgenauigkeit: besser S = 95%

%100

x

n

s

ar

a

absoluter Standardfehler des Bestwertes

relativer Standardfehler des Bestwertes

Fehlerrechnung4.2

Beispiel zur Fehlerschätzung: - Messreihe mit 8 Versuchen unter identischen Randbedingungen:

- Messgenauigkeit wird bereits durch die erste Ziffer des absoluten Standard- fehlers festgelegt - Messresultat lautet somit:

- bei abgeleiteten Größen sollte die Messgenauigkeit mit einer Ziffer weniger angegeben werden als bei den Originaldaten

Versuch xi

1 22,6°C

2 22,8°C

3 22,7°C

4 22,7°C

5 23,0°C

6 22,7°C

7 22,5°C

8 22,8°C

%93,1%100

05,00526,08

1487,0

1487,0

725,2

8

x

n

s

s

x

n

ar

a

e

Cx )05,072,2(

Fehlerrechnung4.2

Fehlerfortpflanzung: - im Gegensatz zur einfachen Fehlerschätzung nun Messergebnis E betrachtet, das sich aus mehreren fehlerbehafteten Messgrößen a,b,c,... zusammensetzt:

- Bestwert des zusammengesetzten Messergebnisses ist:

- ferner sind die absoluten und relativen (nichtprozentualen) Standardfehler der Einzelmessgrößen und des zusammengesetzten Messergebnisses:

- Fehlerfortpflanzungsgesetz nach Gauß:

,...),,( cbafE

,...),,( cbafE

Ecba

E

aE

r

c

ac

r

b

ab

r

a

aa

r

,...,,,

...222

c

a

b

a

a

a

E

a c

E

b

E

a

E

Fehlerrechnung4.2

Fehlerfortpflanzung: - nach den Regeln der Differentialrechnung ergeben sich für verschiedene Rechenoperationen zwischen den Einzelmessgrößen die folgenden Fehler- abschätzungen:

- in der Praxis lässt sich Fehlerfortschreibung entweder analytisch oder durch sukzessives Einbringen der individuellen Fehlergrößen in die Funktionsglei- chung von E = f(a,b,c,…) bewerkstelligen

a

r

E

r

a

rE

r

a

r

E

r

b

b

r

a

r

E

r

b

a

a

a

E

a

aKE

aaE

baE

baE

baE

:Konstante) ie(fehlerfreeren Transformi

ln

:erenLogarithmi

:urzelPotenzen/W

:otientProdukt/Qu

:erenzSumme/Diff

22

22

Fehlerrechnung4.2 Beispiel zur Fehlerfortpflanzung: - gesucht ist Messgenauigkeit für das zusammengesetzte Messergebnis:

- Messreihen und -fehler zu den einzelnen Messgrößen a,b,c:

- sukzessives Vorgehen gemäß E = f(a,b,c):

- das zusammengesetzte Messergebnis lautet E = 275±59

22 cbaE

Versuch ai bi ci

1 7 3,5 14

2 6 3,7 17

3 8 3,6 19

4 3,6 10

15,4

6,3,4

7,3

cc

bb

aa

xn

xn

xn

13,0,96,1

01,0,04,0

08,0,58,0

c

r

c

a

b

r

b

a

a

r

a

a

%3,21213,04,275

64,58

5964,585,58032,4

5,58151526,013,022

032,46,37208,00

2

2222

22

2

E

r

e

a

d

a

E

a

e

r

e

r

e

a

c

r

e

r

d

r

d

r

d

a

b

r

a

r

d

r

e

d

ec

dba

Prinzip statistischer Tests4.3

neue Fragestellung: zuerst Eigenschaften der GG postulieren und dann prüfen, ob diese Eigenschaften durch eine STP bestätigt werden können

daran schließt sich Frage an, wie stark ein STP-Kennwert von einem GG-Parameter abweichen darf, um als Bestätigung für die Grundannahmen zur GG zu gelten

Brauchbarkeit der Theorie zu einer GG lässt sich dadurch bemessen, inwiefern sich Teilaussagen dieser Theorie (Hypothesen) in der Praxis bewähren

Alternativhypothesen (Gegenhypothesen): - beinhalten innovative Aussagen, die über den gegenwärtigen Kenntnisstand der Wissenschaft hinausgehen - Aufgabe der Wissenschaft besteht darin zu überprüfen, ob die Realität durch solche Alternativhypothesen besser erklärt werden kann

Alternativhypothese:

“Das Wertheim-Village

schafft neue Arbeitsplätze.“


Alternativhypothesen: - Unterschiedshypothesen: Häufigkeits- und Mittelwertvergleiche - Zusammenhanghypothesen: Korrelationsrechnung - gerichtete Hypothese: Änderung in eine bestimmte Richtung (besser/schlechter, größer/kleiner, …); negative/positive Korrelation - ungerichtete Hypothese: Änderung allgemein; Korrelation allgemein - spezifische Hypothese: Änderung um (mindestens) einen bestimmten Betrag - unspezifische Hypothese: Änderung allgemein - Hypothesenformulierung hängt von den Vorkenntnissen zum Sachverhalt ab:

- Überprüfung einer Hypothese erfordert Übersetzung der wissenschaftlichen Hypothese in eine statistische Alternativhypothese H1:

ungerichteteunspezifische

Hypothese

gerichtetespezifischeHypothese

Stand der Vorkenntnisse

wissenschaftliche Hypothese:

“Das Wertheim-Village schafft

neue Arbeitsplätze.“

statistische Alternativhypothese:

“Im Mittel war die Arbeitslosenquote vorher (μo)

höher als hinterher (μ1).“

Nomenklatur:H1 : μ0 > μ1

H1 : ρ > 0

Operationa-

lisierung


Nullhypothese: - konkurrierend zur Alternativhypothese: konservativer Standpunkt - beinhaltet keine inhaltliche Aussage außer der Negation von H1

- statistische Nullhypothese ist zwingend komplementär zur Alternativhypothe- se:

- in der klassischen Prüfstatistik repräsentiert die Nullhypothese die Basis, bezüglich derer die Alternativhypothese akzeptiert werden darf oder nicht - nur wenn die Realität nicht mit der Nullhypothese vereinbar ist, darf Alternativ- hypothese akzeptiert werden (konservative Sicht in der Wissenschaft)

Unterschiedshypothesen:

100101

100101

100101

: H : H

: H : H

: H : H

Zusammenhanghypothesen:

0 : H 0 : H

0 : H 0 : H

0 : H 0 : H

01

01

01


Entscheidung über Richtigkeit einer der beiden Hypothesen anhand der STP-Daten: - verbunden mit Unsicherheit (=Wahrscheinlichkeit) - durch zufällige STP-Auswahl könnten die beiden Hypothesen fälschlicher- weise akzeptiert bzw. verworfen werden Fehlerarten bei statistischen Entscheidungen: - α-Fehler: Nullhypothese wird fälschlicherweise verworfen - β-Fehler: Nullhypothese wird fälschlicherweise angenommen

- in der Praxis können beide Fehlerarten zu Fehlentscheidungen mit teils gravierende Konsequenzen führen (z.B. Fehlinvestitionen, unzureichende Sicherheitsmaßnahmen etc.)


Signifikanz: - Qualität einer statistischen Entscheidung kann verstanden werden als die Wahrscheinlichkeit, einen α- oder β-Fehler zu begehen - Wahrscheinlichkeit für einen α-Fehler heißt Irrtumswahrscheinlichkeit (Signifikanz): bedingte Wahrscheinlichkeit gegeben H0 in der GG

- Bestimmung der Irrtumswahrscheinlichkeit α basiert auf der Zufallsverteilung der Stichprobenmittelwerte:

nach dem zentralen Grenzwertsatzsind Stichprobenmittel einer GG normalverteilt mit μ0 und σX

Mittelwert einer bestimmten STPsei x (z.B. Arbeitslosenquote hinterher)

schraffierte Fläche kennzeichnet Wahr-scheinlichkeit, dass der Wert x in der GG erreicht oder überschritten wird

diese Fläche kennzeichnet die Irrtums-wahrscheinlichkeit α bei einer Entschei-dung zu Ungunsten der Nullhypothese


Signifikanz: - in der Praxis ist empirische Ermittlung der Zufallsverteilung der STP-Mittelwer- te meist zu aufwendig (sehr viele Befragungen/Versuche nötig) - aber diese Verteilung lässt sich schätzen aus einer oder mehreren STP der GG, die die Nullhypothese kennzeichnet:

- gegeben den Mittelwert x einer spezifischen zu überprüfenden STP von hin- reichendem Umfang lässt sich die Irrtumswahrscheinlichkeit α über eine z- Transformation ermitteln:

n

s

n

x

X

i

ˆ

ˆ:hlerStandardfe

ˆ:Mittelwert 0

X

xz

ˆ

ˆ0

Irrtumswahrscheinlichkeit je nach Fragestellung:

Überschreitungswahrscheinlichkeit: α = 1 - P(X z)

Unterschreitungswahrscheinlichkeit: α = P(X -z)

zμ0-z

Prinzip statistischer Tests4.3 Beispiel zur Signifikanz: - neues Lehrkonzept in der Statistikvorlesung besser? - bei herkömmlichem Lehrkonzept μ0 = 40 Testaufgaben gelöst mit einer

Streuung von σ = 8 (Verteilung der Werte unter H0)

- bei 100 Studenten wurden unter dem neuen Lehrkonzept im Mittel 42 Test- aufgaben gelöst - Standardfehler der STP-Mittelwerte in der GG:

- z-Transformation des zu überprüfenden STP-Mittelwertes:

- Funktionswert aus der Tabelle der Verteilungsfunktion der Standard-NV liefert:

- ein STP-Mittelwert von x = 42 tritt nur in 0,62% der STP aus der GG der Nullhypothese auf - Ablehnung der Nullhypothese erfolgt mit einer Irrtumswahrscheinlichkeit von 0,62% (sehr gering) → H1 zu akzeptieren: neues Lehrkonzept besser!

8,0100

8ˆˆ

X

n

5,28,0

4042ˆ

0

X

xz

%62,00062,09938,01)5,2(1 XP

Prinzip statistischer Tests4.3 Signifikanzniveau: - Beitrag der Statistik endet bei der Berechnung der Irrtumswahrscheinlichkeit - darüber hinaus ist nur eine subjektive Einschätzung und Entscheidungsfin- dung möglich - zur Vergleichbarkeit statistischer Entscheidungen hat sich die Konvention etabliert, eine Nullhypothese erst bei α = 5% bzw. α = 1% abzulehnen - diese Schwellenwerte der Irrtumswahrscheinlichkeit heißen Signifikanzniveau:

- Auswahl eines Signifikanzniveaus muss a-priori erfolgen je nach Ausmaß der Konsequenzen aus einer fälschlicherweise abgelehnten Nullhypothese - Beispiel zum neuen Lehrkonzept führt mit der Annahme von H1 zu einem sehr

signifikanten Ergebnis - häufige Missverständnisse: Signifikanzaussage ist nicht identisch mit der:

signifikantes Ergebnis: H0abgelehnt bei α = 5% P(Ergebnis|H0) 5%sehr signifikantes Ergebnis: H0 abgelehnt bei α = 1% P(Ergebnis|H0) 1%

Wahrscheinlichkeit des Ergebnisses: P(Ergebnis|H0) ≠ P(Ergebnis)Wahrscheinlichkeit der Nullhypothese: P(Ergebnis|H0) ≠ P(H0)Wahrscheinlichkeit des Alternativhypothese: P(Ergebnis|H0) ≠ 1 - P(H0)Wahrscheinlichkeit der H0 gegeben das Ergebnis: P(Ergebnis|H0) ≠ P(H0|Ergebnis)

stattdessen Verknüpfung über Bayes-Theorem: )(

)Ergebnis()Ergebnis|()|Ergebnis(

0

00 HP

PHPHP


Signifikanzniveau: - die Chance auf ein signifikantes Ergebnis vergrößert sich mit dem STP- Umfang, dem Abstand x – μ0 und einer kleineren Streuung innerhalb der GG:

- Annahme der Alternativhypothese einer neuen Theorie erfolgt nur indirekt durch Ablehnung der Nullhypothese - Signifikanzniveaus von 5% bzw. 1% sollen als gute wissenschaftliche Praxis verstanden werden, um neue Theorien gegenüber Spekulationen abzusichern - in der Alltagswelt begnügen wir uns bei vielen Entscheidungen bereits mit einer Irrtumswahrscheinlichkeit von 20%

n

xz

X

X

ˆˆ

ˆ

ˆ0

Prinzip statistischer Tests4.3 Ein- und zweiseitige Tests: - einseitiger Test: gerichtete Hypothesen H1 : μ1 > μ0 , μ1 < μ0

- zweiseitiger Test: ungerichtete Hypothesen: μ1 ≠ μ0

einseitiger Test:

Fläche von α nur auf eineSeite der Verteilung beschränkt

entsprechende Quantile liegen näher am Mittelwert μ0 = 40:

86,418,0326,240ˆ:%1

32,418,0645,140ˆ:%5

10)1(

10)1(

Xcrit

Xcrit

zx

zx

zweiseitiger Test:

Fläche von α auf beide Seiten der Verteilung aufgeteilt

entsprechende Quantile liegen weiterentfernt vom Mittelwert μ0 = 40:

94,378,058,240ˆ:%1

06,428,058,240ˆ:%1

43,388,096,140ˆ:%5

57,418,096,140ˆ:%5

20)2(

210)21(

20)2(

210)21(

Xcrit

Xcrit

Xcrit

Xcrit

zx

zx

zx

zx

“kritischer Wert“


Ein- und zweiseitige Tests: - zweiseitige Hypothesenformulierung erhöht den kritischen Wert und somit die Chance, dass die Nullhypothese bei einem festen α angenommen wird - klassischer inhaltlicher Bezug: eine Alternativhypothese mit mehr Vorkenntnis wird eher bestätigt

Statistische Signifikanz und praktische Bedeutung: - ein signifikantes Ergebnis ist abhängig vom STP-Umfang, also nicht auf beliebige STP unterschiedlicher Größe zu transferieren:

- bei genügend großen STP ist jede Nullhypothese zu verwerfen: Wert der Signifikanzaussage?

n xcrit , α = 1%

36 40 + 3,11

100 40 + 1,32

1000 40 + 0,59

10000 40 + 0,19

gleiche Differenz x – μ0 führt zu unterschiedlichenEntscheidungen über H1 in Abhängigkeit von n

Frage nach praktischer Relevanz von 0,19 mehr richtigen Testaufgaben trotz statistischer Signifikanz


Statistische Signifikanz und praktische Bedeutung: - es ist ein objektiver Standard gefordert, der eine statistische Entscheidung mit Kriterien der praktischen Bedeutsamkeit verbindet: Effektgröße - Effektgröße kennzeichnet den Mindestunterschied zwischen zwei GG, um von praktischer Relevanz zu sein:

- Effektgröße wird mathematisch wie folgt definiert:

- Festlegung der Effektgröße muss a-priori erfolgen und ist immer an inhaltli- chen Fragestellungen orientiert:

- bei festgelegter Effektgröße und Irrtumswahrscheinlichkeit lässt sich der benö- tigte STP-Umfang ableiten (s.u.)

- Mittelwertdifferenz x – μ0 - Mindestkorrelation- Prozentwertdifferenz

X

ˆ01

Wie viele mehr gelöste Testaufgaben rechtfertigen den Aufwand eines neuen Lehrkonzeptes?

Welche Reduktion der Arbeitslosenquote führt zu relevanten Impulsen beim Konsum?

Statistische Tests für Intervalldaten4.4

bislang statistischen Kennwert einer STP mit dem zugehörigen Parameter einer bekannten GG verglichen

in der Praxis sind GG-Parameter selten bekannt, so dass Kennwerte eher zwischen STP verglichen werden

je nach Skalenart der Daten unterschiedliche Tests:

im Zweifelsfall sind immer mehrere Tests durchzuführen und bei unter-schiedlichen Ergebnissen immer der Test mit den geringsten Anforderun-gen an das Skalenniveau zu bevorzugen

zusätzlich noch Unterscheidung nach Zusammenhang der verglichenen STP:

- Intervall-/Rationalskala

- Ordinalskala

- Nominalskala

- unabhängige Stichproben

- abhängige Stichproben


Vergleich STP-Mittelwert und Erwartungswert der GG: - Alternativhypothese: Zufalls-STP gehört zu einer GG mit Erwartungswert μ1,

die von einer Referenz-GG mit E(X) = μ0 abweicht:

- Entscheidung hängt von der Differenz ab - bei hinreichend großen STP sind STP-Mittel unter der H0 normalverteilt:

- Differenz kann in Standardnormalverteilung transformiert werden:

- aus Tabelle der Standardnormalverteilung wird kritischer Wert für eine vorge- gebene Irrtumswahrscheinlichkeit α bei ein- oder zweiseitigem Test abgelesen und Entscheidung getroffen:

101

100

: H

: H

0-x

)ˆ

ˆ,(NV 0 nX

X

0

ˆ-x

z

annehmen H||||

annehmen H||||

0)1(

1)1(

crit

crit

xz

xz

Prüfgröße:

Prüfgröße jenseits des kritischen Wertes:

Prüfgröße diesseits des kritischen Wertes:

bei kleinen STP kann u.U. die Binomialverteilung unter H0 realisiert sein: Binomial-Test

Statistische Tests für Intervalldaten4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - graphische Veranschaulichung der möglichen Fälle:

Z

)(xf

X

xz

ˆ0

)1( critx

z

ein

seit

iger

Tes

tzw

eise

itig

er T

est

Z

)(xf

z

)(critx

z

H1 : μ0 < μ1 H1 : μ0 > μ1

Z

)(xf

z

)2(critx

z

H1 : μ0 ≠ μ1

)21( critx

zz

z führt zur Annahmevon H0

z führt zur Annahme von H1


Vergleich STP-Mittelwert und Erwartungswert der GG: - Beispiel: männliche Geographen haben einen geringeren IQ (gerichtete H1)

als die GG aller Männer:

- bekannte GG mit μ0 = 100 und σ = 10

- STP mit n = 36 Geographen und x = 98 - Prüfgröße:

- kritischer Wert bei α = 0,05, einseitiger Test:

- statistische Entscheidung:

- Antwortsätzchen:

2,1

36

1010098

n

-xˆ-x

z 0

X

0

101

100

: H

: H

%5,11115,0)2,1(645,1)( Xcrit Fx

annehmen H|||| 0)1( critxz

“Männliche Geographen sind nicht dümmer als andere Männer“

Statistische Tests für Intervalldaten4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - bei kleinen STP mit n 30 gilt der zentrale Grenzwertsatz nicht, d.h. die STP- Mittelwerte sind nicht normalverteilt - wenn trotzdem gewährleistet ist, dass die GG normalverteilt ist, verteilen sich die Differenzen x – μ entsprechend einer t-Verteilung mit n – 1 Freiheitsgraden - Prüfgröße lautet dann:

- kritischer Wert dann aus Tabelle der Funktionswerte der t-Verteilung in Abhängigkeit von α und Anzahl der Freiheitsgrade Φ = n – 1 :

- um 1 reduzierte Anzahl der Freiheitsgrade resultiert daraus, dass für die Berechnung des Standardfehlers der Mittelwert eingeht, so dass nur n – 1 Abweichungsquadrate frei variieren dürfen wegen:

- Beispiel IQ von männlichen Geographen bei n = 29:

X

01-n σ

μ-xt

),(t 1-n; tF

0)x-(xn

1ii

08,1ˆ-x

t :PrüfgrößeX

01-n

70,1 t: Wertkritischer 1-n; H0 annehmen


Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Alternativhypothese: die beiden STP stammen aus unterschiedlichen GG mit Erwartungswert μ0 und μ1

- unter H0 ist Erwartungswert dieser Differenz gleich Null

- gegeben sind zwei STP der Größe n1 bzw. n2 mit Mittelwert x1 bzw. x2 und

Varianzen s21 und s2

2

- Differenz der STP-Mittelwerte ist als Linearkombination zweier unabhängiger ZVA zu verstehen mit Varianz und Standardfehler:

- bei unbekannter GG-Varianz ergibt sich geschätzter Standardfehler:

0 : H

0 : H

101

100

2

2

2

1

2

1

2

2

2

1

2

122222

21

2121)1()1(

nn

nn

XX

XXXX

n

ssnn

nn

snsn

nnnn XXXX

2

2

2

121

21

2

22

2

11

212

2

2

1

2

1

2121ˆ:für ,

)1()1(

)1()1(11ˆˆˆ


Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Prüfgröße (t-Test):

- diese Prüfgröße ist t-verteilt mit n1 + n2 -2 Freiheitsgraden bzw. mit zunehmen-

dem STP-Umfang (n1 + n2 -2 50) normalverteilt

- Beispiel: weibliche Geographen sind belastbarer als männliche Geographen (gerichtete H1, einseitiger Test, α = 0,05):

21 XX

21

σ

xt

x

annehmen H|ˆ|

67,1

66233352

327,006,3

2,1042,103ˆ

ˆ

06,33234

75,1593287,15734

33

1

35

1

)1()1(

)1()1(11ˆ

75,159,2,104, (Frauen) 33

87,157,2,103, (Männer) 35

0;

;

21

21

21

2

22

2

11

21

2

222

2

111

21

21

tt

t

nn

xxt

nn

snsn

nn

sxn

sxn

XX

XX


Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - bei manchen Fragestellungen werden parallelisierte STP (matched samples) betrachtet, bei denen die Elemente in beiden STP paarweise einander zugeordnet sind (z.B. Ehepartner, wiederholte Messung vor und nach Krankheit) - solche abhängigen STP lassen sich ebenfalls mit t-Test überprüfen, aber Varianzen der beiden STP beeinflussen sich u.U. gegenseitig - zu umgehen, indem nur zusammengehörende Messwertpaare betrachtet werden in Form der ZVA D:

- arithmetisches Mittel über alle n Messwertpaare:

- nun interessiert die Verteilung des Mittelwertes von Differenzen statt die Verteilung der Differenz von Mittelwerten (t-Test für unabhängige STP, s.o.):

21 iii xxd

n

iid d

nx

1

1

2

11

2

1

2 1

1

1)(

1

1ˆ,

ˆˆ

n

ii

n

ii

n

idid

dX

dn

dn

xdnnd

Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Prüfgröße (t-Test):

- wegen H0 : μd = 0 gilt für die Prüfgröße unter H0 vereinfacht:

- diese Prüfgröße ist t-verteilt mit n – 1 Freiheitsgraden - gilt streng genommen nur, wenn Differenzen in der GG (STP) annähernd normalverteilt, aber t-Test relativ robust ggü. Verletzungen

dX

ddxt

ˆˆ

dX

dxt

ˆ

Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Beispiel: Geographiestudenten schätzen ihre Leistungsfähigkeit in der Statistik falsch ein (ungerichtete H1, α = 0,05):

- Geographiestudenten unterschätzen ihre Leistungsfähigkeit signifikant

Proband STP1 STP2

1 40 48

2 60 55

3 30 44

4 55 59

5 55 70

6 35 36

7 30 44

8 35 28

9 40 39

10 35 50

11 50 64

12 25 22

13 10 19

14 40 53

15 55 60

STP1 : geschätzte Anzahl gelöster AufgabenSTP2 : tatsächliche Anzahl gelöster Aufgaben

15,2,15,2

14

15,303,2

4,6ˆ

ˆ

03,215

85,7ˆˆ

85,715

)96(1478

14

11

1

1ˆ

4,6)96(15

11

15

;21;2

22

11

2

1

tt

xt

n

dn

dn

dn

x

n

d

d

X

d

dX

n

ii

n

iid

n

iid


Vergleich STP-Varianz und GG-Varianz: - Alternativhypothese: STP gehört aufgrund der Unterschiedlichkeit ihrer Werte nicht in eine bestimmte GG mit σ0

2 sondern in GG mit σ12 (ungerichtete H1):

- gegeben ist die Varianz σ02 der GG und eine STP der Größe n mit geschätzter

Varianz:

- Prüfgröße (χ2-Test):

- diese Prüfgröße ist χ2-verteilt mit n – 1 Freiheitsgraden - kritischer Wert dann aus Tabelle der Funktionswerte der χ2-Verteilung - diesmal ist Voraussetzung der normalverteilten GG sehr stringent - gegebenenfalls vorab statistischen Test auf NV durchführen (s.u.)

101

100

: H

: H

n

ii xx

n 1

22 )(1

1

2

22 ˆ)1(

ˆo

n


Vergleich STP-Varianz und GG-Varianz: - Beispiel: Geographieprofessoren unterscheiden sich stärker in ihren Ge- stimmtheiten als andere Professoren (gerichtete H1, α = 0,05)

- aus Eichstichprobe ist Referenzwert der GG bekannt mit σ0 = 15

- bei einer STP von n = 80 Geographieprofessoren wurde ein Wert von = 19 festgestellt - Annahme der NV bei Testwerten der 80 Probanden - χ2-Test:

- Gestimmtheit bei Geographieprofessoren schwankt signifikant stärker als bei anderen Professoren

88,101

791

75,12615

1979ˆ)1(ˆ

19ˆ

15

80

2

;21

2

2

2

22

0

n

n

n

o


Vergleich von zwei STP-Varianzen aus unabhängigen STP: - Alternativhypothese: zwei STP stammen aus Grundgesamtheiten mit unterschiedlicher Varianz, wobei die GG1 stärker streut als die GG2 (gerichtete H1)

- gegeben sind zwei STP mit den Schätzwerten:

- Prüfgröße (F-Test):

- wegen H0 : σ21 = σ2

2 gilt für die Prüfgröße unter H0 vereinfacht:

2

2

2

11

2

2

2

10

: H

: H

2

2

1

1

1

2

2

2

2

2

1

2

1

1

2

1

)(1

1ˆ

)(1

1ˆ

n

ii

n

ii

xxn

xxn

2

2

2

2

2

1

2

1

ˆ

ˆˆ

F

2

2

2

1

ˆ

ˆ

F

Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Varianzen aus unabhängigen STP: - diese Prüfgröße ist F-verteilt mit:

- kritischer Wert dann aus Tabelle der Funktionswerte der F-Verteilung - Annahme der normalverteilten GG ist ebenfalls stringent - Konvention: größere STP-Varianz muss im Zähler stehen, da Tabellenwerte meist nur für die rechte Seite der asymmetrischen F-Verteilung im Intervall [1 < F < ] angegeben werden - bei kleinerer STP-Varianz im Zähler wäre Intervall [0 < F < 1] gefragt - zweiseitige Tests lassen sich ebenfalls nicht durchführen - Test für Varianzen aus abhängigen STP: Wilcox-Test - Beispiel: Würzburger Geographiestudenten decken ein größeres politisches Meinungsspektrum ab als Münchner Geographiestudenten (gerichtete H1,

α = 0,05), Operationalisie- rung durch Meinungsindex:

heitsgradeNennerfrei 1

tsgradelerfreihei Zäh1

22

11

n

n

annehmen H38,1

19,180

95ˆ

ˆF

(München) 1191,80ˆ,120

(Würzburg) 991,95ˆ,100

0;;1

2

2

2

1

22

2

22

11

2

11

21

F

nn

nσn

Statistische Tests für Ordinaldaten4.5

statistische Tests für Ordinaldaten erfordern weniger Voraussetzungen bzgl. Skalenniveau und Verteilung der GG: - für alle ordinalskalierten Daten - für Intervall- und Rationaldaten, die nicht die Voraussetzungen für die obigen Tests erfüllen

Vergleich von zwei unabhängigen STP bzgl. zentraler Tendenz: - arithmetisches Mittel bei Ordinal- daten nicht definiert - Beispiel: Medikament zur Verkür- zung der Reaktionszeit unter Alko- holeinfluss: - Reaktionszeit sei nicht normalverteilt: verteilungsfreies Verfahren - dann U-Test von Mann-Whitney

mit Alkohol mit Alkohol und Medikament

Zeit Rang Zeit Rang

85 4 96 10

106 17 105 16

118 22 104 15

81 2 108 19

138 27 86 5

90 8 84 3

112 21 99 12

119 23 101 13

107 18 78 1

95 9 124 25

88 7 121 24

103 14 97 11

129 26

87 6

109 20

Gruppe 1: n1 = 12Gruppe 2: n2 = 15 Sortierung nach Rangplätzen über beide Gruppen

Statistische Tests für Nominaldaten4.6

Tests für Nominaldaten immer dann angebracht, wenn Häufigkeitsunter-schiede im Auftreten bestimmter Merkmale oder Merkmalskombinationen untersucht werden sollen: - Prüfgrößen meist χ2-verteilt: χ2-Methoden - nicht nur für kategoriale Daten - auch bei klassifizierten Intervall- und Rationaldaten - auch bei Ordinaldaten mit vielen verbundenen Rangplätzen

} Analyse von Häufigkeiten(Verteilungen)

Statistische Tests für Intervall- und Ordinaldaten:

Statistische Tests für Nominaldaten:

Analyse von Verteilungen

Analyse von Parametern

AnpassungstestsUnterschiedstests


Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - Beispiel: im Fachbereich Statistik seien 869 männliche und 576 weibliche Studenten immatrikuliert: kommt dieser Unterschied zufällig zustande? - 2 Nullhypothesen:

- bei H0 mit gleichverteilten Merkmalsalternativen ergeben sich die folgenden

erwarteten (theoretischen) Häufigkeiten he:

- je größer die Abweichungen der beiden fb von fe desto unwahrscheinlicher H0

- da Abweichungen in der Summe Null, wird Prüfgröße über standardisierte Summe der quadrierten Abweichungen gebildet (χ2-Test):

- H0 : Übereinstimmung mit ausgewogenem Geschlechterverhältnis 50:50

- H0 : Übereinstimmung mit Geschlechterverhältnis an der gesamten Universität

ternativenMerkmalsalder Häufigkeit ebeobachtet :2

)2(),1(

)2()1(

b

bb

e

h

hhh

5,7222

576869

eh

2

1 )(

2

)()(2ˆj je

jejb

h

hh 41,59

5,722

)5,722576(

5,722

)5,722869(ˆ

222

große Abweich-ungen stärker gewichtet


Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - da bei zweifach gestuftem Merkmal nur ein Summand frei variieren kann, ist die Anzahl der Freiheitsgrade der χ2-verteilten Prüfgröße immer: Φ=1

- kritischer Wert χ21-α;Φ abzulesen aus Tabelle der Funktionswerte der χ2-

Verteilung:

- zu beachten: χ2-Funktionswerte in Tabelle sind auf ungerichtete H1 angepasst:

- bei gerichteter H1 den Funktionswert für die doppelte Irrtumswahrscheinlich-

keit α ablesen:

- einseitiger Test kann auch über die Standardnormalverteilung durchgeführt werden mit Prüfgröße:

- gerichtete Hypothesen bei χ2-Methoden nur möglich, wenn Φ = 1

annehmen H Test)er zweiseitig 0,05,(84,3 1

2

;1

annehmen H Test)r einseitige 0,05,(71,2 1

2

;1

2z annehmen H645,171,741,59 11 zzz

H1 : es existiert keine Gleichverteilung der Geschlechter

H1 : es gibt mehr männliche als weibliche Studenten


Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - bei H0 mit nicht gleichverteilten Merkmalsalternativen sind zunächst die

theoretischen Wahrscheinlichkeiten für das Auftreten der beiden Merkmals- alternativen zu bestimmen:

- unter H0 ergibt sich dann die folgende erwartete Häufigkeit für jede Merkmals-

alternative gegeben eine STP der Größe n:

- gleiche Prüfgröße wie oben:

- Vergleich mit kritischem Wert der χ2-Verteilung χ21-α;Φ = 3,84 führt zur

Annahme von H1

männliche Studenten an Uni: 16.169 p(♂) =

weibliche Studenten an Uni: 2.452 p(♀) =

87,0245216169

16169

)2()1(

)1(

hh

h

13,0245216169

2452

)2()1(

)2(

hh

h

jje pnh )(

he(♂) = 1445 • 0,87 = 1257,15

he(♀) = 1445 • 0,13 = 187,85

2

1 )(

2

)()(2ˆj je

jejb

h

hh 87,921

85,187

)85,187576(

15,1257

)15,1257869(ˆ

222


Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - χ2-Test direkt auf k-fach gestufte Merkmale zu übertragen mit Nullhypothese bzgl. beliebiger Verteilungsform je nach Skalenniveau:

- Beispiel: Unterschiede bei Verkaufszahlen von 4 alternativen Produkten:

- Nullhypothese bei Gleichverteilung: die Verkaufszahlen unterscheiden sich rein zufällig - dann unter H0 erwartete Verkaufszahlen (n = STP-Umfang):

- dann Prüfgröße für k Kategorien / Klassen:

- Gleichverteilung- beliebige a-oriori Verteilung- Normalverteilung - Poissonverteilung

}}

Nominalskala

Intervallskala

STP Produkt A Produkt B Produkt C Produkt D

Anzahl: 70 120 110 100(a) (b) (c) (d)

1004

400)()()()(

k

nffff decebeae

k

j je

jejb

h

hh

1 )(

2

)()(2 14100

)100100(

100

)100110(

100

)100120(

100

)10070(ˆ

22222


Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - diese Prüfgröße ist χ2-verteilt mit k – 1 Freiheitsgraden (α = 0,05):

- Nullhypothese beliebiger a-priori Verteilung: die Verkaufszahlen unterscheiden sich rein zufällig von denen anderer Warenhäuser mit:

- dann sind wieder die theoretischen Wahrscheinlichkeiten und erwarteten Häufigkeiten angesichts der STP mit n = 400 umzurechnen:

- Prüfgröße:

- kritischer Wert (α = 0,05):

- Klassenhäufigkeiten sollten immer größer als 5 sein

annehmen H81,7 1

2

;1

GG Produkt A Produkt B Produkt C Produkt D

Anzahl: 560 680 640 700

10827,040027,02580

700)(

10025,040025,02580

640)(

10426,040026,02580

680)(

8822,040022,02580

560)(

)(

)(

)(

)(

de

ce

be

ae

fDP

fCP

fBP

fAP

74,7108

)108100(

100

)100110(

104

)104120(

88

)8870(ˆ

22222

annehmen H81,7 0

2

;1


Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - Nullhypothese bei Normalverteilung: Merkmalsverteilung ist normalverteilt (nur bei Intervalldaten möglich) (“goodness of fit test“) - erwartete Häufigkeiten werden über standardisierte Klassengrenzen und zugehörige Fläche unter der Standardnormalverteilung ermittelt:

- Prüfgröße wieder:

- diese Prüfgröße ist χ2-verteilt mit k – 3 Freiheitsgraden (n, x, s2)

k

j je

jejb

h

hh

1 )(

2

)()(2


Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - bivariater Fall: unabhängige Beobachtungen werden zwei Merkmalen zugeordnet, von denen das eine k-fach und das andere l-fach abgestuft ist - Beispiel: Rorschachdeutungen mit k = 4 Altersklassen (Merkmal A) und l = 3 Deutungsarten (Merkmal B), n = 500:

- Nullhypothese geht wieder von vorgegebenen oder geschätzten Verteilungen aus (Anpassungs- bzw. Zusammenhangtest) - Prüfgröße lautet (sog. k-l-χ2):

k

i

l

j jie

jiejib

h

hh

1 1 ),(

2

),(),(2 i = 1,2 : Index für Kategorien des 1. Merkmals (Geschlecht)

j = 1,2 : Index für Kategorien des 2. Merkmals (Brille)

Statistische Tests für Nominaldaten4.6 Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - Nullhypothese kann auf vorgegebenen Wahrscheinlichkeiten beruhen, die aus theoretischen Überlegungen hergeleitet werden können (z.B. Gleichverteilung) - dann ist Prüfgröße χ2-verteilt mit k • l – 1 Freiheitsgraden - meist basiert Nullhypothese aber auf geschätzten Wahrscheinlichkeiten, die wie oben aus den Randverteilungen und dem Multiplikationstheorem abgelei- tet werden:

- dann ist Prüfgröße χ2-verteilt mit (k – 1) • (l – 1) Freiheitsgraden - im konkreten Fall (α = 0,05, zweiseitig):

- inhaltliche Interpretation über Werte selbst

H0 : die beiden Merkmale sind voneinander unabhängig

n

jih jie

meSpaltensum eZeilensumm),(

eutungRorschachdt beeinflussAlter

:annehmen H59,12

6)13()14(

65,3495,33

)95,3328(...

96,29

)96,2920(

11,26

)11,2612(ˆ

etc.11,26500

1071221 meSpaltensum 1 eZeilensumm

1

2

;1

2222

)1,1(

nhe

“Take-away“

Das Anliegen der schließenden Statistik besteht darin, aus Stichproben-daten auf die Eigenschaften der Grundgesamtheit zu schließen.

Bei den Schätzverfahren geht es darum, die Parameter der Verteilung der Grundgesamtheit in einem Konfidenzintervall zu schätzen.

Arithmetisches Mittel und empirische Varianz sind erwartungstreue, konsistente, erschöpfende und effiziente Punktschätzer für den Erwartungswert und die Streuung der Grundgesamtheit.

Messfehler unterliegen Gesetzmäßigkeiten und sind in Form der Mess-genauigkeit zu quantifizieren.

Prüfverfahren basieren auf Null- und Alternativhypothese, über die mit einem bestimmten α- und β-Fehler entschieden wird, indem eine Prüf-größe mit einem kritischen Wert (Signifikanzniveau) verglichen wird.

Über den α- und β-Fehler sowie die Effektgröße lässt sich der optimale Stichprobenumfang a-priori ermitteln.

Bei den Prüfverfahren wird entschieden, ob eine vorliegende Stichprobe aus einer bestimmten Grundgesamtheit mit spezifischen Parametern (Unterschiedstests) oder Verteilungen (Anpassungstests) stammt.

4

schließende statistik 4 4.1 schätzverfahren 4.2 fehlerrechnung 4.3 prinzip statistischer tests 4.4...

Documents