schließende statistik 4 4.1 schätzverfahren 4.2 fehlerrechnung 4.3 prinzip statistischer tests 4.4...
TRANSCRIPT
Schließende Statistik
4
4.1 Schätzverfahren
4.2 Fehlerrechnung
4.3 Prinzip statistischer Tests
4.4 Statistische Tests für Intervalldaten
4.5 Statistische Tests für Ordinaldaten
4.6 Statistische Tests für Nominaldaten
Schließende Statistik4
Anliegen der schließenden Statistik ist es, aus vorliegenden Daten (Stichproben) auf die Eigenschaften der entsprechenden Grundgesamtheit zu schließen : - deskriptive Statistik: Beschreibung der empirischen Kennwerte und Verteilungen von Stichproben (Kapitel 2) - Wahrscheinlichkeitstheorie: Definition eines theoretischen Modells mit Merkmalsraum, Ereignisfeld und Wahrscheinlichkeiten (Kapitel 3) schließende Statistik: Verbindung zwischen Empirie und Theorie
Zufallsvariable IQ:
STP GG
schließende
Statistik
Mittelwertempirische Varianzrelative Häufigkeiten
ErwartungswertVarianzWahrscheinlichkeit
Schließende Statistik4 in der schließenden Statistik gibt es zwei Arten von Fragestellungen: 1.) Frage nach den Eigenschaften (Parametern) der GG gegeben eine STP (Schätzverfahren) 2.) Frage nach Zugehörigkeit einer oder mehrerer STP zu einer bzw. der gleichen GG (Prüfverfahren)
da eine STP eine Zufallsauswahl aus der GG darstellt, sind die Aussagen der schließenden Statistik immer Wahrscheinlichkeitsaussagen und mit einer bestimmten Unsicherheit behaftet
Schätz- und Prüfverfahren basieren auf sog. STP-Funktionen: Schätz- und Prüffunktionen (manchmal beides)
Gehören die Temperatur-änderungen in A1 und B1zur gleichen GG?
Statistischer Jargon:Gibt es einen statistischsignifikanten Unterschiedzwischen A1 und B1?
Schließende Statistik4 Klassifikation der Prüfverfahren: - Orientierungshilfe für die Auswahl eines geeigneten Testverfahrens - Anpassungstests: gehört STP zu einer GG mit einer bestimmten vorgegebe- nen Verteilung? - Unterschiedstests: gehören zwei STP zu der gleichen oder zu unterschiedli- chen GG
auf Mittelwert: Lokationstestsauf Varianz: Dispersionstestsauf Mittelwert und Varianz: Omnibustests
- abhängige versus unabhängige STP - Skalenniveau der Daten- eine, zwei oder mehrere STP- parametrische Tests: an bestimmte Verteilung gebunden; nur Parameter der Verteilung betrachtet (aussage- kräftiger, aber mehr Voraussetzun- gen zu erfüllen)- nichtparametrische Tests: keine An- nahme über Verteilung; alle Werte betrachtet- STP-Umfang: einfachere Näherungs- formeln bei großen STP
Schätzverfahren4.1
als Schätzverfahren wird jede Methode bezeichnet, die geeignet ist, um von der STP-Information auf die unbekannte GG zu schließen: - Aussagen über Kennwerte und Wahrscheinlichkeiten der GG - Vorhersagen über die Eigenschaften zukünftiger STP aus der gleichen GG
3 Problemkreise der Schätztheorie: - Punktschätzung: Schätzung bestimmter Kennwerte der GG über Schätzformel - Intervallschätzung: Schätzung des Unsicherheitsbereiches, in dem die Parameter der GG mit einer a-priori definierten Wahrscheinlichkeit vermutet werden (Konfidenzintervalle, Mutungsbereiche) - Ereignisschätzung: erwarteter zukünftiger Wertebereich oder Wahrscheinlich- keiten von STP-Realisierungen gegeben die theoretische GG-Verteilung (Exspektanz)
STP → GGPunktschätzung
1%
10%
90%
99%
x=50%
s+=84%
s-=16%
STP → GGIntervallschätzung
Schätzverfahren4.1 Kriterien der Parameterschätzung (Punktschätzung): - Frage nach geeigneten statistischen Kennwerten als Schätzwert eines Para- meters der GG - bislang z.B. arithmetisches Mittel der STP als Schätzer des Erwartungswertes der GG angenommen (Gesetz der großen Zahlen) - nach R.A. Fisher (1925) 4 Kriterien für einen geeigneten Schätzer:
hinsichtlich dieser 4 Kriterien sind arithmetisches Mittel und empirische Varianz der Stichprobe die besten Punktschätzer für den Erwartungswert μ und die Varianz σ2 der Grundgesamtheit:
im Hinblick auf die häufig realisierte Normalverteilung, die nur diese beiden Parameter enthält, sind und von zentraler Bedeutung in der schließenden Statistik
x2
- erwartungstreu
- konsistent
- erschöpfend
- effektiver als andere statistische Kennwerte
x 2
- Erwartungstreue
- Konsistenz
- Effizienz
- Exhaustivität
Schätzverfahren4.1
Intervallschätzung: - arithmetisches Mittel und empirische Varianz sind zwar geeignete Schätzer für die entsprechenden Parameter der GG - aber Punktschätzung schwankt natürlich zufällig von STP zu STP - gegeben nur eine STP mit arithmetischem Mittel , dann ist die Kennwerteverteilung bei Gültigkeit des zentralen Grenzwertsatzes bekannt:
- gegeben die Normalverteilung von liegt der tatsächliche Erwartungswert der GG mit einer bestimmten Wahrscheinlichkeit S in einem bestimmten Intervall [pu,po] um :
x
nxN
X
ˆˆ,
x
x
x
%100
%7,99ˆ3
%5,95ˆ2
%0,68ˆ1
Sx
Sx
Sx
Sx
X
X
X
Konfidenzintervall : [pu,po]
Sicherheitswahrscheinlichkeit : S = P(pu μ p0)
Irrtumswahrscheinlichkeit : α = 1 – S
Schätzverfahren4.1 Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich entsprechend der Wahrscheinlichkeit S ein bestimmter Anteil der möglichen GG-Parameter befindet, die den statistischen Kennwert der STP erzeugt haben könnten (hier zunächst für Erwartungswert μ) - typischerweise werden sog. Konfidenzkoeffizienten mit S=90%, S=95% oder S=99% vorgegeben - Bestimmung der Intervallgrenzen erfolgt über Quantile der standardisierten Normalverteilung:
- diese Quantile lassen sich zurücktransformieren gegeben und :
- allgemein gilt für das Konfidenzintervall des Erwartungswertes:
S α ±z
90% 10% 1,645
95% 5% 1,960
99% 1% 2,576
- kürzestes Konfidenzintervall
- symmetrisch um x
x X
Xu
X
u
Xo
X
o
zxpxp
z
zxpxp
z
ˆˆ
ˆˆ
n
szx
n
s
n
nzx
nzxzx
Xcrit
2222 44
34ˆˆ
Schätzverfahren4.1
Beispiel zum Konfidenzintervall für den Erwartungswert: - 250 Studenten wurden nach der Entfernung zwischen Wohnung und Uni gefragt - im Mittel 3400 m bei einer Standardabweichung von 1100 m - Konfidenzintervall der GG (alle Studenten) bei Irrtumswahrscheinlichkeit von 5% bzw. 1%?
- mit einer Sicherheit von 95% (99%) liegt der Erwartungswert der GG im Bereich 3264m bis 3536m (3221m bis 3579m)
%99)35793221(
1793400250
1100576,23400
576,2,%1
%95)35363264(
1363400250
110096,13400
96,1,%5
1100
3400
250
%5,2
2
%5,2
mmP
mmm
m
z
mmP
mmm
mn
szx
z
ms
mx
n
crit
crit
Schätzverfahren4.1
Konfidenzintervall für den Erwartungswert bei kleinen STP: - Voraussetzung der Normalverteilung der Stichprobenmittelwerte nur erfüllt für hinreichend große STP (zentraler Grenzwertsatz) - bei n < 30 ist der Quotient der z-Transformation t-verteilt mit n-1 Freiheits- graden:
- Beispiel: wie oben, aber mit n = 25 befragte Studenten:
- mit einer Sicherheit von 95% liegt der Erwartungswert der GG im Bereich 3256m bis 3544m
x
n
stxtx
nXncrit 2;12;1
ˆ
%95)35443256(
1443400250
1100064,23400
064,2
%5
1100
3400
25
2;1
%5,2;24
mmP
mmm
mn
stx
t
ms
mx
n
ncrit
Schätzverfahren4.1
Konfidenzintervall für die Varianz und Standardabweichung: - gegeben sind die empirischen Varianzen s2 von Zufalls-STP der Größe n - die Kennwerteverteilung der s2 ist dann χ2-verteilt mit n – 1 Freiheitsgraden - wegen der Asymmetrie der χ2-Verteilung sind zwei unterschiedliche Quantil- werte zu bestimmen:
- aus der Tabelle der Funktionswerte der χ2-Verteilung lassen sich die beiden Quantilwerte ablesen:
- Konfidenzintervall für die Varianz σ2 der GG gegeben die empirische Varianz s2 einer STP der Größe n:
- analog gilt für die Standardabweichung σ der GG:
21)(
2)(:
2)(:
22222
222
ooo
uu
PP
P
2
2;1
2
2
21;1
2
no
nu
2
21;1
22
2
2;1
2 )1()1(
nn
nsns
2
21;1
2
2
2;1
2 )1()1(
nn
nsns
Schätzverfahren4.1
Beispiel zum Konfidenzintervall für die Standardabweichung: - wie oben mit n = 250 befragten Studenten und α = 5%:
- mit einer Sicherheit von 95% liegt die Standardabweichung der GG im Bereich 1010m bis 1203m
%95)12031010(
12033,208
249)1100()1(
10105,295
249)1100()1(
3,208
5,295
%5
1100
250
2
2
21;1
2
2
2
2;1
2
2
%5,97;249
2
%5,2;249
mmP
mmns
p
mmns
p
ms
n
n
o
n
u
Schätzverfahren4.1 Exspektanz: - gegeben eine bekannte oder vermutete Verteilungsfunktion FX(x) der GG lässt
sich der Wertebereich bestimmen, in dem bei zukünftigen STP Werte mit einer bestimmten Wahrscheinlichkeit S auftreten - bei einem symmetrischen Wertebereich Δx um das arithmetische Mittel der STP mit den Grenzen xu, und xo gilt:
- Wertebereich Δx heißt Exspektanz: Mutungsbereich, in dem zukünftige STP- Werte mit einer Wahrscheinlichkeit S=1-α erwartet werden (bei NV):
- 2 komplementäre Fragestellungen:
- die Berechnung kann entweder direkt mit einer bekannten theoretischen oder mit einer empirischen Verteilungsfunktion durchgeführt werden - bei empirischen Verteilungen ist zunächst zu überprüfen, welche Verteilung der STP-Werte realisiert ist, um die richtigen Quantile bei der Berechnung der Konfidenzintervalle zu verwenden
x
SxFxFxxf uXoX
x
xX
o
u
)()(d)(
- S gegeben und Δx gesucht
- Δx gegeben und S gesucht
szxx 21
Standardabweichung s der STP wird hier nicht mit normiert, da es nicht um die Streuung des STP-Mittels, sondern der STP-Werte geht
n
Schätzverfahren4.1 Beispiel zur Exspektanz: - mittlere Oktobertemperaturen in Würzburg 1911-1960 (n = 50):
- Einteilung in 7 Klassen mit absoluten, rela- tiven und akkumulierten Häufigkeiten:
- graphische Schnellprüfung der klassifizierten Messwerte auf Normalverteilung:
Wahrscheinlichkeitsnetz
- Abzisse: Klassenobergrenzen
- Ordinate: kumulative prozentuale Häufigkeiten
Gerade → NV(x,s)
Schätzverfahren4.1
Beispiel zur Exspektanz: - Kennwerte der STP:
- Konfidenzintervalle der GG-Parameter:
- obwohl das Konfidenzintervall für σ relativ groß ist, wird zunächst auch für die GG eine Normalverteilung angenommen - Frage: in welchem Wertebereich Δx ist in S=90% der Fälle eine beobachtete Oktobertemperatur zu erwarten? - Exspektanz um Stichprobenmittel wie folgt zu berechnen:
- wegen des großen Konfidenzintervalls von σ kann auch von einem zu kleinen STP-Umfang ausgegangen werden, was dann die Berechnung auf Basis der t- Verteilung impliziert:
Cs
Cx
43,1
97,7
%95)71,115,1(
%95)37,857,7(
P
P
%90)32,1062,5(
35,297,743,1645,197,721
CxXCP
CCCCszxx
%90)37,1057,5(
40,297,743,1675,197,72;1
CxXCP
CCCCstxxn
Schätzverfahren4.1
Festlegung des Stichprobenumfangs: - STP-Umfang, Irrtumswahrscheinlichkeit und Konfidenzintervalle hängen un- mittelbar zusammen - in der Praxis wird schmales Konfidenzintervall bei hoher Sicherheit bevorzugt - gegeben eine angestrebte Genauigkeit (L = Δcrit) und eine Irrtumswahrschein-
lichkeit α lässt sich der Mindestumfang der STP berechnen - STP-Umfang für Konfidenzintervall der Länge L von Erwartungswert μ mit bestimmtem Konfidenzkoeffizienten S:
- Beispiele zur Bestimmung des STP-Umfangs:
2
22
2
2
22
4
2
L
szn
n
szL
n
szx
n
szx
97)2(
)5(96,14
2,05,0,5
2
22
C
Cn
CLCs
385)1(
)5(96,14
1,05,0,5
2
22
C
Cn
CLCs
166)2(
)5(58,24
2,01,0,5
2
22
C
Cn
CLCs
Schätzverfahren4.1 Festlegung des Stichprobenumfangs: - mit kleiner werdender Konfidenzintervallbreite (KIB) wächst der benötigte STP-Umfang quadra- tisch an: für Halbierung des Konfidenzintervalls benötigt man den 4-fachen STP-Umfang - STP-Umfang ist auch Funktion der Irrtumswahr- scheinlichkleit α, aber weniger sensitiv - STP-Umfang hängt auch von der empirischen Varianz s2 innerhalb der STP ab:
- Beispiel:
- empirische Varianz a-priori meist nicht bekannt; dann u.U. kleine Voruntersuchung durchführen und σ2 = s2 iterativ festlegen
je kleiner die empirische Varianz der STP desto kleiner der Standardfehler der STP und desto kleiner der benötigte STP-Umfang Klumpen-STP statt Zufalls-STP
97)2(
)5(96,14
2,05,0,5
2
22
C
Cn
CLCs
35)2(
)3(96,14
2,05,0,3
2
22
C
Cn
CLCs
Fehlerrechnung4.2 in den Geowissenschaften beruhen viele STP-Daten auf physikalischen Messungen: - begrenzte Messgenauigkeit aus technischen Gründen - Variationen des Messsystems - Variationen durch die menschliche Handhabung Fluktuationen der Messwerte bei ansonsten gleichen Randbedingngen:
2 Arten von Messfehlern: - systematische Fehler: - bevorzugte Richtung der Abweichung vom Zielwert - potentiell erkennbar und eliminierbar - z.B. Strahlungseinfluss auf Thermometer - stochastische Fehler: - zufällige Streuung um Zielwert - prinzipiell nicht eliminierbar - z.B. Messgenauigkeit des Niederschlages Trennung der beiden Fehlerarten entweder kausal (Ursachen: z.B. Mess- apparatur) oder empirisch( z.B. durch systematische Abweichungen vom gesetzmäßigen Verhalten der zufälligen Fehler = Fehlerverteilungsgesetze)
),,,(),,,(),,,(),,,(),,,(),,,(ˆ tzyxtzyxtzyxytzyxtzyxytzyxy zss
Messwertan einem Ort
zu einem Zeitpunkt
Zielwert:deterministisch,beliebig genau
Messfehler systematischerMessfehler
(raumzeitunabh.)
systematischerMessfehler
(raumzeitabh.)
stochastischerMessfehler
(raumzeitabh.)
Fehlerrechnung4.2
Ursachen für das Auftreten von systematischen Fehlern: - Apparaturfehler: Messanordnung, Eichfehler, Skalenfehler, Trägheitsfehler - Handhabungsfehler: Parallaxenfehler beim Ablesen, Körpertemperatur, Erschütterungen, Bedienfehler - Auswertungsfehler: Umrechnung, Rundung, Statistik, graphische Darstellung - Interpretationsfehler: Fehlinterpretation wegen fehlender Metadaten
Fehlerverteilungsgesetze: - auch wenn keine systematischen Fehler vorliegen existieren immer zufällige Fehler - verbleibende Messwertvariationen verlaufen nach bestimmten Gesetzen: Fehlerverteilungsgesetze nach Gauß (1777-1855): bei unendlich vielen Messungen xi stellt sich bei diskreten (metrischen) Daten die Binomialvertei-
lung (Normalverteilung) exakt ein - anhand der Häufigkeitsverteilung der Messwerte lässt sich beurteilen, ob nur noch zufällige Fehler verbleiben:
xi xi
f fNV / b:nur εz
systematischer “Bias“:εs + εz
Fehlerrechnung4.2
Fehlerschätzung: - zufällige Fehler legen die Messgenauigkeit einer Versuchsapparatur fest - Bestimmung der Messgenauigkeit mit Hilfe der Fehlerschätzung nach Gauß - gegeben eine Messreihe xi , i=1..n unter konstanten Rahmenbedingungen:
einfache Fehlerschätzung - ohne stochastische Fehler sollte sich numerisch exakt der gleiche Wert für alle xi einstellen
- nach Gauß ist das arithmetische Mittel der xi der sog. Bestwert der Messung,
der sich im Falle εz = 0 einstellen würde
- zufällige Fehler werden als Unschärfe der Messwerte definiert: Zahlenwert- intervall im Sinne eines Mutungsbereiches - theoretisch mit Sicherheitswahrscheinlichkeit S zu verbinden, in der Praxis aber meist nur Bereich zwischen ±1∙s mit S = 68,26% (bei NV) angegeben:
- keine sehr konservative Schätzung für die Messgenauigkeit: besser S = 95%
%100
x
n
s
ar
a
absoluter Standardfehler des Bestwertes
relativer Standardfehler des Bestwertes
Fehlerrechnung4.2
Beispiel zur Fehlerschätzung: - Messreihe mit 8 Versuchen unter identischen Randbedingungen:
- Messgenauigkeit wird bereits durch die erste Ziffer des absoluten Standard- fehlers festgelegt - Messresultat lautet somit:
- bei abgeleiteten Größen sollte die Messgenauigkeit mit einer Ziffer weniger angegeben werden als bei den Originaldaten
Versuch xi
1 22,6°C
2 22,8°C
3 22,7°C
4 22,7°C
5 23,0°C
6 22,7°C
7 22,5°C
8 22,8°C
%93,1%100
05,00526,08
1487,0
1487,0
725,2
8
x
n
s
s
x
n
ar
a
e
Cx )05,072,2(
Fehlerrechnung4.2
Fehlerfortpflanzung: - im Gegensatz zur einfachen Fehlerschätzung nun Messergebnis E betrachtet, das sich aus mehreren fehlerbehafteten Messgrößen a,b,c,... zusammensetzt:
- Bestwert des zusammengesetzten Messergebnisses ist:
- ferner sind die absoluten und relativen (nichtprozentualen) Standardfehler der Einzelmessgrößen und des zusammengesetzten Messergebnisses:
- Fehlerfortpflanzungsgesetz nach Gauß:
,...),,( cbafE
,...),,( cbafE
Ecba
E
aE
r
c
ac
r
b
ab
r
a
aa
r
,...,,,
...222
c
a
b
a
a
a
E
a c
E
b
E
a
E
Fehlerrechnung4.2
Fehlerfortpflanzung: - nach den Regeln der Differentialrechnung ergeben sich für verschiedene Rechenoperationen zwischen den Einzelmessgrößen die folgenden Fehler- abschätzungen:
- in der Praxis lässt sich Fehlerfortschreibung entweder analytisch oder durch sukzessives Einbringen der individuellen Fehlergrößen in die Funktionsglei- chung von E = f(a,b,c,…) bewerkstelligen
a
r
E
r
a
rE
r
a
r
E
r
b
b
r
a
r
E
r
b
a
a
a
E
a
aKE
aaE
baE
baE
baE
:Konstante) ie(fehlerfreeren Transformi
ln
:erenLogarithmi
:urzelPotenzen/W
:otientProdukt/Qu
:erenzSumme/Diff
22
22
Fehlerrechnung4.2 Beispiel zur Fehlerfortpflanzung: - gesucht ist Messgenauigkeit für das zusammengesetzte Messergebnis:
- Messreihen und -fehler zu den einzelnen Messgrößen a,b,c:
- sukzessives Vorgehen gemäß E = f(a,b,c):
- das zusammengesetzte Messergebnis lautet E = 275±59
22 cbaE
Versuch ai bi ci
1 7 3,5 14
2 6 3,7 17
3 8 3,6 19
4 3,6 10
15,4
6,3,4
7,3
cc
bb
aa
xn
xn
xn
13,0,96,1
01,0,04,0
08,0,58,0
c
r
c
a
b
r
b
a
a
r
a
a
%3,21213,04,275
64,58
5964,585,58032,4
5,58151526,013,022
032,46,37208,00
2
2222
22
2
E
r
e
a
d
a
E
a
e
r
e
r
e
a
c
r
e
r
d
r
d
r
d
a
b
r
a
r
d
r
e
d
ec
dba
Prinzip statistischer Tests4.3
neue Fragestellung: zuerst Eigenschaften der GG postulieren und dann prüfen, ob diese Eigenschaften durch eine STP bestätigt werden können
daran schließt sich Frage an, wie stark ein STP-Kennwert von einem GG-Parameter abweichen darf, um als Bestätigung für die Grundannahmen zur GG zu gelten
Brauchbarkeit der Theorie zu einer GG lässt sich dadurch bemessen, inwiefern sich Teilaussagen dieser Theorie (Hypothesen) in der Praxis bewähren
Alternativhypothesen (Gegenhypothesen): - beinhalten innovative Aussagen, die über den gegenwärtigen Kenntnisstand der Wissenschaft hinausgehen - Aufgabe der Wissenschaft besteht darin zu überprüfen, ob die Realität durch solche Alternativhypothesen besser erklärt werden kann
Alternativhypothese:
“Das Wertheim-Village
schafft neue Arbeitsplätze.“
Prinzip statistischer Tests4.3
Alternativhypothesen: - Unterschiedshypothesen: Häufigkeits- und Mittelwertvergleiche - Zusammenhanghypothesen: Korrelationsrechnung - gerichtete Hypothese: Änderung in eine bestimmte Richtung (besser/schlechter, größer/kleiner, …); negative/positive Korrelation - ungerichtete Hypothese: Änderung allgemein; Korrelation allgemein - spezifische Hypothese: Änderung um (mindestens) einen bestimmten Betrag - unspezifische Hypothese: Änderung allgemein - Hypothesenformulierung hängt von den Vorkenntnissen zum Sachverhalt ab:
- Überprüfung einer Hypothese erfordert Übersetzung der wissenschaftlichen Hypothese in eine statistische Alternativhypothese H1:
ungerichteteunspezifische
Hypothese
gerichtetespezifischeHypothese
Stand der Vorkenntnisse
wissenschaftliche Hypothese:
“Das Wertheim-Village schafft
neue Arbeitsplätze.“
statistische Alternativhypothese:
“Im Mittel war die Arbeitslosenquote vorher (μo)
höher als hinterher (μ1).“
Nomenklatur:H1 : μ0 > μ1
H1 : ρ > 0
Operationa-
lisierung
Prinzip statistischer Tests4.3
Nullhypothese: - konkurrierend zur Alternativhypothese: konservativer Standpunkt - beinhaltet keine inhaltliche Aussage außer der Negation von H1
- statistische Nullhypothese ist zwingend komplementär zur Alternativhypothe- se:
- in der klassischen Prüfstatistik repräsentiert die Nullhypothese die Basis, bezüglich derer die Alternativhypothese akzeptiert werden darf oder nicht - nur wenn die Realität nicht mit der Nullhypothese vereinbar ist, darf Alternativ- hypothese akzeptiert werden (konservative Sicht in der Wissenschaft)
Unterschiedshypothesen:
100101
100101
100101
: H : H
: H : H
: H : H
Zusammenhanghypothesen:
0 : H 0 : H
0 : H 0 : H
0 : H 0 : H
01
01
01
Prinzip statistischer Tests4.3
Entscheidung über Richtigkeit einer der beiden Hypothesen anhand der STP-Daten: - verbunden mit Unsicherheit (=Wahrscheinlichkeit) - durch zufällige STP-Auswahl könnten die beiden Hypothesen fälschlicher- weise akzeptiert bzw. verworfen werden Fehlerarten bei statistischen Entscheidungen: - α-Fehler: Nullhypothese wird fälschlicherweise verworfen - β-Fehler: Nullhypothese wird fälschlicherweise angenommen
- in der Praxis können beide Fehlerarten zu Fehlentscheidungen mit teils gravierende Konsequenzen führen (z.B. Fehlinvestitionen, unzureichende Sicherheitsmaßnahmen etc.)
Prinzip statistischer Tests4.3
Signifikanz: - Qualität einer statistischen Entscheidung kann verstanden werden als die Wahrscheinlichkeit, einen α- oder β-Fehler zu begehen - Wahrscheinlichkeit für einen α-Fehler heißt Irrtumswahrscheinlichkeit (Signifikanz): bedingte Wahrscheinlichkeit gegeben H0 in der GG
- Bestimmung der Irrtumswahrscheinlichkeit α basiert auf der Zufallsverteilung der Stichprobenmittelwerte:
nach dem zentralen Grenzwertsatzsind Stichprobenmittel einer GG normalverteilt mit μ0 und σX
Mittelwert einer bestimmten STPsei x (z.B. Arbeitslosenquote hinterher)
schraffierte Fläche kennzeichnet Wahr-scheinlichkeit, dass der Wert x in der GG erreicht oder überschritten wird
diese Fläche kennzeichnet die Irrtums-wahrscheinlichkeit α bei einer Entschei-dung zu Ungunsten der Nullhypothese
Prinzip statistischer Tests4.3
Signifikanz: - in der Praxis ist empirische Ermittlung der Zufallsverteilung der STP-Mittelwer- te meist zu aufwendig (sehr viele Befragungen/Versuche nötig) - aber diese Verteilung lässt sich schätzen aus einer oder mehreren STP der GG, die die Nullhypothese kennzeichnet:
- gegeben den Mittelwert x einer spezifischen zu überprüfenden STP von hin- reichendem Umfang lässt sich die Irrtumswahrscheinlichkeit α über eine z- Transformation ermitteln:
n
s
n
x
X
i
ˆ
ˆ:hlerStandardfe
ˆ:Mittelwert 0
X
xz
ˆ
ˆ0
Irrtumswahrscheinlichkeit je nach Fragestellung:
Überschreitungswahrscheinlichkeit: α = 1 - P(X z)
Unterschreitungswahrscheinlichkeit: α = P(X -z)
zμ0-z
Prinzip statistischer Tests4.3 Beispiel zur Signifikanz: - neues Lehrkonzept in der Statistikvorlesung besser? - bei herkömmlichem Lehrkonzept μ0 = 40 Testaufgaben gelöst mit einer
Streuung von σ = 8 (Verteilung der Werte unter H0)
- bei 100 Studenten wurden unter dem neuen Lehrkonzept im Mittel 42 Test- aufgaben gelöst - Standardfehler der STP-Mittelwerte in der GG:
- z-Transformation des zu überprüfenden STP-Mittelwertes:
- Funktionswert aus der Tabelle der Verteilungsfunktion der Standard-NV liefert:
- ein STP-Mittelwert von x = 42 tritt nur in 0,62% der STP aus der GG der Nullhypothese auf - Ablehnung der Nullhypothese erfolgt mit einer Irrtumswahrscheinlichkeit von 0,62% (sehr gering) → H1 zu akzeptieren: neues Lehrkonzept besser!
8,0100
8ˆˆ
X
n
5,28,0
4042ˆ
0
X
xz
%62,00062,09938,01)5,2(1 XP
Prinzip statistischer Tests4.3 Signifikanzniveau: - Beitrag der Statistik endet bei der Berechnung der Irrtumswahrscheinlichkeit - darüber hinaus ist nur eine subjektive Einschätzung und Entscheidungsfin- dung möglich - zur Vergleichbarkeit statistischer Entscheidungen hat sich die Konvention etabliert, eine Nullhypothese erst bei α = 5% bzw. α = 1% abzulehnen - diese Schwellenwerte der Irrtumswahrscheinlichkeit heißen Signifikanzniveau:
- Auswahl eines Signifikanzniveaus muss a-priori erfolgen je nach Ausmaß der Konsequenzen aus einer fälschlicherweise abgelehnten Nullhypothese - Beispiel zum neuen Lehrkonzept führt mit der Annahme von H1 zu einem sehr
signifikanten Ergebnis - häufige Missverständnisse: Signifikanzaussage ist nicht identisch mit der:
signifikantes Ergebnis: H0abgelehnt bei α = 5% P(Ergebnis|H0) 5%sehr signifikantes Ergebnis: H0 abgelehnt bei α = 1% P(Ergebnis|H0) 1%
Wahrscheinlichkeit des Ergebnisses: P(Ergebnis|H0) ≠ P(Ergebnis)Wahrscheinlichkeit der Nullhypothese: P(Ergebnis|H0) ≠ P(H0)Wahrscheinlichkeit des Alternativhypothese: P(Ergebnis|H0) ≠ 1 - P(H0)Wahrscheinlichkeit der H0 gegeben das Ergebnis: P(Ergebnis|H0) ≠ P(H0|Ergebnis)
stattdessen Verknüpfung über Bayes-Theorem: )(
)Ergebnis()Ergebnis|()|Ergebnis(
0
00 HP
PHPHP
Prinzip statistischer Tests4.3
Signifikanzniveau: - die Chance auf ein signifikantes Ergebnis vergrößert sich mit dem STP- Umfang, dem Abstand x – μ0 und einer kleineren Streuung innerhalb der GG:
- Annahme der Alternativhypothese einer neuen Theorie erfolgt nur indirekt durch Ablehnung der Nullhypothese - Signifikanzniveaus von 5% bzw. 1% sollen als gute wissenschaftliche Praxis verstanden werden, um neue Theorien gegenüber Spekulationen abzusichern - in der Alltagswelt begnügen wir uns bei vielen Entscheidungen bereits mit einer Irrtumswahrscheinlichkeit von 20%
n
xz
X
X
ˆˆ
ˆ
ˆ0
Prinzip statistischer Tests4.3 Ein- und zweiseitige Tests: - einseitiger Test: gerichtete Hypothesen H1 : μ1 > μ0 , μ1 < μ0
- zweiseitiger Test: ungerichtete Hypothesen: μ1 ≠ μ0
einseitiger Test:
Fläche von α nur auf eineSeite der Verteilung beschränkt
entsprechende Quantile liegen näher am Mittelwert μ0 = 40:
86,418,0326,240ˆ:%1
32,418,0645,140ˆ:%5
10)1(
10)1(
Xcrit
Xcrit
zx
zx
zweiseitiger Test:
Fläche von α auf beide Seiten der Verteilung aufgeteilt
entsprechende Quantile liegen weiterentfernt vom Mittelwert μ0 = 40:
94,378,058,240ˆ:%1
06,428,058,240ˆ:%1
43,388,096,140ˆ:%5
57,418,096,140ˆ:%5
20)2(
210)21(
20)2(
210)21(
Xcrit
Xcrit
Xcrit
Xcrit
zx
zx
zx
zx
“kritischer Wert“
Prinzip statistischer Tests4.3
Ein- und zweiseitige Tests: - zweiseitige Hypothesenformulierung erhöht den kritischen Wert und somit die Chance, dass die Nullhypothese bei einem festen α angenommen wird - klassischer inhaltlicher Bezug: eine Alternativhypothese mit mehr Vorkenntnis wird eher bestätigt
Statistische Signifikanz und praktische Bedeutung: - ein signifikantes Ergebnis ist abhängig vom STP-Umfang, also nicht auf beliebige STP unterschiedlicher Größe zu transferieren:
- bei genügend großen STP ist jede Nullhypothese zu verwerfen: Wert der Signifikanzaussage?
n xcrit , α = 1%
36 40 + 3,11
100 40 + 1,32
1000 40 + 0,59
10000 40 + 0,19
gleiche Differenz x – μ0 führt zu unterschiedlichenEntscheidungen über H1 in Abhängigkeit von n
Frage nach praktischer Relevanz von 0,19 mehr richtigen Testaufgaben trotz statistischer Signifikanz
Prinzip statistischer Tests4.3
Statistische Signifikanz und praktische Bedeutung: - es ist ein objektiver Standard gefordert, der eine statistische Entscheidung mit Kriterien der praktischen Bedeutsamkeit verbindet: Effektgröße - Effektgröße kennzeichnet den Mindestunterschied zwischen zwei GG, um von praktischer Relevanz zu sein:
- Effektgröße wird mathematisch wie folgt definiert:
- Festlegung der Effektgröße muss a-priori erfolgen und ist immer an inhaltli- chen Fragestellungen orientiert:
- bei festgelegter Effektgröße und Irrtumswahrscheinlichkeit lässt sich der benö- tigte STP-Umfang ableiten (s.u.)
- Mittelwertdifferenz x – μ0 - Mindestkorrelation- Prozentwertdifferenz
X
ˆ01
Wie viele mehr gelöste Testaufgaben rechtfertigen den Aufwand eines neuen Lehrkonzeptes?
Welche Reduktion der Arbeitslosenquote führt zu relevanten Impulsen beim Konsum?
Statistische Tests für Intervalldaten4.4
bislang statistischen Kennwert einer STP mit dem zugehörigen Parameter einer bekannten GG verglichen
in der Praxis sind GG-Parameter selten bekannt, so dass Kennwerte eher zwischen STP verglichen werden
je nach Skalenart der Daten unterschiedliche Tests:
im Zweifelsfall sind immer mehrere Tests durchzuführen und bei unter-schiedlichen Ergebnissen immer der Test mit den geringsten Anforderun-gen an das Skalenniveau zu bevorzugen
zusätzlich noch Unterscheidung nach Zusammenhang der verglichenen STP:
- Intervall-/Rationalskala
- Ordinalskala
- Nominalskala
- unabhängige Stichproben
- abhängige Stichproben
Statistische Tests für Intervalldaten4.4
Vergleich STP-Mittelwert und Erwartungswert der GG: - Alternativhypothese: Zufalls-STP gehört zu einer GG mit Erwartungswert μ1,
die von einer Referenz-GG mit E(X) = μ0 abweicht:
- Entscheidung hängt von der Differenz ab - bei hinreichend großen STP sind STP-Mittel unter der H0 normalverteilt:
- Differenz kann in Standardnormalverteilung transformiert werden:
- aus Tabelle der Standardnormalverteilung wird kritischer Wert für eine vorge- gebene Irrtumswahrscheinlichkeit α bei ein- oder zweiseitigem Test abgelesen und Entscheidung getroffen:
101
100
: H
: H
0-x
)ˆ
ˆ,(NV 0 nX
X
0
ˆ-x
z
annehmen H||||
annehmen H||||
0)1(
1)1(
crit
crit
xz
xz
Prüfgröße:
Prüfgröße jenseits des kritischen Wertes:
Prüfgröße diesseits des kritischen Wertes:
bei kleinen STP kann u.U. die Binomialverteilung unter H0 realisiert sein: Binomial-Test
Statistische Tests für Intervalldaten4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - graphische Veranschaulichung der möglichen Fälle:
Z
)(xf
X
xz
ˆ0
)1( critx
z
ein
seit
iger
Tes
tzw
eise
itig
er T
est
Z
)(xf
z
)(critx
z
H1 : μ0 < μ1 H1 : μ0 > μ1
Z
)(xf
z
)2(critx
z
H1 : μ0 ≠ μ1
)21( critx
zz
z führt zur Annahmevon H0
z führt zur Annahme von H1
Statistische Tests für Intervalldaten4.4
Vergleich STP-Mittelwert und Erwartungswert der GG: - Beispiel: männliche Geographen haben einen geringeren IQ (gerichtete H1)
als die GG aller Männer:
- bekannte GG mit μ0 = 100 und σ = 10
- STP mit n = 36 Geographen und x = 98 - Prüfgröße:
- kritischer Wert bei α = 0,05, einseitiger Test:
- statistische Entscheidung:
- Antwortsätzchen:
2,1
36
1010098
n
-xˆ-x
z 0
X
0
101
100
: H
: H
%5,11115,0)2,1(645,1)( Xcrit Fx
annehmen H|||| 0)1( critxz
“Männliche Geographen sind nicht dümmer als andere Männer“
Statistische Tests für Intervalldaten4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - bei kleinen STP mit n 30 gilt der zentrale Grenzwertsatz nicht, d.h. die STP- Mittelwerte sind nicht normalverteilt - wenn trotzdem gewährleistet ist, dass die GG normalverteilt ist, verteilen sich die Differenzen x – μ entsprechend einer t-Verteilung mit n – 1 Freiheitsgraden - Prüfgröße lautet dann:
- kritischer Wert dann aus Tabelle der Funktionswerte der t-Verteilung in Abhängigkeit von α und Anzahl der Freiheitsgrade Φ = n – 1 :
- um 1 reduzierte Anzahl der Freiheitsgrade resultiert daraus, dass für die Berechnung des Standardfehlers der Mittelwert eingeht, so dass nur n – 1 Abweichungsquadrate frei variieren dürfen wegen:
- Beispiel IQ von männlichen Geographen bei n = 29:
X
01-n σ
μ-xt
),(t 1-n; tF
0)x-(xn
1ii
08,1ˆ-x
t :PrüfgrößeX
01-n
70,1 t: Wertkritischer 1-n; H0 annehmen
Statistische Tests für Intervalldaten4.4
Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Alternativhypothese: die beiden STP stammen aus unterschiedlichen GG mit Erwartungswert μ0 und μ1
- unter H0 ist Erwartungswert dieser Differenz gleich Null
- gegeben sind zwei STP der Größe n1 bzw. n2 mit Mittelwert x1 bzw. x2 und
Varianzen s21 und s2
2
- Differenz der STP-Mittelwerte ist als Linearkombination zweier unabhängiger ZVA zu verstehen mit Varianz und Standardfehler:
- bei unbekannter GG-Varianz ergibt sich geschätzter Standardfehler:
0 : H
0 : H
101
100
2
2
2
1
2
1
2
2
2
1
2
122222
21
2121)1()1(
nn
nn
XX
XXXX
n
ssnn
nn
snsn
nnnn XXXX
2
2
2
121
21
2
22
2
11
212
2
2
1
2
1
2121ˆ:für ,
)1()1(
)1()1(11ˆˆˆ
Statistische Tests für Intervalldaten4.4
Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Prüfgröße (t-Test):
- diese Prüfgröße ist t-verteilt mit n1 + n2 -2 Freiheitsgraden bzw. mit zunehmen-
dem STP-Umfang (n1 + n2 -2 50) normalverteilt
- Beispiel: weibliche Geographen sind belastbarer als männliche Geographen (gerichtete H1, einseitiger Test, α = 0,05):
21 XX
21
σ
xt
x
annehmen H|ˆ|
67,1
66233352
327,006,3
2,1042,103ˆ
ˆ
06,33234
75,1593287,15734
33
1
35
1
)1()1(
)1()1(11ˆ
75,159,2,104, (Frauen) 33
87,157,2,103, (Männer) 35
0;
;
21
21
21
2
22
2
11
21
2
222
2
111
21
21
tt
t
nn
xxt
nn
snsn
nn
sxn
sxn
XX
XX
Statistische Tests für Intervalldaten4.4
Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - bei manchen Fragestellungen werden parallelisierte STP (matched samples) betrachtet, bei denen die Elemente in beiden STP paarweise einander zugeordnet sind (z.B. Ehepartner, wiederholte Messung vor und nach Krankheit) - solche abhängigen STP lassen sich ebenfalls mit t-Test überprüfen, aber Varianzen der beiden STP beeinflussen sich u.U. gegenseitig - zu umgehen, indem nur zusammengehörende Messwertpaare betrachtet werden in Form der ZVA D:
- arithmetisches Mittel über alle n Messwertpaare:
- nun interessiert die Verteilung des Mittelwertes von Differenzen statt die Verteilung der Differenz von Mittelwerten (t-Test für unabhängige STP, s.o.):
21 iii xxd
n
iid d
nx
1
1
2
11
2
1
2 1
1
1)(
1
1ˆ,
ˆˆ
n
ii
n
ii
n
idid
dX
dn
dn
xdnnd
Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Prüfgröße (t-Test):
- wegen H0 : μd = 0 gilt für die Prüfgröße unter H0 vereinfacht:
- diese Prüfgröße ist t-verteilt mit n – 1 Freiheitsgraden - gilt streng genommen nur, wenn Differenzen in der GG (STP) annähernd normalverteilt, aber t-Test relativ robust ggü. Verletzungen
dX
ddxt
ˆˆ
dX
dxt
ˆ
Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Beispiel: Geographiestudenten schätzen ihre Leistungsfähigkeit in der Statistik falsch ein (ungerichtete H1, α = 0,05):
- Geographiestudenten unterschätzen ihre Leistungsfähigkeit signifikant
Proband STP1 STP2
1 40 48
2 60 55
3 30 44
4 55 59
5 55 70
6 35 36
7 30 44
8 35 28
9 40 39
10 35 50
11 50 64
12 25 22
13 10 19
14 40 53
15 55 60
STP1 : geschätzte Anzahl gelöster AufgabenSTP2 : tatsächliche Anzahl gelöster Aufgaben
15,2,15,2
14
15,303,2
4,6ˆ
ˆ
03,215
85,7ˆˆ
85,715
)96(1478
14
11
1
1ˆ
4,6)96(15
11
15
;21;2
22
11
2
1
tt
xt
n
dn
dn
dn
x
n
d
d
X
d
dX
n
ii
n
iid
n
iid
Statistische Tests für Intervalldaten4.4
Vergleich STP-Varianz und GG-Varianz: - Alternativhypothese: STP gehört aufgrund der Unterschiedlichkeit ihrer Werte nicht in eine bestimmte GG mit σ0
2 sondern in GG mit σ12 (ungerichtete H1):
- gegeben ist die Varianz σ02 der GG und eine STP der Größe n mit geschätzter
Varianz:
- Prüfgröße (χ2-Test):
- diese Prüfgröße ist χ2-verteilt mit n – 1 Freiheitsgraden - kritischer Wert dann aus Tabelle der Funktionswerte der χ2-Verteilung - diesmal ist Voraussetzung der normalverteilten GG sehr stringent - gegebenenfalls vorab statistischen Test auf NV durchführen (s.u.)
101
100
: H
: H
n
ii xx
n 1
22 )(1
1
2
22 ˆ)1(
ˆo
n
Statistische Tests für Intervalldaten4.4
Vergleich STP-Varianz und GG-Varianz: - Beispiel: Geographieprofessoren unterscheiden sich stärker in ihren Ge- stimmtheiten als andere Professoren (gerichtete H1, α = 0,05)
- aus Eichstichprobe ist Referenzwert der GG bekannt mit σ0 = 15
- bei einer STP von n = 80 Geographieprofessoren wurde ein Wert von = 19 festgestellt - Annahme der NV bei Testwerten der 80 Probanden - χ2-Test:
- Gestimmtheit bei Geographieprofessoren schwankt signifikant stärker als bei anderen Professoren
88,101
791
75,12615
1979ˆ)1(ˆ
19ˆ
15
80
2
;21
2
2
2
22
0
n
n
n
o
Statistische Tests für Intervalldaten4.4
Vergleich von zwei STP-Varianzen aus unabhängigen STP: - Alternativhypothese: zwei STP stammen aus Grundgesamtheiten mit unter- schiedlicher Varianz, wobei die GG1 stärker streut als die GG2 (gerichtete H1)
- gegeben sind zwei STP mit den Schätzwerten:
- Prüfgröße (F-Test):
- wegen H0 : σ21 = σ2
2 gilt für die Prüfgröße unter H0 vereinfacht:
2
2
2
11
2
2
2
10
: H
: H
2
2
1
1
1
2
2
2
2
2
1
2
1
1
2
1
)(1
1ˆ
)(1
1ˆ
n
ii
n
ii
xxn
xxn
2
2
2
2
2
1
2
1
ˆ
ˆˆ
F
2
2
2
1
ˆ
ˆ
F
Statistische Tests für Intervalldaten4.4 Vergleich von zwei STP-Varianzen aus unabhängigen STP: - diese Prüfgröße ist F-verteilt mit:
- kritischer Wert dann aus Tabelle der Funktionswerte der F-Verteilung - Annahme der normalverteilten GG ist ebenfalls stringent - Konvention: größere STP-Varianz muss im Zähler stehen, da Tabellenwerte meist nur für die rechte Seite der asymmetrischen F-Verteilung im Intervall [1 < F < ] angegeben werden - bei kleinerer STP-Varianz im Zähler wäre Intervall [0 < F < 1] gefragt - zweiseitige Tests lassen sich ebenfalls nicht durchführen - Test für Varianzen aus abhängigen STP: Wilcox-Test - Beispiel: Würzburger Geographiestudenten decken ein größeres politisches Meinungsspektrum ab als Münchner Geographiestudenten (gerichtete H1,
α = 0,05), Operationalisie- rung durch Meinungsindex:
heitsgradeNennerfrei 1
tsgradelerfreihei Zäh1
22
11
n
n
annehmen H38,1
19,180
95ˆ
ˆF
(München) 1191,80ˆ,120
(Würzburg) 991,95ˆ,100
0;;1
2
2
2
1
22
2
22
11
2
11
21
F
nn
nσn
Statistische Tests für Ordinaldaten4.5
statistische Tests für Ordinaldaten erfordern weniger Voraussetzungen bzgl. Skalenniveau und Verteilung der GG: - für alle ordinalskalierten Daten - für Intervall- und Rationaldaten, die nicht die Voraussetzungen für die obigen Tests erfüllen
Vergleich von zwei unabhängigen STP bzgl. zentraler Tendenz: - arithmetisches Mittel bei Ordinal- daten nicht definiert - Beispiel: Medikament zur Verkür- zung der Reaktionszeit unter Alko- holeinfluss: - Reaktionszeit sei nicht normalver- teilt: verteilungsfreies Verfahren - dann U-Test von Mann-Whitney
mit Alkohol mit Alkohol und Medikament
Zeit Rang Zeit Rang
85 4 96 10
106 17 105 16
118 22 104 15
81 2 108 19
138 27 86 5
90 8 84 3
112 21 99 12
119 23 101 13
107 18 78 1
95 9 124 25
88 7 121 24
103 14 97 11
129 26
87 6
109 20
Gruppe 1: n1 = 12Gruppe 2: n2 = 15 Sortierung nach Rangplätzen über beide Gruppen
Statistische Tests für Nominaldaten4.6
Tests für Nominaldaten immer dann angebracht, wenn Häufigkeitsunter-schiede im Auftreten bestimmter Merkmale oder Merkmalskombinationen untersucht werden sollen: - Prüfgrößen meist χ2-verteilt: χ2-Methoden - nicht nur für kategoriale Daten - auch bei klassifizierten Intervall- und Rationaldaten - auch bei Ordinaldaten mit vielen verbundenen Rangplätzen
} Analyse von Häufigkeiten(Verteilungen)
Statistische Tests für Intervall- und Ordinaldaten:
Statistische Tests für Nominaldaten:
Analyse von Verteilungen
Analyse von Parametern
AnpassungstestsUnterschiedstests
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - Beispiel: im Fachbereich Statistik seien 869 männliche und 576 weibliche Studenten immatrikuliert: kommt dieser Unterschied zufällig zustande? - 2 Nullhypothesen:
- bei H0 mit gleichverteilten Merkmalsalternativen ergeben sich die folgenden
erwarteten (theoretischen) Häufigkeiten he:
- je größer die Abweichungen der beiden fb von fe desto unwahrscheinlicher H0
- da Abweichungen in der Summe Null, wird Prüfgröße über standardisierte Summe der quadrierten Abweichungen gebildet (χ2-Test):
- H0 : Übereinstimmung mit ausgewogenem Geschlechterverhältnis 50:50
- H0 : Übereinstimmung mit Geschlechterverhältnis an der gesamten Universität
ternativenMerkmalsalder Häufigkeit ebeobachtet :2
)2(),1(
)2()1(
b
bb
e
h
hhh
5,7222
576869
eh
2
1 )(
2
)()(2ˆj je
jejb
h
hh 41,59
5,722
)5,722576(
5,722
)5,722869(ˆ
222
große Abweich-ungen stärker gewichtet
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - da bei zweifach gestuftem Merkmal nur ein Summand frei variieren kann, ist die Anzahl der Freiheitsgrade der χ2-verteilten Prüfgröße immer: Φ=1
- kritischer Wert χ21-α;Φ abzulesen aus Tabelle der Funktionswerte der χ2-
Verteilung:
- zu beachten: χ2-Funktionswerte in Tabelle sind auf ungerichtete H1 angepasst:
- bei gerichteter H1 den Funktionswert für die doppelte Irrtumswahrscheinlich-
keit α ablesen:
- einseitiger Test kann auch über die Standardnormalverteilung durchgeführt werden mit Prüfgröße:
- gerichtete Hypothesen bei χ2-Methoden nur möglich, wenn Φ = 1
annehmen H Test)er zweiseitig 0,05,(84,3 1
2
;1
annehmen H Test)r einseitige 0,05,(71,2 1
2
;1
2z annehmen H645,171,741,59 11 zzz
H1 : es existiert keine Gleichverteilung der Geschlechter
H1 : es gibt mehr männliche als weibliche Studenten
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - bei H0 mit nicht gleichverteilten Merkmalsalternativen sind zunächst die
theoretischen Wahrscheinlichkeiten für das Auftreten der beiden Merkmals- alternativen zu bestimmen:
- unter H0 ergibt sich dann die folgende erwartete Häufigkeit für jede Merkmals-
alternative gegeben eine STP der Größe n:
- gleiche Prüfgröße wie oben:
- Vergleich mit kritischem Wert der χ2-Verteilung χ21-α;Φ = 3,84 führt zur
Annahme von H1
männliche Studenten an Uni: 16.169 p(♂) =
weibliche Studenten an Uni: 2.452 p(♀) =
87,0245216169
16169
)2()1(
)1(
hh
h
13,0245216169
2452
)2()1(
)2(
hh
h
jje pnh )(
he(♂) = 1445 • 0,87 = 1257,15
he(♀) = 1445 • 0,13 = 187,85
2
1 )(
2
)()(2ˆj je
jejb
h
hh 87,921
85,187
)85,187576(
15,1257
)15,1257869(ˆ
222
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - χ2-Test direkt auf k-fach gestufte Merkmale zu übertragen mit Nullhypothese bzgl. beliebiger Verteilungsform je nach Skalenniveau:
- Beispiel: Unterschiede bei Verkaufszahlen von 4 alternativen Produkten:
- Nullhypothese bei Gleichverteilung: die Verkaufszahlen unterscheiden sich rein zufällig - dann unter H0 erwartete Verkaufszahlen (n = STP-Umfang):
- dann Prüfgröße für k Kategorien / Klassen:
- Gleichverteilung- beliebige a-oriori Verteilung- Normalverteilung - Poissonverteilung
}}
Nominalskala
Intervallskala
STP Produkt A Produkt B Produkt C Produkt D
Anzahl: 70 120 110 100(a) (b) (c) (d)
1004
400)()()()(
k
nffff decebeae
k
j je
jejb
h
hh
1 )(
2
)()(2 14100
)100100(
100
)100110(
100
)100120(
100
)10070(ˆ
22222
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - diese Prüfgröße ist χ2-verteilt mit k – 1 Freiheitsgraden (α = 0,05):
- Nullhypothese beliebiger a-priori Verteilung: die Verkaufszahlen unter- scheiden sich rein zufällig von denen anderer Warenhäuser mit:
- dann sind wieder die theoretischen Wahrscheinlichkeiten und erwarteten Häufigkeiten angesichts der STP mit n = 400 umzurechnen:
- Prüfgröße:
- kritischer Wert (α = 0,05):
- Klassenhäufigkeiten sollten immer größer als 5 sein
annehmen H81,7 1
2
;1
GG Produkt A Produkt B Produkt C Produkt D
Anzahl: 560 680 640 700
10827,040027,02580
700)(
10025,040025,02580
640)(
10426,040026,02580
680)(
8822,040022,02580
560)(
)(
)(
)(
)(
de
ce
be
ae
fDP
fCP
fBP
fAP
74,7108
)108100(
100
)100110(
104
)104120(
88
)8870(ˆ
22222
annehmen H81,7 0
2
;1
Statistische Tests für Nominaldaten4.6
Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - Nullhypothese bei Normalverteilung: Merkmalsverteilung ist normalverteilt (nur bei Intervalldaten möglich) (“goodness of fit test“) - erwartete Häufigkeiten werden über standardisierte Klassengrenzen und zugehörige Fläche unter der Standardnormalverteilung ermittelt:
- Prüfgröße wieder:
- diese Prüfgröße ist χ2-verteilt mit k – 3 Freiheitsgraden (n, x, s2)
k
j je
jejb
h
hh
1 )(
2
)()(2
Statistische Tests für Nominaldaten4.6
Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - bivariater Fall: unabhängige Beobachtungen werden zwei Merkmalen zuge- ordnet, von denen das eine k-fach und das andere l-fach abgestuft ist - Beispiel: Rorschachdeutungen mit k = 4 Altersklassen (Merkmal A) und l = 3 Deutungsarten (Merkmal B), n = 500:
- Nullhypothese geht wieder von vorgegebenen oder geschätzten Verteilungen aus (Anpassungs- bzw. Zusammenhangtest) - Prüfgröße lautet (sog. k-l-χ2):
k
i
l
j jie
jiejib
h
hh
1 1 ),(
2
),(),(2 i = 1,2 : Index für Kategorien des 1. Merkmals (Geschlecht)
j = 1,2 : Index für Kategorien des 2. Merkmals (Brille)
Statistische Tests für Nominaldaten4.6 Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - Nullhypothese kann auf vorgegebenen Wahrscheinlichkeiten beruhen, die aus theoretischen Überlegungen hergeleitet werden können (z.B. Gleichverteilung) - dann ist Prüfgröße χ2-verteilt mit k • l – 1 Freiheitsgraden - meist basiert Nullhypothese aber auf geschätzten Wahrscheinlichkeiten, die wie oben aus den Randverteilungen und dem Multiplikationstheorem abgelei- tet werden:
- dann ist Prüfgröße χ2-verteilt mit (k – 1) • (l – 1) Freiheitsgraden - im konkreten Fall (α = 0,05, zweiseitig):
- inhaltliche Interpretation über Werte selbst
H0 : die beiden Merkmale sind voneinander unabhängig
n
jih jie
meSpaltensum eZeilensumm),(
eutungRorschachdt beeinflussAlter
:annehmen H59,12
6)13()14(
65,3495,33
)95,3328(...
96,29
)96,2920(
11,26
)11,2612(ˆ
etc.11,26500
1071221 meSpaltensum 1 eZeilensumm
1
2
;1
2222
)1,1(
nhe
“Take-away“
Das Anliegen der schließenden Statistik besteht darin, aus Stichproben-daten auf die Eigenschaften der Grundgesamtheit zu schließen.
Bei den Schätzverfahren geht es darum, die Parameter der Verteilung der Grundgesamtheit in einem Konfidenzintervall zu schätzen.
Arithmetisches Mittel und empirische Varianz sind erwartungstreue, konsistente, erschöpfende und effiziente Punktschätzer für den Erwartungswert und die Streuung der Grundgesamtheit.
Messfehler unterliegen Gesetzmäßigkeiten und sind in Form der Mess-genauigkeit zu quantifizieren.
Prüfverfahren basieren auf Null- und Alternativhypothese, über die mit einem bestimmten α- und β-Fehler entschieden wird, indem eine Prüf-größe mit einem kritischen Wert (Signifikanzniveau) verglichen wird.
Über den α- und β-Fehler sowie die Effektgröße lässt sich der optimale Stichprobenumfang a-priori ermitteln.
Bei den Prüfverfahren wird entschieden, ob eine vorliegende Stichprobe aus einer bestimmten Grundgesamtheit mit spezifischen Parametern (Unterschiedstests) oder Verteilungen (Anpassungstests) stammt.
4