j. bortz/n. döring: forschungsmethoden und evaluation
TRANSCRIPT
VO Statistik für LinguistInnen - HAGER - Signifikanztests 1
J. Bortz/N. Döring: Forschungsmethoden und Evaluation
(jeweils neueste Auflage) Springer, Berlin S. 463ff
Signifikanztests
Zur Logik des Signifikanztests
Tests zur statistischen Überprüfung von Hypothesen heißen Signifikanztests. Der Signifikanztest
ermittelt die Wahrscheinlichkeit, mit der das gefundene empirische Ergebnis sowie Ergebnisse,
die noch extremer sind als das gefundene Ergebnis, auftreten können, wenn die Populationsver-
hältnisse der Nullhypothese entsprechen. Ist diese Wahrscheinlichkeit kleiner als α%, bezeichnen
wir das Stichprobenergebnis als statistisch signifikant. Für α sind per Konvention die Werte 5%
bzw. 1% festgelegt. Stichprobenergebnisse, deren bedingte Wahrscheinlichkeit bei Gültigkeit der
H0 kleiner als 5% ist, sind auf dem 5%-(Signifikanz-)Niveau signifikant (kurz: signifikant) und
Stichprobenergebnisse mit Wahrscheinlichkeiten kleiner als 1% sind auf dem 1%-(Signifikanz-)
Niveau signifikant (kurz: sehr signifikant).
Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der Nullhypothese praktisch
nicht vereinbaren läßt. Man verwirft deshalb die Nullhypothese und akzeptiert die Alternativ-
hypothese. Andernfalls, bei einem nicht-signifikanten Ergebnis, wird die Nullhypothese beibehal-
ten und die Alternativhypothese verworfen.
Dies ist die Kurzform des Aufbaus eines Signifikanztests. Seine Vor- und Nachteile werden
deutlich, wenn wir die mathematische Struktur eines Signifikanztests etwas genauer betrachten.
Stichprobenkennwerteverteilungen
In jeder hypothesenprüfenden Untersuchung bestimmen wir einen statistischen Kennwert, der
möglichst die gesamte hypothesenrelevante Information einer Untersuchung zusammenfaßt.
Hierbei kann es sich - je nach Art der Hypothese und nach Art des Skalenniveaus der Variablen -
um Mittelwertsdifferenzen, Häufigkeitsdifferenzen, Korrelationen, Quotienten zweier Varianzen,
Differenzen von Rangsummen, Prozentwertdifferenzen o. ä. handeln. Unabhängig von der Art
des Kennwertes gilt, daß die in einer Untersuchung ermittelte Größe des Kennwertes von den
spezifischen Besonderheiten der zufällig ausgewählten Stichprobe(n) abhängt. Mit hoher
Wahrscheinlichkeit wird der untersuchungsrelevante Kennwert bei einer Wiederholung der
Untersuchung mit anderen Untersuchungsobjekten nicht exakt mit dem zuerst ermittelten Wert
übereinstimmen. Der Kennwert ist stichprobenabhängig und wird damit wie eine Realisierung
einer Zufallsvariablen behandelt.
Zieht man aus einer Population theoretisch unendlich viele gleich große Stichproben und
berechnet für jede Stichprobe einen Kennwert (z. B. den Stichprobenmittelwert), so verteilen sich
diese Stichprobenkennwerte in bekannter Weise um den zugehörigen Populationsparameter (z. B.
Populationsmittelwert). Eine solche theoretische (d.h. mathematisch ableitbare) Stichproben-
kennwerteverteilung aller möglichen Stichprobenergebnisse dient dazu, ein einzelnes empirisches
Stichprobenresultat einschätzen zu können.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 2
Die Feststellung, ob es sich bei dem in einer Untersuchung gefundenen Kennwert um einen „ex-
tremen" oder eher um einen „typischen" Kennwert handelt, ist nur möglich, wenn die Dichte-
funktion (bei stetig verteilten Kennwerten) bzw. die Wahrscheinlichkeitsfunktion (bei diskret ver-
teilten Kennwerten) der Zufallsvariablen „statistischer Kennwert" bekannt ist. Die Verteilung
eines statistischen Kennwertes bezeichneten wir als Stichprobenkennwerteverteilung („Sampling
Distribution"). Diese Verteilung ist unbekannt, solange wir die wahren Populationsverhältnisse
(z. B. die Differenz zweier Populationsmittelwerte oder die Korrelation zweier Merkmale in der
untersuchten Population) nicht kennen.
Signifikanztests werden nur eingesetzt, wenn die Ausprägungen der interessierenden Populati-
onsparameter unbekannt sind, denn sonst würde sich ein Signifikanztest erübrigen. Über die
„wahren" Populationsparameter können wir bestenfalls Vermutungen anstellen (z. B. die Diffe-
renz zweier Populationsmittelwerte sei vom Betrage a oder die Populationskorrelation zweier
Merkmale sei b). Wir können aber auch behaupten - und dies ist der übliche Fall - die Nullhypo-
these sei richtig, d. h. es gelten die mit der Nullhypothese festgelegten Populationsverhältnisse.
Statistische Tabellen
Damit stehen wir vor der Aufgabe, herauszufinden, wie sich ein Stichprobenkennwert (z. B. die
Differenz zweier Stichprobenmittelwerte oder die Stichprobenkorrelation verteilen würde, wenn
die Populationsverhältnisse durch die HO charakterisiert sind. Dies ist ein mathematisches
Problem, das für die gebräuchlichsten statistischen Kennwerte gelöst ist. Sind in Abhängigkeit
von der Art des statistischen Kennwertes unterschiedliche Zusatzannahmen erfüllt (diese finden
sich in Statistikbüchern als Voraussetzungen der verschiedenen Signifikanztests wieder), lassen
sich die Verteilungen von praktisch allen in der empirischen Forschung gebräuchlichen
Kennwerten auf einige wenige mathematisch bekannte Verteilungen zurückführen. Werden die
statistischen Kennwerte zudem nach mathematisch eindeutigen Vorschriften transformiert (dies
sind die Formeln zur Durchführung eines Signifikanztests), resultieren statistische Testwerte
(z.B. t-Werte, z-Werte, χ2-Werte, F-Werte etc.), deren Verteilungen (Verteilungsfunktionen) in
jedem Statistikbuch in tabellarischer Form aufgeführt sind.
Signifikante Ergebnisse
Der Signifikanztest reduziert sich damit auf den einfachen Vergleich der Größe des empirisch
ermittelten, statistischen Testwertes mit demjenigen Wert, der von der entsprechenden
Testwerteverteilung α% (α=1% oder α=5%) abschneidet. Ist der empirische Testwert größer als
dieser „kritische" Tabellenwert, beträgt dessen Wahrscheinlichkeit sowie die Wahrscheinlichkeit
aller extremeren Testwerte unter der Annahme, die Ho sei richtig, weniger als α%. Das Ergebnis
ist statistisch signifikant (α.<5%) bzw. sehr signifikant (α<1%).
Wir fragen also nach der Wahrscheinlichkeit, mit der Stichprobenergebnisse auftreten können,
wenn die Nullhypothese gilt. Wir betrachten nur diejenigen extremen Ergebnisse, die bei
Gültigkeit der Nullhypothese höchstens mit einer Wahrscheinlichkeit von 5% (1%) vorkommen.
Gehört das gefundene Stichprobenergebnis zu diesen Ergebnissen, ist das Stichprobenergebnis
„praktisch" nicht mit der Nullhypothese zu vereinbaren. Wir entscheiden uns deshalb dafür, die
Nullhypothese abzulehnen und akzeptieren die Alternativhypothese als Erklärung.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 3
Ein signifikantes Ergebnis sagt also nichts über die Wahrscheinlichkeit von Hypothesen aus, son-
dern „nur" etwas über die Wahrscheinlichkeit von statistischen Kennwerten bei Gültigkeit der
Nullhypothese. Die Hypothesen (die H0 oder die H1) sind entweder richtig oder falsch, d.h. auch
unsere Entscheidung, bei einem signifikanten Ergebnis die H0 zu verwerfen, ist entweder richtig
oder falsch. Bei dieser Entscheidungsstrategie riskieren wir, daß mit 5% (oder 1%) Irrtums-
wahrscheinlichkeit eine tatsächlich richtige H0 fälschlicherweise verworfen wird.
Bei einem Signifikanztest geht man zunächst davon aus, die Nullhypothese würde in der
Population gelten. Unter dieser Annahme läßt sich für den Populationsparameter, der in der
Nullhypothese angesprochen ist, eine Stichprobenkennwerteverteilung konstruieren, die angibt,
mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit dieser
Stichprobenkennwerteverteilung (bzw. Ho-Verteilung, Ho-Modell) wird nun das konkret in der
Untersuchung ermittelte Stichprobenresultat verglichen.
- Ist das gefundene Stichprobenergebnis ein wahrscheinliches Ergebnis, so steht es in Einklang
mit der Ho.
- Ist das Stichprobenergebnis ein unwahrscheinliches Ergebnis, das unter Gültigkeit der Ho nur
extrem selten auftreten kann, entschließt man sich, die Nullhypothese als unplausibel zu
verwerfen. Dies geschieht aber nur, wenn die Wahrscheinlichkeit für das Auftreten des gefunde-
nen oder eines extremeren Ergebnisses unter Gültigkeit der Ho sehr klein, nämlich kleiner als 5%
ist. Ein solches, im Sinne der Ho unplausibles Ergebnis wird als „signifikantes Ergebnis"
bezeichnet. Bei einem signifikanten Ergebnis entscheidet man sich dafür, die Ho abzulehnen und
die H1 anzunehmen.
Ein Beispiel: Der t-Test
Der Gedankengang des Signifikanztests sei wegen seiner Bedeutung nochmals anhand eines Bei-
spiels erläutert. Wir interessieren uns für die psychische Belastbarkeit weiblicher und männlicher
Erwachsener und formulieren als Ho: µ1 = µ2 und als H1: µ1 ≠ µ2
(µ1 ist der Populationsmittelwert weiblicher Personen und µ2 ist der Populationsmittelwert
männlicher Personen).
Psychische Belastbarkeit wird mit einem psychologischen Test gemessen, der bei einer Zufalls-
stichprobe von n1 männlichen Personen im Durchschnitt - so unsere operationale Hypothese -
anders ausfallen soll als bei einer Zufallsstichprobe von n2 weiblichen Personen (ungerichtete,
unspezifische Hypothese). Der für die Überprüfung von Unterschiedshypothesen bei zwei Stich-
proben verwendete statistische Kennwert ist die Mittelwertsdifferenz 1x – 2x . Dieser statistische
Kennwert wird nach folgender Gleichung in einen statistischen Testwert transformiert:
21
21
xxs
xxt
−
−=
Den Ausdruck im Nenner bezeichnen wir als (geschätzten) Standardfehler der Mittelwerts-
differenz. Der statistische Testwert t folgt bei Gültigkeit der Ho einer t-Verteilung (mit n1 + n2 – 2
Freiheitsgraden), wenn das Merkmal „psychische Belastbarkeit" in beiden Populationen normal-
verteilt und die Merkmalsvarianz σ2 (“Sigma”) in beiden Populationen gleich ist (bzw. die
geschätzten Populationsvarianzen homogen sind). Die t-Verteilung geht für n1 + n2 > 30 in die
Standardnormalverteilung über.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 4
Gerichtete Hypothesen (Die psychische Belastbarkeit männlicher Personen ist größer als die
psychische Belastbarkeit weiblicher Personen) werden anhand dieser Verteilung über einseitige
und ungerichtete Hypothesen (Die psychische Belastbarkeit männlicher und weiblicher
Personen unterscheidet sich) über zweiseitige Tests geprüft.
Annahme- und Ablehnungsbereich
der Ho bei zweiseitigem Test
Bei einem zweiseitigen Test markieren die Werte t(α/2) und -t(α/2) diejenigen t-Werte einer t-
Verteilung, die von den Extremen der Verteilungsfläche jeweils α/2% abschneiden. Empirische t-
Werte, die in diese Extrembereiche fallen, haben damit insgesamt eine Wahrscheinlichkeit von
höchstens α%, vorausgesetzt, die Nullhypothese ist richtig. Da derart extreme Ergebnisse nur
schlecht mit der Annahme, die Ho sei richtig, zu vereinbaren sind, verwerfen wir die Ho und
akzeptieren die H1: µ1 ≠ µ2 (Die psychische Belastbarkeit männlicher und weiblicher Personen
unterscheidet sich). Befindet sich der empirisch ermittelte t-Wert jedoch im Annahmebereich der
Ho, dann sind das Stichprobenergebnis und die Nullhypothese besser miteinander zu vereinbaren
und wir behalten die Ho: µ1 = µ2.
Annahme- und Ablehnungsbereich
der Ho bei einseitigem Test
Die Überprüfung einer gerichteten H1: µ1 > µ2 erfordert einen einseitigen Test. Wir verwerfen
die Nullhypothese und akzeptieren die Alternativhypothese, wenn der empirische t-Wert größer
ist als derjenige t-Wert, der von der t-Verteilung „einseitig" α% abschneidet. Ist der empirische t-
Wert jedoch kleiner als der kritische Wert tα, kann die H, nicht angenommen werden (nicht-
signifikantes Ergebnis).
VO Statistik für LinguistInnen - HAGER - Signifikanztests 5
Anselm Eder (2003): Statistik für Sozialwissen-
schaftler, Skriptum, facultas, S. 131
Der t - Test Der Grundgedanke des t-Tests ist die Fragestellung, ob zwei Mittelwerte ein- und derselben
Variablen, die in zwei Gruppen (etwa: zwei Stichproben) erhoben worden sind, sich voneinander
„nur zufällig“ unterscheiden, oder ob diese Unterschiede eher auf „etwas systematisches“ zurück-
zuführen sind: z.B. darauf, dass es sich eben doch nicht um zwei zufällig gezogene Stichproben
handelt, sondern eher um zwei Auswahlverfahren, die systematisch einmal kleinere, und einmal
größere Werte der betrachteten Variablen aussuchen. (Anmerkung isa hager: Auswahlverfahren
z.B. Geschlecht: durchschnittliches Einkommen von Männern und Frauen)
So könnte etwa der Mittelwert der Körpergröße von Soldaten in einer Kaserne 168 cm sein, und
der von Soldaten einer anderen Kaserne 172 cm. Die Frage, die man stellen könnte, lautet:
wurden die Soldaten in den beiden Kasernen nach Größe rekrutiert, oder handelt es sich dabei
einfach um zufällige Unterschiede, die deshalb zustande kamen, weil die beiden Stichproben aus
der Grundgesamtheit aller österreichischen Wehrdienstpflichtigen sich eben zufällig um 4cm im
Durchschnitt unterschieden haben?
Das Instrumentarium, das wir dafür brauchen, unterscheidet sich nicht mehr sehr wesentlich von
den Elementen, die wir schon einerseits als Grundelemente jedes Signifikanztests beim Chi-
quadrat-Test, und andererseits beim Konfidenzintervall kennen gelernt haben. Zunächst müssen
wir wieder ein vernünftiges Prüfmaß konstruieren. Dabei wird natürlich der Unterschied
zwischen den beiden Mittelwerten eine Rolle spielen.
Aus dem Abschnitt über Konfidenzintervalle wissen wir schon, dass die
Standardabweichung eines Stichprobenmittelwertes n
ss x
x= ist.
Außerdem wissen wir, dass eine Zufallsvariable, von der wir ihren Erwartungswert abziehen, den
Erwartungswert 0 hat; dividieren wir sie noch durch ihre Standardabweichung, dann hat sie die
Standardabweichung 1.
Gemäß der Nullhypothese sind die Abweichungen der beiden Mittelwerte voneinander zufällig,
d.h. die Erwartungswerte für die beiden Mittelwerte (die Mittelwerte der zugehörigen
Grundgesamtheiten) sind gleich, oder sogar identisch. Somit ist die Größe
21
21
xxs
xxt
−
−= normalverteilt1, mit dem Erwartungswert 0 und der Standardabweichung 1.
Dass der Erwartungswert 0 ist, ergibt sich unmittelbar aus der Nullhypothese, gemäß der die
beiden Mittelwerte 1x und 2x gleich sind. Wenn wir daher unendlich viele Paare von Stichproben
ziehen, dann werden die Durchschnitte der Mittelwerte dieser beiden Stichproben gleich sein.
1 Genau genommen ist dieses Prüfmaß ist für größere Stichproben (größer als ca. 50 für beide Stichproben zusammen) annähernd normalverteilt. Für kleinere Stichproben hat GOSSET die zugehörige Verteilung unter dem Namen „t-Verteilung“ berechnet. Ähnlich wie die χ2-Verteilung ist auch die t-Verteilung durch Freiheitsgrade charakterisiert. Die Anzahl der Freiheitsgrade ist n1+n2-2, wobei n1 und n2 die Größen der beiden Stichproben sind.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 6
Aus der Vorlesung:
Signifikanztests
Anwendung
Signifikanztests dienen zur statistischen Überprüfung von Hypothesen. Zunächst wird davon
ausgegangen, dass die Nullhypothese (H0) in der Grundgesamtheit (Population) gilt. Unter dieser
Annahme lässt sich für die Population eine Stichprobenkennwerteverteilung konstruieren, die
angibt, mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit
dieser Stichprobenkennwerteverteilung wird nun das konkret in der Untersuchung ermittelte
Stichprobenresultat verglichen. Ist das gefundene Stichprobenergebnis ein wahrscheinliches
Ergebnis, so steht es in Einklang mit der H0. Ist das Stichprobenergebnis ein unwahrscheinliches
Ergebnis, das unter Gültigkeit der H0 nur extrem selten auftreten kann, wird die Nullhypothese
als unplausibel verworfen. Ein solches, im Sinne der H0 unplausibles Ergebnis wird als
„signifikantes Ergebnis” bezeichnet (H0 wird abgelehnt und H1 wird angenommen).
Signifikanztests sind nur sinnvoll bei Zufallsstichproben. Je nach Signifikanztest können weitere
Voraussetzungen erforderlich sein (z.B. metrisches Skalenniveau, Normalverteilung).
Vorgehen
1. Formulierung der Nullhypothese (H0) und der Alternativhypothese (H1).
2. Ermittlung einer statistischen Prüfgröße.
3. Festlegung des Signifikanzniveaus (üblicherweise 5%-Niveau) und bestimmen der
Wahrscheinlichkeit der Prüfgröße anhand der zugehörigen Wahrscheinlichkeitsverteilung
derselben (in Tabellen nachzulesen bzw. macht SPSS automatisch).
4. Annahme der H1, wenn Irrtumswahrscheinlichkeit kleiner <0,05, ansonsten wird H0 vorläufig
beibehalten.
??? Wozu brauch ich Signifikanztests ???HYPOTHESEN-TESTUNG
Hypothesen (H0 und H1) formulieren
1.
Signifikanzniveau der Prüfgröße festlegen.
3.Prüfgröße berechnen
2.
Je nach Irrtums-WS H0 beibehalten oder
H1 annehmen.
4.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 7
Fragestellung
Zweiseitige Fragestellung: Wenn über die Richtung des vermuteten Zusammenhangs keine sichere Annahme getroffen werden kann (z.B. x x1 2≠ ).
Einseitige Fragestellung: Wenn die Richtung des vermuteten Zusammenhangs angegeben werden kann (z.B. x x1 2< ).
Fehlerarten
Fehler 1. Art (α): H0 wird irrtümlich abgelehnt, d.h. eine falsche H1 wird angenommen. Fehler 2. Art (β): H0 wird irrtümlich beibehalten, d.h. eine richtige H1 wird abgelehnt.
Fehlerarten
Grundgesamtheit/Population
Sti
chp
rob
e
H0
H1
H0 H1
kein Zusammenhang
ZusammenhangZusammenhang falsch
Zusammenhang nicht erkannt
α -Fehler
β -Fehler
�a
�a
Unterschied zwischen Prüfgröße und Signifikanz
Grundsätzlich wird bei jedem statistischen Test zwischen der Prüfgröße (z.B. der Chi-Quadrat-
Wert) und der Signifikanz der Prüfgröße unterschieden. Während die Prüfgröße Chi-Quadrat
theoretisch Werte bis unendlich annehmen kann, liegt die Signifikanz (=Wahrscheinlichkeit
der Prüfgröße bei angenommener Unabhängigkeit) immer zwischen 0 und 1.
Signifikanz • ein Wert nahe bei 0 bedeutet:
der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr unwahrscheinlich � ist dieser Wert gleich oder kleiner als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 verworfen und die H1 (Annahme von Abhängigkeit oder Zusammenhang) angenommen;
• ein Wert nahe bei 1 bedeutet: der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr wahrscheinlich � ist dieser Wert größer als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 (Annahme von Unabhängigkeit oder keinem Zusammenhang) beibehalten;
VO Statistik für LinguistInnen - HAGER - Signifikanztests 8
Übersicht über die wichtigsten Signifikanztests
VO Statistik für LinguistInnen - HAGER - Signifikanztests 9
VO Statistik für LinguistInnen - HAGER - Signifikanztests 10
Entscheidungsbaum
VO Statistik für LinguistInnen - HAGER - Signifikanztests 11
VO Statistik für LinguistInnen - HAGER - Signifikanztests 12
Im Folgenden sollen die verschiedenen Testverfahren kurz besprochen werden. Es gibt noch sehr
viel mehr Testverfahren, hier werden lediglich die wichtigsten angeführt.
χ2 - Test
Test auf Unabhängigkeit zweier Merkmale. Der χ2 - Test kann bei nominal- und ordinalskalierten
Variablen verwendet werden. Der Test wird bei Kreuztabellen in sinnvoller, der Fragestellung
entsprechender Kategorisierung angewandt. Logik: tatsächliche und erwartete Zellenhäufigkeiten
werden miteinander verglichen, die Prüfgröße Chi-Quadrat misst diese Abweichung zur
Unabhängigkeit.
Nullhypothese: Die Variablen treten unabhängig voneinander in der Grundgesamtheit auf bzw. es
besteht kein Zusammenhang zwischen den beiden Variablen in der
Grundgesamtheit.
Prüfgröße χ2 unter der Nullhypothese:
)1)(1(2
1 1
2
......)(
−−= =∑∑
−lk
k
i
l
je
eo
f
ff χ
Kolmogorov-Smirnov-Test (bei einer Stichprobe)
Test, ob die Verteilung einer Variablen in der Grundgesamtheit mit einer theoretischen Verteilung
übereinstimmt. Es wird in der Praxis Normal- und Gleichverteilung getestet. Das dahinterliegende
Verfahren ist wieder die Chi-Quadrat-Logik (Vergleich tatsächlicher mit erwarteten Häufigkeiten).
Nullhypothese: Es besteht kein Unterschied zwischen der empirischen und der theoretischen
Verteilung. Bei diesem Test besteht der Sonderfall, dass unsere „Wunschhypothese“ die
Nullhypothese ist.
Prüfgröße unter der Nullhypothese: maxDnZSmirnovKolmogorov ∗=−−
Dmax ist die maximale absolute Differenz der kumulierten Häufigkeiten.
Weiterführende Literatur: Bortz/Lienert (1998):
Kurzgefasste Statistik für die klinische Forschung, Springer, Berlin, S. 67 ff und 203 ff
VO Statistik für LinguistInnen - HAGER - Signifikanztests 13
t-Test auf Gleichheit der Mittelwerte von zwei unabhängigen Stichproben
Test auf Gleichheit der Mittelwerte. Sollte nur verwendet werden, wenn echte metrische Variablen
analysiert werden. Die Variablen sollten zudem normalverteilt sein. Dies kann mit dem
Kolmogrov-Smirnov-Test überprüft werden. Diese Überprüfung kann ausbleiben, wenn der
Stichprobenumfang der beiden Subgruppen n > 30 ist, weil dann von einer Normalverteilung
ausgegangen wird.
Nullhypothese: Die Mittelwerte in den zwei Stichproben (Subgruppen der Bevölkerung) sind gleich, d.h. x x1 2= oder x x1 2 0− = .
Hier gibt es zwei Berechnungsformeln für die Prüfgröße t, einmal wenn die Varianzen der Variable
der beiden zu vergleichenden Gruppen/Stichproben gleich/homogen sind, einmal wenn sie
ungleich/heterogen sind. Dies ist mit dem F-Test (Leven´s-Test auf Homogenität der Varianzen) zu
überprüfen. Je nach Ergebnis ist eine der beiden Formeln anzuwenden:
Prüfgröße t unter der Nullhypothese:
� falls Varianzen gleich:
� falls Varianzen nicht gleich:
Im SPSS werden die Testergebnisse beider Formeln ausgewiesen. Anhand des ebenfalls
ausgewiesenen Levene´s-Test ist zu entscheiden, welches Testergebnis interpretiert wird.
Varianzanalyse
Bei der Varianzanalyse wird ein multipler Mittelwertvergleich durchgeführt. Die Testvariable
muss metrisch und normalverteilt sein, die Gruppenvariable ist nominal oder ordinal. Das
Testverfahren ist ein F-Test: F = erklärte Varianz / Fehlervarianz ;
Erklärte Varianz = Streuung der Gruppenmittelwerte um den Gesamtmittelwert (between groups)
Fehlervarianz = Streuung der Einzelwerte um den jeweiligen Gruppenmittelwert (within groups);
Je größer die Prüfgröße F, desto größer die erklärte Varianz. Signifikanz wird anhand der F-
Verteilung überprüft.
Weiterführendes zur Varianzanalyse siehe Eder Statistik für Sozialwissenschaftler S. 134 ff;
und: gut beschrieben bei Jürgen Bortz: Statistik für Sozialwissenschaftler, S. 225 ff
tx x
s
n
s
n
=−
+
1 2
1
1
2
2
² ²
tx x
sn n
p
=−
+
1 2
1 2
1 1 s
n s n s
n np²
( ) ² ( ) ²
( ) ( )= − + −
− + −1 1 2 2
1 2
1 1
1 1
VO Statistik für LinguistInnen - HAGER - Signifikanztests 14
zR R
m n m n
mn
=−
+ + +
1 2
1
12
( )²( )
t-Test auf Gleichheit der Mittelwerte von zwei abhängigen Stichproben
Test auf Gleichheit der Mittelwerte bei abhängigen Stichproben. Beispiele: Befragung von
Ehepaaren, Vergleich des sozialen Status zwischen Elternteil-Kind, Vorher-Nacher-Messungen.
Wie den t-Test bei unabhängigen Stichproben, sollte man auch diesen Test nur verwenden, wenn
echte metrische Variablen vorliegen.
Nullhypothese: Die mittlere Differenz der Messwerte der Vergleichspaare (= durchschnittliche
Abweichung zwischen Ehemann/-frau; Kind/Elternteil, vorher/nachher) ist 0.
Prüfgröße t unter der Nullhypothese: D .... mittlere Differenz
U-Test auf Gleichheit der Verteilung bei zwei unabhängigen Stichproben
Mann-Whitney-U-Test auf Gleichheit der Rangsummen bzw. mittleren Ränge. Der U-Test kann ab
Daten mit ordinalem Skalenniveau verwendet werden.
Wenn metrische Daten vorliegen, die nicht normalverteilt sind bzw. die beiden Gruppen zu kleine
Fallzahlen haben, dann ist der U-Test dem t-Test vorzuziehen.
Nullhypothese: Die Variable hat in beiden Grundgesamtheiten (Gruppen in der Bevölkerung)
die gleiche Verteilung.
Prüfgrößen unter der Nullhypothese:
m = Fallzahl der einen Gruppe
n = Fallzahl der anderen Gruppe
R = mittlerer Rang
Weitere Tests auf Gleichheit der Verteilung:
Wilcoxon-Test bei zwei verbundenen Rängen (zwei gepaarten oder abhängigen Stichproben)
Kruskal-Wallis-Test: bei mehreren unabhängigen Stichproben
Friedman-Test: bei mehreren abhängigen Stichproben
Gute Übersicht bei: Janssen/Laatz: Statistische Datenanalyse mit SPSS und Felix Brosius: SPSS 13 Professionelle Statistik, jeweils neueste Auflage, Kapitel Nicht-parametrische Tests;
VO Statistik für LinguistInnen - HAGER - Signifikanztests 15
Aus Materialien von isa hager:
Zufall oder Nicht-Zufall? – das ist hier die Frage!
Der Zweck eines Signifikanztests ist es, Gesetzmäßigkeiten, die wir in Form der
Alternativhypothesen formulieren, zu erkennen. Nachdem wir nun einige Signifikanztests und
statistische Verfahren kennen-gelernt haben, soll das Prinzip der Signifikanztestung nochmals
erläutert werden.
Bei jedem statistischen Test erhalten wir ein Prüfmaß, welches sich aus den vorgestellten
Formeln ergibt. Das Prüfmaß ist immer ein Maß dafür, wie stark die von uns postulierte
Gesetzmäßigkeit zutrifft - also etwa ein Mittelwertunterschied wie beim t-Test, der Unterschied
zwischen tatsächlichen und erwarteten Häufigkeiten beim Chi2-Test, die durchschnittliche
Abweichung eines Messwerts bei zwei Messzeitpunkten, der Korrelationskoeffizient von zwei
Variablen… und so weiter und so fort…
Zu diesem Prüfmaß erhalten wir weiters die Wahrscheinlichkeit für dessen Zustandekommen,
wenn wir in einer Welt des totalen Zufalls leben würden. Oder anders gesagt: Die Signifikanz sagt
uns, wie wahrscheinlich es ist, genau dieses Prüfmaß zu erhalten, wenn es keinen Zusammenhang
gibt.
Die Welt des Zufalls hat einen Vorteil: Der Zufall ist berechenbar, und wir können genau
angeben, wie das Prüfmaß aussieht, wenn der Zufall herrscht. Aus dieser Welt des Zufalls
stammen die "Zufalls-Verteilungen": Wahrscheinlichkeitsverteilungen wie die Normalverteil-
ung und die Chi2-Verteilung (quadrierte Normalverteilung), die wir bereits kennengelernt haben.
Weitere sind:
Für Prüfmaß t
Für Prüfmaß F
… und viele andere. Für alle gilt: Bei genügend df gehen sie alle in eine Normalverteilung über! (vergleiche auch die wunderschöne χ2-Verteilung von Seite 63! = quadrierte Normalverteilung)
VO Statistik für LinguistInnen - HAGER - Signifikanztests 16
Freiheitsgrade (df): Was bedeutet das? Die Freiheitsgrade definieren immer die Fallzahl in der
unter-suchten Gruppe oder die Anzahl der untersuchten Gruppen minus 1. Ein Fall wird
abgezogen, weil der "letzte" Fall vorherbestimmt werden kann. Überlege: Wenn ich den
Notendurchschnitt einer Prüfung und die Noten von 9 Prüflingen weiß, dann ist die Note des 10.
Prüflings (Hubsi Huber) durch die anderen festgelegt. Die Note von Hubsi Huber ist demnach
nicht mehr frei (vom Zufall) wählbar.
„The Art of Fehler“ oder: Die widerspenstige Zähmung des Zufalls:
Alpha-Fehler: Die bei einem Test berechnete Signifikanz ist der Alpha-Fehler. Wir testen, wie
hoch das Risiko ist, einen falschen Zusammenhang zu behaupten, den es gar nicht gibt. Den
Alpha-Fehler können wir berechnen, weil - wie gesagt - der Zufall berechenbar ist, und der Alpha-
Fehler angibt, inwieweit das Ergebnis für den Zufall spricht. Wenn die WS für den Zufall kleiner
als 5% ist (α), dann gehen wir davon aus, dass nicht der Zufall sondern die Gesetzmäßigkeit
"herrscht."
Beta-Fehler: Schwieriger ist es beim Beta-Fehler, denn der Beta-Fehler basiert auf der Annahme,
dass es einen Zusammenhang in der Grundgesamtheit gibt, und wir aber diesen Zusammenhang in
unserer Stichprobe nicht nachweisen konnten. Für den Beta-Fehler brauchen wir also die
Wahrscheinlichkeits-verteilung für das exakt geltende Prüfmaß in der Grundgesamtheit, das wir
aber nicht wissen! Daher können wir den Beta-Fehler nur schätzen. Standardmäßig wird ein Beta-
Fehler von 20% angenommen.
Hier die hypothetischen Verteilungen für das Prüfmaß t in der Grundgesamtheit (tGG):
-4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
t-Verteilung wenn tGG =
0 bei
t-Verteilung wenn tGG =
5 = GESETZ
Wenn tStpr zwischen ≈ 1 und 3, aber Gesetz gilt: � Wir haben es nicht
erkannt (β-Fehler)
Wenn tStpr größer als ≈ 3 aber Gesetzt gilt nicht:
� Wir behaupten falsches Gesetz (α-Fehler)
GESETZ erkannt!�
ZUFALL erkannt!�
5%-Grenze
VO Statistik für LinguistInnen - HAGER - Signifikanztests 17
Die Teststärke eines Tests: Die Teststärke ist die Chance, mit dem jeweiligen Verfahren eine Gesetzmäßigkeit zu
erkennen. Dabei ist von entscheidender Bedeutung, stets die jeweils genaueste Information zu
verwenden, also: Hierarchie: metrisch geht vor ordinal, ordinal geht vor dichotom. Mit jedem
Schritt auf die "tiefere" Skala geht immer Information verloren! (Denken Sie ans Rekodieren!) Wir
wenden immer das "höchstmögliche" Testverfahren an, denn je höher die Teststärke, desto
höher die Chance, ein signifikantes Ergebnis zu erhalten und damit die Gesetzmäßigkeit zu erkennen! Hierarchie: parametrische Verfahren gehen vor nicht-parametrischen Verfahren, diese
wiederum gehen vor Chi-Quadrat-Testung.
Einseitige oder Zweiseitige Fragestellung:
Bei einer "zweiseitigen" Fragestellung wissen wir nicht, in welche Richtung der Zusammenhang
geht, bei einer "einseitigen" Fragestellung schon: Beispiel anhand eines t-Tests:
Zweiseitig: Das Durchschnittseinkommen unterschiedet sich bei Männern und Frauen.
Einseitig: Das Durchschnittseinkommen der Männer ist höher als jener der F rauen.
Bei der zweiseitigen Fragestellung schneiden wir auf der t-Zufallsverteilung auf jeder Seite 2,5%
ab, um 5%-Fehler-WS zu erhalten: auf der negativen und auf der positiven Seite. Bei der
einseitigen Fragestellung können wir die eine Seite der Zufallsverteilung vernachlässigen, weil wir
ja die (positive oder negative) Richtung des Zusammenhangs kennen, daher können wir die
gesamten 5% auf einer Seite abschneiden. Im SPSS wird die zweiseitige Fehler-WS angeben,
wenn wir die halbieren, erhalten wir die einseitige Fehler-WS. Denn: Wir betrachten nur eine Seite
der Wahrscheinlichkeitsverteilung, das heißt: 50% sind jetzt 100%, also ist der Fehler nur halb so
groß! Also: Eine zweiseitige Irrtums-WS von 0,06 wird bei einer einseitigen Fragestellung zu
einem halb so großen Fehler, nämlich 0,03. Aber Achtung: Diese Halbierung des p-Werts ist nur
dann zulässig, wenn es sich um eine abgesicherte Theorie handelt.
Es herrscht die H0 � auch in der Stichprobe
Es herrscht die HA � das zeigt sich auch in der Stichprobe!
Es herrscht die HA � dies konnte aber nicht in der Stichprobe nach-gewiesen werden.
Das liegt oft daran, dass die Stichprobe zu klein ist.
Es herrscht die H0 � und ich behaupte einen falschen Zusammenhang !!
Das liegt oft daran, dass die Stichprobe zu klein oder verzerrt ist.
VO Statistik für LinguistInnen - HAGER - Signifikanztests 18
Für das Prüfmaß t:
Prüfmaß und Signifikanz: Das Prüfmaß misst, wie stark das Stichprobenergebnis vom Zufall
abweicht.
Das Prüfmaß ist sehr klein, wenn das Testergebnis dem Zufall entspricht. Zufall!
Das Prüfmaß ist sehr hoch, wenn das Testergebnis sehr weit vom Zufall entfernt ist. Gesetz!
Die Signifikanz misst, wie wahrscheinlich das Prüfmaß ist, wenn es zufallsverteilt wäre.
Die Wahrscheinlichkeit ist sehr hoch, wenn das Prüfmaß sehr klein und daher zufällig ist. Zufall!
Die Wahrscheinlichkeit ist sehr klein, wenn das Prüfmaß sehr groß und daher nicht zufällig ist!
Gesetz!
Sie können einfach die Frage stellen: Kann mein Ergebnis Zufall sein?
Wenn p > ,05 gehen wir davon aus, dass das Ergebnis zufällig zustande gekommen ist. (H0)
Wenn p <= ,05 gehen wir davon aus, dass das Ergebnis kein Zufall ist, sondern dass die von uns
postulierte Gesetzmäßigkeit zutrifft (HA).
� hohes Prüfmaß � kleines p, kleine Fehler-WS, wenn p <= 0,05 � signifikant ! Gesetz gilt!
� kleines Prüfmaß � großes p, große Fehler-WS, wenn p > 0,05 � nicht signifikant ! Zufall
regiert!
Rückschluss auf die Grundgesamtheit ist der Sinn der Signifikanz-Testung: Wenn sich eine
Hypothese als signifikant erwiesen hat, dann behaupten wir, das dieses Ergebnis nicht zufällig ist,
dann gehen wir davon aus, dass diese Gesetzmäßigkeit auch in der Grundgesamtheit - aus der wir
ja unsere Stichprobe gezogen haben - gilt. Erst wenn sich eine Hypothese als signifikant erwiesen
hat, können wir davon ausgehend Rückschlüsse auf die Grundgesamtheit machen.
Fallzahl und Signifikanz: Die Signifikanz ist sehr stark abhängig von der Fallzahl der Stichprobe. Eine Stichprobe aus
30 Personen ist viel stärker vom Zufall abhängig als eine Stichprobe von 3000 Personen!
→ Denken Sie an die Korrelation: Nehmen wir an, wir haben eine Stichprobe von 2 Personen und wir korrelieren Alter und Einkommen. Wenn die Personen gleich alt sind und gleich viel verdienen, dann ergibt die Korrelation 0! Wenn die Personen sich aber nur minimal unterscheiden ergibt die Korrelation 1! Bei kleinen Stichproben schwanken demnach die Ergebnisse viel stärker.
→ Denken Sie an das Konfidenzintervall: Bei einer Stichprobe von 10 Personen stellt eine Person bereits 10% dar! Bei einer Stichprobe von 1000 Personen stellt eine Person lediglich 0,1 % dar! Dementsprechend groß ist das Konfidenzintervall bei kleinen Stichproben!
α/2 = 2,5% auf positiver Seite
α/2= 2,5% auf negativer Seite
α = 5 % auf einer Seite
VO Statistik für LinguistInnen - HAGER - Signifikanztests 19
In der empirischen Praxis zeigt sich das so, dass wir bei kleinen Stichproben unter Umständen sehr
hohe Korrelationen erreichen können und es besteht die Gefahr, dass diese zufällig zustande
gekommen sind. Bei sehr großen Stichproben hingegen sind die Korrelationen selten besonders
hoch, dafür sind die Korrelationen wenig zufallsanfällig und daher relativ zuverlässig.
Hier eine Übersicht: Neben der Fallzahl der ersten Spalte sind die kleinsten Koeffizienten
angeführt, die bei gegebener Fallzahl bereits signifikant sind. Alle Koeffizienten die kleiner sind,
sind nicht signifikant. So muss beispielsweise bei einer Fallzahl von 25 Personen die Korrelation
zumindest stärker als 0,4 sein, sonst ist sie nicht signifikant. Bei einer Fallzahl von 1000 Personen
sind bereits fast alle Korrelationen (alle über 0,06, was sehr nahe bei 0 ist) signifikant, aber
deswegen sind sie nicht inhaltlich relevant. Inhaltlich relevant sind bei großen Stichproben erst
Korrelationen über etwa 0,3 oder 0,4.
Fallzahl
n
r ab dem die Korrelation
signifikant ist "schwacher"
Zushg. "mittlerer"
Zushg.
"starker" Zushg.
5 0,75
10 0,58
25 0,40 0,5 0,6 0,7
50 0,27 0,4 0,5 0,6
100 0,20 0,3 0,4 0,5
500 0,09 0,2 0,3 0,4
1000 0,06 0,15 0,25 0,35
2000 0,04 0,1 0,2 0,3
Ein signifikantes Ergebnis muss also noch lange nicht inhaltlich bedeutsam sein! Vielmehr gilt: Je
größer die Stichprobe, desto kleinere Unterschiede oder Zusammenhänge sind bereits signifikant.
Ab einer Fallzahl von etwa 500 sind bereits sehr kleine Unterschiede signifikant.
→ Beispielsweise korreliert die Lebenszufriedenheit (g14) bei 30 Häftlingen mit der Beziehung zu den
GefängniswärterInnen (h55) mit rho = ,291 und p = ,119 ist nicht signifikant. Bei simulierter Verdoppelung der Stichprobe beträgt der Korrelationskoeffizient weiterhin ,291 und p = ,024. Wenn wir die Stichprobe in der Simulation verdreifachen, dann beträgt der Korrelationskoeffizient weiterhin ,291 und die Signifikanz p = ,005. So wird jedes Ergebnis bei nur genügend hoher Fallzahl signifikant!
→ ABER: Die Simulation hat auch ihre Grenzen: Unser Chi2-Beispiel, ob sich die Trennung der Eltern (b1) auf ein früheres Einstiegsalter mit Heroin (heroin_di) auswirkt, erreicht bei 30 Häftlingen ein = 0,03 und p= ,873, also kein Unterschied. Hier bräuchten wir eine Verhundertfünfzigfachung der Stichprobe (n= 4500), um ein signifikantes Ergebnis bei diesem geringen Unterschied zu erreichen.
Weil es wichtig ist, dieses Prinzip der Statistik zu verstehen, hier nochmals eine Veranschau-
lichung: Ein Verein der Bewährungshilfe untersucht, ob sich die Rückfälligkeit (erneute
Straffälligkeit nach 2 Jahren) bei ehemaligen Häftlingen im Entlassungsvollzug mit Fußfessel oder
mit Freigang unterscheidet.
Nehmen wir an, wir hätten es mit einem geringen Zusammenhang (KK= ,119) zu tun: Es zeigt
sich zwar, dass die Häftlinge mit Fußfessel seltener rückfällig wurden, aber nur schwach:
Interpretation
"schwach"
"mittelmäßig"
"stark"
Achtung:
Diese Richtwerte
sind keine
Konvention!
VO Statistik für LinguistInnen - HAGER - Signifikanztests 20
Nämlich: In der Gruppe mit Fußfessel wurden 44% rückfällig, in der Gruppe mit Freigang
wurden 56% rückfällig: Dieser Zusammenhang mit unterschiedlicher Stichprobengröße zeigt:
→ Kleine Stichprobe (n = 100): Diesen - nicht besonders deutlichen - Zusammenhang weisen
wir zuerst bei n= 100 Häftlingen nach. Die absolute Abweichung zum Zufall beträgt 3
Personen, das Ergebnis ist mit einer Fehler-WS von 23% bei dieser Fallzahl nicht signifikant.
→ Mittlere Stichprobe (n = 200): Wir erheben weiter, bis wir die doppelte Stichprobengröße haben: Wir haben weiterhin denselben Zusammenhang, aber nun eine Absolutabweichung zum Zufall von 6 Personen. Das Ergebnis ist mit 9% Alpha-Fehler noch immer nicht signifikant.
→ Größere Stichprobe (n = 400): Wir erheben weiter und verdoppeln die Stichprobe nochmals. Der Zusammenhang ist gleich geblieben, wir haben nun 12 Personen Abweichung zu den erwarteten Häufigkeiten, und jetzt (mit n=400) ist unser Ergebnis schließlich signifikant mit unter 2% Fehler-WS.
Fazit: Die Signifikanztestung ist besonders bei Studien mit kleinerer Fallzahl von Bedeutung. Bei
großen Stichproben sind bereits kleine Unterschiede signifikant. Denn: Die Signifikanz gibt
Auskunft darüber, wie aussagekräftig das Stichprobenergebnis ist, wenn beim beobachteten
Ergebnis die Zufallsanfälligkeit der jeweiligen Fallzahl berücksichtigt wird.
Wäre der gemessene Unterschied stärker, also etwa 60% zu 40% (statt 56% zu 44%), dann wäre
dieses Ergebnis schon mit viel geringerer Fallzahl signifikant. Probieren Sie es aus!
n = 100 Res = 3 P.
= 1,44 KK = ,119 p = ,230 α-Fehler = 23%
n = 200 Res = 6 P.
= 2,88 KK = ,119 p = , 089 α-Fehler = 9%
n = 400 Res = 12 P.
= 5,76 KK = ,119 p = , 016 α-Fehler = 1,6%