j. bortz/n. döring: forschungsmethoden und evaluation

VO Statistik für LinguistInnen - HAGER - Signifikanztests 1

J. Bortz/N. Döring: Forschungsmethoden und Evaluation

(jeweils neueste Auflage) Springer, Berlin S. 463ff

Signifikanztests

Zur Logik des Signifikanztests

Tests zur statistischen Überprüfung von Hypothesen heißen Signifikanztests. Der Signifikanztest

ermittelt die Wahrscheinlichkeit, mit der das gefundene empirische Ergebnis sowie Ergebnisse,

die noch extremer sind als das gefundene Ergebnis, auftreten können, wenn die Populationsver-

hältnisse der Nullhypothese entsprechen. Ist diese Wahrscheinlichkeit kleiner als α%, bezeichnen

wir das Stichprobenergebnis als statistisch signifikant. Für α sind per Konvention die Werte 5%

bzw. 1% festgelegt. Stichprobenergebnisse, deren bedingte Wahrscheinlichkeit bei Gültigkeit der

H0 kleiner als 5% ist, sind auf dem 5%-(Signifikanz-)Niveau signifikant (kurz: signifikant) und

Stichprobenergebnisse mit Wahrscheinlichkeiten kleiner als 1% sind auf dem 1%-(Signifikanz-)

Niveau signifikant (kurz: sehr signifikant).

Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der Nullhypothese praktisch

nicht vereinbaren läßt. Man verwirft deshalb die Nullhypothese und akzeptiert die Alternativ-

hypothese. Andernfalls, bei einem nicht-signifikanten Ergebnis, wird die Nullhypothese beibehal-

ten und die Alternativhypothese verworfen.

Dies ist die Kurzform des Aufbaus eines Signifikanztests. Seine Vor- und Nachteile werden

deutlich, wenn wir die mathematische Struktur eines Signifikanztests etwas genauer betrachten.

Stichprobenkennwerteverteilungen

In jeder hypothesenprüfenden Untersuchung bestimmen wir einen statistischen Kennwert, der

möglichst die gesamte hypothesenrelevante Information einer Untersuchung zusammenfaßt.

Hierbei kann es sich - je nach Art der Hypothese und nach Art des Skalenniveaus der Variablen -

um Mittelwertsdifferenzen, Häufigkeitsdifferenzen, Korrelationen, Quotienten zweier Varianzen,

Differenzen von Rangsummen, Prozentwertdifferenzen o. ä. handeln. Unabhängig von der Art

des Kennwertes gilt, daß die in einer Untersuchung ermittelte Größe des Kennwertes von den

spezifischen Besonderheiten der zufällig ausgewählten Stichprobe(n) abhängt. Mit hoher

Wahrscheinlichkeit wird der untersuchungsrelevante Kennwert bei einer Wiederholung der

Untersuchung mit anderen Untersuchungsobjekten nicht exakt mit dem zuerst ermittelten Wert

übereinstimmen. Der Kennwert ist stichprobenabhängig und wird damit wie eine Realisierung

einer Zufallsvariablen behandelt.

Zieht man aus einer Population theoretisch unendlich viele gleich große Stichproben und

berechnet für jede Stichprobe einen Kennwert (z. B. den Stichprobenmittelwert), so verteilen sich

diese Stichprobenkennwerte in bekannter Weise um den zugehörigen Populationsparameter (z. B.

Populationsmittelwert). Eine solche theoretische (d.h. mathematisch ableitbare) Stichproben-

kennwerteverteilung aller möglichen Stichprobenergebnisse dient dazu, ein einzelnes empirisches

Stichprobenresultat einschätzen zu können.


Die Feststellung, ob es sich bei dem in einer Untersuchung gefundenen Kennwert um einen „ex-

tremen" oder eher um einen „typischen" Kennwert handelt, ist nur möglich, wenn die Dichte-

funktion (bei stetig verteilten Kennwerten) bzw. die Wahrscheinlichkeitsfunktion (bei diskret ver-

teilten Kennwerten) der Zufallsvariablen „statistischer Kennwert" bekannt ist. Die Verteilung

eines statistischen Kennwertes bezeichneten wir als Stichprobenkennwerteverteilung („Sampling

Distribution"). Diese Verteilung ist unbekannt, solange wir die wahren Populationsverhältnisse

(z. B. die Differenz zweier Populationsmittelwerte oder die Korrelation zweier Merkmale in der

untersuchten Population) nicht kennen.

Signifikanztests werden nur eingesetzt, wenn die Ausprägungen der interessierenden Populati-

onsparameter unbekannt sind, denn sonst würde sich ein Signifikanztest erübrigen. Über die

„wahren" Populationsparameter können wir bestenfalls Vermutungen anstellen (z. B. die Diffe-

renz zweier Populationsmittelwerte sei vom Betrage a oder die Populationskorrelation zweier

Merkmale sei b). Wir können aber auch behaupten - und dies ist der übliche Fall - die Nullhypo-

these sei richtig, d. h. es gelten die mit der Nullhypothese festgelegten Populationsverhältnisse.

Statistische Tabellen

Damit stehen wir vor der Aufgabe, herauszufinden, wie sich ein Stichprobenkennwert (z. B. die

Differenz zweier Stichprobenmittelwerte oder die Stichprobenkorrelation verteilen würde, wenn

die Populationsverhältnisse durch die HO charakterisiert sind. Dies ist ein mathematisches

Problem, das für die gebräuchlichsten statistischen Kennwerte gelöst ist. Sind in Abhängigkeit

von der Art des statistischen Kennwertes unterschiedliche Zusatzannahmen erfüllt (diese finden

sich in Statistikbüchern als Voraussetzungen der verschiedenen Signifikanztests wieder), lassen

sich die Verteilungen von praktisch allen in der empirischen Forschung gebräuchlichen

Kennwerten auf einige wenige mathematisch bekannte Verteilungen zurückführen. Werden die

statistischen Kennwerte zudem nach mathematisch eindeutigen Vorschriften transformiert (dies

sind die Formeln zur Durchführung eines Signifikanztests), resultieren statistische Testwerte

(z.B. t-Werte, z-Werte, χ2-Werte, F-Werte etc.), deren Verteilungen (Verteilungsfunktionen) in

jedem Statistikbuch in tabellarischer Form aufgeführt sind.

Signifikante Ergebnisse

Der Signifikanztest reduziert sich damit auf den einfachen Vergleich der Größe des empirisch

ermittelten, statistischen Testwertes mit demjenigen Wert, der von der entsprechenden

Testwerteverteilung α% (α=1% oder α=5%) abschneidet. Ist der empirische Testwert größer als

dieser „kritische" Tabellenwert, beträgt dessen Wahrscheinlichkeit sowie die Wahrscheinlichkeit

aller extremeren Testwerte unter der Annahme, die Ho sei richtig, weniger als α%. Das Ergebnis

ist statistisch signifikant (α.<5%) bzw. sehr signifikant (α<1%).

Wir fragen also nach der Wahrscheinlichkeit, mit der Stichprobenergebnisse auftreten können,

wenn die Nullhypothese gilt. Wir betrachten nur diejenigen extremen Ergebnisse, die bei

Gültigkeit der Nullhypothese höchstens mit einer Wahrscheinlichkeit von 5% (1%) vorkommen.

Gehört das gefundene Stichprobenergebnis zu diesen Ergebnissen, ist das Stichprobenergebnis

„praktisch" nicht mit der Nullhypothese zu vereinbaren. Wir entscheiden uns deshalb dafür, die

Nullhypothese abzulehnen und akzeptieren die Alternativhypothese als Erklärung.


Ein signifikantes Ergebnis sagt also nichts über die Wahrscheinlichkeit von Hypothesen aus, son-

dern „nur" etwas über die Wahrscheinlichkeit von statistischen Kennwerten bei Gültigkeit der

Nullhypothese. Die Hypothesen (die H0 oder die H1) sind entweder richtig oder falsch, d.h. auch

unsere Entscheidung, bei einem signifikanten Ergebnis die H0 zu verwerfen, ist entweder richtig

oder falsch. Bei dieser Entscheidungsstrategie riskieren wir, daß mit 5% (oder 1%) Irrtums-

wahrscheinlichkeit eine tatsächlich richtige H0 fälschlicherweise verworfen wird.

Bei einem Signifikanztest geht man zunächst davon aus, die Nullhypothese würde in der

Population gelten. Unter dieser Annahme läßt sich für den Populationsparameter, der in der

Nullhypothese angesprochen ist, eine Stichprobenkennwerteverteilung konstruieren, die angibt,

mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit dieser

Stichprobenkennwerteverteilung (bzw. Ho-Verteilung, Ho-Modell) wird nun das konkret in der

Untersuchung ermittelte Stichprobenresultat verglichen.

- Ist das gefundene Stichprobenergebnis ein wahrscheinliches Ergebnis, so steht es in Einklang

mit der Ho.

- Ist das Stichprobenergebnis ein unwahrscheinliches Ergebnis, das unter Gültigkeit der Ho nur

extrem selten auftreten kann, entschließt man sich, die Nullhypothese als unplausibel zu

verwerfen. Dies geschieht aber nur, wenn die Wahrscheinlichkeit für das Auftreten des gefunde-

nen oder eines extremeren Ergebnisses unter Gültigkeit der Ho sehr klein, nämlich kleiner als 5%

ist. Ein solches, im Sinne der Ho unplausibles Ergebnis wird als „signifikantes Ergebnis"

bezeichnet. Bei einem signifikanten Ergebnis entscheidet man sich dafür, die Ho abzulehnen und

die H1 anzunehmen.

Ein Beispiel: Der t-Test

Der Gedankengang des Signifikanztests sei wegen seiner Bedeutung nochmals anhand eines Bei-

spiels erläutert. Wir interessieren uns für die psychische Belastbarkeit weiblicher und männlicher

Erwachsener und formulieren als Ho: µ1 = µ2 und als H1: µ1 ≠ µ2

(µ1 ist der Populationsmittelwert weiblicher Personen und µ2 ist der Populationsmittelwert

männlicher Personen).

Psychische Belastbarkeit wird mit einem psychologischen Test gemessen, der bei einer Zufalls-

stichprobe von n1 männlichen Personen im Durchschnitt - so unsere operationale Hypothese -

anders ausfallen soll als bei einer Zufallsstichprobe von n2 weiblichen Personen (ungerichtete,

unspezifische Hypothese). Der für die Überprüfung von Unterschiedshypothesen bei zwei Stich-

proben verwendete statistische Kennwert ist die Mittelwertsdifferenz 1x – 2x . Dieser statistische

Kennwert wird nach folgender Gleichung in einen statistischen Testwert transformiert:

21

21

xxs

xxt

−

−=

Den Ausdruck im Nenner bezeichnen wir als (geschätzten) Standardfehler der Mittelwerts-

differenz. Der statistische Testwert t folgt bei Gültigkeit der Ho einer t-Verteilung (mit n1 + n2 – 2

Freiheitsgraden), wenn das Merkmal „psychische Belastbarkeit" in beiden Populationen normal-

verteilt und die Merkmalsvarianz σ2 (“Sigma”) in beiden Populationen gleich ist (bzw. die

geschätzten Populationsvarianzen homogen sind). Die t-Verteilung geht für n1 + n2 > 30 in die

Standardnormalverteilung über.


Gerichtete Hypothesen (Die psychische Belastbarkeit männlicher Personen ist größer als die

psychische Belastbarkeit weiblicher Personen) werden anhand dieser Verteilung über einseitige

und ungerichtete Hypothesen (Die psychische Belastbarkeit männlicher und weiblicher

Personen unterscheidet sich) über zweiseitige Tests geprüft.

Annahme- und Ablehnungsbereich

der Ho bei zweiseitigem Test

Bei einem zweiseitigen Test markieren die Werte t(α/2) und -t(α/2) diejenigen t-Werte einer t-

Verteilung, die von den Extremen der Verteilungsfläche jeweils α/2% abschneiden. Empirische t-

Werte, die in diese Extrembereiche fallen, haben damit insgesamt eine Wahrscheinlichkeit von

höchstens α%, vorausgesetzt, die Nullhypothese ist richtig. Da derart extreme Ergebnisse nur

schlecht mit der Annahme, die Ho sei richtig, zu vereinbaren sind, verwerfen wir die Ho und

akzeptieren die H1: µ1 ≠ µ2 (Die psychische Belastbarkeit männlicher und weiblicher Personen

unterscheidet sich). Befindet sich der empirisch ermittelte t-Wert jedoch im Annahmebereich der

Ho, dann sind das Stichprobenergebnis und die Nullhypothese besser miteinander zu vereinbaren

und wir behalten die Ho: µ1 = µ2.

Annahme- und Ablehnungsbereich

der Ho bei einseitigem Test

Die Überprüfung einer gerichteten H1: µ1 > µ2 erfordert einen einseitigen Test. Wir verwerfen

die Nullhypothese und akzeptieren die Alternativhypothese, wenn der empirische t-Wert größer

ist als derjenige t-Wert, der von der t-Verteilung „einseitig" α% abschneidet. Ist der empirische t-

Wert jedoch kleiner als der kritische Wert tα, kann die H, nicht angenommen werden (nicht-

signifikantes Ergebnis).


Anselm Eder (2003): Statistik für Sozialwissen-

schaftler, Skriptum, facultas, S. 131

Der t - Test Der Grundgedanke des t-Tests ist die Fragestellung, ob zwei Mittelwerte ein- und derselben

Variablen, die in zwei Gruppen (etwa: zwei Stichproben) erhoben worden sind, sich voneinander

„nur zufällig“ unterscheiden, oder ob diese Unterschiede eher auf „etwas systematisches“ zurück-

zuführen sind: z.B. darauf, dass es sich eben doch nicht um zwei zufällig gezogene Stichproben

handelt, sondern eher um zwei Auswahlverfahren, die systematisch einmal kleinere, und einmal

größere Werte der betrachteten Variablen aussuchen. (Anmerkung isa hager: Auswahlverfahren

z.B. Geschlecht: durchschnittliches Einkommen von Männern und Frauen)

So könnte etwa der Mittelwert der Körpergröße von Soldaten in einer Kaserne 168 cm sein, und

der von Soldaten einer anderen Kaserne 172 cm. Die Frage, die man stellen könnte, lautet:

wurden die Soldaten in den beiden Kasernen nach Größe rekrutiert, oder handelt es sich dabei

einfach um zufällige Unterschiede, die deshalb zustande kamen, weil die beiden Stichproben aus

der Grundgesamtheit aller österreichischen Wehrdienstpflichtigen sich eben zufällig um 4cm im

Durchschnitt unterschieden haben?

Das Instrumentarium, das wir dafür brauchen, unterscheidet sich nicht mehr sehr wesentlich von

den Elementen, die wir schon einerseits als Grundelemente jedes Signifikanztests beim Chi-

quadrat-Test, und andererseits beim Konfidenzintervall kennen gelernt haben. Zunächst müssen

wir wieder ein vernünftiges Prüfmaß konstruieren. Dabei wird natürlich der Unterschied

zwischen den beiden Mittelwerten eine Rolle spielen.

Aus dem Abschnitt über Konfidenzintervalle wissen wir schon, dass die

Standardabweichung eines Stichprobenmittelwertes n

ss x

x= ist.

Außerdem wissen wir, dass eine Zufallsvariable, von der wir ihren Erwartungswert abziehen, den

Erwartungswert 0 hat; dividieren wir sie noch durch ihre Standardabweichung, dann hat sie die

Standardabweichung 1.

Gemäß der Nullhypothese sind die Abweichungen der beiden Mittelwerte voneinander zufällig,

d.h. die Erwartungswerte für die beiden Mittelwerte (die Mittelwerte der zugehörigen

Grundgesamtheiten) sind gleich, oder sogar identisch. Somit ist die Größe

21

21

xxs

xxt

−

−= normalverteilt1, mit dem Erwartungswert 0 und der Standardabweichung 1.

Dass der Erwartungswert 0 ist, ergibt sich unmittelbar aus der Nullhypothese, gemäß der die

beiden Mittelwerte 1x und 2x gleich sind. Wenn wir daher unendlich viele Paare von Stichproben

ziehen, dann werden die Durchschnitte der Mittelwerte dieser beiden Stichproben gleich sein.

1 Genau genommen ist dieses Prüfmaß ist für größere Stichproben (größer als ca. 50 für beide Stichproben zusammen) annähernd normalverteilt. Für kleinere Stichproben hat GOSSET die zugehörige Verteilung unter dem Namen „t-Verteilung“ berechnet. Ähnlich wie die χ2-Verteilung ist auch die t-Verteilung durch Freiheitsgrade charakterisiert. Die Anzahl der Freiheitsgrade ist n1+n2-2, wobei n1 und n2 die Größen der beiden Stichproben sind.


Aus der Vorlesung:

Signifikanztests

Anwendung

Signifikanztests dienen zur statistischen Überprüfung von Hypothesen. Zunächst wird davon

ausgegangen, dass die Nullhypothese (H0) in der Grundgesamtheit (Population) gilt. Unter dieser

Annahme lässt sich für die Population eine Stichprobenkennwerteverteilung konstruieren, die

angibt, mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. Mit

dieser Stichprobenkennwerteverteilung wird nun das konkret in der Untersuchung ermittelte

Stichprobenresultat verglichen. Ist das gefundene Stichprobenergebnis ein wahrscheinliches

Ergebnis, so steht es in Einklang mit der H0. Ist das Stichprobenergebnis ein unwahrscheinliches

Ergebnis, das unter Gültigkeit der H0 nur extrem selten auftreten kann, wird die Nullhypothese

als unplausibel verworfen. Ein solches, im Sinne der H0 unplausibles Ergebnis wird als

„signifikantes Ergebnis” bezeichnet (H0 wird abgelehnt und H1 wird angenommen).

Signifikanztests sind nur sinnvoll bei Zufallsstichproben. Je nach Signifikanztest können weitere

Voraussetzungen erforderlich sein (z.B. metrisches Skalenniveau, Normalverteilung).

Vorgehen

1. Formulierung der Nullhypothese (H0) und der Alternativhypothese (H1).

2. Ermittlung einer statistischen Prüfgröße.

3. Festlegung des Signifikanzniveaus (üblicherweise 5%-Niveau) und bestimmen der

Wahrscheinlichkeit der Prüfgröße anhand der zugehörigen Wahrscheinlichkeitsverteilung

derselben (in Tabellen nachzulesen bzw. macht SPSS automatisch).

4. Annahme der H1, wenn Irrtumswahrscheinlichkeit kleiner <0,05, ansonsten wird H0 vorläufig

beibehalten.

??? Wozu brauch ich Signifikanztests ???HYPOTHESEN-TESTUNG

Hypothesen (H0 und H1) formulieren

1.

Signifikanzniveau der Prüfgröße festlegen.

3.Prüfgröße berechnen

2.

Je nach Irrtums-WS H0 beibehalten oder

H1 annehmen.

4.


Fragestellung

Zweiseitige Fragestellung: Wenn über die Richtung des vermuteten Zusammenhangs keine sichere Annahme getroffen werden kann (z.B. x x1 2≠ ).

Einseitige Fragestellung: Wenn die Richtung des vermuteten Zusammenhangs angegeben werden kann (z.B. x x1 2< ).

Fehlerarten

Fehler 1. Art (α): H0 wird irrtümlich abgelehnt, d.h. eine falsche H1 wird angenommen. Fehler 2. Art (β): H0 wird irrtümlich beibehalten, d.h. eine richtige H1 wird abgelehnt.

Fehlerarten

Grundgesamtheit/Population

Sti

chp

rob

e

H0

H1

H0 H1

kein Zusammenhang

ZusammenhangZusammenhang falsch

Zusammenhang nicht erkannt

α -Fehler

β -Fehler

�a

�a

Unterschied zwischen Prüfgröße und Signifikanz

Grundsätzlich wird bei jedem statistischen Test zwischen der Prüfgröße (z.B. der Chi-Quadrat-

Wert) und der Signifikanz der Prüfgröße unterschieden. Während die Prüfgröße Chi-Quadrat

theoretisch Werte bis unendlich annehmen kann, liegt die Signifikanz (=Wahrscheinlichkeit

der Prüfgröße bei angenommener Unabhängigkeit) immer zwischen 0 und 1.

Signifikanz • ein Wert nahe bei 0 bedeutet:

der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr unwahrscheinlich � ist dieser Wert gleich oder kleiner als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 verworfen und die H1 (Annahme von Abhängigkeit oder Zusammenhang) angenommen;

• ein Wert nahe bei 1 bedeutet: der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr wahrscheinlich � ist dieser Wert größer als das gewählte Signifikanzniveau (üblicherweise 0,05 oder 0,01), dann wird konventionell die H0 (Annahme von Unabhängigkeit oder keinem Zusammenhang) beibehalten;


Übersicht über die wichtigsten Signifikanztests


Entscheidungsbaum


Im Folgenden sollen die verschiedenen Testverfahren kurz besprochen werden. Es gibt noch sehr

viel mehr Testverfahren, hier werden lediglich die wichtigsten angeführt.

χ2 - Test

Test auf Unabhängigkeit zweier Merkmale. Der χ2 - Test kann bei nominal- und ordinalskalierten

Variablen verwendet werden. Der Test wird bei Kreuztabellen in sinnvoller, der Fragestellung

entsprechender Kategorisierung angewandt. Logik: tatsächliche und erwartete Zellenhäufigkeiten

werden miteinander verglichen, die Prüfgröße Chi-Quadrat misst diese Abweichung zur

Unabhängigkeit.

Nullhypothese: Die Variablen treten unabhängig voneinander in der Grundgesamtheit auf bzw. es

besteht kein Zusammenhang zwischen den beiden Variablen in der

Grundgesamtheit.

Prüfgröße χ2 unter der Nullhypothese:

)1)(1(2

1 1

2

......)(

−−= =∑∑

−lk

k

i

l

je

eo

f

ff χ

Kolmogorov-Smirnov-Test (bei einer Stichprobe)

Test, ob die Verteilung einer Variablen in der Grundgesamtheit mit einer theoretischen Verteilung

übereinstimmt. Es wird in der Praxis Normal- und Gleichverteilung getestet. Das dahinterliegende

Verfahren ist wieder die Chi-Quadrat-Logik (Vergleich tatsächlicher mit erwarteten Häufigkeiten).

Nullhypothese: Es besteht kein Unterschied zwischen der empirischen und der theoretischen

Verteilung. Bei diesem Test besteht der Sonderfall, dass unsere „Wunschhypothese“ die

Nullhypothese ist.

Prüfgröße unter der Nullhypothese: maxDnZSmirnovKolmogorov ∗=−−

Dmax ist die maximale absolute Differenz der kumulierten Häufigkeiten.

Weiterführende Literatur: Bortz/Lienert (1998):

Kurzgefasste Statistik für die klinische Forschung, Springer, Berlin, S. 67 ff und 203 ff


t-Test auf Gleichheit der Mittelwerte von zwei unabhängigen Stichproben

Test auf Gleichheit der Mittelwerte. Sollte nur verwendet werden, wenn echte metrische Variablen

analysiert werden. Die Variablen sollten zudem normalverteilt sein. Dies kann mit dem

Kolmogrov-Smirnov-Test überprüft werden. Diese Überprüfung kann ausbleiben, wenn der

Stichprobenumfang der beiden Subgruppen n > 30 ist, weil dann von einer Normalverteilung

ausgegangen wird.

Nullhypothese: Die Mittelwerte in den zwei Stichproben (Subgruppen der Bevölkerung) sind gleich, d.h. x x1 2= oder x x1 2 0− = .

Hier gibt es zwei Berechnungsformeln für die Prüfgröße t, einmal wenn die Varianzen der Variable

der beiden zu vergleichenden Gruppen/Stichproben gleich/homogen sind, einmal wenn sie

ungleich/heterogen sind. Dies ist mit dem F-Test (Leven´s-Test auf Homogenität der Varianzen) zu

überprüfen. Je nach Ergebnis ist eine der beiden Formeln anzuwenden:

Prüfgröße t unter der Nullhypothese:

� falls Varianzen gleich:

� falls Varianzen nicht gleich:

Im SPSS werden die Testergebnisse beider Formeln ausgewiesen. Anhand des ebenfalls

ausgewiesenen Levene´s-Test ist zu entscheiden, welches Testergebnis interpretiert wird.

Varianzanalyse

Bei der Varianzanalyse wird ein multipler Mittelwertvergleich durchgeführt. Die Testvariable

muss metrisch und normalverteilt sein, die Gruppenvariable ist nominal oder ordinal. Das

Testverfahren ist ein F-Test: F = erklärte Varianz / Fehlervarianz ;

Erklärte Varianz = Streuung der Gruppenmittelwerte um den Gesamtmittelwert (between groups)

Fehlervarianz = Streuung der Einzelwerte um den jeweiligen Gruppenmittelwert (within groups);

Je größer die Prüfgröße F, desto größer die erklärte Varianz. Signifikanz wird anhand der F-

Verteilung überprüft.

Weiterführendes zur Varianzanalyse siehe Eder Statistik für Sozialwissenschaftler S. 134 ff;

und: gut beschrieben bei Jürgen Bortz: Statistik für Sozialwissenschaftler, S. 225 ff

tx x

s

n

s

n

=−

+

1 2

1

1

2

2

² ²

tx x

sn n

p

=−

+

1 2

1 2

1 1 s

n s n s

n np²

( ) ² ( ) ²

( ) ( )= − + −

− + −1 1 2 2

1 2

1 1

1 1


zR R

m n m n

mn

=−

+ + +

1 2

1

12

( )²( )

t-Test auf Gleichheit der Mittelwerte von zwei abhängigen Stichproben

Test auf Gleichheit der Mittelwerte bei abhängigen Stichproben. Beispiele: Befragung von

Ehepaaren, Vergleich des sozialen Status zwischen Elternteil-Kind, Vorher-Nacher-Messungen.

Wie den t-Test bei unabhängigen Stichproben, sollte man auch diesen Test nur verwenden, wenn

echte metrische Variablen vorliegen.

Nullhypothese: Die mittlere Differenz der Messwerte der Vergleichspaare (= durchschnittliche

Abweichung zwischen Ehemann/-frau; Kind/Elternteil, vorher/nachher) ist 0.

Prüfgröße t unter der Nullhypothese: D .... mittlere Differenz

U-Test auf Gleichheit der Verteilung bei zwei unabhängigen Stichproben

Mann-Whitney-U-Test auf Gleichheit der Rangsummen bzw. mittleren Ränge. Der U-Test kann ab

Daten mit ordinalem Skalenniveau verwendet werden.

Wenn metrische Daten vorliegen, die nicht normalverteilt sind bzw. die beiden Gruppen zu kleine

Fallzahlen haben, dann ist der U-Test dem t-Test vorzuziehen.

Nullhypothese: Die Variable hat in beiden Grundgesamtheiten (Gruppen in der Bevölkerung)

die gleiche Verteilung.

Prüfgrößen unter der Nullhypothese:

m = Fallzahl der einen Gruppe

n = Fallzahl der anderen Gruppe

R = mittlerer Rang

Weitere Tests auf Gleichheit der Verteilung:

Wilcoxon-Test bei zwei verbundenen Rängen (zwei gepaarten oder abhängigen Stichproben)

Kruskal-Wallis-Test: bei mehreren unabhängigen Stichproben

Friedman-Test: bei mehreren abhängigen Stichproben

Gute Übersicht bei: Janssen/Laatz: Statistische Datenanalyse mit SPSS und Felix Brosius: SPSS 13 Professionelle Statistik, jeweils neueste Auflage, Kapitel Nicht-parametrische Tests;


Aus Materialien von isa hager:

Zufall oder Nicht-Zufall? – das ist hier die Frage!

Der Zweck eines Signifikanztests ist es, Gesetzmäßigkeiten, die wir in Form der

Alternativhypothesen formulieren, zu erkennen. Nachdem wir nun einige Signifikanztests und

statistische Verfahren kennen-gelernt haben, soll das Prinzip der Signifikanztestung nochmals

erläutert werden.

Bei jedem statistischen Test erhalten wir ein Prüfmaß, welches sich aus den vorgestellten

Formeln ergibt. Das Prüfmaß ist immer ein Maß dafür, wie stark die von uns postulierte

Gesetzmäßigkeit zutrifft - also etwa ein Mittelwertunterschied wie beim t-Test, der Unterschied

zwischen tatsächlichen und erwarteten Häufigkeiten beim Chi2-Test, die durchschnittliche

Abweichung eines Messwerts bei zwei Messzeitpunkten, der Korrelationskoeffizient von zwei

Variablen… und so weiter und so fort…

Zu diesem Prüfmaß erhalten wir weiters die Wahrscheinlichkeit für dessen Zustandekommen,

wenn wir in einer Welt des totalen Zufalls leben würden. Oder anders gesagt: Die Signifikanz sagt

uns, wie wahrscheinlich es ist, genau dieses Prüfmaß zu erhalten, wenn es keinen Zusammenhang

gibt.

Die Welt des Zufalls hat einen Vorteil: Der Zufall ist berechenbar, und wir können genau

angeben, wie das Prüfmaß aussieht, wenn der Zufall herrscht. Aus dieser Welt des Zufalls

stammen die "Zufalls-Verteilungen": Wahrscheinlichkeitsverteilungen wie die Normalverteil-

ung und die Chi2-Verteilung (quadrierte Normalverteilung), die wir bereits kennengelernt haben.

Weitere sind:

Für Prüfmaß t

Für Prüfmaß F

… und viele andere. Für alle gilt: Bei genügend df gehen sie alle in eine Normalverteilung über! (vergleiche auch die wunderschöne χ2-Verteilung von Seite 63! = quadrierte Normalverteilung)


Freiheitsgrade (df): Was bedeutet das? Die Freiheitsgrade definieren immer die Fallzahl in der

unter-suchten Gruppe oder die Anzahl der untersuchten Gruppen minus 1. Ein Fall wird

abgezogen, weil der "letzte" Fall vorherbestimmt werden kann. Überlege: Wenn ich den

Notendurchschnitt einer Prüfung und die Noten von 9 Prüflingen weiß, dann ist die Note des 10.

Prüflings (Hubsi Huber) durch die anderen festgelegt. Die Note von Hubsi Huber ist demnach

nicht mehr frei (vom Zufall) wählbar.

„The Art of Fehler“ oder: Die widerspenstige Zähmung des Zufalls:

Alpha-Fehler: Die bei einem Test berechnete Signifikanz ist der Alpha-Fehler. Wir testen, wie

hoch das Risiko ist, einen falschen Zusammenhang zu behaupten, den es gar nicht gibt. Den

Alpha-Fehler können wir berechnen, weil - wie gesagt - der Zufall berechenbar ist, und der Alpha-

Fehler angibt, inwieweit das Ergebnis für den Zufall spricht. Wenn die WS für den Zufall kleiner

als 5% ist (α), dann gehen wir davon aus, dass nicht der Zufall sondern die Gesetzmäßigkeit

"herrscht."

Beta-Fehler: Schwieriger ist es beim Beta-Fehler, denn der Beta-Fehler basiert auf der Annahme,

dass es einen Zusammenhang in der Grundgesamtheit gibt, und wir aber diesen Zusammenhang in

unserer Stichprobe nicht nachweisen konnten. Für den Beta-Fehler brauchen wir also die

Wahrscheinlichkeits-verteilung für das exakt geltende Prüfmaß in der Grundgesamtheit, das wir

aber nicht wissen! Daher können wir den Beta-Fehler nur schätzen. Standardmäßig wird ein Beta-

Fehler von 20% angenommen.

Hier die hypothetischen Verteilungen für das Prüfmaß t in der Grundgesamtheit (tGG):

-4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9

t-Verteilung wenn tGG =

0 bei

t-Verteilung wenn tGG =

5 = GESETZ

Wenn tStpr zwischen ≈ 1 und 3, aber Gesetz gilt: � Wir haben es nicht

erkannt (β-Fehler)

Wenn tStpr größer als ≈ 3 aber Gesetzt gilt nicht:

� Wir behaupten falsches Gesetz (α-Fehler)

GESETZ erkannt!�

ZUFALL erkannt!�

5%-Grenze


Die Teststärke eines Tests: Die Teststärke ist die Chance, mit dem jeweiligen Verfahren eine Gesetzmäßigkeit zu

erkennen. Dabei ist von entscheidender Bedeutung, stets die jeweils genaueste Information zu

verwenden, also: Hierarchie: metrisch geht vor ordinal, ordinal geht vor dichotom. Mit jedem

Schritt auf die "tiefere" Skala geht immer Information verloren! (Denken Sie ans Rekodieren!) Wir

wenden immer das "höchstmögliche" Testverfahren an, denn je höher die Teststärke, desto

höher die Chance, ein signifikantes Ergebnis zu erhalten und damit die Gesetzmäßigkeit zu erkennen! Hierarchie: parametrische Verfahren gehen vor nicht-parametrischen Verfahren, diese

wiederum gehen vor Chi-Quadrat-Testung.

Einseitige oder Zweiseitige Fragestellung:

Bei einer "zweiseitigen" Fragestellung wissen wir nicht, in welche Richtung der Zusammenhang

geht, bei einer "einseitigen" Fragestellung schon: Beispiel anhand eines t-Tests:

Zweiseitig: Das Durchschnittseinkommen unterschiedet sich bei Männern und Frauen.

Einseitig: Das Durchschnittseinkommen der Männer ist höher als jener der F rauen.

Bei der zweiseitigen Fragestellung schneiden wir auf der t-Zufallsverteilung auf jeder Seite 2,5%

ab, um 5%-Fehler-WS zu erhalten: auf der negativen und auf der positiven Seite. Bei der

einseitigen Fragestellung können wir die eine Seite der Zufallsverteilung vernachlässigen, weil wir

ja die (positive oder negative) Richtung des Zusammenhangs kennen, daher können wir die

gesamten 5% auf einer Seite abschneiden. Im SPSS wird die zweiseitige Fehler-WS angeben,

wenn wir die halbieren, erhalten wir die einseitige Fehler-WS. Denn: Wir betrachten nur eine Seite

der Wahrscheinlichkeitsverteilung, das heißt: 50% sind jetzt 100%, also ist der Fehler nur halb so

groß! Also: Eine zweiseitige Irrtums-WS von 0,06 wird bei einer einseitigen Fragestellung zu

einem halb so großen Fehler, nämlich 0,03. Aber Achtung: Diese Halbierung des p-Werts ist nur

dann zulässig, wenn es sich um eine abgesicherte Theorie handelt.

Es herrscht die H0 � auch in der Stichprobe

Es herrscht die HA � das zeigt sich auch in der Stichprobe!

Es herrscht die HA � dies konnte aber nicht in der Stichprobe nach-gewiesen werden.

Das liegt oft daran, dass die Stichprobe zu klein ist.

Es herrscht die H0 � und ich behaupte einen falschen Zusammenhang !!

Das liegt oft daran, dass die Stichprobe zu klein oder verzerrt ist.


Für das Prüfmaß t:

Prüfmaß und Signifikanz: Das Prüfmaß misst, wie stark das Stichprobenergebnis vom Zufall

abweicht.

Das Prüfmaß ist sehr klein, wenn das Testergebnis dem Zufall entspricht. Zufall!

Das Prüfmaß ist sehr hoch, wenn das Testergebnis sehr weit vom Zufall entfernt ist. Gesetz!

Die Signifikanz misst, wie wahrscheinlich das Prüfmaß ist, wenn es zufallsverteilt wäre.

Die Wahrscheinlichkeit ist sehr hoch, wenn das Prüfmaß sehr klein und daher zufällig ist. Zufall!

Die Wahrscheinlichkeit ist sehr klein, wenn das Prüfmaß sehr groß und daher nicht zufällig ist!

Gesetz!

Sie können einfach die Frage stellen: Kann mein Ergebnis Zufall sein?

Wenn p > ,05 gehen wir davon aus, dass das Ergebnis zufällig zustande gekommen ist. (H0)

Wenn p <= ,05 gehen wir davon aus, dass das Ergebnis kein Zufall ist, sondern dass die von uns

postulierte Gesetzmäßigkeit zutrifft (HA).

� hohes Prüfmaß � kleines p, kleine Fehler-WS, wenn p <= 0,05 � signifikant ! Gesetz gilt!

� kleines Prüfmaß � großes p, große Fehler-WS, wenn p > 0,05 � nicht signifikant ! Zufall

regiert!

Rückschluss auf die Grundgesamtheit ist der Sinn der Signifikanz-Testung: Wenn sich eine

Hypothese als signifikant erwiesen hat, dann behaupten wir, das dieses Ergebnis nicht zufällig ist,

dann gehen wir davon aus, dass diese Gesetzmäßigkeit auch in der Grundgesamtheit - aus der wir

ja unsere Stichprobe gezogen haben - gilt. Erst wenn sich eine Hypothese als signifikant erwiesen

hat, können wir davon ausgehend Rückschlüsse auf die Grundgesamtheit machen.

Fallzahl und Signifikanz: Die Signifikanz ist sehr stark abhängig von der Fallzahl der Stichprobe. Eine Stichprobe aus

30 Personen ist viel stärker vom Zufall abhängig als eine Stichprobe von 3000 Personen!

→ Denken Sie an die Korrelation: Nehmen wir an, wir haben eine Stichprobe von 2 Personen und wir korrelieren Alter und Einkommen. Wenn die Personen gleich alt sind und gleich viel verdienen, dann ergibt die Korrelation 0! Wenn die Personen sich aber nur minimal unterscheiden ergibt die Korrelation 1! Bei kleinen Stichproben schwanken demnach die Ergebnisse viel stärker.

→ Denken Sie an das Konfidenzintervall: Bei einer Stichprobe von 10 Personen stellt eine Person bereits 10% dar! Bei einer Stichprobe von 1000 Personen stellt eine Person lediglich 0,1 % dar! Dementsprechend groß ist das Konfidenzintervall bei kleinen Stichproben!

α/2 = 2,5% auf positiver Seite

α/2= 2,5% auf negativer Seite

α = 5 % auf einer Seite


In der empirischen Praxis zeigt sich das so, dass wir bei kleinen Stichproben unter Umständen sehr

hohe Korrelationen erreichen können und es besteht die Gefahr, dass diese zufällig zustande

gekommen sind. Bei sehr großen Stichproben hingegen sind die Korrelationen selten besonders

hoch, dafür sind die Korrelationen wenig zufallsanfällig und daher relativ zuverlässig.

Hier eine Übersicht: Neben der Fallzahl der ersten Spalte sind die kleinsten Koeffizienten

angeführt, die bei gegebener Fallzahl bereits signifikant sind. Alle Koeffizienten die kleiner sind,

sind nicht signifikant. So muss beispielsweise bei einer Fallzahl von 25 Personen die Korrelation

zumindest stärker als 0,4 sein, sonst ist sie nicht signifikant. Bei einer Fallzahl von 1000 Personen

sind bereits fast alle Korrelationen (alle über 0,06, was sehr nahe bei 0 ist) signifikant, aber

deswegen sind sie nicht inhaltlich relevant. Inhaltlich relevant sind bei großen Stichproben erst

Korrelationen über etwa 0,3 oder 0,4.

Fallzahl

n

r ab dem die Korrelation

signifikant ist "schwacher"

Zushg. "mittlerer"

Zushg.

"starker" Zushg.

5 0,75

10 0,58

25 0,40 0,5 0,6 0,7

50 0,27 0,4 0,5 0,6

100 0,20 0,3 0,4 0,5

500 0,09 0,2 0,3 0,4

1000 0,06 0,15 0,25 0,35

2000 0,04 0,1 0,2 0,3

Ein signifikantes Ergebnis muss also noch lange nicht inhaltlich bedeutsam sein! Vielmehr gilt: Je

größer die Stichprobe, desto kleinere Unterschiede oder Zusammenhänge sind bereits signifikant.

Ab einer Fallzahl von etwa 500 sind bereits sehr kleine Unterschiede signifikant.

→ Beispielsweise korreliert die Lebenszufriedenheit (g14) bei 30 Häftlingen mit der Beziehung zu den

GefängniswärterInnen (h55) mit rho = ,291 und p = ,119 ist nicht signifikant. Bei simulierter Verdoppelung der Stichprobe beträgt der Korrelationskoeffizient weiterhin ,291 und p = ,024. Wenn wir die Stichprobe in der Simulation verdreifachen, dann beträgt der Korrelationskoeffizient weiterhin ,291 und die Signifikanz p = ,005. So wird jedes Ergebnis bei nur genügend hoher Fallzahl signifikant!

→ ABER: Die Simulation hat auch ihre Grenzen: Unser Chi2-Beispiel, ob sich die Trennung der Eltern (b1) auf ein früheres Einstiegsalter mit Heroin (heroin_di) auswirkt, erreicht bei 30 Häftlingen ein = 0,03 und p= ,873, also kein Unterschied. Hier bräuchten wir eine Verhundertfünfzigfachung der Stichprobe (n= 4500), um ein signifikantes Ergebnis bei diesem geringen Unterschied zu erreichen.

Weil es wichtig ist, dieses Prinzip der Statistik zu verstehen, hier nochmals eine Veranschau-

lichung: Ein Verein der Bewährungshilfe untersucht, ob sich die Rückfälligkeit (erneute

Straffälligkeit nach 2 Jahren) bei ehemaligen Häftlingen im Entlassungsvollzug mit Fußfessel oder

mit Freigang unterscheidet.

Nehmen wir an, wir hätten es mit einem geringen Zusammenhang (KK= ,119) zu tun: Es zeigt

sich zwar, dass die Häftlinge mit Fußfessel seltener rückfällig wurden, aber nur schwach:

Interpretation

"schwach"

"mittelmäßig"

"stark"

Achtung:

Diese Richtwerte

sind keine

Konvention!


Nämlich: In der Gruppe mit Fußfessel wurden 44% rückfällig, in der Gruppe mit Freigang

wurden 56% rückfällig: Dieser Zusammenhang mit unterschiedlicher Stichprobengröße zeigt:

→ Kleine Stichprobe (n = 100): Diesen - nicht besonders deutlichen - Zusammenhang weisen

wir zuerst bei n= 100 Häftlingen nach. Die absolute Abweichung zum Zufall beträgt 3

Personen, das Ergebnis ist mit einer Fehler-WS von 23% bei dieser Fallzahl nicht signifikant.

→ Mittlere Stichprobe (n = 200): Wir erheben weiter, bis wir die doppelte Stichprobengröße haben: Wir haben weiterhin denselben Zusammenhang, aber nun eine Absolutabweichung zum Zufall von 6 Personen. Das Ergebnis ist mit 9% Alpha-Fehler noch immer nicht signifikant.

→ Größere Stichprobe (n = 400): Wir erheben weiter und verdoppeln die Stichprobe nochmals. Der Zusammenhang ist gleich geblieben, wir haben nun 12 Personen Abweichung zu den erwarteten Häufigkeiten, und jetzt (mit n=400) ist unser Ergebnis schließlich signifikant mit unter 2% Fehler-WS.

Fazit: Die Signifikanztestung ist besonders bei Studien mit kleinerer Fallzahl von Bedeutung. Bei

großen Stichproben sind bereits kleine Unterschiede signifikant. Denn: Die Signifikanz gibt

Auskunft darüber, wie aussagekräftig das Stichprobenergebnis ist, wenn beim beobachteten

Ergebnis die Zufallsanfälligkeit der jeweiligen Fallzahl berücksichtigt wird.

Wäre der gemessene Unterschied stärker, also etwa 60% zu 40% (statt 56% zu 44%), dann wäre

dieses Ergebnis schon mit viel geringerer Fallzahl signifikant. Probieren Sie es aus!

n = 100 Res = 3 P.

= 1,44 KK = ,119 p = ,230 α-Fehler = 23%

n = 200 Res = 6 P.

= 2,88 KK = ,119 p = , 089 α-Fehler = 9%

n = 400 Res = 12 P.

= 5,76 KK = ,119 p = , 016 α-Fehler = 1,6%

j. bortz/n. döring: forschungsmethoden und evaluation

Documents