effektstärken und deren bedeutung für die klinische forschung · standardisierte und...
Post on 14-Aug-2019
215 Views
Preview:
TRANSCRIPT
Effektstärken und deren Bedeutung für die klinische
Forschung
� Nicht nur statistische Signifikanz für Bedeutsamkeit eines Ergebnisses ausschlaggebend
� Größe und Richtung eines Effektes (z.B. Mittelwertsunterschied, Zusammenhang) inhaltlich relevant
� APA (American Psychological Association) empfiehlt das Berichten von Effektgrößen zusätzlich zu den Ergebnisse statistischer Tests
� Veranschaulichung der inhaltlichen Bedeutsamkeit eines Ergebnisses
� Im Bereich der klinischen und medizinischen Forschung sind Effektgrößen unmittelbar wichtig (� Wie gut wirkt eine Behandlung? Wie groß ist der
Einfluss eines Risikofaktors? Etc.)
EffektstärkenEinführung 1/5
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Effektgrößen aber nicht nur für Veranschaulichung von Ergebnissen wichtig
� Ebenso für Planung von Studien relevant:
– Effektgröße
– Alpha-Fehler
– Beta-Fehler und
– Stichprobengröße
stehen miteinander in Beziehung
� Kennt man drei der vier Parameter (oder legt sie a priori fest) kann der vierte berechnet werden
� Planung von Stichprobengrößen, Ermittlung der Power einer Studie
EffektstärkenEinführung 2/5
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Standardisierte und unstandardisierte Effektgrößen
� Unstandardisierte Effektgrößen sind Maße, die eine unmittelbare
inhaltliche Bedeutsamkeit und Interpretation haben, z.B.
– Anzahl an Zigaretten, die im Schnitt pro Tag geraucht werden
– Krankenstandstage pro Jahr, die durchschnittlich auf einer bestimmte Erkrankung zurückgeführt werden können
– Gewichtsverlust in kg, der durch ein bestimmtes Diäts- und Aktivitätsprogramm im Schnitt erzielt werden kann
� Maße für unstandardisierte Effektgrößen z.B.
– Differenz von Gruppenmittelwerten (raw mean difference)
– Unstandardisierte Regressionskoeffizienten
EffektstärkenEinführung 3/5
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Standardisierte Effektgrößen i.A. vor allem dann von Bedeutung, wenn zugrundeliegendes Maß keine unmittelbare Interpretation gestattet, z.B. Summenwerte in psychologischen Tests und Fragebögen
� Standardisierte Effektgrößen erlauben auch den Vergleich von Studien, die Instrumente mit unterschiedlicher Skalierung benutzt haben
� Unterschiede werden durch Standardisierung kompensiert
� Anwendung vor allem auch in meta-analytischer Forschung (= Integration von Forschungsergebnissen unterschiedlicher Studien zur selben Forschungsfrage)
EffektstärkenEinführung 4/5
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Häufig verwendete standardisierte Maße
– Cohens d (und andere Maße der d-Familie)
– Produkt-Moment-Korrelation r (und andere Maße der r-Familie)
– Eta2 (und andere Maße der Varianzaufklärung)
– Odds Ratio und Risk Ratio (und davon abgeleitete Kennwerte)
EffektstärkenEinführung 5/5
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Cohens d relevant für alle Mittelwertsvergleiche zwischen zwei
(unabhängigen oder abhängigen) Gruppen
� Kann aus Gruppenmittelwerten, Standardabweichungen und ns oder aus der t-Statistik des t-Test berechnet werden (wird nicht von SPSS ausgegeben)
� Cohens d für unabhängige Stichproben:
EffektstärkenStandardisierte Effektgrößen: Cohens d 1/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
2
11
11
21
222
211
21
21
−+
⋅−+⋅−=
+⋅=−
=
nn
SDnSDnSD
nnt
SD
MMd
pooled
pooled
)()(
� Cohens d gibt den Abstand zweier Verteilungen in Einheiten ihrer gemeinsamen Standardabweichung an
� Annahme: Normalverteilung, Homogenität der Varianzen (� t-Test !!!)
EffektstärkenStandardisierte Effektgrößen: Cohens d 2/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
M1 M2
= d
� Im Fall abhängiger Stichproben kann d anhand der Differenzwerte bestimmt werden
� Um es mit der Metrik von d für unabhängige Stichproben vergleichbar zu machen, kann die Korrelation der Messwerte berücksichtigt werden
N
rtr
SD
Md
Diff
Diff )()(
−⋅⋅=−⋅⋅=
1212
EffektstärkenStandardisierte Effektgrößen: Cohens d 3/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Nt
SD
Md
Diff
Diff 1⋅==
� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)
EffektstärkenStandardisierte Effektgrößen: Cohens d 4/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
0.2Klein
Größe des Effekts Cohens d
Mittel 0.5
Groß 0.8
Beispiel (Rückgriff):
Effekt der CBT-Behandlung von Depressionspatienten
N = 56 Patienten nach 12-wöchiger Behandlung
Analyse (t-Test für abhängige Daten) hat gezeigt, dass Veränderung
hochsignifikant war – Größe des Effekts?
EffektstärkenStandardisierte Effektgrößen: Cohens d 5/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Zeitpunkt M SD
Baseline (T1) 25.71 4.53
Nach 12 Wochen (T2) 15.70 7.27
� Im Fall
EffektstärkenStandardisierte Effektgrößen: Cohens d 6/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
N
rtr
SD
Md
Diff
Diff )()(
−⋅⋅=−⋅⋅=
1212
Statistik bei gepaarten Stichproben
25,71 56 4,528 ,605
15,70 56 7,266 ,971
HRSD_baseline
HRSD_post_treatment
Paaren
1
Mittelwert N
Standardab
weichung
Standardfe
hler des
Mittelwertes
Korrelationen bei gepaarten Stichproben
56 ,656 ,000HRSD_baseline &
HRSD_post_treatment
Paaren
1
N Korrelation Signifikanz
Test bei gepaarten Stichproben
10,018 5,489 ,733 8,548 11,488 13,658 55 ,000HRSD_baseline -
HRSD_post_treatment
Paaren
1
Mittelwert
Standardab
weichung
Standardfe
hler des
Mittelwertes Untere Obere
95% Konfidenzintervall
der Differenz
Gepaarte Differenzen
T df Sig. (2-seitig)
� Einsetzen (d für Differenzwerte):
� Patienten verbessern sich um fast zwei Standardabweichungen
(großer Effekt!)
� Einsetzen (d in der Metrik für unabhängige Stichproben):
� Verbesserung um 1.5 Standardabweichungen
EffektstärkenStandardisierte Effektgrößen: Cohens d 7/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
83113406581356
165813
1.... =⋅=⋅=⋅=
Ntd
51111106581356
65601265813
12...
).(.
)(=⋅=
−⋅⋅=
−⋅⋅=
N
rtd
� Wenn r > .5, ist d der Differenzwerte größer als d in Metrik unabhängiger Stichproben (bei r = .5 idente Ergebnisse; ansonsten kleiner)
� In Messwiederholungsdesigns sollte d in der Metrik unabhängiger Stichproben berechnet werden (vgl. Dunlap et al., 1996)
� ansonsten droht Über- oder Unterschätzung von Effekten und Vergleiche mit Untersuchungen mit unabhängigen Designs (VG vs. KG) werden erschwert
� Neben Cohens d existieren noch weitere verwandte Indizes, die ähnlich berechnet werden (z.B. Hedges g, Glass Δ)
EffektstärkenStandardisierte Effektgrößen: Cohens d 8/8
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Produkt-Moment-Korrelation r ist ein direktes Effektmaß
� Koeffizient ist auf den Wertebereich −1 bis +1 beschränkt und erlaubt zudem Aussagen über das Ausmaß erklärter Varianz
(= Bestimmtheitsmaß = r2 [ebenso für Regression von Bedeutung, R2])
� Weitere Koeffizienten aus der r-Familie sind Phi-Koeffizient, die punkt-
biseriale Korrelation und die Rangkorrelation
� Alle diese Koeffizienten können als Effektmaße verwendet werden
� Auch die Produkt-Moment-Korrelation stellt Anforderungen an Daten (bivariate Normalverteilung, linearer Zusammenhang)
EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 1/3
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Cave: Einschränkungen des Koeffizienten (siehe z.B. Phi-Koeffizient) schlagen sich somit auch auf Einschätzung der Größe eines Effekts nieder
� r kann zudem in Cohens d umgerechnet werden und umgekehrt
� Formeln dafür finden sich einführenden Büchern zu meta-analytischenTechniken (z.B. Borenstein, Hedges, Higgins, Rothstein, 2009)
� Verdeutlicht, dass korrelative Herangehensweise und die Analyse von Mittelwertsunterschieden im allgemeinen linearen Modell eigentlich das selbe ist
EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 2/3
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)
EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 3/3
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
.1Klein
Größe des Effekts r
Mittel .3
Groß .5
� Eta2 (η2) ist das „natürliche“ Effektmaß varianzanalytischer Untersuchungen
� Partielles Eta2 (siehe später) kann direkt von SPSS ausgegeben werden
� Eta2 ist ein Maß dafür, wie viel Gesamtvarianz (abhängige Variable) durch den interessierenden Faktor (unabhängige Variable) erklärt wird:
� Ergebnis ist ein Maß der Varianzerklärung (Wertebereich 0 bis 1), das in der Interpretation vergleichbar ist mit r2
EffektstärkenStandardisierte Effektgrößen: Eta2 1/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Gesamt
Faktor2
QS
QSEta =
� Für mehrfaktorielle Designs wird auch das partielle Eta2 verwendet:
� In einfaktoriellen Designs ist Eta2 = partielles Eta2
� In mehrfaktoriellen unabhängigen Designs addiert sich das Eta2 aller Quadratsummen auf 1
� Das partielle Eta2 addiert sich in mehrfaktoriellen Designs nicht
notwendigerweise auf 1 (kann > 1 sein) – es ist ein Maß der Varianzaufklärung unter Kontrolle (Herauspartialisierung) des Einflusses
aller anderen Faktoren in der Gesamtvariabilität
EffektstärkenStandardisierte Effektgrößen: Eta2 2/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
FehlerFaktor
Faktor2
QSQS
QSEta partielles
+=
� Ebenso addiert sich das (partielle) Eta2 in mixed designs nicht notwendigerweise auf 1 (unabhängige und abhängige Faktoren � zwei unterschiedliche Fehlerterme; die erklärte Gesamtvarianz kann insbesondere in solchen Designs scheinbar > 100% sein)
� Diese Einschränkungen sind in der Interpretation zu berücksichtigen
� Autoren wie Field (2009) plädieren überhaupt, nicht das partielle Eta2 zu
benutzen, sondern Eta2 oder auch ω2 (Omega2 = Schätzer der erklärten Varianz in der Population, nicht in der Stichprobe)
� Eta2 (oder auch das partielle Eta2) haben zudem den prinzipiellen Nachteil, dass sie unanschaulich sind (Globalhypothese) � häufig sind es gerade Einzelvergleiche und deren Größe, die praktisch von Relevanz sind
EffektstärkenStandardisierte Effektgrößen: Eta2 3/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� D.h. auch gerade bei varianzanalytischen Designs ist häufig die Bestimmung des d interessierender Gruppen informativer
� Zudem können auch für Kontraste Effektmaße bestimmt werden
� Effekt eines Kontrasts in Größen von r (vgl. Field, 2009, S. 390):
EffektstärkenStandardisierte Effektgrößen: Eta2 4/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
dft
tr
+=
2
2
Kontrast
� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)
EffektstärkenStandardisierte Effektgrößen: Eta2 5/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
.14
.06
.01
Eta2
1%Klein
Größe des Effekts Erklärte Varianz
Mittel 6%
Groß 14%
Beispiel (Rückgriff):
Wie stark unterscheiden sich Depressive, Remittierte und Gesunde in der berichteten Depressivität?
Wie groß sind Effekte der Kontraste (Depressive vs. Remittierte & Gesunde, Remittierte vs. Gesunde; polynomiale Kontraste)?
EffektstärkenStandardisierte Effektgrößen: Eta2 6/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Gruppe n M SD
Depressive 36 34.11 9.41
Remittierte 39 15.44 8.12
Gesunde 32 7.66 6.35
EffektstärkenStandardisierte Effektgrößen: Eta2 7/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Einsetzen ergibt:
80010456113
56113
2
2
2
2
1 Kontrast
..
.=
+=
+=
dft
tr
3701040174
01742
2
2 Kontrast ..
.=
+−
−=r
� Cohens d (berechnet mittels t-Tests):
Depressive vs. Remittierte: d ==== 2.13
Depressive vs. Gesunde: d ==== 3.26
Remittierte vs. Gesunde: d ==== 1.05
� Effektgrößen der polynomialen Kontraste: (es gilt F = t2, da df1 = 1)
Linearer Term (F = 179.843): r ==== .80
Quadratischer Term (F = 11.143): r ==== .31
EffektstärkenStandardisierte Effektgrößen: Eta2 8/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
� Ausgabe des partiellen Eta2 in SPSS erfordert Verwendung der Prozedur „Allgemeines Lineares Modell“
EffektstärkenStandardisierte Effektgrößen: Eta2 9/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
EffektstärkenStandardisierte Effektgrößen: Eta2 10/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Tests der Zwischensubjekteffekte
Abhängige Variable: BDI
12817,150a 2 6408,575 97,208 ,000 ,651
38647,207 1 38647,207 586,216 ,000 ,849
12817,150 2 6408,575 97,208 ,000 ,651
6856,364 104 65,927
59913,000 107
19673,514 106
Quelle
Korrigiertes Modell
Konstanter Term
Gruppe
Fehler
Gesamt
Korrigierte
Gesamtvariation
Quadratsum
me vom Typ III df
Mittel der
Quadrate F Signifikanz
Partielles
Eta-Quadrat
R-Quadrat = ,651 (korrigiertes R-Quadrat = ,645)a.
� Der Faktor „Gruppe“ erklärt 65% der Gesamtvarianz
Beispiel (Rückgriff):
Wie groß ist der Anteil an Varianz in Trait-Angst, der auf das Geschlecht, wie hoch jener, der auf das Vorliegen einer Angsterkrankung zurückgeführt werden kann?
EffektstärkenStandardisierte Effektgrößen: Eta2 11/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Gruppe n M SD
Frauen (Normpop.) 28 36.14 9.24
Männer (Normpop.) 22 31.41 8.72
Frauen (Angststör.) 30 56.30 11.23
Männer (Angststör.) 27 50.59 11.30
EffektstärkenStandardisierte Effektgrößen: Eta2 12/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Tests der Zwischensubjekteffekte
Abhängige Variable: STAI_trait
10905,070a 3 3635,023 34,401 ,000 ,500
200812,050 1 200812,05 1900,447 ,000 ,949
719,405 1 719,405 6,808 ,010 ,062
10213,109 1 10213,109 96,655 ,000 ,484
6,256 1 6,256 ,059 ,808 ,001
10883,565 103 105,666
233364,000 107
21788,636 106
Quelle
Korrigiertes Modell
Konstanter Term
Geschlecht
Gruppe
Geschlecht * Gruppe
Fehler
Gesamt
Korrigierte
Gesamtvariation
Quadratsum
me vom Typ III df
Mittel der
Quadrate F Signifikanz
Partielles
Eta-Quadrat
R-Quadrat = ,500 (korrigiertes R-Quadrat = ,486)a.
Partielles Eta2: Der Faktor „Geschlecht“ erklärt 6% der Varianz, „Gruppe“ 48%, die Wechselwirkung < 1%
Eta2 (mithilfe der QS berechnet; „korrigierte Gesamtvariation“ für QSGesamt):
„Geschlecht“ 3%, „Gruppe“ 47%, Wechselwirkung < 1%
Beispiel (Rückgriff):
Wie groß sind Varianzanteile, die durch die unterschiedliche Behandlung
(CBT vs. CBT + Med) erklärt werden können?
Wie groß sind Prä/Post-Differenzen, wie stark unterscheiden sich die Gruppen zu T1 und T2?
EffektstärkenStandardisierte Effektgrößen: Eta2 13/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Baseline 12 Wochen
Gruppe n M (SD) M (SD)
CBT 56 25.71 (4.53) 15.70 (7.27)
CBT + Med 49 27.41 (4.45) 10.12 (6.89)
Tests der Innersubjekteffekte
Maß: MASS_1
9741,004 1 9741,004 695,549 ,000 ,871
9741,004 1,000 9741,004 695,549 ,000 ,871
9741,004 1,000 9741,004 695,549 ,000 ,871
9741,004 1,000 9741,004 695,549 ,000 ,871
690,204 1 690,204 49,284 ,000 ,324
690,204 1,000 690,204 49,284 ,000 ,324
690,204 1,000 690,204 49,284 ,000 ,324
690,204 1,000 690,204 49,284 ,000 ,324
1442,491 103 14,005
1442,491 103,000 14,005
1442,491 103,000 14,005
1442,491 103,000 14,005
Sphärizität angenommen
Greenhouse-Geisser
Huynh-Feldt
Untergrenze
Sphärizität angenommen
Greenhouse-Geisser
Huynh-Feldt
Untergrenze
Sphärizität angenommen
Greenhouse-Geisser
Huynh-Feldt
Untergrenze
Quelle
Zeit
Zeit * Behandlung
Fehler(Zeit)
Quadratsum
me vom Typ III df
Mittel der
Quadrate F Signifikanz
Partielles
Eta-Quadrat
EffektstärkenStandardisierte Effektgrößen: Eta2 14/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Partielles Eta2: addiert sich nicht auf 100% (> 100%) !„Zeit“ 87% der Varianz, Wechselwirkung 32%
Eta2 (mithilfe der QS berechnet; Summe aller QS für QSGesamt):
„Zeit“ 54%, Wechselwirkung 4%
EffektstärkenStandardisierte Effektgrößen: Eta2 15/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
Partielles Eta2: „Behandlung“ 3% der Varianz
Eta2 (mithilfe der QS berechnet; Summe aller QS für QSGesamt): 1 %
Tests der Zwischensubjekteffekte
Maß: MASS_1
Transformierte Variable: Mittel
81427,978 1 81427,978 1442,101 ,000 ,933
196,721 1 196,721 3,484 ,065 ,033
5815,879 103 56,465
Quelle
Konstanter Term
Behandlung
Fehler
Quadratsum
me vom Typ III df
Mittel der
Quadrate F Signifikanz
Partielles
Eta-Quadrat
� Cohens d (berechnet mittels t-Tests):
Baseline-Testung: d ==== -0.37 (p = .057)
Post-Testung: d ==== 0.78 (p < .001)
CBT Prä/Post: d ==== 1.51 (p < .001)
CBT + Med Prä/Post: d ==== 2.74 (p < .001)
EffektstärkenStandardisierte Effektgrößen: Eta2 16/16
Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011
top related