effektstärken und deren bedeutung für die klinische forschung · standardisierte und...

Report

Post on 14-Aug-2019

215 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Effektstärken und deren Bedeutung für die klinische

Forschung

� Nicht nur statistische Signifikanz für Bedeutsamkeit eines Ergebnisses ausschlaggebend

� Größe und Richtung eines Effektes (z.B. Mittelwertsunterschied, Zusammenhang) inhaltlich relevant

� APA (American Psychological Association) empfiehlt das Berichten von Effektgrößen zusätzlich zu den Ergebnisse statistischer Tests

� Veranschaulichung der inhaltlichen Bedeutsamkeit eines Ergebnisses

� Im Bereich der klinischen und medizinischen Forschung sind Effektgrößen unmittelbar wichtig (� Wie gut wirkt eine Behandlung? Wie groß ist der

Einfluss eines Risikofaktors? Etc.)

EffektstärkenEinführung 1/5

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Effektgrößen aber nicht nur für Veranschaulichung von Ergebnissen wichtig

� Ebenso für Planung von Studien relevant:

– Effektgröße

– Alpha-Fehler

– Beta-Fehler und

– Stichprobengröße

stehen miteinander in Beziehung

� Kennt man drei der vier Parameter (oder legt sie a priori fest) kann der vierte berechnet werden

� Planung von Stichprobengrößen, Ermittlung der Power einer Studie

EffektstärkenEinführung 2/5

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Standardisierte und unstandardisierte Effektgrößen

� Unstandardisierte Effektgrößen sind Maße, die eine unmittelbare

inhaltliche Bedeutsamkeit und Interpretation haben, z.B.

– Anzahl an Zigaretten, die im Schnitt pro Tag geraucht werden

– Krankenstandstage pro Jahr, die durchschnittlich auf einer bestimmte Erkrankung zurückgeführt werden können

– Gewichtsverlust in kg, der durch ein bestimmtes Diäts- und Aktivitätsprogramm im Schnitt erzielt werden kann

� Maße für unstandardisierte Effektgrößen z.B.

– Differenz von Gruppenmittelwerten (raw mean difference)

– Unstandardisierte Regressionskoeffizienten

EffektstärkenEinführung 3/5

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Standardisierte Effektgrößen i.A. vor allem dann von Bedeutung, wenn zugrundeliegendes Maß keine unmittelbare Interpretation gestattet, z.B. Summenwerte in psychologischen Tests und Fragebögen

� Standardisierte Effektgrößen erlauben auch den Vergleich von Studien, die Instrumente mit unterschiedlicher Skalierung benutzt haben

� Unterschiede werden durch Standardisierung kompensiert

� Anwendung vor allem auch in meta-analytischer Forschung (= Integration von Forschungsergebnissen unterschiedlicher Studien zur selben Forschungsfrage)

EffektstärkenEinführung 4/5

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Häufig verwendete standardisierte Maße

– Cohens d (und andere Maße der d-Familie)

– Produkt-Moment-Korrelation r (und andere Maße der r-Familie)

– Eta2 (und andere Maße der Varianzaufklärung)

– Odds Ratio und Risk Ratio (und davon abgeleitete Kennwerte)

EffektstärkenEinführung 5/5

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Cohens d relevant für alle Mittelwertsvergleiche zwischen zwei

(unabhängigen oder abhängigen) Gruppen

� Kann aus Gruppenmittelwerten, Standardabweichungen und ns oder aus der t-Statistik des t-Test berechnet werden (wird nicht von SPSS ausgegeben)

� Cohens d für unabhängige Stichproben:

EffektstärkenStandardisierte Effektgrößen: Cohens d 1/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

222

211

−+

⋅−+⋅−=

+⋅=−

SDnSDnSD

nnt

MMd

pooled

)()(

� Cohens d gibt den Abstand zweier Verteilungen in Einheiten ihrer gemeinsamen Standardabweichung an

� Annahme: Normalverteilung, Homogenität der Varianzen (� t-Test !!!)

EffektstärkenStandardisierte Effektgrößen: Cohens d 2/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

M1 M2

= d

� Im Fall abhängiger Stichproben kann d anhand der Differenzwerte bestimmt werden

� Um es mit der Metrik von d für unabhängige Stichproben vergleichbar zu machen, kann die Korrelation der Messwerte berücksichtigt werden

rtr

Diff

Diff )()(

−⋅⋅=−⋅⋅=

1212

EffektstärkenStandardisierte Effektgrößen: Cohens d 3/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Diff

Diff 1⋅==

� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)

EffektstärkenStandardisierte Effektgrößen: Cohens d 4/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

0.2Klein

Größe des Effekts Cohens d

Mittel 0.5

Groß 0.8

Beispiel (Rückgriff):

Effekt der CBT-Behandlung von Depressionspatienten

N = 56 Patienten nach 12-wöchiger Behandlung

Analyse (t-Test für abhängige Daten) hat gezeigt, dass Veränderung

hochsignifikant war – Größe des Effekts?

EffektstärkenStandardisierte Effektgrößen: Cohens d 5/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Zeitpunkt M SD

Baseline (T1) 25.71 4.53

Nach 12 Wochen (T2) 15.70 7.27

� Im Fall

EffektstärkenStandardisierte Effektgrößen: Cohens d 6/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

rtr

Diff

Diff )()(

−⋅⋅=−⋅⋅=

1212

Statistik bei gepaarten Stichproben

25,71 56 4,528 ,605

15,70 56 7,266 ,971

HRSD_baseline

HRSD_post_treatment

Paaren

Mittelwert N

Standardab

weichung

Standardfe

hler des

Mittelwertes

Korrelationen bei gepaarten Stichproben

56 ,656 ,000HRSD_baseline &

HRSD_post_treatment

Paaren

N Korrelation Signifikanz

Test bei gepaarten Stichproben

10,018 5,489 ,733 8,548 11,488 13,658 55 ,000HRSD_baseline -

HRSD_post_treatment

Paaren

Mittelwert

Standardab

weichung

Standardfe

hler des

Mittelwertes Untere Obere

95% Konfidenzintervall

der Differenz

Gepaarte Differenzen

T df Sig. (2-seitig)

� Einsetzen (d für Differenzwerte):

� Patienten verbessern sich um fast zwei Standardabweichungen

(großer Effekt!)

� Einsetzen (d in der Metrik für unabhängige Stichproben):

� Verbesserung um 1.5 Standardabweichungen

EffektstärkenStandardisierte Effektgrößen: Cohens d 7/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

83113406581356

165813

1.... =⋅=⋅=⋅=

Ntd

51111106581356

65601265813

12...

).(.

)(=⋅=

−⋅⋅=

rtd

� Wenn r > .5, ist d der Differenzwerte größer als d in Metrik unabhängiger Stichproben (bei r = .5 idente Ergebnisse; ansonsten kleiner)

� In Messwiederholungsdesigns sollte d in der Metrik unabhängiger Stichproben berechnet werden (vgl. Dunlap et al., 1996)

� ansonsten droht Über- oder Unterschätzung von Effekten und Vergleiche mit Untersuchungen mit unabhängigen Designs (VG vs. KG) werden erschwert

� Neben Cohens d existieren noch weitere verwandte Indizes, die ähnlich berechnet werden (z.B. Hedges g, Glass Δ)

EffektstärkenStandardisierte Effektgrößen: Cohens d 8/8

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Produkt-Moment-Korrelation r ist ein direktes Effektmaß

� Koeffizient ist auf den Wertebereich −1 bis +1 beschränkt und erlaubt zudem Aussagen über das Ausmaß erklärter Varianz

(= Bestimmtheitsmaß = r2 [ebenso für Regression von Bedeutung, R2])

� Weitere Koeffizienten aus der r-Familie sind Phi-Koeffizient, die punkt-

biseriale Korrelation und die Rangkorrelation

� Alle diese Koeffizienten können als Effektmaße verwendet werden

� Auch die Produkt-Moment-Korrelation stellt Anforderungen an Daten (bivariate Normalverteilung, linearer Zusammenhang)

EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 1/3

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Cave: Einschränkungen des Koeffizienten (siehe z.B. Phi-Koeffizient) schlagen sich somit auch auf Einschätzung der Größe eines Effekts nieder

� r kann zudem in Cohens d umgerechnet werden und umgekehrt

� Formeln dafür finden sich einführenden Büchern zu meta-analytischenTechniken (z.B. Borenstein, Hedges, Higgins, Rothstein, 2009)

� Verdeutlicht, dass korrelative Herangehensweise und die Analyse von Mittelwertsunterschieden im allgemeinen linearen Modell eigentlich das selbe ist

EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 2/3

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)

EffektstärkenStandardisierte Effektgrößen: Produkt-Moment-Korrelation r 3/3

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

.1Klein

Größe des Effekts r

Mittel .3

Groß .5

� Eta2 (η2) ist das „natürliche“ Effektmaß varianzanalytischer Untersuchungen

� Partielles Eta2 (siehe später) kann direkt von SPSS ausgegeben werden

� Eta2 ist ein Maß dafür, wie viel Gesamtvarianz (abhängige Variable) durch den interessierenden Faktor (unabhängige Variable) erklärt wird:

� Ergebnis ist ein Maß der Varianzerklärung (Wertebereich 0 bis 1), das in der Interpretation vergleichbar ist mit r2

EffektstärkenStandardisierte Effektgrößen: Eta2 1/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Gesamt

Faktor2

QSEta =

� Für mehrfaktorielle Designs wird auch das partielle Eta2 verwendet:

� In einfaktoriellen Designs ist Eta2 = partielles Eta2

� In mehrfaktoriellen unabhängigen Designs addiert sich das Eta2 aller Quadratsummen auf 1

� Das partielle Eta2 addiert sich in mehrfaktoriellen Designs nicht

notwendigerweise auf 1 (kann > 1 sein) – es ist ein Maß der Varianzaufklärung unter Kontrolle (Herauspartialisierung) des Einflusses

aller anderen Faktoren in der Gesamtvariabilität

EffektstärkenStandardisierte Effektgrößen: Eta2 2/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

FehlerFaktor

Faktor2

QSQS

QSEta partielles

� Ebenso addiert sich das (partielle) Eta2 in mixed designs nicht notwendigerweise auf 1 (unabhängige und abhängige Faktoren � zwei unterschiedliche Fehlerterme; die erklärte Gesamtvarianz kann insbesondere in solchen Designs scheinbar > 100% sein)

� Diese Einschränkungen sind in der Interpretation zu berücksichtigen

� Autoren wie Field (2009) plädieren überhaupt, nicht das partielle Eta2 zu

benutzen, sondern Eta2 oder auch ω2 (Omega2 = Schätzer der erklärten Varianz in der Population, nicht in der Stichprobe)

� Eta2 (oder auch das partielle Eta2) haben zudem den prinzipiellen Nachteil, dass sie unanschaulich sind (Globalhypothese) � häufig sind es gerade Einzelvergleiche und deren Größe, die praktisch von Relevanz sind

EffektstärkenStandardisierte Effektgrößen: Eta2 3/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� D.h. auch gerade bei varianzanalytischen Designs ist häufig die Bestimmung des d interessierender Gruppen informativer

� Zudem können auch für Kontraste Effektmaße bestimmt werden

� Effekt eines Kontrasts in Größen von r (vgl. Field, 2009, S. 390):

EffektstärkenStandardisierte Effektgrößen: Eta2 4/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

dft

Kontrast

� Faustregeln und Richtlinien zur Einschätzung der Größe eines Effekts (Cohen, 1988)

EffektstärkenStandardisierte Effektgrößen: Eta2 5/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

.14

.06

.01

Eta2

1%Klein

Größe des Effekts Erklärte Varianz

Mittel 6%

Groß 14%

Beispiel (Rückgriff):

Wie stark unterscheiden sich Depressive, Remittierte und Gesunde in der berichteten Depressivität?

Wie groß sind Effekte der Kontraste (Depressive vs. Remittierte & Gesunde, Remittierte vs. Gesunde; polynomiale Kontraste)?

EffektstärkenStandardisierte Effektgrößen: Eta2 6/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Gruppe n M SD

Depressive 36 34.11 9.41

Remittierte 39 15.44 8.12

Gesunde 32 7.66 6.35

EffektstärkenStandardisierte Effektgrößen: Eta2 7/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Einsetzen ergibt:

80010456113

56113

1 Kontrast

dft

3701040174

01742

2 Kontrast ..

+−

−=r

� Cohens d (berechnet mittels t-Tests):

Depressive vs. Remittierte: d ==== 2.13

Depressive vs. Gesunde: d ==== 3.26

Remittierte vs. Gesunde: d ==== 1.05

� Effektgrößen der polynomialen Kontraste: (es gilt F = t2, da df1 = 1)

Linearer Term (F = 179.843): r ==== .80

Quadratischer Term (F = 11.143): r ==== .31

EffektstärkenStandardisierte Effektgrößen: Eta2 8/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

� Ausgabe des partiellen Eta2 in SPSS erfordert Verwendung der Prozedur „Allgemeines Lineares Modell“

EffektstärkenStandardisierte Effektgrößen: Eta2 9/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

EffektstärkenStandardisierte Effektgrößen: Eta2 10/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Tests der Zwischensubjekteffekte

Abhängige Variable: BDI

12817,150a 2 6408,575 97,208 ,000 ,651

38647,207 1 38647,207 586,216 ,000 ,849

12817,150 2 6408,575 97,208 ,000 ,651

6856,364 104 65,927

59913,000 107

19673,514 106

Quelle

Korrigiertes Modell

Konstanter Term

Gruppe

Fehler

Gesamt

Korrigierte

Gesamtvariation

Quadratsum

me vom Typ III df

Mittel der

Quadrate F Signifikanz

Partielles

Eta-Quadrat

R-Quadrat = ,651 (korrigiertes R-Quadrat = ,645)a.

� Der Faktor „Gruppe“ erklärt 65% der Gesamtvarianz

Beispiel (Rückgriff):

Wie groß ist der Anteil an Varianz in Trait-Angst, der auf das Geschlecht, wie hoch jener, der auf das Vorliegen einer Angsterkrankung zurückgeführt werden kann?

EffektstärkenStandardisierte Effektgrößen: Eta2 11/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Gruppe n M SD

Frauen (Normpop.) 28 36.14 9.24

Männer (Normpop.) 22 31.41 8.72

Frauen (Angststör.) 30 56.30 11.23

Männer (Angststör.) 27 50.59 11.30

EffektstärkenStandardisierte Effektgrößen: Eta2 12/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Tests der Zwischensubjekteffekte

Abhängige Variable: STAI_trait

10905,070a 3 3635,023 34,401 ,000 ,500

200812,050 1 200812,05 1900,447 ,000 ,949

719,405 1 719,405 6,808 ,010 ,062

10213,109 1 10213,109 96,655 ,000 ,484

6,256 1 6,256 ,059 ,808 ,001

10883,565 103 105,666

233364,000 107

21788,636 106

Quelle

Korrigiertes Modell

Konstanter Term

Geschlecht

Gruppe

Geschlecht * Gruppe

Fehler

Gesamt

Korrigierte

Gesamtvariation

Quadratsum

me vom Typ III df

Mittel der

Quadrate F Signifikanz

Partielles

Eta-Quadrat

R-Quadrat = ,500 (korrigiertes R-Quadrat = ,486)a.

Partielles Eta2: Der Faktor „Geschlecht“ erklärt 6% der Varianz, „Gruppe“ 48%, die Wechselwirkung < 1%

Eta2 (mithilfe der QS berechnet; „korrigierte Gesamtvariation“ für QSGesamt):

„Geschlecht“ 3%, „Gruppe“ 47%, Wechselwirkung < 1%

Beispiel (Rückgriff):

Wie groß sind Varianzanteile, die durch die unterschiedliche Behandlung

(CBT vs. CBT + Med) erklärt werden können?

Wie groß sind Prä/Post-Differenzen, wie stark unterscheiden sich die Gruppen zu T1 und T2?

EffektstärkenStandardisierte Effektgrößen: Eta2 13/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Baseline 12 Wochen

Gruppe n M (SD) M (SD)

CBT 56 25.71 (4.53) 15.70 (7.27)

CBT + Med 49 27.41 (4.45) 10.12 (6.89)

Tests der Innersubjekteffekte

Maß: MASS_1

9741,004 1 9741,004 695,549 ,000 ,871

9741,004 1,000 9741,004 695,549 ,000 ,871

690,204 1 690,204 49,284 ,000 ,324

690,204 1,000 690,204 49,284 ,000 ,324

1442,491 103 14,005

1442,491 103,000 14,005

Sphärizität angenommen

Greenhouse-Geisser

Huynh-Feldt

Untergrenze

Sphärizität angenommen

Greenhouse-Geisser

Huynh-Feldt

Untergrenze

Sphärizität angenommen

Greenhouse-Geisser

Huynh-Feldt

Untergrenze

Quelle

Zeit

Zeit * Behandlung

Fehler(Zeit)

Quadratsum

me vom Typ III df

Mittel der

Quadrate F Signifikanz

Partielles

Eta-Quadrat

EffektstärkenStandardisierte Effektgrößen: Eta2 14/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Partielles Eta2: addiert sich nicht auf 100% (> 100%) !„Zeit“ 87% der Varianz, Wechselwirkung 32%

Eta2 (mithilfe der QS berechnet; Summe aller QS für QSGesamt):

„Zeit“ 54%, Wechselwirkung 4%

EffektstärkenStandardisierte Effektgrößen: Eta2 15/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

Partielles Eta2: „Behandlung“ 3% der Varianz

Eta2 (mithilfe der QS berechnet; Summe aller QS für QSGesamt): 1 %

Tests der Zwischensubjekteffekte

Maß: MASS_1

Transformierte Variable: Mittel

81427,978 1 81427,978 1442,101 ,000 ,933

196,721 1 196,721 3,484 ,065 ,033

5815,879 103 56,465

Quelle

Konstanter Term

Behandlung

Fehler

Quadratsum

me vom Typ III df

Mittel der

Quadrate F Signifikanz

Partielles

Eta-Quadrat

� Cohens d (berechnet mittels t-Tests):

Baseline-Testung: d ==== -0.37 (p = .057)

Post-Testung: d ==== 0.78 (p < .001)

CBT Prä/Post: d ==== 1.51 (p < .001)

CBT + Med Prä/Post: d ==== 2.74 (p < .001)

EffektstärkenStandardisierte Effektgrößen: Eta2 16/16

Dr. Ulrich Tran, VO Ausgewählte Methoden, SS 2011

top related

effektstärken und deren bedeutung für die klinische forschung · standardisierte und...

Documents

standardisierte kompetenzorientierte reifeprüfung &...

standardisierte befischung auerzersee...standardisierte...

daniel von devivere unmittelbare teilnahme an...

openstack und heat - standardisierte test- und...

die unmittelbare fortsetzung der vorlesung m 1 · die...

standardisierte schriftliche reife- und diplomprüfung aus...

standardisierte nutzungsstatiken für repositorien und...

standardisierte, kompetenzorientierte reifeprüfung an ahs...

zahnmedizinische indikationen für standardisierte ... ·...

die standardisierte reife- und diplomprüfung (srdp)

standardisierte reifeprüfung und ihre auswirkungen auf...

standardisierte beurteilung der gelenkgesundheit von ... ·...

empfehlungen für die standardisierte angabe der ... ›...

standardisierte leistungsbeschreibung ... ·...

die neue standardisierte, kompetenzorientierte...

entwicklung von kompetenzen als gegenstand empirischer...

standardisierte, kompetenzorientierte reifeprüfung

mathematik grundlagen 01 16 - hftm.ch · net. für die...

mentalisierungsfördernde & -basierte psychotherapie · ifs...

unmittelbare information und kulturelle teilhabe für alle