ein-gruppen-designs/ nicht-experimentelle ergebnisevaluationen · eine methode des korrelierens von...

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

n

Sitzung 11:

Sozialpsychologie und Politische Psychologie HBM6: Evaluation (051105)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Ein-Gruppen -Designs/

nicht-experimentelle Ergebnisevaluationen

Institut für PsychologieDer Christian-Albrechts-Universität zu KielSozialpsychologie & Politische PsychologieDr. Anne Bachmann

Vorlesung: EvaluationSS 2013

Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nLernziele

1. Verständnis von Ein-Gruppen-Designs (Formen, Ziele)

2. Verständnis der Verwendung/des Umgangs mit Ein-Gruppen-Designs

3. Verständnis der internen Validitätsbedrohungen in Ein-Gruppen-

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

3. Verständnis der internen Validitätsbedrohungen in Ein-Gruppen-Designs

4. Verständnis der Bedrohungen der Konstruktvalidität in Ein-Gruppen-Designs

5. Verständnis potenzieller Interpretationsprobleme bei Ein-Gruppen-Designs

6. Verständnis der Nützlichkeit von Ein-Gruppen-Designs



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

6. Verständnis der Nützlichkeit von Ein-Gruppen-Designs

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nÜberblick über heutige SitzungEin-Gruppen-Designs

- Nachtest-Design- Vortest-Nachtest-Design

Verwendung deskriptiver Ein-Gruppen-Designs- Erreichen/Erfüllen eines Kriteriums (Ziel)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

- Erreichen/Erfüllen eines Kriteriums (Ziel)- Verbesserung (Veränderung)- „ausreichende“ Verbesserung- Veränderung(en) in Bezug zu Programmintensität und TN-merkmalen

Bedrohungen der internen Validität- Veränderungen, die nicht programm- und interventionsgebunden sind- Veränderungen durch Merkmale der beobachteten Stichprobe- Veränderungen durch Methoden der Datenerhebung



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

- Veränderungen durch Methoden der Datenerhebung

Konstruktvalidität in Vortest-Nachtest-Designs

Überinterpretation der Ergebnisse von Ein-Gruppen-Designs

Nützlichkeit von Ein-Gruppen-Designs

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nEin-Gruppen-Designs

Einfachste Form der Ergebnisevaluation = Nachtest-Design:

⇒ Nachweis, dass Teilnehmer eines Programms das Programmziel erreicht haben

⇒ systematische Beobachtung einer Stichprobe zu einem definierten Zeitpunkt nach Beendigung des Programms

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Zeitpunkt nach Beendigung des Programms

zweite Form der Ergebnisevaluation = Vortest-Nachtest-Design:

⇒ beantwortet Frage, ob Teilnehmer eines Programms sich verbessert haben, während sie das Programm durchliefen

⇒ systematische Beobachtung einer Stichprobe vor Beginn eines Programms und (zu einem definierten Zeitpunkt) nach Beendigung



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

Programms und (zu einem definierten Zeitpunkt) nach Beendigung des Programms

ACHTUNG: Bedrohung der internen Validität => Designs ermöglichen keinen Ausschluss von alternativen Ergebniserklärungen

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nVerwendung deskriptiver Ein-Gruppen-Designs

1. Erreichen/Erfüllen eines Kriteriums (Ziel)

= Nachtest-Design ausreichend

(komplexere Ergebnisevaluationen unnötig, wenn ein Programm von der Zielpopulation ignoriert wird und/oder selbst für Teilnehmer ineffektiv ist)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Zielpopulation ignoriert wird und/oder selbst für Teilnehmer ineffektiv ist)

2. Intendierte Verbesserung (Veränderung in Zielric htung)

= Vortest-Nachtest-Design

(bei Nachweis einer bedeutsamen Veränderung während des Programms Rückschluss auf Programm als Ursache dennoch nicht möglich; statistische Signifikanz zeigt nur, dass das Auftreten der



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

möglich; statistische Signifikanz zeigt nur, dass das Auftreten der Veränderung nicht zufällig war)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


3. ‚ausreichende‘ Veränderung in Zielrichtung

Feststellung des „ausreichend“ im Vortest-Nachtest-Design

a) wenn Ergebnisvariable aus sich selbst heraus bedeutsam ist

z.B. bei Raucherentwöhnung: # weniger gerauchter Zigaretten oder

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

z.B. bei Raucherentwöhnung: # weniger gerauchter Zigaretten oder # „neuer“ Nichtraucher

b) wenn die Ergebnisvariable als Annäherung (‚proxy‘) an eine Variable dient, deren Messung zu schwierig oder zu teuer ist

z.B. Programm (‚psychologische Beratung) zur besseren Lebensan-passung → Messung mit Tests zur Ängstlichkeit, Stress oder Depression; Berechnung der Effektgröße (-stärke) und



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

Depression; Berechnung der Effektgröße (-stärke) und Beurteilung dieser

ACHTUNG: Notwendigkeit für EvaluatorInnen, Sensibilität gegenüber bedeutsamen Veränderungen zu entwickeln (≠ statistisch signifikante Veränderungen)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


4. Veränderung(en) in Bezug zu Programmintensität und Teilnehmermerkmalen

weiterer Grund für Durchführung einer Evaluation:

=> Suche nach Merkmalen von Teilnehmern, die mit Erreichen

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

=> Suche nach Merkmalen von Teilnehmern, die mit Erreichen der Programmziele zusammenhängen könnten (explorative bzw. versuchsweise Untersuchung mit Ein-Gruppen-Design möglich)

wenn Zusammenhang besteht:

a) Variable (Teilnehmermerkmal) bedeutsam für zukünftige Evaluationen

b) unmittelbarer Einfluss der Variable, wenn selektive Effekte



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

b) unmittelbarer Einfluss der Variable, wenn selektive Effekte auf Zielstichprobe vorliegen

eine Methode des Korrelierens von Veränderungen mit Programmintensität und/oder Teilnehmermerkmalen

=> Berechnung von Partialkorrelationen

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne



Berechnung von Partialkorrelationen

Beispiel:

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Beispiel:

1) StudentInnen, die in Kurs X gut abschneiden, haben wahrscheinlich von vorneherein (vor Beginn des Kurses) einen höheren Notendurchschnitt als die, die nicht so gut abschneiden

2) StudentInnen mit einem höheren Notendurchschnitt nehmen wahr-scheinlich regelmäßiger an den einzelnen Kurssitzungen teil, als die mit geringerem Notendurchschnitt

Wenn Annahmen richtig => Erwartung von positiven Korrelationen zwischen



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

Wenn Annahmen richtig => Erwartung von positiven Korrelationen zwischen Vortestwerten, Nachtestwerten und Teilnahmezahlen

Fragestellung: Werden bessere Ergebnisse (Noten) durch Teilnahmegrad vorhergesagt?

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne



Berechnung von Partialkorrelationen

Im Beispiel:

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Im Beispiel:

• statistische Kontrolle der Unterschiede in Vortestwerten durch partielle Korrelation der Nachtestwerte mit dem Teilnahmegrad (unter Konstant-halten der Vortestwerte)

• Ergebnis = (vergleichsweise hohe) partielle Korrelation von 0,4; weist auf Beziehung zwischen Leistungsverbesserung und Teilnahme an einzelnen Kurssitzungen hin; Teilnahme am Kurs ist sinnvoll, da bessere Noten nicht nur auf höheres Ausgangsniveau zurückzuführen sind, sondern auch auf die Teilnahme



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

sondern auch auf die Teilnahme

Cohens (1987) Vorschlag zur Interpretation von Korrelationen und von auf Zusammenhängen basierenden Effektstärken:

0,1 = klein 0,3 = moderat 0,5 = groß

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne



ACHTUNG: Berechnung von partiellen Korrelationen nur angemessen, wenn:

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 a) große Varianz in potenziell beeinflussender Dritt-bzw. Kontrollvariable(n)

b) Interesse an Einfluss potenziell beeinflussender Drittvariable(n) (Fragestellung)

Positive partielle Korrelation kann Hinweis auf Wert und Wirksamkeit



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

Positive partielle Korrelation kann Hinweis auf Wert und Wirksamkeit eines Programmes liefern, eliminiert jedoch nicht alle nicht-programmspezifischen alternativen Erklärungen für gefundene Effekte (Verbesserungen/Veränderungen)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nBedrohungen der internen Validität

I. Veränderungen in TeilnehmerInnen, die nicht auf d as Programm oder die Intervention zurückzuführen sind

Reifung: natürliche Veränderungen in Personen aufgrund eines bloßen Verstreichens der Zeit

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 History: Ereignisse, die zwischen Vor- und Nachtest auftreten und die Programmteilnehmer beeinflussen

II. Veränderungen, die auf Merkmale der beobachteten Stichprobe zurückzuführen sind

Selbstselektion: Selektionskriterium unterscheidet Untersuchungs-teilnehmer vom durchschnittlichen Mitglied der Ziel-population



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

population

Abbruchrate: Anzahl der Personen, die ein Programm zwar be-ginnen, aber vor Beendigung die Teilnahme abbrechen

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


II. Veränderungen, die auf Merkmale der beobachteten Stichprobe zurückzuführen sind

Regression zur Mitte:

extreme Werte im Vortest tendieren im Nachtest zur Mitte

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

extreme Werte im Vortest tendieren im Nachtest zur Mitte (aufgrund von zufälligen Einflüssen, die sich mit großer Wahrschein-lichkeit nicht exakt wiederholen)

(Interpretations-)Problem im Vortest-Nachtest-Design besteht dann, wenn in der Untersuchungsgruppe nur Teilnehmer mit extremen Werten sind (Selektionskriterium) und sich im Nachtest Verbesserungen zeigen



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


III. Veränderungen, die auf die Datenerhebungs- (bzw. Beob-achtungs-) methoden zurückzuführen sind

Testung: Veränderungen im Verhalten aufgrund der Datenerhebungs- bzw. Beobachtungstechnik

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 Vertrautheit: Retest-Effekte

Reaktivität: Personen verhalten sich anders, wenn sie wissen, dass sie unter Beobachtung stehen

Instrumentation: bezieht sich auf das Messen selbst bzw. die Nutzung von Messprozeduren (v.a. wenn Maße nicht hoch objektiv sind und z.B. mehr oder weniger Inter-pretationsspielraum lassen)



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

pretationsspielraum lassen)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


IV. Interaktionseffekte der Validitätsbedrohungen

Interaktionseffekte zwischen den einzelnen Validitäts-bedrohungen in Ein-Gruppen-Designs möglich:

z.B. Selection-by-maturation interaction (Selektion x Reifung)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

z.B. Selection-by-maturation interaction (Selektion x Reifung)

Eltern versuchen ihre Kinder gezielt zu fördern (Selbst-selektion), da diese sich schneller entwickeln als Kinder von Eltern, die nicht versuchen, ihre Kinder gezielt zu fördern (Reifung)

V. Zwei Seiten der Validitätsbedrohungen

Validitätsbedrohungen können



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

=> Programmeffekte vortäuschen

=> Programmeffekte überdecken

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nKonstruktvalidität in Vortest-Nachtest-Designs

Bei Verwendung von Selbst-Berichten (self-report measures) in Vortest-Nachtest-Designs => Notwendigkeit zu untersuchen:

- ob ein Programm zu Veränderungen sowohl dahingehend führt, wie die Teilnehmer die Aufgaben/Fragen verstehen

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

wie die Teilnehmer die Aufgaben/Fragen verstehen

- als auch dahingehend, wie die eigenen Stärken und Schwächen bzw. Probleme verstanden werden

⇒ 3 Arten von Veränderungen, die in Teilnehmern eines Programmes auftreten können

α – Veränderungen (alpha change)

β – Veränderungen (beta change)



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t


γ – Veränderungen (gamma change)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


α – Veränderungen (alpha change)

„echte“ Veränderung im interessierenden Verhalten (bei hoher interner Validität ist das Programm Ursache der Veränderung)


De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3


treten auf, wenn Programmteilnehmer ihr Verständnis der Bedeutung einer Skala verändern (Vergleichsprozesse)(Personen lernen durch Intervention mehr über sich, haben in der Folge eine genauere Selbsteinschätzung und schneiden aber hierdurch eventuell im Nachtest schlechter ab)

γ – Veränderungen (gamma change)

Unterschiede zwischen Vor- und Nachtest aufgrund einer



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

Unterschiede zwischen Vor- und Nachtest aufgrund einer Rekonzeptualisierung der Bedeutung einer gemessenen Variable (Lernprozesse bzw. Wissenseffekt)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


⇒ Variablen, die objektiv gemessen werden können, unterliegen den β- und γ-Veränderungen nicht

⇒ β- und γ-Veränderungen stellen grundsätzlich die Konstrukt-validität einer Variable in Frage

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 (wenn eine Variable für verschiedene Personen Unterschiedliches bedeutet, mangelt es ihr an Konstruktvalidität)



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne


Strategien zur Minimierung der Konstruktvaliditätsbedrohungen:

1. Trennen der Informationen, die zur Programmevaluation gesammelt wurden, von denen, die für Behandlungs-entscheidungen nötig sind

2. Teilnehmern glaubhaft machen, dass ihre Antworten validiert

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

2. Teilnehmern glaubhaft machen, dass ihre Antworten validiert werden

3. Interviewer einsetzen, die sowohl mit dem Programm als auch mit den Problemen der Teilnehmer Erfahrungen haben

4. den Teilnehmern explizite Referenzgruppen geben, mit denen sie sich selbst vergleichen sollen

5. Verhaltensbezogene Beurteilungsanker verwenden statt



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

5. Verhaltensbezogene Beurteilungsanker verwenden statt bewertende Begriffe

manchmal Empfehlung zur Verwendung von retrospektiven Vortests(da nach Programm Teilnehmer ein besseres Verständnis ihres Verhaltens haben)

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nErgebnisüberinterpretationen in Ein-Gruppen-Designs

In Ein-Gruppen-Designs => häufiger Versuch der Kompensation der Design-Schwäche durch Erhebung vieler (ähnlicher) abhängiger Variablen

Problem: Erhöhung der Wahrscheinlichkeit für den statistischen Fehler 1. Ordnung (α-Fehler, Typ-I- Fehler)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

Fehler 1. Ordnung (α-Fehler, Typ-I- Fehler)

⇒ große Gefahr der Überinterpretation von (signifikanten) Beziehungsmustern, die lediglich Ergebnis einer zufälligen Variation sind

Gründe für das Nichtentdecken von auf dem Typ-I-Fehler basieren-den Fehlinterpretationen:

- statistische Unerfahrenheit der Evaluator_innen (mit Tendenz



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

- statistische Unerfahrenheit der Evaluator_innen (mit Tendenz zum Data-Mining bzw. „fishing“ for significant relationships)

- Rückschaufehler (hindsight-bias): Tendenz zu glauben, ein Ergebnis erwartet haben zu können, nachdem man das Ergebnis erfahren hat

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nErgebnisüberinterpretationen in Ein-Gruppen-Designs

Strategien zur Vermeidung von auf dem α-Fehler bzw. Typ-I- Fehler basierenden Fehlinterpretationen in Ein-Gruppen-Designs:

• hypothesengeleitetes Vorgehen bei der Datenerhebung

• hypothesengeleitetes Vorgehen bei der Datenauswertung

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 • Replikation(en) der Untersuchungen

• (Alpha-Korrektur)



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nNützlichkeit von Ein-Gruppen-Designs

Wenn im Vorfeld einer Evaluation mit Ein-Gruppen-Design die erwünschten Level der Ergebnisvariable(n) definiert sind und es während des Programms keine Abbrecher gibt

=> Vortest-Nachtest-Design ausreichend zur Dokumentation des Programmerfolgs

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3

des Programmerfolgs

Evaluationen mit Ein-Gruppen-Designs sind

- wenig auf- bzw. zudringlich- vergleichsweise günstig (finanziell)- erfordern viel weniger Aufwand als kontrolliertere Programme

⇒ erfüllen somit wichtige Funktionen in Hinblick auf Planung weiterer, kontrollierterer Programmevaluationen:



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

weiterer, kontrollierterer Programmevaluationen:

1) Hinweise für Nützlichkeit weiterer Evaluationen2) Korrelation der Verbesserung mit anderen Variablen3) Vor- bzw. Wegbereitung (institutionell) für weitere Evaluationen

ex

pe

rim

en

tell

e E

rge

bn

ise

va

lua

tio

ne

nRelevante Begriffe

- Ein-Gruppen-Designs

- interne Validität

- Reifung

- Geschichte (+ lokale Geschichte)

De

sig

ns/n

ich

t-e

xp

eri

me

nte

lle

Erg

eb

nis

eva

lua

tio

ne

n

18

. Ju

ni 2

01

3 - Regression zur Mitte

- (Selbst)Selektion

- Abbruchrate (bzw. Drop-Out-Rate)

- Testung

- Instrumentation

- Konstruktvalidität



Ein

-Gru

pp

en

-De

sig

ns/n

ich

t

- alpha-, beta-, gamma-Veränderungen

- Typ-I-Fehler

- Rückschaufehler

ein-gruppen-designs/ nicht-experimentelle ergebnisevaluationen · eine methode des korrelierens von...

Documents