quantitative evaluierungsmethoden ohne formeln erklärt
Post on 20-Jan-2017
330 Views
Preview:
TRANSCRIPT
2
Einordnung
• Evaluierung und Monitoring – Monitoring: Auskunft, ob ein Programm wie geplant abläuft
oder es zu Störungen kommt – Prozessevaluation: Evaluation des Programmablaufs – Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich
mit alternativen Mittelverwendungen – Wirkungsbeobachtung: Gewünschte Effekte? Dem
Programm zuzuschreiben?
• Dieser Vortrag: quantitative Methoden der Wirkungsbeobachtung oder Wirkungsmessung
Quantitative Methoden der Wirkungsbeobachtung
• Versuch der Messung eines kausalen Effekts, des Beitrags der Maßnahme zur Veränderung eines Wirkungsindikators
Fokus auf interner Validität mit besonderer Berücksichtigung von:
• Selektionsverzerrung (Fragen alleine reicht nicht) – Zwei Ursachen von Selektion können analytisch
unterschieden werden: “observables” (Alter, Bildung etc.) und “unobservables” (Motivation, bestimmte schwer beobachtbare Fähigkeiten wie Unternehmergeist)
• Weiteren Faktoren, die den Wirkungsindikator beeinflussen könnten
• Berücksichtigung von Wirkungsheterogenität Zum Teil Berücksichtigung von Wirkungsmechanismen (Fragen
nach dem warum oft eher qualitativ) 3
• Interne Validität (identification strategy) – Messe ich richtig? Also wird die Veränderung der abhängigen
Variablen tatsächlich vom Stimulus und nicht durch das Auftreten von Störvariablen oder Verzerrungen verursacht
– Trade off zwischen maximaler Situationskontrolle und Realitätsnähe
• Externe Validität – Übertragbarkeit auf die Wirklichkeit oder andere
Regionen/Kontexte
4
5
Das Evaluationsproblem
• Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn von Unternehmen) zwischen einer Situation MIT und OHNE Implementierung eines Projekts/Programms
• Messung der Wirkung: Evaluationsproblem – Messbar: Indikator VOR and NACH Maßnahme – Nicht/schwer messbar: Indikator OHNE Maßnahme
• Lösung: Konstruktion eines COUNTERFACTUALS bzw. Identifikation einer relevanten Kontrollgruppe mittels geeigneter Methoden
• Evaluationsproblem als Problem fehlender Daten: Wir beobachten nie denselben Teilnehmer auch als Nicht-Teilnehmer
6
Konstruktion eines Counterfactuals
• Folgende Probleme sind zu lösen – Selektionsverzerrung: Selektion in ein Programm in der
Regel nicht zufällig – Confounding Factors: andere Dinge passieren gleichzeitig,
und zwar nicht unbedingt im gleichen Ausmaß in der Kontrollgruppe
– Spillovers: Nicht-Teilnehmer werden durch das Programm beeinflusst
• Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer oft nicht ausreichend, auch nicht Vorher-Nachher
• Zwei Vorgehensweisen – Soziale Experimente: Zufällige Auswahl der Teilnehmer und
Bildung einer Kontrollgruppe – Quasi-experimentelle Methoden: Statistische Verfahren zur
Identifikation einer Kontrollgruppe
9
Um die Wirkung des Programms zu messen müssten wir wissen was passiert wäre wenn das Programm nicht existiert hätte
Y1 (observedl) Impact = Y1- Y1
* Y1
* (counterfactual)
Y0 t=0 t=1 time
Intervention
Probleme bei der Konstruktion des Counterfactuals
Y1
Y1
*
Y0 t=0 t=1 time
Selection bias
Confounding factors
Häufig benutzte Lösungsmethoden
• Randomized controlled trials (RCTs) • Double difference/difference in difference • Matching Methoden • Diskontinuitätsdesigns • (endogeneous) Switching Regressions, Verwendung von
Instrumentvariablen (IVs) (kombinierbar)
11
12
Soziale Experimente / RCTs
• Programm/Projekt wird zufällig Teilen einer Population (idR Stichprobe) zugeordnet
• Zufällige Auswahl schließt Selektionsverzerrung aus: Teilnehmer und Nicht-Teilnehmer unterscheiden sich nicht, weder in beobachtbaren noch unbeobachtbaren Eigenschaften
• Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern ausschließlich auf Programm zurückzuführen
13
Beispiel: Kapitalerträge von Mikrounternehmern in Entwicklungsländern
• De Mel, McKenzie, Woodruff: Experiment mit Mikrounternehmern in Sri Lanka (z.B. QJE, 2008)
• Ziele – Messung der Kapitalerträge in Kleinstunternehmen – Gründe für hohe (?) Kapitalerträge – Gründe für Unterschiede zwischen Unternehmern – Potential für Mikrokredit/-finanzprogramme
• Schönes Beispiel für Anwendbarkeit von Experimenten im Kontext von Privatwirtschaftsentwicklung
14
Das Experiment
• Randomisiertes Experiment: Ein zufällig ausgewählter Teil der befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in Sri Lanka erhält einen Transfer/Preis von USD 100 oder USD 200 – USD 100 Investitionsgüter oder cash – USD 200 cash
• Fünf vierteljährliche Umfragerunden, Preise nach der ersten und dritten (Lotterie)
• Investitionsgüter gewählt durch Unternehmer, gekauft durch RAs
• 408 Unternehmen, ca. 50% erhalten treatment
15
Einige Resultate
• 58 % des cash Transfers investiert • Investitionen in Erweiterung des bestehenden Geschäft, keine
neuen riskanten Geschäfte • Geschätzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jährlich)
– Höher für fähigere Unternehmer – Niedriger für reiche Haushalte (weniger
kreditmarktbeschränkt) – Risikoaversion fast ohne Einfluss
• Unvollständige Kreditmärkte wichtiger als fehlende Versicherungsmärkte
Probleme bei RCTs
• Greift ggf. in die Implementierung ein • Ethische Fragen • „Hawthorne-Effekt“: Verhaltensänderung aufgrund von
Teilnahme an einem Experiment • (Verhinderung von) Spillovers • Kritik von Deaton: u.a. Methodik (vieles unter anderem die
Berechnung von Standardfehlern unterliegt Annahmen, daher kein „Gold Standard“, aber auch externe Validität, Verzerrung versus Präzision – Zum weiterhören: http://www.nyudri.org/events/annual-conference-2012-debates-in-
development/deaton-v-banerjee/ und lesen: https://medium.com/@timothyogden/experimental-conversations-angus-deaton-b2f768dffd57
16
17
Quasi-experimentelle Methoden: Überblick
• Matching: Konstruktion einer Kontrollgruppe von Nicht-Teilnehmern mit möglichst ähnlichen Charakteristika
• Double difference: erste Differenz Vorher-Nachher, zweite Differenz Teilnehmer vs. Nicht-Teilnehmer
• Diskontinuitätsdesigns: Nutzung von „threshold effects“ (Schwellenwerteffekte), Vergleich von ansonsten sehr ähnlichen Teilnehmern knapp über vs. knapp unter Schwellenwert
• Instrumentvariable: Zunächst Erklärung der Programmteilnahme, dann der Wirkung
• Methoden kombinierbar
18
Matching
• Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika ein möglichst ähnlicher Nicht-Teilnehmer zugeordnet: Kontrollgruppe
• Weit verbreitetes Matching-Verfahren: „Propensity Score Matching“: Vergleich von Teilnehmern und Nicht-Teilnehmern mit gleicher Wahrscheinlichkeit am Programm teilzunehmen
• Es wird angenommen, dass die Teilnahme gegeben beobachtbarer Faktoren unabhängig vom Ergebnis (der Wirkung) ist
• Wirkung: Differenz in den durchschnittlichen Zielgrößen zwischen Teilnehmern und Kontrollgruppe
• starke Ähnlichkeit mit experimentellen Methoden • Möglich wenn nur ex-post Daten existieren
19
Matching: Probleme
• Strikte Annahme: – Beseitigt nur den Teil der Selektionsverzerrung, der sich auf
beobachtbare Unterscheidungsmerkmale zurückführen lässt, also keine “unobservable heterogeneity”
• Treatment effect on the treated ist dann identifiziert (nicht-parametrisch)
• Hohe Qualität der Daten erforderlich
– Survey-Design für Teilnehmer und Nichtteilnehmer ähnlich (am besten identisch)
– beiden Gruppen sollten ähnlichen ökonomischen Rahmenbedingungen ausgesetzt sein
• In Empirie teils große Unterschiede in Ergebnissen auf der Basis von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim Versuch der Replikation von RCTs)
20
Double Difference
• Grundidee: Vergleich der Zielgrößen von Teilnehmern und Nicht-Teilnehmern vor und nach der Implementierung – Für Teilnehmer- und Nicht-Teilnehmergruppe wird der
Unterschied in der Zielgröße vor und nach Einführung des Projekts berechnet (first difference)
– Vergleich der Differenzen (second difference): Wirkung • Vorteil: Teil der Selektionsverzerrung durch unbeobachtbare,
aber über die Zeit konstant bleibende Unterscheidungsmerkmale (z.B. Intelligenz) wird beseitigt
• Kann mit Matching kombiniert werden, um Selektionsverzerrung noch weiter zu reduzieren
Mögliche Lösung
• Kombination von PSM & DiD: – ~ Korrektur der Verzerrung vor und hinterher
Y1 Impact?
Y1
*
Y0 t=0 t=1 time
25
Double Difference: Probleme
• Vor Beginn des Programms müssen Daten für die potentiellen Teilnehmer und Nicht-Teilnehmer erhoben werden: Oft keine genauen Informationen darüber, wer die Begünstigten sein werden
• Annahme einer zeitinvarianten Selektionsverzerrung ist häufig nicht erfüllt: – Programme für benachteiligte/arme Gruppen spiegeln idR
ungünstige Ausgangsbedingungen wider, die sich wiederum negativ auf die Entwicklung der Zielgröße für Teilnehmer im Vergleich zur Kontrollgruppe auswirken
– Selektionsverzerrung nimmt dann im Zeitablauf zu und verzerrt den Schätzer für die Wirkung
26
Zentral für Methodik: die passenden Daten
• Auf jeden Fall: – Identifikation der (Nicht-) Teilnehmer – Intensität oder Modalität der Teilnahme – Sozioökonomische Charakteristika – Wirkungsvariablen (direkte oder indirekte Wirkung)
• Vorsicht bei Operationalisierung der Wirkungsvariablen (Einkommen, Konsum)
• Vorhandene Daten? „piggy-backing“? • Kosten sehr unterschiedlich • Methoden und Daten gehen Hand in Hand
27
Methoden und Datenanforderungen
Methode Datenanforderungen
minimal optimal
Experimente Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern
Vorher-Nachher Daten mit Teilnehmern und Nicht-Teilnehmern, Erhebung weiterer Kontrollvariablen
Matching Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern mit großer Stichprobe
Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)
Double Difference Vorher-Nachher-Daten mit Teilnehmer und Nicht-Teilnehmer
Wie links, aber für Teilnehmer und vergleichbare Nicht-Teilnehmer
Instrument-variablen
Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern, Instrument
Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)
28
Conclusions
• Verzerrung einer Wirkungsbeobachtung kann zu vollkommen falschen Schlüssen hinsichtlich der Wirkungen eines Projektes führen! Anwendung rigoroser wissenschaftlicher Methoden daher sinnvoll
• Trotz quantitativem Fokus: Grundsätzliche Probleme der Identifizierung eines Gegenszenarios und der relevanten Vergleichsgruppe sind bei qualitativen Verfahren die gleichen
• Fokus bisher: Interne Validität • Um aus Wirkungsbeobachtungen zu lernen: Externe Validität
wichtiger – Können diese Resultate generalisiert werden?
• Faktoren, die beachtet werden müssen, bevor man die Ergebnisse einer Wirkungsbeobachtung verallgemeinert – Kontextbedingungen – Spillovers und allgemeine Gleichgewichtseffekte – Bei Auswertung von Studien: Publikationsbias
top related