jost reinecke - ss05/folien/stich2b.pdf · jost reinecke gewichtung und fehlerquellen. gewichtung...
TRANSCRIPT
GewichtungFehlerquellen
Gewichtung und Fehlerquellen
Jost Reinecke
Universitat Bielefeld
18. April 2005
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Gewichtung
I Unter einer Gewichtung wird die Vergabe von positiven reellenZahlen an die Merkmalstrager im Datensatz verstanden, dieals Gewichtungsfaktoren bezeichnet werden.
I In der Regel wird auf die Fallzahl gewichtet, d. h. dieGewichte werden so normiert, daß die gewichtete Fallzahl derungewichteten gleicht.
I Es ergibt sich eine naturliche maximale Spannweite derGewichtungsfaktoren zwischen 0.00 und 9.99, wobei ein Wertvon 0.00 zu vermeiden ist, da dann die Falle aus demDatensatz entfernt werden. Ublicherweise wird eineUntergrenze von 0.01 verwendet.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Aus welchen Grunden wird gewichtet:
1. Design-Erfordernisse
2. Versuch der Reduktion des Zufallsfehlers durch eineSchichtung a posteriori
3. Gewichtung auf Grund einer empirischen Hypothese
Design-GewichtungWenn die Stichprobe disproportional auf Schichten aufgeteilt ist,erfordert der Stichprobenplan eine nachtragliche Gewichtung derStichprobe. Diese Gewichtungen werden Design-Gewichtungengenannt, die sich daraus ergebenden Gewichte entsprechendDesign-Gewichte. Design-Gewichte konnen prinzipiell als Faktorproportional zur inversen Auswahlwahrscheinlichkeit gebildetwerden.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Beispiel: Ost-West-Gewichtungen bei Auswertungen mit demALLBUS 2000 fur Gesamtdeutschland
→ Methodenbericht ALLBUS 2000 (S3451MET.PDF)
Wenn man mit den Daten des ALLBUS 2000 eine Auswertung furganz Deutschland durchfuhren will, ist die Disproportionalitat derTeilstichproben fur West- und Ostdeutschland durch eineGewichtung auszugleichen. Fur Vergleichszwecke werden dieGewichte wi grundsatzlich normiert. Im Westen wird die Summeder Gewichte auf den Umfang der Weststichprobe nW festgesetzt,im Osten auf den Umfang der Oststichprobe nO . Treten bei deninteressierenden Merkmalen fehlende Werte auf, so sind diese alseigene Kategorie zu behandeln. Mit NW und NO werden dieUmfange der Grundgesamtheiten bezeichnet.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Folgende Gewichtungsfaktoren (Transformationsgewichte) sindkonstruiert worden:
I Westdeutschland: wi = nnW
· NW
N
wi = 31382036 ·
332023408658 = 1.25223
I Ostdeutschland: wi = nnO
· NO
N
wi = 31381102 ·
76635408658 = 0.53400
n = nW +nO ist der Gesamtumfang der Stichprobe, N = NW +NO
ist der Gesamtumfang der Grundgesamtheit, die aus demMikrozensus 1997 gebildet wurde. Die Gewichtungsfaktorenkonnen als Auspragungen einer Variable verwendet werden. BeiAuswertungen fur Gesamtdeutschland werden dann dieWestdeutschen hoch- und die Ostdeutschen heruntergewichtet.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Schichtung a posterioriMerkmale, deren Verteilung man hinreichend genau kennt(beispielsweise durch die amtliche Statistik) konnen in einernachtraglichen Schichtung mittels Gewichtung Verwendung finden.Diese wird mit einem Anpassungsverfahren (redressment)realisiert. Haufig werden mehrere Redressment-Variablen verwendet(Alter, Geschlecht). Die Kombination einzelner Auspragungendieser Merkmale werden Gewichtungszellen genannt.
Beispiel: Kriminologische Schulerbefragung in Munster
→ Methodenbericht aus dem Jahre 2001
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Die Gewichtung wird hier verwendet, um kleinere Verzerrungen
zwischen Stichprobenparametern und Referenzdaten aus der
Grundgesamtheit auszugleichen. Die einzelne Gewichtung mit nur
einem Merkmal ist vergleichsweise einfach (hier am Beispiel
Geschlecht):
wmannlich=
%Nmannlich%nmannlich
wweiblich = %Nweiblich
%nweiblich
Es entsteht ein Gewichtungsfaktor mit zwei Gewichten: einmal furdie Kategorie mannlich, zum anderen fur die Kategorie weiblich.Personen mit einem fehlenden Wert bei der Gewichtungsvariablebekommen ein Gewicht von 1, da kein Gewicht berechnet werdenkann. Der jeweilige Fall soll erhalten bleiben.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Beispiel: Berechnung der Gewichte fur das Merkmal Geschlecht ausder Schulerbefragung
Schulstatistik Stichprobe
mannlich weiblich mannlich weiblich
1366 1285 978 937
Ergebnis:
wmannlich= 1366/2651
978/1915 =1.00895
wweiblich = 1285/2651937/1915 = 0.99066
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Fur eine simultane Gewichtung mit den Merkmalen Schulform undGeschlecht kann man zwei Varianten unterscheiden:
1. Multiplikation der beiden Einzelgewichte:
Kombinierte Einzelgewichtemannlich weiblich Gesamt
Hauptschule HS*mannlich HS*weiblichRealschule RS*mannlich RS*weiblichGymnasium GY*mannlich GY*weiblichSonderschule So*mannlich So*weiblich
Gesamt
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Bildung der Gewichte unter Ausschopfung derUrsprungsinformationen:
wHS/mannlich=
%NHS/mannlich%nHS/mannlich
Kombination an Hand der Originaltabellemannlich weiblich Gesamt
Hauptschule % Grundges. % Grundges.Realschule % Grundges. % Grundges.Gymnasium % Grundges. % Grundges.Sonderschule % Grundges. % Grundges.
Gesamt
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Beispiel: Berechnung an Hand der Originaltabelle aus derSchulerbefragung
Schulstatistik Stichprobe Gewicht
mannlich weiblich mannlich weiblich mannlich weiblich
HS 274 214 231 185 0.85684 0.83561RS 408 369 314 298 0.93862 0.89448GY 612 659 369 420 1.19808 1.13343SO 72 43 64 34 0.81267 0.91358
Ges. 1366 1285 978 937 1.00895 0.99066
wHS/mannlich= 274/2651
231/1915=0.85684
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
In der Regel wird die 2. Variante der simultanen Gewichtung austheoretischen Grunden die naheliegende sein. BeideGewichtungsvarianten sind nicht wechselseitig ineinanderuberfuhrbar oder identisch.
Grundsatzlich sind die Effekte der Gewichtung abhangig von:
I Große der Verzerrung der Stichprobe je Gewichtungsmerkmal
I Anzahl der fehlenden Werte
I Starke des Zusammenhangs der Gewichtungsmerkmale mitdem interessierenden Merkmal
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Gewichtung auf Grund einer empirischen HypotheseEin Beispiel fur die Gewichtungsprozedur auf Grund einerempirischen Hypothese ist die in der Wahlforschung ubliche Praxis,mit dem Resultat der Ruckerinnerungsfrage (Recallfrage) zugewichten.
Recallfrage: Wie haben Sie sich bei der letzten Wahl entschieden?
Aus dem Vergleich der Ruckerinnerung mit dem tatsachlichenWahlergebnis wird dann ein Gewicht berechnet. Liegt eineUnterschatzung in der Ruckerinnerung vor, so kann entsprechendhochgewichtet werden, liegt eine Uberschatzung vor, so kannentsprechend heruntergewichtet werden.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Gewichtung mit der RuckerinnerungsfrageFDP Grune SPD CDU Sonstige
Wahlergebnis 6 8 38 42 6Ruckerinnerung 3 8 35 45 9Gewicht 6/3 8/8 38/35 42/45 6/9Verteilung 2.5 9 36 44 8.5StichprobeVerteilung 2.5·(6/3) 9·(8/8) 36·(38/35) 44·(42/45) 8.5·(6/9)nach = 5 =9 = 39 = 44 = 5.7Gewichtung
Dieser Gewichtungsprozedur liegt die Hypothese zugrunde, daß dieRuckerinnerungsverzerrung in Richtung und Starke der Verzerrungder Verteilung in der Stichprobe entspricht.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Fehlerquellen
Es werden drei Kategorien von Fehlerquellen unterschieden:
1. Zufallsfehler der Stichprobe (sampling variability)
2. Systematische Fehler auf Grund des Verfahrens derStichprobenauswahl
3. Verzerrungen, die nicht direkt durch das Auswahlverfahrenproduziert wurden (non-sampling bias)
Unter Meßfehler werden verstanden:
I Fehlerquellen im Interview
I Diskrepanz zwischen Zielpopulation und Surveypopulation
I Non-Response
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Zunachst lassen sich nonsampling errors weiter untergliedern nachnonobservation errors und measurement errors. Die nonobservationerrors treten dann auf, wenn beispielsweise eine Befragungaufgrund der Abwesenheit der zu befragenden Person nichtdurchgefuhrt werden kann (noncoverage errors oder wenn dieBefragung ganz oder teilweise verweigert wird (nonresponse errors).Die measurement errors lassen sich weiter unterscheiden nachresponse errors, beispielsweise verursacht durch Interviewerfehleroder sozial erwunschtes Antwortverhalten, und nach processingerrors, die auf Ubertragungsfehler bei der Dateneingabe oderCodierungsfehler zuruckzufuhren sind. Die nonresponse errorsfuhren zu zwei Typen von fehlenden Werten im Datenmaterial:
I unit nonresponse
I item nonresponse.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Differenzierung der nonsampling errors
temporarynonresponse
permanentnonresponse
unit nonresponse item nonresponse
nonresponseerrors
noncoverageerrors
responseerrors
processingerrors
nonobservation errors measurement errors
nonsampling errorsPPPPPPPPPPq
����������)
@@@R
��
�
@@@R
��
�
��
�
@@@R
��
�
@@@R
��
�
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Muster fehlender Werte bei item nonresponse
Variablen
y1 y2 y3 y4 y5
x x x x xx x xx x x x xx x x xx x x xx x x x xx x x xx x x xx x xx x x x
x = Messwerte
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Monotones Muster fehlender Werte bei unit nonresponse
Panel
t1 t2 t3 t4 t5x x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x xx x xx xx
x = Messwerte, t1 bis t5 = Befragungszeitpunkte
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Wenn eine statistische Berucksichtigung fehlender Werte bei derDatenanalyse und Modellierung vorgenommen werden soll, sindzunachst verschiedene Prozesse zu betrachten, die zu denfehlenden Werten fuhren. Fur die weitere Erlauterung wird vonzwei Variablen x und y ausgegangen, wobei x vollstandig gemessenist und y fehlende Werte aufweist.x = Alter und y = Einkommen:
1. Hangt die Wahrscheinlichkeit einer Antwort weder von derVariablen x noch von der Variablen y ab, dann sindbeobachtete und fehlende Werte zufallig verteilt. In diesemFall werden fehlende Werte als missing completely at random(im folgenden abgekurzt MCAR) bezeichnet. Jede zufalliggezogene Substichprobe mit vollstandigen Daten unterscheidetsich dann nicht von der Gesamtstichprobe mit den fehlendenWerten. Die MCAR-Annahme gilt beispielsweise nicht, wennPersonen mit fehlenden Einkommensangaben im Durchschnittalter sind, als Personen mit vollstandigen Daten.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
2. Hangt die Wahrscheinlichkeit einer Antwort von der Variablenx nicht aber von der Variablen y ab, dann sind diebeobachteten Werte nicht zufallig, die fehlenden Werte aberzufallig verteilt. Formal gilt dann folgender Ausdruck:
Pr(y missing|y , x) = Pr(y missing|x)
Die konditionale Wahrscheinlichkeit (Pr) fur fehlende Wertein der Variablen y unter der Bedingung der Variablen x und yist gleich der konditionalen Wahrscheinlichkeit fur fehlendeWerte in y unter der Bedingung, wenn nur x gegeben ist. Indiesem Fall werden fehlende Werte als missing at random (imfolgenden abgekurzt MAR) bezeichnet. Die MAR-Annahme istdann beispielsweise erfullt, wenn die fehlendenEinkommensangaben vom Alter abhangig sind, aber in jederAltersgruppe die Wahrscheinlichkeit fur die fehlenden Wertebeim Einkommen unabhangig von der Verteilung der gultigenEinkommensangaben sind.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
3. Hangt die Wahrscheinlichkeit einer Antwort sowohl von derVariablen x als auch von der Variablen y ab, dann sind wederbeobachtete noch fehlende Werte zufallig verteilt. Formal giltdann folgender Ausdruck:
Pr(y missing|y , x) = Pr(y missing|y)
In diesem Fall werden fehlende Werte als missing not atrandom (im folgenden abgekurzt MNAR) bezeichnet. Diefehlenden Einkommensangaben sind vom Alter abhangig undvon der Verteilung der gultigen Einkommensangaben.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Graphische Veranschaulichung der unterschiedlichenAusfallprozesse
y r
x z
? ?
(a) MCAR
x z
y r? ?
JJ
JJ
(b) MAR
x z
y r-? ?
JJ
JJ
(c) MNAR
Neben den erwahnten Variablen x (Variable mit vollstandigenWerten) und y (Variable mit fehlenden Werten) steht die Variablez fur die Ursache der fehlenden Werte und die Variable r fur dasAusfallmuster. Wenn das Ausfallmuster von den Verteilungen derWerte in x und y abhangt, dann gilt fur die fehlenden Werte diedritte Ausfallsituation (MNAR) und der Ausfallprozeß kann nichtignoriert werden.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Vielmehr mussen dann statistische Modelle herangezogen werden,die den Mechanismus fehlender Werte explizit berucksichtigen(selection models und pattern mixture models).
Aus der folgenden Tabelle wird ersichtlich, daß die einfachstenMethoden zur Handhabung fehlender Werte den restriktivstenAusfallprozeß voraussetzen (MCAR), wahrend elaboriertereMethoden weniger restriktive Anforderungen stellen (MAR).Fallweiser und paarweiser Ausschluß fehlender Werte sind die amhaufigsten benutzten Behandlungsmoglichkeiten in derstatistischen Datenanalyse, was auch durch die einfacheHandhabung in Statistikprogrammpaketen verursacht wird.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Ubersicht uber die klassischen Verfahren zur Behandlung fehlenderWerte
Klassische Verfahren
Methode Vorteile Nachteile Ausfall Programm
Fallweiser Erzeugt Drastische MCAR SPSSAusschluß konsistente Reduktion der SASfehlender Werte Matrizen Fallzahl moglich STATA
Paarweiser Benutzt alle Inkonsistente MCAR SPSSAusschluß verfugbaren Varianz-/Kovarianz- SASfehlender Werte Werte matrizen moglich STATA
Ersetzung Einfache Varianzreduktion, MAR SPSSdurch Handhabung abnorme Werte SASMittelwerte moglich STATA
Regressions- Einfache Verzerrungen der MAR SPSSbasierte Handhabung Schatzer, keine SASeinfache Standardfehler STATAErsetzung ermittelbar
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Beispiel: Ausschopfung beim Schweizer Umweltsurvey 1994
Bruttostichprobe: 8218 (100%)Stichprobenneutrale Ausfalle: 3396 (41,32%)Bereinigter Stichprobenumfang: 8218 - 3396 = 4822Durchgefuhrte Interviews: 3019 (62,6% von 4822).Ausschopfungsquote: (3019/4822) ∗ 100 = 62,6%
Rechnet man bei dem Beispiel die Kategorie Anrufbeantworter,Krankheit,
”abwesend“ und
”nicht erreichbar“ zu den
systematischen Ausfallen, dann vermindert sich dieAusschopfungsquote auf 52,6%.Das Beispiel bezieht sich ausschließlich auf Ausfalle von ganzenBefragungen (unit-nonresponse). Dazu kommen nochVerweigerung von einzelnen Fragen (z.B. Einkommensangaben).Dieser Verweigerungen werden als item-nonresponse bezeichnet.
Jost Reinecke Gewichtung und Fehlerquellen
GewichtungFehlerquellen
Liegt die Ausschopfungsquote der Umfrage bei 70% und liegenAntworten bei den Befragten auf die Einkommensfrage wiederumnur bei 70%, dann wird hier nur eine Ausschopfungsquote von 50%erreicht (0.7 ∗ 0.7 = 0.5).
Beispiel: Ausfalle und Ausschopfung fur den ALLBUS 2000
→ Methodenbericht ALLBUS 2000 (S3451MET.PDF)
Jost Reinecke Gewichtung und Fehlerquellen