vorlesung multivariate statistik - willkommen ... · kovarianzen als grundlage vieler statistische...
TRANSCRIPT
1
Vorlesung:Multivariate Statistik für Psychologen
2. Vorlesung: 10.04.2003
2
Agenda
1. Organisatorisches
2. Datenbehandlungi. Unverfälschte Daten
ii. Unverfälschte Korrelationen
iii. Missing Data
iv. Ausreißer
v. Normalität, Linearität, Homoskedastizität
vi. Multikollinearität
2
3
Organisatorisches
n Termine der Übungsgruppen¡ Gruppe 1: Montag, 14.00 – 15.30 Uhr; ABF SR 11
¡ Gruppe 2: Dienstag, 10 – 12 Uhr; ABF SR 9
¡ Gruppe 3: Dienstag, 12 – 14 Uhr; ABF SR 9
¡ Gruppe 4: Mittwoch, 16 – 18 Uhr; Carl-Zeiss-Straße SR 224
¡ Gruppe 5: Donnerstag, 12 – 14 Uhr; Institut für Psychologie SR 9
¡ Gruppe 6: Donnerstag, 14 – 16 Uhr; ABF SR 9
n Einschreibung zu Übungsgruppen¡ via Internet ab Freitag, 11.04.2003 (http://www.uni-jena.de/svw/metheval)
n Durchführung der Übungen¡ Übungszettel im Internet (DT-Workspace) jeweils Donnerstag der Vorwoche
¡ Vorbereitung
4
Unverfälschte Daten
n Ziel¡ Absicherung gegen falsche Eingabe / Einscannen etc.
¡ korrekte Kodierung der Missing Data
n Methoden¡ graphische Analysen (Scatterplot, Histogramm, Boxplot)
¡ Häufigkeitstabellen, Kontingenztafeln
n Kriterien¡ alle Einzelwerte im Wertebereich; Anzahl der Gruppen bei kategorialen Daten
¡ plausible deskriptive Kennwerte
n Analyse-Input¡ Rohdaten (bzw. Transformationen)
¡ Varianz-Kovarianz-Matrizen bzw. Korrelationsmatrizen
3
5
Unverfälschte Korrelationen
n Ziel¡ Absicherung gegen verfälschte Korrelationen
¡ Korrelationen bzw. Kovarianzen als Grundlage vieler statistischer Testverfahren
n überschätzte Korrelationen¡ Zusammenfassung mehrerer Variablen zu einer Variaten
¡ Variaten mit überlappenden Bestandteilen
n unterschätzte Korrelationen¡ ungleiche Kategorienbreiten bei dichotomen/kategorialen Variablen
¡ schmaler Wertebereich bei kontinuierlichen Variablen
6
Missing Data I
n Definition¡ fehlende Werte im Datensatz
¡ mögliche Gründe:n bewusstes Auslassen beim Ausfüllenn Vergessen n uneindeutige Antwortenn Versagen der Erfassungsgeräten Nichtteilnahme zu einem Untersuchungstermin n …
n Arten von Missing Data¡ Missing Completely at Random (MCAR)
¡ Missing at Random (MAR)
¡ Non-Ignorable Missing
4
7
Missing Data II
n Behandlung der Missing Data¡ herkömmlich
n Variablen löschenn Verwendung aller Personen mit vollständigen Daten (listwise deletion)n Verwendung aller bivariat vorhandenen Daten (pairwise present)
¡ Gewichtungsverfahrenn Gewichtung der vorhandenen Daten zur Abbildung der Verhältnisse erhobener und
nicht-erhobener Daten
¡ Imputationsbasierte Verfahrenn Ersetzen durch Mittelwert (evtl. für Subpopulationen)n Ersetzen durch regressionsbasierten Schätzer (evtl. plus Residuum)n Hot-Deck: Ersetzen durch Wert einer "ähnlichen" Person n Ersetzen der fehlenden Person durch andere Testpersonn Ersetzen fehlender Werte durch Ziehen aus einer bedingten Verteilung
¡ Direkte Verrechnungn Full Information Maximum Likelihood (z.B. bei Strukturgleichungsmodellen)
8
Missing Data III
n Überprüfung des Missing Data Mechanismus¡ fehlende Werte als Dummy-Variable à Analyse systematischer Zusammenhänge
mit anderen Variablenn Problem: keine Angaben über Zusammenhänge mit Werten der nicht-vorhandenen
Zellen
¡ Re-Analyse der vollständigen Daten à Vergleich mit Missing Data Methode
n Programme ¡ SPSS (Mittelwertsersetzung; Extra-Modul zu Missing Data)
¡ NORM
¡ SOLAS
¡ Implementierung von FIML in LISREL, AMOS, MPlus
5
9
Ausreißer I
n Definition¡ extreme Merkmalsausprägung einer Person
¡ ungewöhnliche bzw. unglaubwürdige Merkmalskombination
n mögliche Ursachen und empfohlene Maßnahmen¡ fehlerhafte Dateneingabe (Korrektur)
¡ falsche Kodierung von Missing Data (Korrektur)
¡ Population mit extremeren Werten als Normalverteilung (Beibehalten und evtl. Kategorisierung/Transformation der Daten)
¡ Ausreißer nicht aus gewünschter Population (Löschen à kritisch)
n Suche nach Ausreißern¡ univariat
n graphisch (rein explorativ): Box-Plot, Streudiagramm, Histogrammn rechnerisch (bei kontinuierlichen Merkmalen): Werte mit p < 0,001 / p < 0,01
10
Ausreißer II
n Suche nach Ausreißern (Fortsetzung)¡ multivariat
n graphisch: kaum möglichn rechnerisch (bei kontinuierlichen Merkmalen): Mahalanobis-Distanz (Chi-Quadrat-
verteilte Prüfgröße)¡ Gruppen
n evtl. separate Analysen für einzelne Subgruppen
¡ maskierte Ausreißer
n Behandlung¡ Markierung
¡ Löschen oder Ersetzen (kritisch)
¡ separate Analyse der Ausreißer
¡ direkte Analyse der Ausreißer über Dummy-Kodierungn Gruppierungsvariable in Diskriminanzanalyse bzw. Logistischer Regression
6
11
Normalverteilung I
n Annahme¡ Normalverteilung der Residuen (bzw. der Messwerte)
n Grund¡ Multivariate Normalverteilung ist Grundlage für fast alle Verfahren
n bei Verletzung à evtl. andere Verteilung der Prüfgröße à p-Wert zu konservativ bzw. progressiv à Alpha-Fehler-Niveau für Hypothesentest unbekannt
n Überprüfung der Annahme¡ univariate Normalverteilung
n notwendige, aber nicht hinreichende Bedingung für multivariate Normalverteilungn rechnerisch: Kolmogoroff-Smirnov-Test (Nullhypothese: Normalverteilung !)n graphisch: Normaler und trendbereinigter P-P Plot
¡ multivariate Normalverteilungn kaum direkt prüfbar (nur indirekt über univariate Normalverteilung)
12
Normalverteilung II
n Veranschaulichung unterschiedlicher Verteilungsformen
7
13
Normalverteilung III
n Veranschaulichung normaler/trendbereinigter P-P-Pot bei Normalverteilung
Normal P-P Plot
Einstellung zur Medizin
Observed Cum Prob
1,0,8,5,30,0
Expe
cted
Cum
Pro
b
1,0
,8
,5
,3
0,0
Einstellung zur Medizin
6,05,04,03,02,01,0
160
140
120
100
80
60
40
20
0
Detrended Normal P-P Plot
Einstellung zur Medizin
Observed Cum Prob
1,0,8,6,4,20,0
Dev
iatio
n fro
m N
orm
al
,3
,2
,1
-,0
-,1
-,2
-,3
14
Normalverteilung III
n Veranschaulichung normaler/trendbereinigter P-P-Pot schiefer Verteilung
Normal P-P Plot
Anzahl der Arztbesuche
Observed Cum Prob
1,0,8,5,30,0
Expe
cted
Cum
Pro
b
1,0
,8
,5
,3
0,0
Anzahl der Arztbesuche
80,0
75,0
70,0
65,0
60,0
55,0
50,0
45,0
40,0
35,0
30,0
25,0
20,0
15,0
10,0
5,0
0,0
200
100
0
Detrended Normal P-P Plot
Anzahl der Arztbesuche
Observed Cum Prob
1,21,0,8,6,4,20,0
Dev
iatio
n fro
m N
orm
al
,3
,2
,1
0,0
-,1
-,2
8
15
Normalverteilung IV
n Konsequenzen¡ Verteilungsannahmen der Kennwerteverteilungen / Prüfgrößen fehlerhaft
n à Über- und Unterschätzung des tatsächlichen Alpha-Fehlerniveaus
n Relevanz¡ kleine Stichproben
n häufige Verletzung der Normalverteilungsannahme (Schiefe und Kurtosis)n Datentransformationn ansonsten nicht-parametrische Testverfahren
¡ große Stichprobenn größere Robustheit der Kennwerteverteilung / Prüfgrößen gegen Verletzung der
Normalverteilungsannahme (zentraler Grenzwertsatz)n Robustheit spezifisch für einzelne Testverfahren
16
Linearität I
n Annahme¡ Statistischen Verfahren überprüfen meist lineare Zusammenhänge (z.B. lineare
Regressionen, Korrelationen, faktorenanalytische Verfahren)
n Überprüfung der Linearität¡ Scatterplot vorhergesagte Werte – standardisierte Residuen
¡ bivariate Scatterplots der Variablen
n Folgen von Nicht-Linearität¡ quasi-reglineare Zusammenhänge
n Berechnung eines linearen Zusammenhangsmaßes immer möglichn Interpretation bei nicht-linearen Zusammenhängen fehlerhaft
n Korrekturmöglichkeiten¡ Transformation der Variablen
9
17
Linearität II
n Veranschaulichung nicht-linearer Zusammenhänge
18
Homoskedastizität I
n Definition¡ Varianz der Residuen einer Variable (bzw. der Variable selbst) ist gleich für alle
Stufen einer anderen (Prädiktor-) Variable
¡ kontinuierliche vs. diskrete Variablen
¡ Zusammenhang mit Normalverteilung
n Heteroskedastizität¡ Nichtvorhandensein von Homoskedastizität (ungleiche Varianzen)
¡ mögliche Gründe:n Fehlende Normalverteilungn Variable 1 enthält Transformation der Variable 2n ungleich große Messfehler für verschiedene Stufen der Prädiktorvariable
n Prüfung der Annahme der Homoskedastizität im univariaten Fall¡ Levene's Test für Varianzhomogenität (diskrete Prädiktorvariable notwendig)
10
19
Homoskedastizität II
n Veranschaulichung von Homoskedastizität vs. Heteroskedastizität
20
Homoskedastizität III
n Auswirkungen bei Verletzung der Annahme der Homoskedastizität¡ je nach Richtung der Heteroskedastizität à Über- oder Unterschätzung des
tatsächlichen Alpha-Fehlerniveaus
¡ à zu progressive Testung (größerer Alpha-Fehler) oder zu konservative Testung (Verlust an Teststärke)
n Multivariate Form der Homoskedastizität¡ Definition
n Homogenität der Varianz-Kovarianz-Matrizen
¡ Überprüfung n Box's M-Test
¡ Auswirkungenn siehe univariater Fall
11
21
Datentransformationen I
n Anwendung von Datentransformationen¡ Korrektur bei Ausreißern
¡ Verletzung der Annahmen der Normalverteilung, Linearität bzw. Homoskedastizität
n Probleme durch Datentransformationen¡ Interpretation der Ergebnisse sind abhängig von Skalierung der Variablen
¡ à Erschwernis bei Interpretation der Kennwerte (z.B. Steigungskoeffizient)
n sinnvolle Datentransformationen¡ Re-Kategorisierung der Variablen (Verlust an Information)
¡ Transformationen: Quadrierung, Logarithmierung, Invertierung
22
Datentransformationen II
n Veranschaulichung empfohlener Transformationen bei Verletzungen der Annahmen
12
23
Multikollinearität und Singularität
n Definitionen¡ Multikollinearität: unerwünschte Korrelation der unabhängigen Variablen
¡ Singularität: Redundanz der Variablen (Linearkombination anderer Variablen)
n Folgen¡ logische Probleme: Interpretation der Effekte bzw. nicht vorhandenen Effekte
¡ mathematische Probleme: keine Matrix-Invertierung möglich; "instabile" Ergebnisse
n Erkennen von Multikollinearität¡ mathematisch: Korrelationen
¡ generell: Korrelationen (gilt nicht für Messwiederholung)
n Maßnahmen¡ redundante Variablen von Analyse ausschließen
¡ Überprüfung in SPSS-Output (SMR, Toleranz)
0,7r >
0,9r >
24
Ausblick für die nächsten Sitzungen
n Einfache Regression¡ Grundlagen
n Grundidee und Ziele der einfachen Regressionn Beispiele
¡ Statistisches Modelln Modell der einfachen Regressionn Bestimmung und Interpretation der Modellparametern Prinzip der Varianzzerlegungn Determinationskoeffizient
¡ Verallgemeinerung des Modellsn Hypothesentests zur Gültigkeit des Regressionsmodells in der Populationn Hypothesentests zur Gültigkeit der Modellparameter in der Population
¡ Annahmen und Voraussetzungen der einfachen Regressionn Annahmen und Voraussetzungenn Test der Annahmen und Voraussetzungen
2R