vorlesung multivariate statistik - willkommen ... · kovarianzen als grundlage vieler statistische...

1

Vorlesung:Multivariate Statistik für Psychologen

2. Vorlesung: 10.04.2003

2

Agenda

1. Organisatorisches

2. Datenbehandlungi. Unverfälschte Daten

ii. Unverfälschte Korrelationen

iii. Missing Data

iv. Ausreißer

v. Normalität, Linearität, Homoskedastizität

vi. Multikollinearität

2

3

Organisatorisches

n Termine der Übungsgruppen¡ Gruppe 1: Montag, 14.00 – 15.30 Uhr; ABF SR 11

¡ Gruppe 2: Dienstag, 10 – 12 Uhr; ABF SR 9

¡ Gruppe 3: Dienstag, 12 – 14 Uhr; ABF SR 9

¡ Gruppe 4: Mittwoch, 16 – 18 Uhr; Carl-Zeiss-Straße SR 224

¡ Gruppe 5: Donnerstag, 12 – 14 Uhr; Institut für Psychologie SR 9

¡ Gruppe 6: Donnerstag, 14 – 16 Uhr; ABF SR 9

n Einschreibung zu Übungsgruppen¡ via Internet ab Freitag, 11.04.2003 (http://www.uni-jena.de/svw/metheval)

n Durchführung der Übungen¡ Übungszettel im Internet (DT-Workspace) jeweils Donnerstag der Vorwoche

¡ Vorbereitung

4

Unverfälschte Daten

n Ziel¡ Absicherung gegen falsche Eingabe / Einscannen etc.

¡ korrekte Kodierung der Missing Data

n Methoden¡ graphische Analysen (Scatterplot, Histogramm, Boxplot)

¡ Häufigkeitstabellen, Kontingenztafeln

n Kriterien¡ alle Einzelwerte im Wertebereich; Anzahl der Gruppen bei kategorialen Daten

¡ plausible deskriptive Kennwerte

n Analyse-Input¡ Rohdaten (bzw. Transformationen)

¡ Varianz-Kovarianz-Matrizen bzw. Korrelationsmatrizen

3

5

Unverfälschte Korrelationen

n Ziel¡ Absicherung gegen verfälschte Korrelationen

¡ Korrelationen bzw. Kovarianzen als Grundlage vieler statistischer Testverfahren

n überschätzte Korrelationen¡ Zusammenfassung mehrerer Variablen zu einer Variaten

¡ Variaten mit überlappenden Bestandteilen

n unterschätzte Korrelationen¡ ungleiche Kategorienbreiten bei dichotomen/kategorialen Variablen

¡ schmaler Wertebereich bei kontinuierlichen Variablen

6

Missing Data I

n Definition¡ fehlende Werte im Datensatz

¡ mögliche Gründe:n bewusstes Auslassen beim Ausfüllenn Vergessen n uneindeutige Antwortenn Versagen der Erfassungsgeräten Nichtteilnahme zu einem Untersuchungstermin n …

n Arten von Missing Data¡ Missing Completely at Random (MCAR)

¡ Missing at Random (MAR)

¡ Non-Ignorable Missing

4

7

Missing Data II

n Behandlung der Missing Data¡ herkömmlich

n Variablen löschenn Verwendung aller Personen mit vollständigen Daten (listwise deletion)n Verwendung aller bivariat vorhandenen Daten (pairwise present)

¡ Gewichtungsverfahrenn Gewichtung der vorhandenen Daten zur Abbildung der Verhältnisse erhobener und

nicht-erhobener Daten

¡ Imputationsbasierte Verfahrenn Ersetzen durch Mittelwert (evtl. für Subpopulationen)n Ersetzen durch regressionsbasierten Schätzer (evtl. plus Residuum)n Hot-Deck: Ersetzen durch Wert einer "ähnlichen" Person n Ersetzen der fehlenden Person durch andere Testpersonn Ersetzen fehlender Werte durch Ziehen aus einer bedingten Verteilung

¡ Direkte Verrechnungn Full Information Maximum Likelihood (z.B. bei Strukturgleichungsmodellen)

8

Missing Data III

n Überprüfung des Missing Data Mechanismus¡ fehlende Werte als Dummy-Variable à Analyse systematischer Zusammenhänge

mit anderen Variablenn Problem: keine Angaben über Zusammenhänge mit Werten der nicht-vorhandenen

Zellen

¡ Re-Analyse der vollständigen Daten à Vergleich mit Missing Data Methode

n Programme ¡ SPSS (Mittelwertsersetzung; Extra-Modul zu Missing Data)

¡ NORM

¡ SOLAS

¡ Implementierung von FIML in LISREL, AMOS, MPlus

5

9

Ausreißer I

n Definition¡ extreme Merkmalsausprägung einer Person

¡ ungewöhnliche bzw. unglaubwürdige Merkmalskombination

n mögliche Ursachen und empfohlene Maßnahmen¡ fehlerhafte Dateneingabe (Korrektur)

¡ falsche Kodierung von Missing Data (Korrektur)

¡ Population mit extremeren Werten als Normalverteilung (Beibehalten und evtl. Kategorisierung/Transformation der Daten)

¡ Ausreißer nicht aus gewünschter Population (Löschen à kritisch)

n Suche nach Ausreißern¡ univariat

n graphisch (rein explorativ): Box-Plot, Streudiagramm, Histogrammn rechnerisch (bei kontinuierlichen Merkmalen): Werte mit p < 0,001 / p < 0,01

10

Ausreißer II

n Suche nach Ausreißern (Fortsetzung)¡ multivariat

n graphisch: kaum möglichn rechnerisch (bei kontinuierlichen Merkmalen): Mahalanobis-Distanz (Chi-Quadrat-

verteilte Prüfgröße)¡ Gruppen

n evtl. separate Analysen für einzelne Subgruppen

¡ maskierte Ausreißer

n Behandlung¡ Markierung

¡ Löschen oder Ersetzen (kritisch)

¡ separate Analyse der Ausreißer

¡ direkte Analyse der Ausreißer über Dummy-Kodierungn Gruppierungsvariable in Diskriminanzanalyse bzw. Logistischer Regression

6

11

Normalverteilung I

n Annahme¡ Normalverteilung der Residuen (bzw. der Messwerte)

n Grund¡ Multivariate Normalverteilung ist Grundlage für fast alle Verfahren

n bei Verletzung à evtl. andere Verteilung der Prüfgröße à p-Wert zu konservativ bzw. progressiv à Alpha-Fehler-Niveau für Hypothesentest unbekannt

n Überprüfung der Annahme¡ univariate Normalverteilung

n notwendige, aber nicht hinreichende Bedingung für multivariate Normalverteilungn rechnerisch: Kolmogoroff-Smirnov-Test (Nullhypothese: Normalverteilung !)n graphisch: Normaler und trendbereinigter P-P Plot

¡ multivariate Normalverteilungn kaum direkt prüfbar (nur indirekt über univariate Normalverteilung)

12

Normalverteilung II

n Veranschaulichung unterschiedlicher Verteilungsformen

7

13

Normalverteilung III

n Veranschaulichung normaler/trendbereinigter P-P-Pot bei Normalverteilung

Normal P-P Plot

Einstellung zur Medizin

Observed Cum Prob

1,0,8,5,30,0

Expe

cted

Cum

Pro

b

1,0

,8

,5

,3

0,0


6,05,04,03,02,01,0

160

140

120

100

80

60

40

20

0

Detrended Normal P-P Plot


Observed Cum Prob

1,0,8,6,4,20,0

Dev

iatio

n fro

m N

orm

al

,3

,2

,1

-,0

-,1

-,2

-,3

14

Normalverteilung III

n Veranschaulichung normaler/trendbereinigter P-P-Pot schiefer Verteilung

Normal P-P Plot

Anzahl der Arztbesuche

Observed Cum Prob

1,0,8,5,30,0

Expe

cted

Cum

Pro

b

1,0

,8

,5

,3

0,0


80,0

75,0

70,0

65,0

60,0

55,0

50,0

45,0

40,0

35,0

30,0

25,0

20,0

15,0

10,0

5,0

0,0

200

100

0

Detrended Normal P-P Plot


Observed Cum Prob

1,21,0,8,6,4,20,0

Dev

iatio

n fro

m N

orm

al

,3

,2

,1

0,0

-,1

-,2

8

15

Normalverteilung IV

n Konsequenzen¡ Verteilungsannahmen der Kennwerteverteilungen / Prüfgrößen fehlerhaft

n à Über- und Unterschätzung des tatsächlichen Alpha-Fehlerniveaus

n Relevanz¡ kleine Stichproben

n häufige Verletzung der Normalverteilungsannahme (Schiefe und Kurtosis)n Datentransformationn ansonsten nicht-parametrische Testverfahren

¡ große Stichprobenn größere Robustheit der Kennwerteverteilung / Prüfgrößen gegen Verletzung der

Normalverteilungsannahme (zentraler Grenzwertsatz)n Robustheit spezifisch für einzelne Testverfahren

16

Linearität I

n Annahme¡ Statistischen Verfahren überprüfen meist lineare Zusammenhänge (z.B. lineare

Regressionen, Korrelationen, faktorenanalytische Verfahren)

n Überprüfung der Linearität¡ Scatterplot vorhergesagte Werte – standardisierte Residuen

¡ bivariate Scatterplots der Variablen

n Folgen von Nicht-Linearität¡ quasi-reglineare Zusammenhänge

n Berechnung eines linearen Zusammenhangsmaßes immer möglichn Interpretation bei nicht-linearen Zusammenhängen fehlerhaft

n Korrekturmöglichkeiten¡ Transformation der Variablen

9

17

Linearität II

n Veranschaulichung nicht-linearer Zusammenhänge

18

Homoskedastizität I

n Definition¡ Varianz der Residuen einer Variable (bzw. der Variable selbst) ist gleich für alle

Stufen einer anderen (Prädiktor-) Variable

¡ kontinuierliche vs. diskrete Variablen

¡ Zusammenhang mit Normalverteilung

n Heteroskedastizität¡ Nichtvorhandensein von Homoskedastizität (ungleiche Varianzen)

¡ mögliche Gründe:n Fehlende Normalverteilungn Variable 1 enthält Transformation der Variable 2n ungleich große Messfehler für verschiedene Stufen der Prädiktorvariable

n Prüfung der Annahme der Homoskedastizität im univariaten Fall¡ Levene's Test für Varianzhomogenität (diskrete Prädiktorvariable notwendig)

10

19

Homoskedastizität II

n Veranschaulichung von Homoskedastizität vs. Heteroskedastizität

20

Homoskedastizität III

n Auswirkungen bei Verletzung der Annahme der Homoskedastizität¡ je nach Richtung der Heteroskedastizität à Über- oder Unterschätzung des

tatsächlichen Alpha-Fehlerniveaus

¡ à zu progressive Testung (größerer Alpha-Fehler) oder zu konservative Testung (Verlust an Teststärke)

n Multivariate Form der Homoskedastizität¡ Definition

n Homogenität der Varianz-Kovarianz-Matrizen

¡ Überprüfung n Box's M-Test

¡ Auswirkungenn siehe univariater Fall

11

21

Datentransformationen I

n Anwendung von Datentransformationen¡ Korrektur bei Ausreißern

¡ Verletzung der Annahmen der Normalverteilung, Linearität bzw. Homoskedastizität

n Probleme durch Datentransformationen¡ Interpretation der Ergebnisse sind abhängig von Skalierung der Variablen

¡ à Erschwernis bei Interpretation der Kennwerte (z.B. Steigungskoeffizient)

n sinnvolle Datentransformationen¡ Re-Kategorisierung der Variablen (Verlust an Information)

¡ Transformationen: Quadrierung, Logarithmierung, Invertierung

22

Datentransformationen II

n Veranschaulichung empfohlener Transformationen bei Verletzungen der Annahmen

12

23

Multikollinearität und Singularität

n Definitionen¡ Multikollinearität: unerwünschte Korrelation der unabhängigen Variablen

¡ Singularität: Redundanz der Variablen (Linearkombination anderer Variablen)

n Folgen¡ logische Probleme: Interpretation der Effekte bzw. nicht vorhandenen Effekte

¡ mathematische Probleme: keine Matrix-Invertierung möglich; "instabile" Ergebnisse

n Erkennen von Multikollinearität¡ mathematisch: Korrelationen

¡ generell: Korrelationen (gilt nicht für Messwiederholung)

n Maßnahmen¡ redundante Variablen von Analyse ausschließen

¡ Überprüfung in SPSS-Output (SMR, Toleranz)

0,7r >

0,9r >

24

Ausblick für die nächsten Sitzungen

n Einfache Regression¡ Grundlagen

n Grundidee und Ziele der einfachen Regressionn Beispiele

¡ Statistisches Modelln Modell der einfachen Regressionn Bestimmung und Interpretation der Modellparametern Prinzip der Varianzzerlegungn Determinationskoeffizient

¡ Verallgemeinerung des Modellsn Hypothesentests zur Gültigkeit des Regressionsmodells in der Populationn Hypothesentests zur Gültigkeit der Modellparameter in der Population

¡ Annahmen und Voraussetzungen der einfachen Regressionn Annahmen und Voraussetzungenn Test der Annahmen und Voraussetzungen

2R

vorlesung multivariate statistik - willkommen ... · kovarianzen als grundlage vieler statistische...

Documents