1 multivariate statistische verfahren log-lineare analyse psychologisches institut der universität...

34
1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

Upload: waldhar-wolper

Post on 06-Apr-2015

114 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

1

Multivariate Statistische Verfahren

Log-Lineare Analyse

Psychologisches Institut der Universität Mainz

SS 2012

U. Mortensen

Page 2: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

2

Log-Lineare Analyse

Einführung: Bei der logistischen oder Poisson-Regression ist die Fragestellung asymmetrisch – mehreren unabhängigen Variablen steht eine abhängige Variable gegenüber. Bei der log-linearen Analyse ist die Frage symmetrisch: man ist an der Beziehung zwischen den verschiedenen Variablen interessiert.

"wahre" relative Häufigkeiten

(Wahrscheinlichkeiten) für das Zusammentreffen der Kategorien und .

ij

i jA B

( 1, , ), ( 1, , )

sind die Randverteilungen der Tabelle.i ji I j J

Page 3: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

3

Log-Lineare Analyse

Kontingenztabellen können anhand verschiedener Schemata zustande kommen; die Analyse der Tabelle hängt vom Schemader Tabelle ab.

Man unterscheidet(1) Das produkt-multinomiale Schema(2) Das multinomiale Schema(3) Das Poisson-Schema.

Erhebungsschemata:

Produkt-multinomiale Schema: analog zur Varianzanalyse, - es gibtKategorien für unabhängige Variablen, und die Fälle werden auf Response-Kategorienaufgeteilt.

Das multinomiale Schema: Eine Stichprobe mit festem Umfang wird auf die möglichenKombinationen von Kategorien aufgeteilt. Die Zeit spielt bei der Erhebung keine Rolle.

Das Poisson-Schema: Wie das multinomiale Schema, nur wird eine Zeitdauer für die Beobachtung aufgestellt und der Stichprobenumfang ist offen.

Page 4: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

4

Log-Lineare Analyse

Produkt-multinomiales Schema:

Beispiel: Aufmerksamkeitsfokussierung. Fokussierung auf bestimmte Musteraspekte beeinflußt die Klassifikationsleistung. Die Fokussierung auf ein irrelevantes Merkmal begünstigt in Abhängigkeit von der Stimulus Onset Asynchrony (SOA) die Wahrscheinlichkeiteiner korrekten Klassifikation.

Gezeigt wird stets immer dasselbe Muster, - aber in Abhängigkeit von der SOA werden verschiedene Muster mit verschiedener Wahrscheinlichkeit angezeigt.

Alle Muster werden gleichhäufig (70-mal)gezeigt.

Page 5: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

5

Log-Lineare Analyse

Produkt-multinomiales Schema: Weitere Beispiele

Faktorstufen:

Anzahl Stunden Therapie – Reaktionen: Arten von Panikanfällen

Altersgruppen – Reaktionen: gewählte Parteien

Studienfach – Reaktionen: Einstellungen zu sozialen Fragen

Etc etc

Page 6: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

6

Log-Lineare Analyse

Multinomiales Schema

Die 8099 Insassen derPsychiatr. Krankenhäuserwurden nach Maßgabe derMerkmalskombination aufdie Zellen der Tabelle auf-geteilt.

Page 7: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

7

Log-Lineare Analyse

Poisson-Schema

Beim Körperbau-Beispiel wurde nicht die Zeit, sondern(implizit) die Gesamtzahl der Fälle festgelegt.

Beim Poisson-Schema betrachtet man etwa ein Krankenhausfür eine festgelegte Zeirtspanne und klassifiziert die hereinkommendenPatienten nach vorgegebenen Kategorienkombinationen. DieAnzahl der Patienten wird Poisson-verteilt sein.

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Produkt-multinomiales Schema:

Page 8: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

8

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Produkt-multinomiales Schema:

Die Randsummen sind vom Experimentator festgelegt worden, die Fälle werden unabhängig voneinander erhoben die sind multinomial

verteilt!ijn

1 21 2 1 2

1 1 2

!( , , , )

! ! !i i iJ

In n ni

i i iJ i i iJi i i iJ

nP n n n

n n n

1 2

Hypothese:

für alle j j iJ j

erwartete Häufigkeit ist durch

gegeben.

i jij i ij

n nn n

n

Page 9: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

9

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Multinomiales Schema: analog zum produkt-multinomialen Schema

Poisson-Schema:

11,

( , , ) , ( )!

ij

ij

nnij

IJ ij iji j ij

P n n e E nn

(multiplikative Hypothese, multiplikatives Poisson-Modell)i jij

,

ijij

klk l

Page 10: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

10

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Gegeben sei das produkt-multinomiale Schema. Man hat

p , , , 1ijij i ij j ij i j

j i i j

np p p p p p

n

Hypothese: Die ''Faktoren A und B sind unabhängig voneinander!

Dann sind die erwarteten Häufigkeiten durch

gegeben.ij ij i jn n p n p p

Daraus folgt sofort

log log( ) log( ) log log log .ij ij i j i jn n n n

Page 11: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

11

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

log log( ) log( ) log log log .ij ij i j i jn n n n

(Analog zur Varianzanalyse mit log und log als Haupteffekten.)i j

1 1log , log , log ,

und mit

log , log 0.

A B A Bi j

i j

A A B A Bi i j j i j

i j

n n nI J

Das Modell enthält keinen Wechselwirkungsterm - dies ist Ausdruckder Annahme der Unabhängigkeit von A und B!

Page 12: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

12

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Um den allgemeinen Fall (es existieren Abhängigkeiten) zu behandeln,wird ein Wechselwirkungsterm eingeführt:

logAB A Bij ij i j

,

Man findet 0, und man hat das "gesättigte" Modell

log

(entspricht dem Strukturmodell einer 2-dimensionalen Varianzanalyse).

ABij

i j

A B ABij i j ijn

Die und interessieren hier kaum (vom Untersucher festgelegt) -

gesucht sind die 0̀.

Sind alle 0̀, ist das Modell trivial, weil man dann alle Daten

"erklären" kann!.

A Bi j

ABij

ABij

Page 13: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

13

Log-Lineare Analyse

Beziehung zu Wahrscheinlichkeiten:

Allgemein gilt

log , also folgt , und

, also

.

A B ABi j ij

A B ABi j ij

A B ABi j ij

A B ABi j ij

A B ABij i j ij ij

i j

ij

i j

n n e

n e

e

e

Page 14: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

14

Log-Lineare Analyse

Rolle der Ehebungsschemata:

Nach der Unabhängigkeitshypothese gilt allgemein .

Ist das Erhebungsschema das Poisson-Schema, so gilt log ohne weitere Einschränkungen.

i jij

A Bij i j

n nn

n

n

Ist das Erhebungsschema das produkt-multinomiale Schema, so gilt

log mit der Einschränkung, dass .A Bi jA B

ij i j ij

n n e

Ist das Erhebungsschema das multinomiale Schema, so gilt

log mit der Einschränkung, dass .A Bi jA B

ij i jj

n n e Die Parameter müssen also unter Berücksichtigung der für dasjeweilige Erhebungsschema geltenden Einschränkungen geschätztwerden.

Page 15: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

15

Log-Lineare Analyse

Logits und Kreuzproduktverhälntnisse:

1 11 2 1 2

2 2

Die Logits sind bei Unabhängigkeit für alle i identisch:

( | )log log

( | )A B A B B Bi ii i

i i

P B A n

P B A n

12 2211 22 12 21 11 22 12 21

12 21

11 22 12 21

11

Das Kreuzproduktverhältnis für eine 2x2-Tabelle ist

log log log log log ,

und wegen 0, und folgt

log 4

AB AB AB AB

AB AB AB AB AB ABij ij

i j

A

AB n n n n

.B

Page 16: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

16

Log-Lineare Analyse

Logits und Kreuzproduktverhälntnisse:

11

ist Assoziationsparameter der Tabelle; bei Unabhängigkeit gilt 1, log 0.Diese Bedigung ist genau dann erfüllt, wenn 0.AB

Beispiel: Todesstrafe in den USA - die Hypothese ist, dassSchwarze häufiger zum Tode verurteilt werden als Weiße:

2

19 1491.181

141 17 doch Unabhängigkeit?

nicht signifikant!

x

x

Page 17: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

17

Log-Lineare Analyse

Beispiel: Interpretation von Tabellen

Die Tabelle ist tatsächlich nur eine "Scheibe" aus einerinsgesamt 3-dimensionalen Tabelle:

Es muß also noch die Opfer-Relation berücksichtigt werden!

Page 18: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

18

Log-Lineare Analyse

3-dimensionale Tabellen

Es gibt zwei Arten von Tabellen:

(1) Partialtabellen: Sie entstehen durch einen Schnitt durch die 3-dimensionale Tabelle, der durch die Stufen einer der drei Variablen entsteht. Man hätl etwa die Stufe von fest und betrachtet für diese Stufe die Tabelle B x C. Die Abhängigkeiten in einer Partialtabelle heißen "partielle Assoziationen".(2) Marginaltabellen: Sie entstehen

iA A

, wenn über die Stufen eines Faktors aggregiert wird, etwa über die Stufen des Faktors . Es entsteht wieder eine Tabelle B x C, mit den Häufigkeiten . Die Assoziationen

hei

jk ijki

An n

ßen "marginale Assoziationen".

Page 19: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

19

Log-Lineare Analyse

3-dimensionale Tabellen

Partielle und marginale Assoziationen können sich sehr voneinander unterscheiden: dieses Phänomen istals ' bekannt.

Dies führt zur Frage der .

Simpson s Paradox

Aggregierbarkeit

Das allgemeine saturierte Modell lautet

log A B C AB AC BC ABCijk i j k ij ik jk ijkn

Das saturierte Modell ist trivial, da es stets die Daten komplett erklärt.Die Frage ist deshalb, welche der Terme auf der rechten Seite gleich Nullgesetzt werden können.

Page 20: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

20

Log-Lineare Analyse

3-dimensionale Tabellen

Die Wechselwirkung 0 bedeutet, dass es keine spezifischen Beziehungen zwischen der Farbe des Täters, des Opfers und der Verhängung der Todesstrafe gibt.

ABC

Die Wechselwirkung 0 bedeutet, dass es èine Abhängigkeitzwischen der Farbe des Täters und der Opfers gibt, etwa: Schwarzetöten am liebsten Weiße, oder Weiße töten gerne Schwarze, oder Schwarze tö

AB

ten hauptsächlich Schwarze und Weiße töten hauptsächlichWeiße.

Die Wechselwirkungen 0, 0 bedeuten, dass die Todesstrafein Abhängigkeit von der Hautfarbe ausgesprochen wird (das ist die gängigeHypothese).

AC BC

Page 21: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

21

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

|

|

Es sei die k-te Stufe des Faktors C, sei die Tabelle für die

Faktoren A und B, wenn festgehalten wird (k-te Scheibe aus derTabelle AxBxC). sei die Wahrscheinlichkeit des Zusammentreff

k ABC

k

ij k

C T

C

| | |

ens

von und gegeben . Gilt

für alle i,j,

so heißen die Faktoren A und B bedingt unabhängig, gegeben .

i j k

ij k i k j k

k

A B C

C

| ||Gilt für alle , ,

so heißen die Faktoren A und B bedingt unabhängig von .

i k j kij k

k

i j k

C

Page 22: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

22

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

Sind A und B bedingt unabhängig von , so gilt

log ,

dh es soll 0 gelten.

A B C AC BCijk i j k ik jk

AB ABC

C

n

Demnach soll es keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers gebebn, und keine Interaktion zwischenHautfarbe des Täters, des Opfers und der Verhängung der Todesstrafe.

Man kann auf diese Weise verschiedene Modelle formulieren, - welches Modell dann zutrifft, muß dann anhand der vorliegendenDaten entschieden werden. Man tested insbesondere :hierarchische Modelle

Page 23: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

23

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

Page 24: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

24

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

Page 25: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

25

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

2Signifikante Werte bedeuten,dass das Modell nicht mit den Datenkompatibel ist.

G

( , ) ist akzeptabel: Todesstr x FarbeOpfer einerseits, Assoziation Opfer-Täter. Es ist nicht das beste Modell.

AB BC

( , , ): Assoz. TS-Farbe Opfer, TS-Farbe Täter, Opfer-TäterAB AC BC

( ): Assoziation TS - Opfer-Täterjeweils ganz spezifisch!ABC

Page 26: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

26

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

: Über die Stufen eines Faktors summieren = zusammenfassenso dass zB aus einer 3-dimensionalen eine 2-dimensionalen Tabelle wird.(Marginaltabelle)

Aggregieren

Wird nur die k-te Scheibe einer 3-dimensionalen Tabell betrachtet, so entsteht ein . Partialtabelle

Schlußfolgerungen aus Marginaltabellen - also aggregierten Tabellen - können falsch sein.

Da jede Tabelle als aggregierte Tabelle aufgefaßt werden kann, könnendie Folgerungen aus jeder Tabelle falsch sein.

Page 27: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

27

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Aggregiert über Opfer Aggregiert über Täter

Aggregiert über Strafe

3.38 Verurteilung hängt von Farbe des Opfers ab!

27.433.38 Weiße Weiße, Schwarze Schwarze

1.21 Kein Zusammenh.zwischen Farbe und Verurteil.

Page 28: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

28

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Aggregiert über Opfer Aggregiert über Täter

3.38 Verurteilung hängtvon der Farbe des Opfers ab! 1.21 Kein Zusammenh.

zwischen Farbe und Verurteil.

Der Widerspruch wird durch die Aggregation erzeugt. Aggregation etwa über C kann scheinbare Assoziation zwischen A und B erzeugen,die nicht wirklich existiert. (s.a. Scheinkorrelation)

Page 29: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

29

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

: Die Variable C ist bezüglich der Interaktion von A und B aggregierbar, wenn C bedingt unabhängig von A oder B ist. C ist bezüglich dem Haupteffekt von A oder B aggregierbar, wenn die Interaktion

Satz

zwischen C und A zwischen C und B verschwindet.

Erklärung: Der Satz von der Totalen Wahrscheinlichkeit:

( ) ( | ) ( ) ( | ) ( )

( steht für "nicht B")

P A P A B P B P A B P B

B

Page 30: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

30

1

Allgemein: sei ein beliebiges zufälliges Ereignis, und, , sei eine menge zufälliger Ereignisse , von denen nicht

zwei gemeinsam auftreten können, aber eines von ihnen mit

Sicherheit eintritt (

n

i

AB B

B

,1

, für , und das

sichere Ereignis)

n

ii

B i j B

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

1

Dann

( ) ( | ) ( )n

i ii

P A P A B P B

Page 31: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

31

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.

A B C CP A B P B A B

C C

( ( ) ( ( )( | ) , ( | )

( ) ( )

P A B C P A B CP A B C P A B C

P B C P B C

( | ) ( ) ( ( ), ( | ) ( ) ( ( )P A B C P B C P A B CP A B C P B C P A B C

( | ) ( | , ) ( | ) ( | , ) ( | )

(Statt wird einfach , geschrieben)

P A B P A B C P C B P A B C P C B

B C B C

Page 32: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

32

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.

A B C CP A B P B A B

C C

( ( ) ( ( )( | ) , ( | )

( ) ( )

P A B C P A B CP A B C P A B C

P B C P B C

( | ) ( ) ( ( )), ( | ) ( ) ( ( ))P A B C P B C P A B CP A B C P B C P A B C

( | ) ( | , ) ( | ) ( | , ) ( | )

(Statt wird einfach , geschrieben)

P A B P A B C P C B P A B C P C B

B C B C

Page 33: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

33

Log-Lineare Analyse

Aggregierbarkeit und Simpson‘s Paradox

Behauptung: Sind und stochastisch unabhängig, so kannSimpsons Paradox nicht auftreten.

B C

Unabhängigkeit: ( | ) ( | ( )P C B P C B P C

Es werde Unabhängigkeit und Simpsons Paradox angenommen:

(*) ( | ) ( | )(**) ( | , ) ( | , )(***) ( | , ) ( | , )

P A B P A BP A B C P A B CP A B C P A B C

(*) P( | , ) ( ) ( | , ) ( ) ( | , ) ( ) ( | , ) ( )A B C P C P A B C P C P A B C P C P A B C P C

0 < ( ( | , ) P( | , )) ( ) ( ( | , ) ( | , )) ( )P A B C A B C P C P A B C P A B C P C

Widerspruch, da Differenzen nach Voraussetzung kleiner als Null!

Page 34: 1 Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

34

Log-Lineare Analyse

Aggregierbarkeit und Simpson‘s Paradox

Anmerkungen:Stochastische Unabhängigkeit von und ist eine hinreichende Bedingung dafür, dass das Simpson Paradox auftritt, aberkeine notwendige Bedingung!

B Cnicht

Man kann aus der Tatsache, dass Simpsons Paradox nicht vorliegt,nicht die Unabhängigkeit von , folgern!B C

Es kann also sein, dass Simpsons Paradox nicht vorliegt, obwohles eine Assoziation zwischen und gibt. Aber derartige Assoziationenwerden eine verzerrende Wirkung auf die Beziehung zwischen und

B CA B

haben (zB auf den -Koeffizienten).