1 multivariate statistische verfahren log-lineare analyse psychologisches institut der universität...

Post on 06-Apr-2015

114 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Multivariate Statistische Verfahren

Log-Lineare Analyse

Psychologisches Institut der Universität Mainz

SS 2012

U. Mortensen

2

Log-Lineare Analyse

Einführung: Bei der logistischen oder Poisson-Regression ist die Fragestellung asymmetrisch – mehreren unabhängigen Variablen steht eine abhängige Variable gegenüber. Bei der log-linearen Analyse ist die Frage symmetrisch: man ist an der Beziehung zwischen den verschiedenen Variablen interessiert.

"wahre" relative Häufigkeiten

(Wahrscheinlichkeiten) für das Zusammentreffen der Kategorien und .

ij

i jA B

( 1, , ), ( 1, , )

sind die Randverteilungen der Tabelle.i ji I j J

3

Log-Lineare Analyse

Kontingenztabellen können anhand verschiedener Schemata zustande kommen; die Analyse der Tabelle hängt vom Schemader Tabelle ab.

Man unterscheidet(1) Das produkt-multinomiale Schema(2) Das multinomiale Schema(3) Das Poisson-Schema.

Erhebungsschemata:

Produkt-multinomiale Schema: analog zur Varianzanalyse, - es gibtKategorien für unabhängige Variablen, und die Fälle werden auf Response-Kategorienaufgeteilt.

Das multinomiale Schema: Eine Stichprobe mit festem Umfang wird auf die möglichenKombinationen von Kategorien aufgeteilt. Die Zeit spielt bei der Erhebung keine Rolle.

Das Poisson-Schema: Wie das multinomiale Schema, nur wird eine Zeitdauer für die Beobachtung aufgestellt und der Stichprobenumfang ist offen.

4

Log-Lineare Analyse

Produkt-multinomiales Schema:

Beispiel: Aufmerksamkeitsfokussierung. Fokussierung auf bestimmte Musteraspekte beeinflußt die Klassifikationsleistung. Die Fokussierung auf ein irrelevantes Merkmal begünstigt in Abhängigkeit von der Stimulus Onset Asynchrony (SOA) die Wahrscheinlichkeiteiner korrekten Klassifikation.

Gezeigt wird stets immer dasselbe Muster, - aber in Abhängigkeit von der SOA werden verschiedene Muster mit verschiedener Wahrscheinlichkeit angezeigt.

Alle Muster werden gleichhäufig (70-mal)gezeigt.

5

Log-Lineare Analyse

Produkt-multinomiales Schema: Weitere Beispiele

Faktorstufen:

Anzahl Stunden Therapie – Reaktionen: Arten von Panikanfällen

Altersgruppen – Reaktionen: gewählte Parteien

Studienfach – Reaktionen: Einstellungen zu sozialen Fragen

Etc etc

6

Log-Lineare Analyse

Multinomiales Schema

Die 8099 Insassen derPsychiatr. Krankenhäuserwurden nach Maßgabe derMerkmalskombination aufdie Zellen der Tabelle auf-geteilt.

7

Log-Lineare Analyse

Poisson-Schema

Beim Körperbau-Beispiel wurde nicht die Zeit, sondern(implizit) die Gesamtzahl der Fälle festgelegt.

Beim Poisson-Schema betrachtet man etwa ein Krankenhausfür eine festgelegte Zeirtspanne und klassifiziert die hereinkommendenPatienten nach vorgegebenen Kategorienkombinationen. DieAnzahl der Patienten wird Poisson-verteilt sein.

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Produkt-multinomiales Schema:

8

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Produkt-multinomiales Schema:

Die Randsummen sind vom Experimentator festgelegt worden, die Fälle werden unabhängig voneinander erhoben die sind multinomial

verteilt!ijn

1 21 2 1 2

1 1 2

!( , , , )

! ! !i i iJ

In n ni

i i iJ i i iJi i i iJ

nP n n n

n n n

1 2

Hypothese:

für alle j j iJ j

erwartete Häufigkeit ist durch

gegeben.

i jij i ij

n nn n

n

9

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Multinomiales Schema: analog zum produkt-multinomialen Schema

Poisson-Schema:

11,

( , , ) , ( )!

ij

ij

nnij

IJ ij iji j ij

P n n e E nn

(multiplikative Hypothese, multiplikatives Poisson-Modell)i jij

,

ijij

klk l

10

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Gegeben sei das produkt-multinomiale Schema. Man hat

p , , , 1ijij i ij j ij i j

j i i j

np p p p p p

n

Hypothese: Die ''Faktoren A und B sind unabhängig voneinander!

Dann sind die erwarteten Häufigkeiten durch

gegeben.ij ij i jn n p n p p

Daraus folgt sofort

log log( ) log( ) log log log .ij ij i j i jn n n n

11

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

log log( ) log( ) log log log .ij ij i j i jn n n n

(Analog zur Varianzanalyse mit log und log als Haupteffekten.)i j

1 1log , log , log ,

und mit

log , log 0.

A B A Bi j

i j

A A B A Bi i j j i j

i j

n n nI J

Das Modell enthält keinen Wechselwirkungsterm - dies ist Ausdruckder Annahme der Unabhängigkeit von A und B!

12

Log-Lineare Analyse

Hypothesen und ihre Überprüfung:

Um den allgemeinen Fall (es existieren Abhängigkeiten) zu behandeln,wird ein Wechselwirkungsterm eingeführt:

logAB A Bij ij i j

,

Man findet 0, und man hat das "gesättigte" Modell

log

(entspricht dem Strukturmodell einer 2-dimensionalen Varianzanalyse).

ABij

i j

A B ABij i j ijn

Die und interessieren hier kaum (vom Untersucher festgelegt) -

gesucht sind die 0̀.

Sind alle 0̀, ist das Modell trivial, weil man dann alle Daten

"erklären" kann!.

A Bi j

ABij

ABij

13

Log-Lineare Analyse

Beziehung zu Wahrscheinlichkeiten:

Allgemein gilt

log , also folgt , und

, also

.

A B ABi j ij

A B ABi j ij

A B ABi j ij

A B ABi j ij

A B ABij i j ij ij

i j

ij

i j

n n e

n e

e

e

14

Log-Lineare Analyse

Rolle der Ehebungsschemata:

Nach der Unabhängigkeitshypothese gilt allgemein .

Ist das Erhebungsschema das Poisson-Schema, so gilt log ohne weitere Einschränkungen.

i jij

A Bij i j

n nn

n

n

Ist das Erhebungsschema das produkt-multinomiale Schema, so gilt

log mit der Einschränkung, dass .A Bi jA B

ij i j ij

n n e

Ist das Erhebungsschema das multinomiale Schema, so gilt

log mit der Einschränkung, dass .A Bi jA B

ij i jj

n n e Die Parameter müssen also unter Berücksichtigung der für dasjeweilige Erhebungsschema geltenden Einschränkungen geschätztwerden.

15

Log-Lineare Analyse

Logits und Kreuzproduktverhälntnisse:

1 11 2 1 2

2 2

Die Logits sind bei Unabhängigkeit für alle i identisch:

( | )log log

( | )A B A B B Bi ii i

i i

P B A n

P B A n

12 2211 22 12 21 11 22 12 21

12 21

11 22 12 21

11

Das Kreuzproduktverhältnis für eine 2x2-Tabelle ist

log log log log log ,

und wegen 0, und folgt

log 4

AB AB AB AB

AB AB AB AB AB ABij ij

i j

A

AB n n n n

.B

16

Log-Lineare Analyse

Logits und Kreuzproduktverhälntnisse:

11

ist Assoziationsparameter der Tabelle; bei Unabhängigkeit gilt 1, log 0.Diese Bedigung ist genau dann erfüllt, wenn 0.AB

Beispiel: Todesstrafe in den USA - die Hypothese ist, dassSchwarze häufiger zum Tode verurteilt werden als Weiße:

2

19 1491.181

141 17 doch Unabhängigkeit?

nicht signifikant!

x

x

17

Log-Lineare Analyse

Beispiel: Interpretation von Tabellen

Die Tabelle ist tatsächlich nur eine "Scheibe" aus einerinsgesamt 3-dimensionalen Tabelle:

Es muß also noch die Opfer-Relation berücksichtigt werden!

18

Log-Lineare Analyse

3-dimensionale Tabellen

Es gibt zwei Arten von Tabellen:

(1) Partialtabellen: Sie entstehen durch einen Schnitt durch die 3-dimensionale Tabelle, der durch die Stufen einer der drei Variablen entsteht. Man hätl etwa die Stufe von fest und betrachtet für diese Stufe die Tabelle B x C. Die Abhängigkeiten in einer Partialtabelle heißen "partielle Assoziationen".(2) Marginaltabellen: Sie entstehen

iA A

, wenn über die Stufen eines Faktors aggregiert wird, etwa über die Stufen des Faktors . Es entsteht wieder eine Tabelle B x C, mit den Häufigkeiten . Die Assoziationen

hei

jk ijki

An n

ßen "marginale Assoziationen".

19

Log-Lineare Analyse

3-dimensionale Tabellen

Partielle und marginale Assoziationen können sich sehr voneinander unterscheiden: dieses Phänomen istals ' bekannt.

Dies führt zur Frage der .

Simpson s Paradox

Aggregierbarkeit

Das allgemeine saturierte Modell lautet

log A B C AB AC BC ABCijk i j k ij ik jk ijkn

Das saturierte Modell ist trivial, da es stets die Daten komplett erklärt.Die Frage ist deshalb, welche der Terme auf der rechten Seite gleich Nullgesetzt werden können.

20

Log-Lineare Analyse

3-dimensionale Tabellen

Die Wechselwirkung 0 bedeutet, dass es keine spezifischen Beziehungen zwischen der Farbe des Täters, des Opfers und der Verhängung der Todesstrafe gibt.

ABC

Die Wechselwirkung 0 bedeutet, dass es èine Abhängigkeitzwischen der Farbe des Täters und der Opfers gibt, etwa: Schwarzetöten am liebsten Weiße, oder Weiße töten gerne Schwarze, oder Schwarze tö

AB

ten hauptsächlich Schwarze und Weiße töten hauptsächlichWeiße.

Die Wechselwirkungen 0, 0 bedeuten, dass die Todesstrafein Abhängigkeit von der Hautfarbe ausgesprochen wird (das ist die gängigeHypothese).

AC BC

21

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

|

|

Es sei die k-te Stufe des Faktors C, sei die Tabelle für die

Faktoren A und B, wenn festgehalten wird (k-te Scheibe aus derTabelle AxBxC). sei die Wahrscheinlichkeit des Zusammentreff

k ABC

k

ij k

C T

C

| | |

ens

von und gegeben . Gilt

für alle i,j,

so heißen die Faktoren A und B bedingt unabhängig, gegeben .

i j k

ij k i k j k

k

A B C

C

| ||Gilt für alle , ,

so heißen die Faktoren A und B bedingt unabhängig von .

i k j kij k

k

i j k

C

22

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

Sind A und B bedingt unabhängig von , so gilt

log ,

dh es soll 0 gelten.

A B C AC BCijk i j k ik jk

AB ABC

C

n

Demnach soll es keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers gebebn, und keine Interaktion zwischenHautfarbe des Täters, des Opfers und der Verhängung der Todesstrafe.

Man kann auf diese Weise verschiedene Modelle formulieren, - welches Modell dann zutrifft, muß dann anhand der vorliegendenDaten entschieden werden. Man tested insbesondere :hierarchische Modelle

23

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

24

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

25

Log-Lineare Analyse

3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit

2Signifikante Werte bedeuten,dass das Modell nicht mit den Datenkompatibel ist.

G

( , ) ist akzeptabel: Todesstr x FarbeOpfer einerseits, Assoziation Opfer-Täter. Es ist nicht das beste Modell.

AB BC

( , , ): Assoz. TS-Farbe Opfer, TS-Farbe Täter, Opfer-TäterAB AC BC

( ): Assoziation TS - Opfer-Täterjeweils ganz spezifisch!ABC

26

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

: Über die Stufen eines Faktors summieren = zusammenfassenso dass zB aus einer 3-dimensionalen eine 2-dimensionalen Tabelle wird.(Marginaltabelle)

Aggregieren

Wird nur die k-te Scheibe einer 3-dimensionalen Tabell betrachtet, so entsteht ein . Partialtabelle

Schlußfolgerungen aus Marginaltabellen - also aggregierten Tabellen - können falsch sein.

Da jede Tabelle als aggregierte Tabelle aufgefaßt werden kann, könnendie Folgerungen aus jeder Tabelle falsch sein.

27

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Aggregiert über Opfer Aggregiert über Täter

Aggregiert über Strafe

3.38 Verurteilung hängt von Farbe des Opfers ab!

27.433.38 Weiße Weiße, Schwarze Schwarze

1.21 Kein Zusammenh.zwischen Farbe und Verurteil.

28

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Aggregiert über Opfer Aggregiert über Täter

3.38 Verurteilung hängtvon der Farbe des Opfers ab! 1.21 Kein Zusammenh.

zwischen Farbe und Verurteil.

Der Widerspruch wird durch die Aggregation erzeugt. Aggregation etwa über C kann scheinbare Assoziation zwischen A und B erzeugen,die nicht wirklich existiert. (s.a. Scheinkorrelation)

29

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

: Die Variable C ist bezüglich der Interaktion von A und B aggregierbar, wenn C bedingt unabhängig von A oder B ist. C ist bezüglich dem Haupteffekt von A oder B aggregierbar, wenn die Interaktion

Satz

zwischen C und A zwischen C und B verschwindet.

Erklärung: Der Satz von der Totalen Wahrscheinlichkeit:

( ) ( | ) ( ) ( | ) ( )

( steht für "nicht B")

P A P A B P B P A B P B

B

30

1

Allgemein: sei ein beliebiges zufälliges Ereignis, und, , sei eine menge zufälliger Ereignisse , von denen nicht

zwei gemeinsam auftreten können, aber eines von ihnen mit

Sicherheit eintritt (

n

i

AB B

B

,1

, für , und das

sichere Ereignis)

n

ii

B i j B

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

1

Dann

( ) ( | ) ( )n

i ii

P A P A B P B

31

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.

A B C CP A B P B A B

C C

( ( ) ( ( )( | ) , ( | )

( ) ( )

P A B C P A B CP A B C P A B C

P B C P B C

( | ) ( ) ( ( ), ( | ) ( ) ( ( )P A B C P B C P A B CP A B C P B C P A B C

( | ) ( | , ) ( | ) ( | , ) ( | )

(Statt wird einfach , geschrieben)

P A B P A B C P C B P A B C P C B

B C B C

32

Log-Lineare Analyse

3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox

Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.

A B C CP A B P B A B

C C

( ( ) ( ( )( | ) , ( | )

( ) ( )

P A B C P A B CP A B C P A B C

P B C P B C

( | ) ( ) ( ( )), ( | ) ( ) ( ( ))P A B C P B C P A B CP A B C P B C P A B C

( | ) ( | , ) ( | ) ( | , ) ( | )

(Statt wird einfach , geschrieben)

P A B P A B C P C B P A B C P C B

B C B C

33

Log-Lineare Analyse

Aggregierbarkeit und Simpson‘s Paradox

Behauptung: Sind und stochastisch unabhängig, so kannSimpsons Paradox nicht auftreten.

B C

Unabhängigkeit: ( | ) ( | ( )P C B P C B P C

Es werde Unabhängigkeit und Simpsons Paradox angenommen:

(*) ( | ) ( | )(**) ( | , ) ( | , )(***) ( | , ) ( | , )

P A B P A BP A B C P A B CP A B C P A B C

(*) P( | , ) ( ) ( | , ) ( ) ( | , ) ( ) ( | , ) ( )A B C P C P A B C P C P A B C P C P A B C P C

0 < ( ( | , ) P( | , )) ( ) ( ( | , ) ( | , )) ( )P A B C A B C P C P A B C P A B C P C

Widerspruch, da Differenzen nach Voraussetzung kleiner als Null!

34

Log-Lineare Analyse

Aggregierbarkeit und Simpson‘s Paradox

Anmerkungen:Stochastische Unabhängigkeit von und ist eine hinreichende Bedingung dafür, dass das Simpson Paradox auftritt, aberkeine notwendige Bedingung!

B Cnicht

Man kann aus der Tatsache, dass Simpsons Paradox nicht vorliegt,nicht die Unabhängigkeit von , folgern!B C

Es kann also sein, dass Simpsons Paradox nicht vorliegt, obwohles eine Assoziation zwischen und gibt. Aber derartige Assoziationenwerden eine verzerrende Wirkung auf die Beziehung zwischen und

B CA B

haben (zB auf den -Koeffizienten).

top related