theorie psychometrischer tests, iii u. mortensen mainz 2009

31
Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Upload: killian-muff

Post on 05-Apr-2015

110 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Theorie psychometrischer Tests, III

U. Mortensen

Mainz 2009

Page 2: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieKongenerische, äquivalente und parallele Tests

Läßt sich die Reliabilität für kongenerische Tests definieren (kongenerisch ist schwächere Forderung als parallel!)?

Jöreskog (1971)

( ) 0, ( ) 1

Gegeben seien Tests, die ein Merkmal messen, sei

die Ausprägung des Merkmals bei einer Person. Die Maße

seien so normiert, dass gelte.

Die Tests seien kongenerisch. Dann ist die Reliabil

E V

2

( )

ität von

durch

gegeben.

j

j

jx

j j

T

V

Page 3: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieKongenerische, äquivalente und parallele Tests

Bestimmung der und :

durch Faktorenanalyse der Items.

Die sind die Faktorladungen der Items,

die die Residuen.

j j

j

j

Die Reliabilitäten der Items entsprechen den

Kommunalitäten der Items für den ersten Faktor.

( Faktorladungen sind Korrelationen des Items mit

dem ersten Faktor!)

Page 4: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieKongenerische, äquivalente und parallele Tests

Test der Annahme der Kongenerität:

( , ) ( , ), , ,

( , ) ( , )

Kongenerität gilt, wenn

für

gilt.

i j i l

j k j k

Kov X X Kov X Xi k i l j k j l

Kov X X Kov X X

Die unterliegende Annahme hierbei ist, dass der Test eindimensional ist, dass also nur ein Merkmal gemessen wird. Dies ist die Forderung nach der Homogenität des Tests.

Page 5: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieArten der Reliabilität

Reliabilität: Berechnung der Korrelation zwischen Tests mit Scores X und X‘.

Wird ein Test zum Zeitpunkt t1 und der gleiche Test zum Zeitpunkt t2 den gleichen Personen gegeben, so ist X = X(t1) und X‘ = X(t2). Man berechnet die Retest-Reliabilität.

Problem: Gedächtnis- und Lerneffekte!

Alternative: man teilt einen Test in zwei Hälften (Items mit gerade Nummer X, mit ungerader Nummer X‘.Man berechnet die Split-Half-Reliabilität.

Problem: die beiden Testhälften haben nur noch die halbe Länge, und die Reliablität hängt u.a. von der Länge (Anzahl der Items) ab.

Page 6: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Reliabilität für einen Test doppelter Länge

(Spearman-Brown-Formel)

Split-Half-Reliabilität:Unterschätzung der wahren Reliabilität.Läßt sich die tatsächliche Reliabilität durch Hochrechnen abschätzen?

Derartige Hochrechungen ergeben sich durch dieSpearman-Brown-Formeln.

1 2 1 2

1 2 1 2 1 2

1 2 1 2 '

.

, 1, 2

( ) ( ), ( ) ( ), ( ) ( )

, ( , )

Die Tests und seien parallel, mit den Scores und

und

i i i

yy

T T Y Y

Y i

Var Y Var Y Var Var Var Var

X Y Y Y Y

''

'

2

1yy

xxyy

Spearman-Brown-Formel für einen Test doppelter Länge.

Page 7: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Reliabilität für einen Test doppelter Länge

(Spearman-Brown-Formel)

''

'

2

1yy

xxyy

Page 8: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Reliabilität für einen Test n-facher Länge

(Spearman-Brown-Formel)

Das Resultat läßt sich verallgemeinern auf den Fall eines Tests n-facher Länge.

1 2

1 2

'

''

, , ,

.

( , )

.

.1 ( 1)

seien die Scores von parallelen Tests,

und

Es sei für beliebige und ( wegen der

Parallelität) Dann gilt

n

n

i j yy

yyxx

ii

Y Y Y n

X Y Y Y

Y Y i j

n

n

Dies ist die Spearman-Brown-Formel für einen Test mit n-facher Länge.

Page 9: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Reliabilität für einen Test n-facher Länge

(Spearman-Brown-Formel)

'' .1 ( 1)

yyxx

ii

n

n

' .75 ( ),

.50 ( )

.30 ( )

.15 ( )

=

=

=

yy a

b

c

d

Page 10: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Reliabilität für einen Test n-facher Länge

(Spearman-Brown-Formel)

'

'

lim 11 ( 1)

Es gilt

yyn

yy

n

n

Dies bedeutet, dass die Reliabilität eines Tests, der aus parallelen Komponenten besteht, beliebig erhöht werden kann, wenn nur die Anzahl der parallelen Komponenten erhöht wird.

Page 11: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

1

'

( )(1 ) ( )1 ( )

Cronbachs

n

jjxx

X Y Y

Var Yn

n Var X

Cronbachs Alpha gilt als ein Maß für die interne Konsistenz.

Interne Konsistenz: - Items messen alle das gleiche Merkmal (Homogenität = 1-Dimensionalität)

Behauptung: großer Wert von Alpha, große interne Konsistenz.

Was ist dran an dieser Behauptung?

Page 12: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

1

1

2 2

( )

( ) ( ) ( , )

( ) ( ) ( , )

n

n

j j

j i j j ijj i j J i j

j i ji j

X Y Y

Var

Var Var Kov

Var X Var Y Kov Y Y

( , ) ( , )i j i j ijKov Y Y Kov

2 2ij i j

Page 13: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

( )( )

( ) (1 )( ) 1 ( )

Relj

j

Var YVar n

XVar X n Var X

( )

(1 ) )1 ( )

( Cronbachs j

j

Var Yn

n Var X

2( ) 11

ij i ji j

j ij i jj i j

n

n

(Herleitung dieses Ausdrucks im Skriptum, Seite 68, Formel (134))

Page 14: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

2( ) 11

ij i ji j

j ij i jj i j

n

n

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

'0 , 0 für alle ij xxi j

Wenn alle Items unkorreliert sind, messen sie voneinander unabhängige Merkmale – der Test ist heterogen.

Je größer die Korrelationen zwischen den Items, desto homogener der Test, desto größer ist Alpha. Sind zusätzlich alle Varianzen gleich groß, ist Alpha = 1 für alle Werte von n.

Für einen ideal heterogenen Test folgt Alpha = 0, und da Alpha eine untere Grenze der Reliabilität ist, folgt, dass solche ein Test die Reliabiliät Null hat!

Page 15: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

2

1( ) , 11 ( 1) / 1

0.

mit

nicht alle

ij i ji j

j ij i jj i j

ij

nq

n q n

2

2 21

1

( 1)

jj

ij i jj ì

qS

n

Sn n

Für größer werdenden Wert von n strebt Alpha stets gegen 1!

Für großen Wert von q ist die Konvergenz langsam, für Werte nahe bei 1 ist Alpha nahe bei 1 für nahezu alle Werte von n!

Page 16: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

(a)1.01(b)1.5(c) 3.0(d)6.0

Alpha

Konvergenz gegen 1 von Alpha mit wachsendem n

Page 17: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

Parallele Komponenten: 2 2 2 21 2 n

'

'1 ( 1)yy

yy

n

n

' ist dieReliabilität der Komponente bzw. Itemyy

Page 18: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie Interne Konsistenz: Cronbachs Alpha)

Mangelnde Homogenität impliziert einen kleineren Alpha-Wert und damit geringe interne Konsistenz.

Auch bei geringen Korrelationen zwischen den Items (also kleiner internen Konsistenz) wird Alpha groß bei hinreichend großer Anzahl von Items.

Auch bei perfekt korrelierenden Items kann aber die Summe der Kovarianzen gleich oder nahe bei Null sein, wenn nämlich die Vorzeichen der Kovarianzen alternieren, - es ergibt sich ein kleiner Alpha-Wert, obwohl nur ein Merkmal gemessen wird.

Deshalb ist Alpha schwer zu interpretieren: besser ist es, sich die Korrelationen zwischen den Items zu inspizieren!

Page 19: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische Testtheorie (Interne Konsistenz: Cronbachs Alpha)

Spezialfälle: dichotome Items

1, 0.

( 1)

wenn Item beantwortet wird, sonst j j

j j

Y Y

p Y p

20

(1 )

(1 )1 ( )

Kuder-Richardson-Formel 20:

j jj

p pn

n Var X

21

(1 )(1 )1 ( )

Kuder-Richardson-Formel 21 ( p =p für alle j) :j

n np p

n Var X

Page 20: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieReliabilität und die Gewichtung der Itemscores

,

Die Scoredefinition ist ein Spezialfall.

Im allgemeinen Fall können die gewichtet eingehen:

wobei ein Gewicht ist.

jj

j

j j jj

X Y

Y

X w Y w

Alpha wird maximiert, wenn die Gewichte durch die Ladungen der Items auf dem ersten Faktor (Faktorenanalyse der Items) gegeben sind.

Page 21: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Split-Half-Reliabilität: Der zu evaluierenden Test wird in zwei Hälften geteilt. Möglichkeiten der Aufteilung:

(i) Even-Odd: die Items mit einer geraden Nummer kommen in Test 1, die mit der ungeraden in Test 2;

(ii) zufällige Aufteilung: man verteilt die Items nach dem Zufall auf Test 1 bzw. Test 2,

(iii) Itemzwillinge: man bildet Paare von Items mit gleicher Schwierigkeit und Trennschärfe und sortiert dann jeweils ein Item eines Paars in Test 1, das andere in Test 2.

Klassische TesttheorieSchätzungen der Reliabilität

Tatsächlich berechnet man nun aber die Reliabilität eines Tests von nur halber Länger, so dass der Reliabilitätswert korrigiert werden muß: -- Korrektur nach den Spearman-Brown-Formeln.

Page 22: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieSchätzung des wahren Wertes eines Probanden

Proband

Gesucht ist eine Schätzung für a a a

a

a X

:

( )

Allgemeine Regression von auf

Rel

a

X

X XX X

X

X

X

Page 23: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

' a xx X k

Klassische TesttheorieSchätzung des wahren Wertes eines Probanden

XX X

X XX X

1X

2

'2X

X X xxX X

Die Regression des wahren Wertes auf den Score ist gleich der Reliabilität!

' a xx X k

Page 24: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieSchätzung des wahren Wertes eines Probanden

( ) ( ) a X a a XX k E E X k

' '( ) ( ) ( )(1 ) xx xxk E X E X E X

' '(1 ) ( )a xx xxX E X

Vorhersage des wahren Wertes aufgrund des X-Wertes:

Page 25: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieStandardschätzfehler

X ( ) ( ) ( )Var X Var Var 2 2 2

'2 2 21 xx

x x x

2 2'1x xx

Standardschätzfehler

Page 26: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieItemcharakteristika

Itemschwierigkeit:

Score der i-ten Person für das g-te Itemigy

Summenscore für die i-te Personi igg

x y

( ) ( ) Erwartungswerg der i-ten Personi i igg

E x E y

{0,1}

( 1)

( ) 1 0(1 )

( dichotome Items)ig

ig ig

ig ig ig ig

y

P y

E y

1

ist die Schwierigkeit des g-ten Itemsg

m

x ig gi

Page 27: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieItemcharakteristika: Schwierigkeit

Schätzung der Schwierigkeit von Items:

1

1

Für eine Stichprobe von Personen erhält man

als Schätzung für m

ig ggi

p y ym

1( )

1

Für den Fall, dass Antworten auch geraten werden, wird

berechnet, wobei die Anzahl der Antwortkategorien,

die Anzahl der korrekten, und die Anzahl der falschen

Antworten ist. Für

frg

r f

Np N k

n kN N

2

.

ergibt sich

r fg

k

N Np

N

Page 28: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieItemcharakteristika: Trennschärfe

Trennschärfe eines Items:

( , )

Die Trennschärfe eines Items ist durch die Korrelation

zwischen dem mittleren -Wert für das g-te

Item und dem Gesamtscore definiert.gy X y

X

Da X „kontinuierlich“ ist, ist diese Korrelation bei einem dichotomen Item durch den punkt-biserialen Korrelationskoeffizienten gegeben.

1

1( , ) , d.h. die Trennschärfe ergibt sich als gewogene

Summe der Korrelationen zwischen dem g-ten und den übrigen Items.

n

g h ghhx

y X

Page 29: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieItemcharakteristika: Trennschärfe

Schätzung des Trennschärfekoeffizienten:

Man berechnet einfach den punkt-biserialen Korrelationskoeffizienten aus den Daten einer Stichprobe.

Dabei kann es aber zu Verfälschungen kommen, da die Antwort auf das g-te Item ja bereits im Gesamtscore enthalten ist. Deswegen berechnet man

,

2 2

( )( , )

2

gy X x g

g g

g x g h xg

y X y

d.h. man berechnet die Korrelation mit einer part-whole-correction.

Page 30: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009

Klassische TesttheorieItemcharakteristika: Validität

Die Validität eines Items ist i. A. durch die Korrelation der Antworten auf dieses Item mit einem externen Kriterium gegeben.

( , ) ( , )

Werte auf externem Kriterium

g g g g gg g g

Kov X Kov Y

die Korrelation zwischen g-tem Item und dem Kriteriumg

( , )g g g g

g gg

x x g gxg

Kov X

Die Gültigkeit des Tests hängt ab einerseits von der gewogenen Summe der Gültigkeiten der Items, andererseits von der gewogenen Summe der Trennschärfen!

Page 31: Theorie psychometrischer Tests, III U. Mortensen Mainz 2009