theorie psychometrischer tests, iv u. mortensen mainz 2009

Theorie psychometrischer Tests, IV

U. Mortensen

Mainz 2009

Klassische TesttheorieValidität eines Tests

( , )g g g g

g gx

x x g gxg

Kov X

Gültigkeiten

TrennschärfenGültigkeit des Tests

Die Gültigkeit eines Tests ist um so größer, je größer die Itemgültigkeiten sind, und je kleiner die Trennschärfen sind!

Klassische TesttheorieValidität eines Tests

,

Es läßt sich zeigen, dass

g gg

X

g h ghg h

Dh die Testvalidität ist proportional zur Summe der gewogenen Itemvaliditäten und umgkehrt proportional zur Summe der gewichteten Interitemkorrelationen.

Klassische TesttheorieValidität und Reliabilität eines Tests

Validität eines Tests (X) in Bezug auf einen anderen Test (Y):

( , )xy

x y

Kov X Y

( , ) ( , )

Allgemein gilt

x yKov X Y Kov 2

,

( , ) ( )

( )

Spezialfall paralleler Messung:

x y x y

x xxy x

x x

Kov Var

Var X

2

( ( ,

Maximale Gültigkeit bei parallelen Messungen;

im Allgemeinen folgt dann, wegen , ) , )

x y x x

xy x

Kov Kov

Klassische TesttheorieAttenuierung, Reliabilität und Validität

'

' '

( , )

Es gilt stets

xyx y xy xx

xx yy

Um die Validität zu erhöhen, muß man die Wurzel aus der Reliabilität und damit die Reliabiltät erhöhen.

Der obere Wert der Reliabilität ist aber Cronbachs Alpha, und das wird größer, je größer die Kovarianzen zwischen den Items sind.

Klassische TesttheorieValidität und Iteminterkorrelation

,

g gg

X

g h ghg h

,J e kleiner die desto größer !gh X

Andererseits wird die Gültigkeit um so größer, je mehr Aspekte eines Merkmals ein Test erfasst, - also je kleiner die Itemkorrelationen sind!

Klassische TesttheorieArten von Validität

Inhaltsvalidität: - Das Ausmaß, in dem ein Test das zu messende Merkmal in möglichst weitem Sinn erfasst (verwandt mit logischer Validität). Die Items soll eine Stichprobe aus dem Universum aller Items, die das Merkmal

erfassen, sein. Quantifizierung oft schlecht möglich, - deduktive Erfassung der inhaltlchen Validität.

Kriteriumsvalidität: - Das Merkmal wird durch bestimmte Kriterien charakterisiert, und die Testwerte werden dann dann mit den Kriteriumswerten korreliert. Kriterien: z.B: Leistungen, die vorhergesagt werden, etwa erfolgreicher Studienabschluß, eine feindliche Übernahme einer konkurrierenden Firma, etc.


Prädikative Validität: Überprüfung des Kriteriums nach der Testung.

Kurrente Validität: das Kriterium wird zur gleichen Zeit erhoben, sie die Testscores.

Konstruktvalidität: Das Merkmal ist operational definiert worden, dh man hat es mit einem „Konstrukt“ zu tun.

Beispiel: Minnesota Multiphasic Personality Inventory (MMPI): Es sollte zwischen Patienten und „Normalen“ unterschieden werden. Die Persönlichkeit sollte dann nach Maßgabe der verschiedenen Testprofile erforscht werden, um Verhaltensweisen vorhersagen zu können, für die noch keine empirischen Validierungen vorlagen.


Faktorielle Validität: Ist durch die Korrelationen der Testwert mit den Faktoren definiert, die sich aus einer faktorenanalytischen Untersuchung des Merkmals ergeben.

Beispiel: Der Generalfaktor der Intelligenz, wie er von Spearman (1904) vorgeschlagen wurde. Die Testwerte sollen gut mit den Faktorwerten der Probanden für diesen Faktor korrelieren.

Klassische TesttheorieValidität und Testverlängerung

2

' '

( ), ( )

.

( , )( ( ) / , ( ) / )

[1 ( 1) ][1 ( 1) ]

Es seien und Testscores zweier Tests mit Einheitslänge.

Es seien die Scores in den gleichen Tests mit den Längen

und Dann gilt

xx yy

X Y

X k Y l

k l

kl X YX k k Y l l

k l

Dieser Satz erlaubt es, die Validität eines Tests, der um k Einheiten verlängert wird, in Bezug auf einen Test mit den Scores Y und Einheitslänge zu berechnen:

2

'

( , )( ( ) / , )

1 ( 1) xx

k X YX k k Y

k

Klassische TesttheorieValidität und Testverlängerung

Gegen welchen Wert strebt die Gültigkeit, wenn man den Test verlängert?

22

'

( , )( , ) lim ( ( ) / , )x k

xx

X YY X k k Y

22

'

( , )( , ) lim ( , ( ) / )

Analog

y lyy

X YX X Y l l

22

' '

( , )( , ) lim ( ( ) / , ( ) / )

Schließlich

y y kl xx yy

X YX K l Y l l

Klassische TesttheorieDie Abschätzung von Veränderungen

Man möchte den Effekt einer Therapie oder allgemein einer Intervention auf ein Merkmal untersuchen. Das Merkmal werde mit einem Test mit den Scores X erfasst. Die Messwerte vor der Intervention seien X1, die nach der Intervention seien X2.

21 1 2 2 1 1 2 2

' '12 1 2 11' 1 1 22' 2 2

( ), ( ), ( ), ( )

( , ), ( , ), ( , )

Es gelte

E X E X Var X Var X

X X X X X X

2 1 1

2 12 1 11'2 1 1 2 2

1 11' 2 22' 12 1 2 11'

, )( )

(

Die Differenz und der Anfangswert korrelieren miteinander:


Vorhersagen der wahren Veränderung:

2 1 1 2

1 2 1 1 2 2( | , )

Die wahre Veränderung hängt von und ab; zu

ihrer Bestimmung kann man die Regression

betrachten.

G X X

R G X X B X B X C


1 2 1 2 1 1 1 2 2 2( | , ) ( ) ( ) ( )R G X X B X B X

1 2 1 1 2 2( | , )

Standardisierung liefert dann

R G X X Z X

1 2 2 1

1 2

12 121 22 2

12 12

1 11' 2 12 2 22' 1 12

, ,1 1

,

mit

G G G G

G GG G

Klassische TesttheorieFaktorenanalyse

1 1 2 2

1 2

1

,

, , ,

,

Modell: der standardisierte Score der i-ten Person im j-ten Text

läßt sich darstellen als das Skalarprodukt

wobei die die Faktorwerte der Personen, undij i j i j ir jr ij

i i ir

j j

z q a q a q a e

q q q

a a

2 , , die Ladungen der Items auf r latenten Dimensionen

sind.jra

1 1 2 2

Die Korrelationen zwischen zwei Items ergeben sich dann gemäß

ij i j i j ir jrr a a a a a a

Überblick

Test

Score X = Summenscore

gewichtet

ungewichtet

Reliabilität Validität

22

' 2( )Rel xx x

x

X

g g

gx

g gxg

Gültigkeiten

Trennschärfen

,

g gg

X

g h ghg h

Interkorrelationen

2 x x Für parallele Tests, sonst

2 x x Je größer, je größer die Varianz der tau-Werte!

Ladungen 1-ter Faktor

Maximiert Reliabilität

Klassische TesttheorieFaktorenanalyse bei dichotomen Items

Zum Vierfelder-Korrelationskoeffizienten:

2

( )( )( )( )xy

ad bc

Na b c d a c b d

0 1,

0 1

xy

xy

b c

a d


Aus X und Y dichtom folgt das X und Y jeweils binomialverteilt. Aus b = c = 0 bzw a = d = 0 folgt dann, dass X und Y gleiche Varianzen haben.

Was folgt im allgemeineren Fall, dass X und Y nicht gleiche Varianzen haben?

Übergang zu relativen Häufigkeiten liefert

11 00 10 01

(1 ) (1 )xy

x x y y

p p p p

p p p p

11 00 10 01

10 01

(1 ) (1 )

(1 ) (1 )`, 0 0.

wird maximal für

wenn oder

xy

x x y y

x x y y

p p p p

p p p p

p p p p p p


max max(1 )

(1 )Dann gilt , x y

xy xy xyy x

p p

p p

max: 1Spezialfall x y xyp p


Folgerung: im allgemeinen Fall ungleicher Varianzen ist der Phi-Koeffizient auf einen Bereich kleiner als [-1, 1] eingeschränkt.

Für die Faktorenanalyse auf der Basis von dichtomen Variablen und Phi-Koeffizienten folgt daraus, dass mehr Unabhängigkeit signalisiertWird, als tatsächlich in den Daten ist – „Schwierigkeistsfaktoren‘‘.

Klassische TesttheorieGruppenheterogenität, Speed und Power

Die Reliabilität eines Tests ist um so höher, je größer die Varianz der wahren (tau-) Werte in der Population ist!(Skript, Seite 105).

Power-Test:Die Probanden haben unbeschränkt Zeit, die Aufgaben zu lösen.

Speed-Test: Für die Beantwortung einer Aufgabe steht nur eine beschränkte Zeit zu Verfügung.

,

Anzahl inkorrekter Antworten I:

Anzahl unversuchter Lösungen

Anzahl versuchter, aber falscher Lösungen

I U W

U

W

theorie psychometrischer tests, iv u. mortensen mainz 2009

Documents