dr. tobias constantin haupt, mba …...testtheorien ss 2007 dr. tobias c. haupt [email protected] # 28...

Vorlesung Testtheorien

Dr. Tobias Constantin Haupt, MBADr. Tobias Constantin Haupt, MBA

Sommersemester 2007Sommersemester 2007

# 2Testtheorien SS 2007 Dr. Tobias C. Haupt www.haupt-uni.de [email protected]

Kriteriumsvalidität

Numerische(r) Kennwert(e), so viele wie es sinnvolle Kriterien gibt!

• mögliches Problem: diese Validitätsart kann

nicht unabhängig von den Reliabilitäten von

Test und Kriterium ermittelt werden; evtl.

Minderungskorrektur einsetzen bei Interesse

an theoret./"wahren"/"was wäre bei perfekter

Reliabilität" - Zusammenhängen!

– für praktische (Vorhersage-) Zwecke jedoch unkorrigierte Werte nehmen!



besonders bedeutsam für praktische Anwendungen (Möglichkeit zur Vorhersage, z. B. dem Berufserfolg als Verkäufer auf Grundlage der Kenntnis der Extraversion einer Person)


• Die Kriteriumsvalidität läßt sich ermitteln, indem ganz einfach die Korrelation zwischen dem Testergebnis und einem Kriterium berechnet wird.

• Man nennt ein solches Kriterium hier „Außenkriterium“, um es von Binnenkriterien abzugrenzen, wie z. B. dem Skalensummenwert zur Bestimmung der Trennschärfe.

Beispiele: • Mediziner-Test (TMS) • Fremdbeurteilungen bei Persönlichkeitstests• Schulleistungstest: Lehrerurteil als Außenkriterium

(Außen-) Kriteriumsvalidität


Man kann auch Tests mit Tests validieren. Hierbei handelt es sich jedoch nicht um echte Kriterien, sondern nur um Quasikriterien, da der Test, an dem validiert wird, selber der Validierung bedarf.

Die Berechnung der Kriteriumsvalidität ist also „technisch“ sehr einfach. Man korreliert einfach Test und Kriterium:

V = rt,c

t ist der Test, c das Kriterium.



Kriteriumsvalidität graphisch


Problem:Oft ist kein adäquates Außenkriterium vorhanden (z.B. bei Intelligenz oder Zukunftsängsten). Mangelnde Korrelationen mit unbrauchbaren Kriterien würden eher gegen die Validität des Kriteriums als gegen die des Tests sprechen.



Arten von Kriterien:echte Kriterien: Kriterien, die semantische und theoretische

Ähnlichkeit zum Test aufweisen und zusätzlich von höherem Status sind (z.B. „echte“ Gewalttätigkeit als Kriterium für Aggressivität).

Quasikriterien: Semantisch und theoretische ähnliche Kriterien, allerdings nicht von höherem Status als der Test (z.B. ein Aggressivitätsfragebogen A als Kriterium für Aggressivität, die mit einem Aggressionsfragebogen B erhoben wurde).

Target-Variablen: Kriterien, die weder semantisch noch theoretisch Ähnlichkeit zu den Testitems haben, sondern einfach nur irgendwie im Sinne von Effektivität vorhergesagt werden sollen (z.B. Unfallwahrscheinlichkeit als Kriterium, Körpergröße als Fragebogenitem).



Kriteriumsvaliditäten: Beispiele



Zusätzlich wird nach dem Zeitpunkt der Erhebung der Kriterienwerte unterschieden:Konkurrente Validität(Gleichzeitige Kriteriumsvalidität) Prädiktive Validität (Vorhersagevalidität)


Kriteriumsvalidität & Minderungskorrektur

Die Höhe dieser Korrelation wird durch die Reliabilitäten von Prädiktor und Kriteriummitbestimmt.

Wie?

• Grundsätzlich gilt, daß mit einer Erhöhung der

Reliabilität von Prädiktor und/oder Kriterium

sich auch die Kriteriumsvalidität erhöht.


Minderungskorrektur

Da in der Praxis keine perfekten Maße existieren, sollten für Vorhersagezwecke die unkorrigierten Werte benutzt werden.

Wozu dann „minderungskorrigieren“?

• Neugier

• Forschung

• „Wahrheit“



Doppelte Minderungskorrektur:

• Gleicht Reliabilitätsmängel von Prädiktor (Test)

und Kriterium aus.

Korrelation der wahren Werte von x und y Reliabilität des KriteriumsReliabilität des Prädiktors (des Tests)



Einfache Minderungskorrektur:

• Gleicht Reliabilitätsmängel des Tests (Prädiktor)

oder des Kriteriums aus.

Reliabilität des KriteriumsKriteriumsvalidität Korrelation der beobachteten Testwerte mit den wahren Werten des Kriteriums


Minderungskorrekturen

Wie läßt sich auf dieser Grundlage die Korrelation der wahren Werte beider Tests rWtWu, die uns ja interessiert und die ja höher sein müßte (wenn man absolute Reliabilität unterstellte), bestimmen?

Zur Beantwortung dieser Frage hilft und die:• Doppelte Minderungskorrektur : Spearman

(1910) leitete folgende Formel her, um die Korrelation der wahren Werte zweier unreliabler Tests zu schätzen:

XtXuWtWu

tt uu

rrr r

=⋅


Minderungskorrekturen

Einfache Minderungskorrektur• wenn nur um die Unreliabilität eines Tests oder

einer Variablen korrigiert wird.

Inhaltliche Bedeutung: • Zeigt, welche Validitätszuwächse zu erwarten

wären, wenn man einen Test reliabler machen würde.

• Die u. g. Formel ist von der doppelten Minderungskorrektur ja bekannt; ein Wurzelterm wird bei der einfachen Minderungskorrektur ja gleich 1

XtXuWtWu

tt uu

rrr r

=⋅


Beispiel: Doppelte Minderungskorrektur


Kriteriumsvorhersage

Anwendungsmöglichkeiten:

• → Kriteriumsvorhersage

Dafür brauchen wir:

• Rohwerteformel für die Vorhersage des

Kriteriums Y aus Kenntnis des Testwertes X:



... und den Standardschätzfehler

... dann lassen sich Konfidenzgrenzen und Konfidenzintervall bestimmen:

CLU = Y’ - Zα/2 * sy.x

CLO = Y’ + Zα/2 * sy.x

CLU ≤ Y ≤ CLO



Beispiel: Es soll der voraussichtliche Studienerfolg Y‘(Abschlussnote) aus Kenntnis eines Studieneingangstests X geschätzt werden. Die benötigten Kennwerte zum Einsetzen in die Vorhersageformel lauten:



Die beste Punktschätzung des Studienerfolgs Y’ für eine Person mit einem Wert von X = 8 im Studieneingangstest ergibt:



Das reicht uns aber nicht, wir wollen auch noch eine Intervallschätzung ...…deshalb berechnen wir zunächst den Standardschätzfehler:

... und dann die Konfidenzintervall-Grenzen:



Die Grenzen des 90%-Konfidenzintervalls liegen bei: • CLU = 1.6 - (1.65 * 0.8) = 0.28 • CLO = 1.6 + (1.65 * 0.8) = 2.92

Die Grenzen des 95%-Konfidenzintervalls liegen bei: • CLU = 1.6 - (1.96 * 0.8) = 0.03 • CLO = 1.6 + (1.96 * 0.8) = 3.17


Konstruktvalidität

Kein direkter numerischer Kennwert, sondern "Gesamtbild" aus unterschiedlichen Quellen, ob und wie stark vorhanden

Ausgehend von den von einem Test (z. B. Persönlichkeitstest) erfaßten Konstrukte wird überprüft, ob diese hypothesenkonform mit anderen Persönlichkeitskonstrukten zusammenhängen...


Konstruktvalidierung: Vorgehen

Ausgehend von den von einem Test (z. B. Persönlichkeitstest) erfaßten Konstrukte wird überprüft, ob diese hypothesenkonform mit anderen Persönlichkeitskonstrukten zusammenhängen...

...auf diese Weise wird geprüft, ob der Test das Konstrukt/latente Merkmal auch wirklich misst, das er messen soll (= ob der Test konstruktvalide ist, d. h. für eine Testperson: inwieweit das Testergebnis die Merkmalsausprägung der Person für dieses Konstrukt (z. B. Extraversion) widerspiegelt.


Allgemeines Vorgehen bei der Konstruktvalidierung

1. Formulierung einer Theorie (hinsichtlich des Konstruktes) und Ableitung von Hypothesen

2. Datensammlung zur Überprüfung der Hypothese 3. Ergebnisse auf Hypothese beziehen und über die

Gültigkeit der Hypothese entscheiden. • Fallen die Ergebnisse einer Untersuchung zur

Konstruktvalidierung im Sinne der formulierten Hypothesen aus, sind damit sowohl das Konstrukt selbst wie die Konstruktvalidität des Tests gestützt.


Sind die Ergebnisse hingegen negativ, können

mindestens drei Schlussfolgerungen gezogen werden:

– 1. Das Konstrukt existiert nicht (d. h. hat keine empirische Bedeutung)

– 2. Der Test misst nicht das Konstrukt, sondern etwas anderes (d. h. er ist nicht konstruktvalide)

– 3. Das Experiment / die Untersuchung war nicht geeignet, bzw. die Manipulationen der UV haben das Konstrukt nicht beeinflußt



Das Ziel einer fortschreitenden Konstruktvalidierung besteht in der Errichtung eines nomologischen Netzwerks, das empirisch untersuchbare Konstrukte sowie Beziehungen zwischen diesen Konstrukten enthält.



Validitätsaspekte: Unterschiede?


Warum wichtig?Weil verschiedene Arten von Schlussfolgerungen auf Grundlage des Testergebnisses/Testverhaltens einer Person unterschiedliche Validitätsarten voraussetzen!

Validitätsaspekte: Unterschiede?


Zur Auffrischung aus dem Grundstudium


Schluss auf Verhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist

erfordert: InhaltsvaliditätBsp.: prakt. Führerscheinprüfung; Assessment Center (teilweise)Repräsentationsschluss, d. h. kann das Verhalten im Test als repräsentative SP eines zu erfassenden Verhaltensuniversums aufgefaßt werden, so ist eine direkte Verallgemeinerung vom Testverhalten auf das Verhaltensuniversum möglich; dann ist Inhaltsvalidität gegeben


Schluss auf Verhalten außerhalb des Tests, das mit dem Testverhalten empirisch zusammenhängt/korreliert

erfordert: Kriteriumsvalidität

• wird differenziert nach dem Zeitpunkt der

Erhebung des Kriteriums

– Vorhersagevalidität: Kriterium wird nach dem Test/Prädiktor erhoben;

– Konkurrente Validität: Kriterium wird gleichzeitig mit dem Test/Prädiktor erhoben

Bsp.: Berufserfolg (= Kriterium) soll aus z. B. Intelligenz (= Prädiktor) vorhergesagt werden


Schluss auf ein latentes Merkmal/Konstrukt

erfordert: KonstruktvaliditätBsp. für eine Testperson: inwieweit das Testergebnis die Merkmalsausprägung der Person für dieses Konstrukt (z. B. Extraversion) widerspiegelt)

Anderes, generelles Bsp.: Wie hängen die Konstrukte Aggressivität, Eifersucht und Neurotizismus zusammen? Überprüfung z. B. mit einer MTMM


Konstruktvalidität

Definition: Konstruktvalidität liegt vor, wenn aus dem zu

messenden Zielkonstrukt (z.B. Einsamkeit) Hypothesen ableitbar sind (z.B. mittels der Einsamkeitstheorie von soundso), die anhand der Testwerte bestätigt werden können.


Konstruktvalidität

z.B. für das Konstrukt Einsamkeit:Zusammenhang mit anderen manifesten oder latenten

Variablen, wie z.B. • geringes Selbstwertgefühl, • soziale Ängstlichkeit, • stärkere Ausprägung der Einsamkeit bei

Geschiedenen• Lebensunzufriedenheit…


Konstruktvalidität

(z.B.: Korrelieren die Testwerte hoch mit sozialer Ängstlichkeit? Ist das Konstrukt unabhängig von Religiosität?)

Die theoretisch abgeleiteten Zusammenhänge zu anderen, verwandten Konstrukten ließen sich z.B. wiederum mit Inhalts- oder Kriteriumsvaliditätskoeffizienten validieren (insofern stellt die Konstruktvalidität eine Synthese aus Inhalts- und Kriteriumsvaliditätsaspekten dar).


Konstruktvalidität

Interpretation: Können solche Hypothesen nicht bestätigt werden, ist unklar, ob die Validität des Instruments oder die Gültigkeit der Hypothesen anzuzweifeln ist. Bestätigung der Hypothesen hingegen ist ein Indiz für die Validität des Tests. Eine Konstruktvalidierung ist um so überzeugender, je mehr Hypothesen abgeleitet und bestätigt werden.


Konstruktvalidität

Konvergente und divergente (diskriminante) Validität:

Campbell & Fiske (1959) konzeptualisieren (die Grundvoraussetzungen von) Konstruktvalidität, indem sie die Erfüllung von zwei Bedingungen fordern:


Konstruktvalidität

1. Konvergente Validität:Ist gegeben, wenn verschiedene Methoden (Operationalisierungen, Indikatoren) zur Messung des in Frage stehenden (nicht direkt beobachtbaren) Konstrukts (z.B. Trait) zu ähnlichen (übereinstimmenden, konvergenten) Ergebnissen hinsichtlich der Merkmalsausprägung führen. • Korrelieren die Messergebnisse

unterschiedlicher Methoden desselben Konstrukts nur mäßig miteinander, so sind die jeweiligen Operationalisierungen zu überdenken.


Konstruktvalidität

2. Divergente (diskriminante) Validität:

Liegt vor, wenn sich Operationalisierungen des Zielkonstrukts von den Operationalisierungen anderer, verwandter Konstrukte unterscheiden (alle Konstrukte sollten mit derselben Methodenart erfaßt werden).


Konstruktvalidität

Eine Divergenz (in Form geringer Korrelationen) zu verwandten, jedoch nicht identischen Konstrukten erscheint deshalb sinnvoll, weil bei hohen Übereinstimmungen (gemeinsamen Varianzanteilen) zu anderen Konstrukten redundante Informationen erfaßt werden würden, die einer Eigenständigkeit des Konstrukts (bzw. möglicherweise auch dessen Explikation oder Operationalisierung) entgegenstehen.

Ist die diskriminante Validität gering, spricht dies für eine Neukonstruktion des Fragebogens oder eine Neuexplikation (bzw. Neuoperationalisierung) des Konstrukts.


Konstruktvalidität

Beispiel 1: Zielkonstrukt: Aberglauben Validierungskonstrukte: Ängstlichkeit, Religiosität Methoden: Direkteinschätzung der Ausprägung, Fragebogen zu Aspekten der Konstrukte, Fremdeinschätzungen, Verhaltensbeobachtungen.

Beispiel 2:Zielkonstrukt: Extraversion Validierungskonstrukte: Verträglichkeit, Gewissenhaftigkeit, Neurotizismus und Offenheit für Erfahrungen Methoden: NEO-FFI, Big Five Inventory (BFI), Bipolare Big Five Adjektivratingmarkerskalen.


Konstruktvalidität

Methode zur Überprüfung konvergenter unddivergenter Validität: MTMMDie MTMM arbeitet mit den Korrelationen, die sich

ergeben, wenn man an • derselben SP• mehrere Merkmale oder Konstrukte (traits; z.B.

Aberglaube, Religiosität und Ängstlichkeit) mit • mehreren Methoden (methods; z.B.

Selbstbeurteilung, Fremdbeurteilung) erfaßt und

die Ergebnisse wechselseitig korreliert. Die Höhe und die Muster der Korrelationen sind indikativ für das Vorhandensein konvergenter und divergenter Validität.


Konstruktvalidität

Multitrait-multimethod-Matrix (MTMM) Klärung von ein paar Begrifflichkeiten:

• Konvergente Validität

– liegt vor, wenn ein Test mit anderen Maßen fürdenselben Trait hoch korreliert.


Konstruktvalidität

Diskriminante Validität

• liegt vor, wenn ein Test mit ähnlichen Maßen

(Tests) für andere Traits und mit

verschiedenartigen Maßen für andere Traits nicht

korreliert.


Konstruktvalidität: MTMM

dr. tobias constantin haupt, mba …...testtheorien ss 2007 dr. tobias c. haupt [email protected] # 28...

Documents