![Page 1: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/1.jpg)
Benutzbarkeit von Testkennwerte
Jörg M. Müller – Universität Tübingen
http://www.joergmmueller.de/default.htm
![Page 2: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/2.jpg)
1. Motivation: Praxis der Testauswahl
2. Konzepte und Maße der Messgenauigkeit
3. Skalierung von Maßen der Messgenauigkeit
4. 16 Kriterien der Benutzbarkeit
5. Ausblick
Gliederung
![Page 3: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/3.jpg)
Testbeschreibung über Kennwerte ist notwendig!
Kennwerte werden selten berücksichtigt.
Welche Gründe liegen hinter der Testauswahl:- Werden alle wichtigen Testeigenschaften anhand von
Kennwerten repräsentiert?
- Welche Gründe spielen neben den psychometrischen
Eigenschaften eine Rolle?
- Werden die Informationen angemessen kommuniziert?
1. Motivation: Praxis der Testauswahl
![Page 4: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/4.jpg)
2. Konzeptuelle Varianten zur Messgenauigkeit
Reliabilität Informations-funktion
Messfehler
Überein-stimmung
Informations-theorie
Kovarianz-struktur
M e s s g e n a u i g k e i t
![Page 5: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/5.jpg)
2. Zusammenhangsmaße als Indikator der Messgenauigkeit
Konzept
Index/TT
Schätzer
Randbedingung
Inhalt
VarianzquotientReliabilität
Korrelation t1,t2
Metrische Begriffe
Formel
M e s s g e n a u i g k e i t
dcA2
baA1
B2B1
adbc
adbdY
1
1
Übereinstimmungs-quotient
Kategoriale Begriffe
KTT
N
i yx
ii
ssN
yyxxr
122
![Page 6: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/6.jpg)
1. Fragestellung: Sind die Ausprägungen verschiedener Maße der Messgenauigkeit vergleichbar?
3. Skalierung von Kennwerten
Pearson-Korrelation
Yules Y, Phi, Kappa
Fisher-Z Transformation für Intervallskalierung
?
Keine Transformation für Intervallskalierung?
![Page 7: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/7.jpg)
3. Simulationsstudie anhand von SAS-Markos
Y/ Kappa/ Phi
Korrelation Y/ Kappa/ Phi Q
Y/ Kappa/ Phi
Korrelation
SMCY/Kappa/Phi
Q
Korrelation
Phi
SMC
Phi
Kappa
SMC
KappaZusammenhangsmaßZus
amm
enha
ngsm
aß
Zusammenhangsmaß
dcA2
baA1
B2B1
Dichotomisiert Bivariat Normalverteilt-Gleiche Randsummen
Bivariat Rechtsteil-Ungleiche Randsummen
![Page 8: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/8.jpg)
Sind die Ausprägungen verschiedener Maße
der Messgenauigkeit vergleichbar?
3. Skalierung von Kennwerten
Pearson-Korrelation
Yules Y, Phi, Kappa
Fisher-Z Transformation für Intervallskalierung
?
Keine Transformation für Intervallskalierung?
‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307).
![Page 9: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/9.jpg)
1. Numerische Ausprägung, Skalierung, Wertebereich
2. ‚Operational-Meaning‘ (Goodmann & Kruskal, 1954) Interpretationskonzept ‚Proportional-reduction-in-error‘ (Costner, 1965) mit unterschiedlichen Fehlerkonzepten (Übereinstimmung vs. Distanzen).
3. Abhängigkeit von Randbedingungen (Messwertverteilung)
4. Etc.
3. Unterschiede zwischen Kennwerten
![Page 10: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/10.jpg)
Interpretierbarkeit
Skalierung
Grundlagen
4. Kriterien der Benutzbarkeit
1. Eindeutigkeit2. Hohe Anwendungsbreite3. Relevante Abhängigkeit4. Unabhängigkeit von irrelevanten Einflüssen5. Kriterien der Parameterschätzung6. Positive und ganze Zahlen7. Linearität zur Unit-in-Change 8. Intervallskalenniveau9. Signifikante Einheiten10. Relevanz11. Unmittelbarer Bezug12. Angabe der notwendigen Höhe13. Maßeinheit14. Erlernbarkeit15. Vertrautheit16. Eindeutige operationale Aussage
(Fehlerspezifisch)
![Page 11: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/11.jpg)
5. Ausblick I: Alternative Skalierung: DifferenziertheitKonzept: Anzahl unterscheidbarer Messergebnisse
Gesamter Messwertrange R
Messwertverteilung
x1 x2
KritischeDifferenz k
KritischeDifferenz k
KritischeDifferenz k
KritischeDifferenz k
KritischeDifferenz k
ttx rsxx 1296,105.012Formel
R = Range der Testscores
k = kritische Differenz
21
1*2
2
ttrk
RD
![Page 12: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/12.jpg)
5. Ausblick II: Weiterführende Fragen
1. Konzeptuell- Messgenauigkeit und Messsicherheit?- Anzahl Messergebnisse und die Unterscheidungssicherheit
2. Theoretisch - Usability von Kennwerten und die Mentale Repräsentation
von Zahlen bzw. kognitiver Modelle der Zahleninterpretation
3. Empirisch- Welcher Bedarf nach Kennwerten besteht in der Praxis?
![Page 13: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/13.jpg)
Diskussion
Vielen Dank für Ihre Aufmerksamkeit
![Page 14: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/14.jpg)
1. Eindeutigkeit/Vergleichbarkeit
Erläuterung: ‚Eindeutigkeit‘ verweist auf die Notwendigkeit einer algorithmischen Definition.
Beispiel: Phi-Koeffizient
Ursache: Randbedingungen
• Null-Felder, Kontinuitätskorrektur, zeitlicher Abstand der Messwiederholung, etc.
![Page 15: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/15.jpg)
2. Hohe Anwendungsbreite
Erläuterung: ‚Hohe Anwendungsbreite‘ verweist auf
die Voraussetzungen (Skalenniveau, Verteilung, etc.)
eines Kennwertes. Dies kann dazu führen, dass ein
Kennwert nicht für alle auf dem Markt befindlichen
Tests ermittelt werden kann. Hierdurch wird wiederum
die Vergleichbarkeit von Tests eingeschränkt.
![Page 16: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/16.jpg)
3. Relevante Abhängigkeit
Erläuterung: ‚Relevante Abhängigkeit‘ verweist auf
Testaspekte, die in einem sinnvollen Zusammenhang
mit dem intendierten Testaspekt stehen.
Beispiel: Zusammenhang der Messgenauigkeit mit der
Testlänge.
![Page 17: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/17.jpg)
4. Unabhängigkeit von irrelevanten Einflüssen
Erläuterung: ‚Irrelevante Einflüsse‘ verweist auf
Faktoren, die nicht in einem sinnvollen
Zusammenhang zum intendierten Testaspekt stehen.
Beispiel: Die Beeinflussung der Reliabilität durch die
wahre Varianz.
![Page 18: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/18.jpg)
5. Kriterien der Parameterschätzung
Erläuterung: ‚Kriterien der Parameterschätzung‘
beziehen sich auf die von Fisher aufgestellten Kriterien
der Konsistenz, Suffizienz, Effizienz und
Erwartungstreue.
![Page 19: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/19.jpg)
6. Positive und ganze Zahlen
Erläuterung: ‚Positive und ganze Zahlen‘ beziehen sich auf den
Wertebereich des Kennwertes. Es wird dabei unterstellt, dass
Dezimalbrüche leichter als ganze Zahlen fehlinterpretiert
werden. In gleichem Sinne sind positiv Werte negativen
vorzuziehen. Vor dieser Maßgabe ist der Wertebereich der
Korrelation nicht optimal gestaltet (vgl. hierzu die
Differenziertheit).
![Page 20: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/20.jpg)
7. Linearität zur Unit-in-Change
Erläuterung: ‚Linearität zur Unit-in-Change‘
- Im Falle der Messgenauigkeit betrifft dies die Beziehung der Reliabilität zum Messfehler.
- Im Falle der Übereinstimmung betrifft dies die Beziehung von Yules Y zur Veränderung der Zellhäufigkeit a bzw. d.
Korrelation/Reliabilität
Standardmessfehler
Yules Y
Freq (Zelle a)
![Page 21: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/21.jpg)
8. Intervallskalenniveau
Erläuterung: ‚Intervallskalenniveau‘ verweist darauf, dass Differenzen zwischen Koeffizienten über den gesamten Wertebereich vergleichbar sind.
Beispiel: Die Korrelation muss Fisher-Z transformiert werden.
![Page 22: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/22.jpg)
9. Signifikante Einheiten
Erläuterung: ‚Signifikante Einheit‘ verweist darauf, dass Unterschiede zwischen zwei Tests nicht aufgrund von Zufallsschwankungen erklärt werden können.
Schlussfolgerung: Aus dieser Überlegung lässt sich umgekehrt eine Mindestumfang einer Normierungsstichprobe fordern. Hierdurch würde sichergestellt, dass Kennwerte ab eines praktisch bedeutsamen Unterschiedes auch statistisch signifikant verschieden sind.
![Page 23: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/23.jpg)
10. Relevanz
Erläuterung: ‚Relevanz‘ verweist darauf, dass mit der
Zunahme an Testaspekten eine Auswahl zwischen den
Testkennwerten getroffen werden muss. Nicht alle
Testaspekte sind gleich relevant bzw. bedeutsam aus
der Sicht der Praxis.
![Page 24: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/24.jpg)
11. Unmittelbarer Bezug
Erläuterung: ‚Unmittelbare Bezug‘ verweist darauf, dass ein Indikator eines Messaspekte nicht mittelbar bzgl. des Inhaltes verknüpft ist.
Beispiel: Die Reliabilität steht nur mittelbar in Beziehung zum Messfehler.
![Page 25: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/25.jpg)
12. Angabe der notwendigen Höhe
Erläuterung: ‚Angabe der notwendigen Höhe‘ verweist darauf, dass ein Praktiker die zur Beantwortung einer diagnostischen Fragestellung notwendigen Testeigenschaft benennen kann.
Beispiel: ein Testanwender sollte im Falle eines Screenings eine geringen Messgenauigkeit (D=2) einfordern.
Hintergrund: In der Regel kann kein Aspekt maximiert werden (z.B. Messgenauigkeit), ohne einen anderen relevanten Aspekt (z.B. Aufwand der Testung) negativ zu beeinflussen. Entsprechend wiederspricht dieser Aspekt einem ‚je höher-desto besser‘.
![Page 26: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/26.jpg)
13. Maßeinheit
Erläuterung: ‚Maßeinheit‘ verweist darauf, dass die Höhe eines Kennwertes nur dann interpretiert werden kann, wenn die Maßeinheit bekannt ist.
Beispiel: kein sinnvolle Maßeinheit Varianz der Messwerte im Falle der Reliabilität (vgl. hierzu die Differenziertheit mit ihrer ‚kritischen Differenz‘ als sinnvolle Maßeinheit).
![Page 27: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/27.jpg)
14. Erlernbarkeit
Erläuterung: ‚Erlernbarkeit‘ verweist auf Voraussetzung beim Testanwender, damit dieser den Kennwert angemessen interpretieren kann.
Beispiel: Bezüglich der Messgenauigkeit scheinen Kennwerte aus der KTT denen der IRT aus Sicht des Anwenders überlegen zu sein.
![Page 28: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/28.jpg)
15. Vertrautheit
Erläuterung: ‚Vertrautheit‘ verweist auf die Abwägung der Vorteile neuer Maße gegenüber der Bekanntheit etablierter Maße.
Hintergrund: Der Aufwand zur Ergänzung (vgl. Relevanz) bzw. Ersetzung bekannter Maße muss in einem vertretbaren Verhältnis stehen.
![Page 29: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/29.jpg)
16. Eindeutige operationale Aussage (Fehlerspezifisch) - Entscheidungsfehler
Erläuterung: Der Aspekte der ‚eindeutigen operationale Aussage‘ (operational meaning; Goodmann & Kruskal, 1954) verweist im Kontext der Messgenauigkeit darauf, dass in der Diagnostik unterschiedliche Arten von Fehlern bedeutsam sein können (vgl. Nayman-Pearson-Kriterium).
Sensitivität (die Sicherheit der Diagnose einer vorhandenen Störung bzw. im metrischen Kontext der Überschätzung einer Fähigkeit) und die
Spezifität (die Sicherheit der ‚Gesund-Diagnose‘ bei tatsächlich fehlender Störung bzw. im metrische Kontext der Unterschätzung einer Fähigkeit).
![Page 30: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/30.jpg)
2. Kennwert: Personenunterscheidungsvermögen (PUV)
2
)1(*
nntU
Formel
tU
sUPUV
n
ji jiji
jijiji kxxwenns
kxxwennsssU
, ,
,, ,0
,1
Eine Gleichverteilung zeigt eine 80 %
Unterscheidungs-wahrscheinlichkeit
Eine Normalverteilung zeigt eine 60 %
Unterscheidungs- wahrscheinlichkeit
Vollständiger Paarvergleich
![Page 31: Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen](https://reader036.vdokument.com/reader036/viewer/2022062301/568141ec550346895dadcdd2/html5/thumbnails/31.jpg)
PUV: Praktisches Beispiel
Subskala ‚Resignation‘ des Stressverarbeitungsfragebogens für Kinder und Jugendliche (SVF-KJ; Hampel, Petermann & Dickow, 1999; N=1123)
Subskala ‚Unsicherheit‘ der Symptomcheckliste SCL-90-R (Derogatis, 1977; Franke, 1995; N=875)
r = 0.81
PUV = 41.6 % PUV = 30,6 %
r = 0.81