testen und bewerten nrp
DESCRIPTION
Die Neue Reifeprüfung in der AHS ab 2013/14 - Testen und BewertenTRANSCRIPT
Testen und BewertenFortbildungsseminar für AHS-Lehrer22.09-23.09.2011, Eisenstadt
Mag. Margarita Kolesnik-Eigentler Innsbruck
Performanz testen (nicht auswendig gelerntes)
situativer Kontext möglichst authentisch und
handlungsorientiert testen möglichst objektiv und transparent
bewerten(Hinger/Hosp)
⇨ Standardisierung und/ oder die gleichen Prinzipien des Testens bei der Testerstellung
Kommunikative Sprachtests
M. Kolesnik-Eigentler, 2011
Fremdbewertung, Peer-Bewertung, Selbstbewertung
Sprachstandtests vs. Qualifikationsprüfung ganzheitlich vs. analytisch kontinuierlich vs. punktuell formativ vs. summativ direkt vs. indirekt subjektiv vs. objektiv normorienmtiert vs. kriterienorientiert
GERS Kap. 9. Typen der Bewertung
M. Kolesnik-Eigentler, 2011
Sprachstandstest (Leistungstest, achievement test)
überprüft, ob bestimmte Ziele erreicht wurden was unterrichtet worden ist bezieht sich auf die Arbeit einer Woche, eines
Semesters, das Lehrbuch oder den Lehrplan. orientiert sich am Kurs stellt eine Binnenperspektive dar.Qualifikationsprüfung (auch:
Feststellungsprüfung; proficiency test) was jemand kann oder weiß, wenn er/sie einen
Lerngegenstand im 'wirklichen Leben' anwendet. stellt eine Außenperspektive dar
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertunghttp://www.goethe.de/Z/50/commeuro/i0.htm
Normorientierte Bewertung bringt die Lernenden in eine Rangfolge die Bewertung ihrer Leistungen erfolgt
relativ zu den anderen Lernenden der Gruppe.
Kriteriumsorientierte Bewertung der Lernende wird lediglich in Bezug auf
seine Fähigkeit in dem jeweiligen Gebiet bewertet
unabhängig von der Fähigkeit der anderen Lernenden
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Kontinuierliche Beurteilung Beurteilung von Leistungen in der Klasse, von Arbeiten und Projekten während des ganzen
Kurses durch die Lehrenden und eventuell durch die
Lernenden. Abschlussnote spiegelt den ganzen Kurs/das
Lernjahr/das Semester.Punktuelle Beurteilung (Leistungsmessung zu einem
festen Zeitpunkt) eine Prüfung oder eine anderen Form der Beurteilung,
die an einem bestimmten Tag stattfindet Was vorher stattgefunden hat, ist irrelevant entscheidend ist, was die Person zum aktuellen
Zeitpunkt tun kannM. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Direkte Beurteilung was tut der Kandidat tatsächlich Wenn z. B. eine kleine Gruppe etwas
diskutiert, dann beobachtet der Beurteilende die Leistung, vergleicht sie mit einem Kriterienraster, bezieht die Leistungen auf die passendsten Kategorien des Rasters und gibt eine Beurteilung ab.
beschränkt sich auf das Sprechen, Schreiben und Zuhören bei Interaktionen
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Indirekte Beurteilung ein Test, üblicherweise ein schriftlicher, der
Kompetenzen und Fertigkeiten prüft, die einer Leistung zugrunde liegen.
Leseverstehen z. B. kann nur indirekt überprüft werden, indem man die Lernenden dazu bringt, Belege für Verstehen dadurch liefern, dass sie Kästchen ankreuzen, Sätze ergänzen, Fragen beantworten usw.
Das Spektrum und die Beherrschung sprachlicher Mittel kann entweder direkt beurteilt werden, indem man feststellt, inwieweit sie bestimmten Kriterien entsprechen, oder indirekt dadurch, dass man die Antworten auf Testaufgaben interpretiert oder generalisiert. Ein klassischer direkter Test ist das Interview, und ein klassischer indirekter Test ist der Cloze-Test.
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Beurteilung der Performanz die Lernenden legen mündliche oder
schriftliche Beispiele ihrer Sprachproduktion in einem direkten Test
Beurteilung von Kenntnissen die Lösung von Aufgaben, die aus einem
breiten Spektrum von Aufgabentypen stammen und die einen Nachweis für den Umfang der sprachlichen Kenntnisse und der Beherrschung sprachlicher Mittel liefern sollen.
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Subjektive Beurteilung das Urteil eines Prüfenden
Objektive Beurteilung Subjektivität ist ausgeschlossenNormalerweise meint man dabei einen
indirekten Test, bei dem die Items nur eine korrekte Antwort zulassen, z. B. multiple-choice (Mehrfachwahlaufgaben).
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Reduzierung der Subjektivität bei der Beurteilung inhaltliche Vorgaben für die Beurteilung entwickeln, z. B.
basierend auf einemReferenzrahmen für den betreffenden Kontext;
sich auf gemeinsame Entscheidungen stützten bei der Auswahl von Inhalten und/oder der Beurteilung der Leistungen
Standardverfahren verwenden, die festlegen, wie geprüft wird verbindliche Bewertungsschlüssel für indirekte Tests zu
Verfügung stellen auf spezifische, klar definierte Kriterien in direkten Tests
stützen mehrfache Beurteilung und/oder die Gewichtung
verschiedener Faktoren fordern entsprechendes Training in Bezug auf
die Beurteilungsrichtlinien anbieten die Qualität von Leistungsbeurteilungen (Validität, Reliabilität)
durch eine Analyse der Prüfungsdaten kontrollieren
M. Kolesnik-Eigentler, 2011
Typen von Beurteilung und Bewertung
Ein qualifizierter Test muss die Forderungen nach Objektivität, Zuverlässigkeit (Reliabilität) und Gültigkeit (Validität) erfüllen.
Die Objektivität eines Tests ist dann gegeben, wenn die Ergebnisse einer Testuntersuchung unabhängig von der Person des Untersuchers sind.
Die Zuverlässigkeit (Reliabilität) betrifft den Exaktheitsgrad, mit dem ein Test individuelle psychische Unterschiede (Persönlichkeitsmerkmale) erfasst.
Die Gültigkeit (Validität) betrifft die Frage, inwieweit die Testergebnisse tatsächlich dasjenige Persönlichkeitsmerkmal erfassen, das durch die Testuntersuchung bestimmt werden soll.
Gütekriterien.http://www.medpsych.uni-freiburg.de/OL/glossar/body_gutekriterien.html
M. Kolesnik-Eigentler, 2011
Wen teste ich? Eine Klasse
Alle Klassen eines Jahrgangs
Warum teste ich? Schularbeit
Reifeprüfung
Was teste ich? Fertigkeiten
Kompetenzen
Wie teste ich? Testformate
Bewertungsskalen Korrekturschlüssel
Was messe ich?(Test)Konstrukt
M. Kolesnik-Eigentler, 2011
Validität Objektivität Reliabilität Praktikabilität Authentizität Washback
Testgütekriterien
M. Kolesnik-Eigentler, 2011
Validität Konstrukt- Inhalts- Augenschein- Kriteriums-
Testgütekriterien
M. Kolesnik-Eigentler, 2011
KonstruktvaliditätDas Konstrukt, z.B. die Fertigkeit Hören ist klar definiert
Das Konstrukt ist nachvollziehbar im Test abgebildet
(nicht korrekte (nicht valide) Aufgabenstellung: Schreiben Sie eine Zusammenfassung des gehörten Texts)
Validität
M. Kolesnik-Eigentler, 2011
Inhaltsvalidität
Alle Aspekte eines Konstrukts werden ausreichend gemessen
z.B. Niveaubeschreibung nach GERS
Validität
M. Kolesnik-Eigentler, 2011
Augenscheinvalidität
Schüler, Eltern, Direktion, Landesschulinspektion überzeugen, dass ich das messe, was ich messen will und was gemessen werden soll
Validität
M. Kolesnik-Eigentler, 2011
gibt die Eignung eines Messverfahrens oder einer Frage bezüglich ihrer Zielsetzung an
Eine Messung oder Befragung ist valide, wenn die erhobenen Werte geeignete Kennzahlen für die zu untersuchende Fragestellung liefern.
Beispiel ValiditätBeispielsweise ist die Anzahl der Fehltage in einer
Abteilung eine valide Kennzahl für die Gesundheit der Mitarbeiter, aber nicht für die Zufriedenheit der Mitarbeiter, da ihre Anwesenheit nicht das gleiche wie Zufriedenheit ist. Der Versuch, die Länge einer Schraube mit einem Thermometer zu messen, ist ebenfalls ein Beispiel für eine nicht-valide Messung.
http://www.bb-sbl.de/tutorial/stichproben/reliabilitaetvaliditaetobjektivitaet.html
Validität (Gültigkeit)
M. Kolesnik-Eigentler, 2011
die Antworten bzw. Messwerte sind unabhängig vom Interviewer bzw. Prüfer
Objektivität
M. Kolesnik-Eigentler, 2011
wie genau ein Test das misst, was er messen soll, ohne dass dabei die Validität berücksichtigt wird
die Angabe ob ein Messergebnis bei einem erneuten Versuch bzw. einer erneuten Befragung unter den gleichen Umständen stabil ist.
Beispiel ReliabilitätEin Beispiel für eine reliable Frage ist "Wie viele
Mitarbeiter hat Ihre Abteilung?„ Dagegen hat die Frage "Wie viele teamfähige Mitarbeiter hat ihre Abteilung" eine geringe Reliabilität, da unklar ist wie "teamfähig" definiert ist und dadurch unterschiedliche Einschätzungen zu Stande kommen können.
http://www.bb-sbl.de/tutorial/stichproben/reliabilitaetvaliditaetobjektivitaet.html
Reliabilität (Zuverlässigkeit)
M. Kolesnik-Eigentler, 2011
Wie verhält sich Lerner/in beim Test Test-Retest R. (Stabilität; Testwiederholung;
unterschiedliche Klassen) Paralleltest-R. (Äquivalenz, Teilung der Gruppe) Interne Konsistenz (Homogenität,
Testhalbierung, Items eines Tests zu einander, Kronbach Alfa)
Häufigkeiten (wie viele Schüler haben wie viel % geschafft)
TrennschärfeWie verhält sich Bewerter/in? Interrater- und Intrarater-R.
Reliabilität (Zuverlässigkeit)
M. Kolesnik-Eigentler, 2011
administrierbar• Zeit• Räumlichkeiten• Finanzielle Ressoursen• Personelle Ressoursen
messbar interpretierbar
Praktikabilität
M. Kolesnik-Eigentler, 2011
Authentizität Originaltexte Lebensnahe Aufgaben Augenscheinvalidität Erwartungen
Washback (Rückkoppelungseffekt) positiver und negativer Testen beeinflusst des Unterricht und
Lernen
Weitere Testgütekriterien
M. Kolesnik-Eigentler, 2011
Offene: Schreibaufgabe, Essay, Aufsatz Halboffene: Kurzantworten Geschlossene: C-Test, Cloze-Test, Multi-
choice, Zuordnung
◦ (Integrative: werden nicht verwendet, Vermischung der Fertigkeiten)
Testformate
M. Kolesnik-Eigentler, 2011
Allgemeine Informationen Zielgruppe Anzahl der Aufgaben Integrationen anderer Fertigkeiten oder
Kompetenzen (Ausmaß) Dauer Zielsetzung
Testspezifikationen 1
M. Kolesnik-Eigentler, 2011
Spezifische Informationen1. Merkmale der Aufgabenstellung
◦ Sprache der Arbeitsanweisungen◦ Sprachniveau der Aufgabe nach GERS
2. Merkmale der Texte◦ Diskursart◦ Themenbereiche◦ Quellen◦ Authentizität◦ Sprachliche Gestaltung◦ Sprachniveau
Testspezifikationen 2
M. Kolesnik-Eigentler, 2011
Spezifische Informationen3. Merkmale der Test-Items
◦ Testformat◦ Sprachliche Gestaltung◦ Kognitive Prozesse
4. Bewertung◦ Art, Verfahren
5. Rückmeldung◦ Qualitativ (Note, verbales Feedback, Niveaustufe nach
GERS …)
Testspezifikationen 3
M. Kolesnik-Eigentler, 2011
Fulcher, G./ Davidson, F. (2007): Language Testing and Assessment. London and New York, Routledge.
Grotjahn, R.: Testen und Evaluieren fremdsprachlicher Kompetenzen. Tübingen, Günter Narr Verlag.
Hughes, A. (1989): Testing for Language Teachers. Cambridge, CUP
Dlaska, A./ Krekeler, Ch. (2009): Sprachtests. Baltmannsweiler, Schneider Verlag Hohengehren.
Bei Erstellung dieser Präsentation wurden die Materialien des Kongresses: Die standardisierte Reifeprüfung in den Fremdsprachen im HUM-Bereich. 28.10.-29.10.2010, Innsbruck (Vortragenden Sabine Hosp und Barbara Hinger) sowie Informationen von BIFIE und BMUKK verwendet.
GERS: http://www.goethe.de/Z/50/commeuro/i0.htm
Literatur: Testen allgemein
M. Kolesnik-Eigentler, 2011