Usability Engineering 4Messmethoden der Mensch-Maschine-Systemtechnik
VL MMS Wintersemester 2014/15Professur für Prozessleittechnik
L. Urbas; J. Ziegler
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 2
Ziele und Inhalt
• Evaluationen im Usability Engineering
Einordnung, Merkmale, Ziele
Anwendungskontext und Einsatzmöglichkeiten
• Methoden der Usability Evaluation
Klassifikation und Charakterisierung ausgewählter Methoden
Anwendbarkeit und Nutzen
Ausgewählte Methoden
• Fragebögen als Messwerkzeuge für Usability Evaluationen
Charakterisierung und Aufbau von Fragebögen
Ausgewählte Fragebögen zu Usability und User Experience
Probleme bei der Nutzung von Fragebögen
TU Dresden MMST © Urbas, Ziegler 2006-2014 Folie 3
Einordnung in den Nutzungsorientierten Entwicklungszyklus nach ISO 9241-210
DIN EN ISO 9241-210 (2010) Prozess zur
Gestaltung gebrauchstauglicher interaktiver
Systeme
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 5
Evaluation
= „systematische, möglichst objektive Bewertung eines geplanten, laufenden oder abgeschlossen Projektes“ (Sarodnick 2006)
= „alle Aktivitäten und/oder Ergebnisse …, die die Bedeutung, Verwendbarkeit, Wert, Wichtigkeit, Zweckmäßigkeit, ... einer Sache beurteilen bzw. bewerten.“ (Baumgärtner 1999)
= Beschreibung, Analyse und Bewertung von Evaluationsobjekten
• mögliche Evaluationsobjekte:
Personen Umwelt- bzw. Umgebungsfaktoren
Produkte Techniken und Methoden
Zielvorgaben Programme/Projekte
Systeme/Strukturen Forschungsergebnisse
andere Evaluationen (Gediga 1996)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 6
Usability Evaluation
= Evaluation von Gebrauchstauglichkeit
zentrales Instrument des Usability Engineering
Einsatz in allen Phasen des Usability Engineering
Formativ:
entwicklungsbegleitend (z.B. Bewertung von Iterationsschritten)
Aufzeigen von Usability Problemen
Auffinden konkreter Verbesserungsmöglichkeiten
Summativ:
abschließende Bewertung der Gesamtqualität
globale Bewertung
kein Aufzeigen konkreter Verbesserungsmöglichkeiten
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 7
Evaluationsziele und -kriterien
• Zielklassifizierung von Evaluationen: (Gediga, Hamborg 2002)
„Which is better?“ - Vergleich von Varianten
„How good?“ - Erhebung der Ausprägung bestimmter Eigenschaften
„Why bad?“ - Usability Probleme aufdecken
• Klassifizierung von Evaluationsergebnisse: (Gediga, Hamborg 2002)
Quantitativ - Numerische Daten und Ergebnisse
Qualitativ - Nicht-Numerische Daten und Ergebnisse
Objektiv - Direkt beobachtbare Daten
Subjektiv - Meinungen, Ansichten, Darlegungen
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 9
Kategorien der Usability Evaluation
Nicht-Empirische Methoden:
überwiegend expertenorientiert
Usability Experten versetzen sich in Nutzer-Situation
geeignet für frühe Konzepte
Empirische Methoden:
überwiegend benutzerorientiert
Beobachtung und Befragung der Nutzer
funktionale Prototypen notwendig
Empirie: (griech.: embiría - die Erfahrung)
– auf methodischem Weg gewonnene Erfahrung
ggf. gezieltes Induzieren von Beobachtungen durch Experimente
Sammeln von Informationen/Daten durch gezielte Beobachtung
Objektivität und Wiederholbarkeit der Beobachtungen
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 10
Ausgewählte Methoden
Nicht-Empirische Methoden:
Inspektionsmethoden
Heuristische Evaluation
Cognitive Walkthrough
Formal-Analytische Methoden
GOMS-Modelle
Expertenleitfäden
Überprüfung nach Standards, Richtlinien, Guidelines
Empirische Methoden:
Usability Tests
Lautes Denken
Video-Observation
Fokusgruppen
Logfile-Analysen
Standardisierte Befragungen (Fragebögen)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 11
Heuristische Evaluation
• Ziel: Aufdecken und Identifizieren möglicher Usability Probleme bei möglichst geringem Aufwand
• wenige Usability Experten prüfen System auf Verstöße gegen eine Heuristik
Verstoß = potentielles Usability Problem
Heuristik erlaubt Problemklassifikation und Folgenabschätzung
3 bis 5 Experten können ca. 75% der Usability Probleme finden (Nielsen 1993)
• Problem: u.U. ist komplexes Domänenwissen nötig
Heuristik:
– Ausdruck erwünschter Interaktionseigenschaften zwischen Nutzer und System
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 12
Heuristische Prinzipien nach Nielsen
1. Sichtbarkeit des Systemstatus
2. Übereinstimmung zwischen System und realer Welt
3. Benutzerkontrolle und Freiheit
4. Konsistenz und Standards
5. Fehler vermeiden
6. Erkennen vor Erinnern
7. Flexibilität und effiziente Nutzung
8. Ästhetisches und minimalistisches Design
9. Unterstützung beim Erkennen, Verstehen und Bearbeiten von Fehlern
10. Hilfe und Dokumentation
(Nielsen 1994)
• Ziel: Sicherstellen, dass unerfahrenen Nutzern schneller Wissenserwerb durch Exploration des Systems möglich ist
• Durchführung:
Zerlegung von Aufgaben in idealtypische Handlungsabfolgen
kritische Analyse durch Usability Experten nach 4 Leitfragen:
1. Wird der Nutzer versuchen, den gewünschten Effekt zu erzielen?
2. Wird der Nutzer erkennen, dass die korrekte (also notwendige) Handlung ausgeführt werden kann?
3. Wird der Nutzer erkennen, dass die korrekte Handlung zum gewünschten Effekt führen wird?
4. Wird der Nutzer den Fortschritt erkennen, wenn er die korrekte Handlung ausgeführt hat?
Erfassen von Misserfolgen
LösungsfindungTU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 13
Cognitive Walkthrough (CWT)
• Mögliche Ergebnisse:
Das System ist nicht explorativ erlernbar
Ungünstige Benennungen von Bedienelementen
Diskrepanz im Aufgabenkonzept zwischen Nutzer und Entwickler
Inadäquates System-Feedback
• Voraussetzungen:
Screenshots oder Mock-Ups
Keine Versuchspersonen, keine lauffähigen Prototypen
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 14
Cognitive Walkthrough (CWT)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 15
Lautes Denken
• Testpersonen interagieren mit dem Produkt, während sie alles was sie denken und tun laut aussprechen
• Vorteile:
Benutzer teilen mit, was sie warum tun, während sie es tun (keine Rationalisierung möglich)
einfache Durchführung
• Nachteile:
Doppelbelastung: Aufgabe + lautes Denken
keine (quantitative) Performance-Messung möglich
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 16
Video-Observation / Feedback
Video-Observation:
Aufzeichnen wie Versuchsperson mit Produkt interagiert und anschließende Analyse
Video-Feedback (auch Confrontation):
Kombination aus Video-Observation und retrospektivem Laut-Denken
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 17
Video-Observation / Feedback
• Vorteile:
detaillierte Handlungsanalysen möglich
Wiederholung verpasster oder zu schneller Sequenzen möglich
nachträgliche Zeitmessungen möglich
• Nachteile:
Auswertung sehr zeitaufwendig
hoher apparativer Aufwand
keine Einblick in Denkweise des Nutzers
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 18
Usability Tests
• Empirischer Test mit echten Benutzern in kontrollierten Situationen (meist Laborsituationen)
• Vorteile:
umfangreiche qualitative Daten, die zeigen, wie echte Benutzer ein Produkt handhaben
Erhebung quantitativer Daten möglich
• Nachteile:
Tests finden zumeist in Laborsituation statt (Übertragbarkeit?)
viel Ausrüstung und Organisationsaufwand notwendig, um Tests durchzuführen
Wird ausführlich in der kommenden VL behandelt.
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 19
Weitere Methoden
Plus-Minus-Methode:
Die Testpersonen interagieren mit dem Produkt
Bewerten bestimmter Eigenschaften ihrer Wahl
Fokusgruppe:
Moderierte Diskussion mit Teilnehmern über vorgegebene Fragen zu einem Produkt und bewerten bestimmter Eigenschaften oder Funktionen
Geeignet für Akzeptanztests von Produkten / Funktionen
Pfadanalyse / Logfile-Analyse:
Aufzeichnung und Auswertung objektiv messbarer Kriterien direkt während der Programmausführung
FRAGEBÖGEN ALS MESSWERKZEUGE FÜR USABILITY EVALUATIONEN
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 20
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 21
Fragebögen
Ziel: Quantitative Messung subjektiver Nutzer-Aussagen
Gütekriterien:
Validität (Empirische Gültigkeit)
Reliabilität (formale Zuverlässigkeit)
Objektivität (Kontextunabhängigkeit)
Auswertung:
meist statistische Verfahren
Vorsicht: Ergänzen, Verändern oder Löschen einzelner Items häufig kritisch (gilt insb. auch für Übersetzungen!)
Häufig unzulässig, oder Auswertung nur mit bestimmten Verfahren (die geringere Teststärke besitzen) zulässig
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 22
Aufbau von Fragebögen
Items = Fragen/Aussagen
Offene Fragen (z.B. Wie ist Ihr Beruf?)
Geschlossene Fragen (ja/nein-Fragen, ggf. weiß nicht)
Eingruppierungsfragen
Summenfragen
Antworten
Multiple Choice (einschl. ja/nein)
Rating-Skalen (stimmt wenig, stimmt, stimmt sehr)
Rangordnung
Freitexte
Zusätzlich: Einfach-/Mehrfachauswahl, Ergänzungsoptionen
Subskalen (auch: Dimensionen) = Unterthemen
z.B.: 7 Gestaltungsanforderungen gem. ISO 9241-110
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 23
Probleme bei der Entwicklung von FB
• Entwicklung ist aufwendig, denn Validität, Reliabilität und Objektivität müssen gesichert sein
Entwurf am besten durch Experten
• deshalb: Rückgriff auf Standard-Fragebögen (falls möglich)
Orientierung an EN ISO 9241-110:
IsoMetrics-Fragebogen
ISONORM-Fragebogen
Software Usability Measurement Inventory (SUMI)
Questionnaire for User Interface Satisfaction (QUIS)
System Usability Scale (SUS)
AttrakDiff, meCUE
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 24
Der SUS-Fragebogen
Ziele
Kostengünstige allgemeine Bewertung der Gebrauchstauglichkeit eines Systems
Vergleichende Bewertung vergleichbarer Systeme sowie verschiedener Versionen desselben Systems
Aufbau
10-Items Fragebogen (orig. Englisch, deutsche Übersetzung)
5-Punkte Likert-Skala mit alternierender Polarität
Ergebnis: globaler SU-Score zwischen 0 und 100
Nutzung
nach der Nutzung des Systems vor dem Debriefing
Unmittelbare Beantwortung (nicht lange nachdenken)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 26
Der SUS-Fragebogen
Auswertung:
1. Für ungerade Fragen: u = ∑(Item-Score(2n-1) – 1);n = 1-5
2. Für gerade Fragen: g = ∑(5 – Item-Score(2n)); n = 1-5
3. SU score: S = (u + g) * 2,5
S zwischen 0 (negativ) und 100 (positiv)
Vergleiche erfolgen anhand dieser Metrik
ACHTUNG: Die Scores der einzelnen Items sind für sich nicht aussagekräftig!
Anmerkungen:
Bangor & May (2009) schlagen einen SUS mit geringfügigen Änderungen der Terminologie vor (verbesserte Verständlichkeit)
verschiedene deutsche Übersetzungen verfügbar (z.B. von Seibert-Media)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 27
5 – 1 = 4
5 – 4 = 1
2 – 1 = 1
5 – 1 = 4
2 – 1 = 1
5 – 3 = 2
2 – 1 = 1
5 – 4 = 1
5 – 1 = 4
5 – 2 = 3 22 * 2,5 = 55
[nach Brooke, 1996]
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 28
Der SUS-Fragebogen
Was bedeutet der SUS Score?
• Bangor Adjective Scale
Zuordnung von beschreibenden Adjektiven zu Wertebereichen
Erlaubt absolute (nicht vergleichende) Bewertung von Systemen
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 29
Der IsoMetrics-Fragebogen
Ziele
Detaillierte formative (IsoMetricsL) oder summative (IsometricsS) Evaluation der GT von Software
Aufbau
75 Items in 7 Dimensionen (entspr. DIN EN ISO 9241-(1)10)
Verkürzung durch Weglassen ganzer Dimensionen möglich
5-stufige Skala (stimmt nicht bis stimmt sehr) & keine Meinung
In IsoMetricsL zusätzlich
Skala zur Einschätzung der Bedeutsamkeit des Items für den Gesamteindruck
Freitextfeld für konkrete Beispiele für Nichtzustimmung (pos. Polarität) bzw. Zustimmung (neg. Polarität)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 30
Der IsoMetrics-Fragebogen
Nutzung
nach der Nutzung des Systems, einzeln oder in Gruppen
Aufwand pro Evaluator (zzgl. Vorbereitung und Auswertung):
IsometricsS: 0,5 – 1 Stunde
IsometricsL: 2 – 4 Stunden
Empfohlene Stichprobengröße:
IsometricsS: mind. 50 Personen (für mittlere Effektstärke)
IsometricsL: mind. 8 – 20 Personen (für hohe Effektstärke)
Richtwerte zur Anzahl der Items:
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 32
Der IsoMetrics-Fragebogen
Auswertung summativ:
1. Personen mit mehr als 20% „keine Meinung“ ausschließen
2. Alle „keine Meinung“ durch mittlere Kategorie ersetzen*
3. Berechnung arithmet. Mittel der Ratings pro Skala pro Person
Ratings der negativ formulierten Items: ri‘ = 6 – ri
Anzahl von Items pro Dimension und negativ gepolte Items:
*ändert die psychometrischen Eigenschaften nicht
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 33
Der IsoMetrics-Fragebogen
Auswertung formativ:
1. Mittleres Rating berechnen wie bei IsoMetricsS
2. Freitextbemerkungen sammeln, nach Ähnlichkeit ordnen und mit Herkunftsitem und angegebener Relevanz notieren
3. Redundante Bemerkungen zusammenfassen
4. Priorisieren anhand mittlerer Relevanz und Nennungshäufigkeit
Kategorie A(W): mittleres Gewicht < 3, sonst Kategorie B(W)
Kategorie A(F): Nennung durch mind. 25% der Evaluatoren, sonst B(F)
Priorität 1: Problem verursachte Arbeitsunterbrechung
Priorität 2: Zuweisung zu A(W) und A(F)
Priorität 3: Zuweisung zu A(W) und B(F) oder B(W) und A(F)
Priorität 4: Zuweisung zu B(W) und B(F)
5. Darstellung mittels Metaplan-Technik
6. Auswertung im Usability Review Priorisierter Aktionsplan
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 34
Der AttrakDiff2-Fragebogen
Ziel
Erfassung User Experience-relevanter Produktwahrnehmungen und Bewertungen
Aufbau
Semantisches Differenzial mit 28 bipolaren, 7-stufigen Items
Endpunkte bilden zwei gegensätzliche Adjektive
Items sind zusammengefasst in 4 Skalen:
Pragmatische Qualität (PQ)
Hedonische Qualität – Stimulation (HQS)
Hedonische Qualität – Identität (HQI)
Attraktivität (ATT)
Mittelwerte der Itemgruppen bilden den jeweiligen Skalenwert
Der AttrakDiff2-Fragebogen
Auswertung:
3 graphische Darstellungen:
1. Portfolio
2. Diagramm der Skalenmittelwerte
3. Attributprofil
[Hassenzahl u.a., 2008]
[www.attrakdiff.de]
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 35
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 36
Der meCUE-Fragebogen
Ziele
Mehrdimensionale Erfassung des Nutzererlebens (User Experience)
Aufbau
Modularer Aufbau nach dem CUE-Modell [Thüring&Mahlke, 2007]
7-stufiges Likert skaliertes Antwortformat
Antworten mit einheitlicher Polarität
[www.mecue.de]
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 37
Der meCUE-Fragebogen[www.mecue.de]
Modul 2 (Ausschnitt) Modul 3
Modul 4
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 38
Der meCUE-Fragebogen
Nutzung
nach der Nutzung des Systems
Unmittelbare Beantwortung (nicht lange nachdenken)
Auswertung:
1. M1-M3: Angaben die Werte 1 bis 7 zuordnen (1 = lehne völlig ab)
M4: Angabe einen Wert –5 bis 5 zuordnen (Schrittweite 0,5)
2. Arithmetisches Mittel der Itemwerte eines Moduls bilden
Anmerkungen:
Aufbau streng wissenschaftlich und theoriegeleitet
Alle vier Module einzeln validiert (und damit einzeln nutzbar)
Validiert anhand AttrakDiff, UEQ u.a.
Weitere Fragebögen
Post-Study Questionnaires:
CSUQ, QUIS, SUMI, ISONORM, UMUX, PSSUQ, UEQ, NASA-TLX…
Post-Task Questionnaires:
ASQ, SEQ, SMEQ, UME…
Auswahl ist schwierig und teilweise eine Glaubensfrage. Orientierung geben können:
Häufigkeit und Dauer der Nutzung, insb. in wissensch. Artikeln
Qualität, Umfang und wissenschaftliche Höhe der Dokumentation (insb. auch der Konstruktion und Validierung)
Komplexität und Umfang der Verwendung
Akzeptanz beim Zielpublikum
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 39
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 40
Probleme bei der Nutzung von FB
• Unterschiedliche Interpretation von Fragen und Antwortmöglichkeiten
• Antworttendenzen
methodische Reaktivität
Systematische Fehleinschätzung
Tendenz zur Mitte
• Antworten sind subjektiv und selbstreflexiv
Proband bewertet anhand einer beschränkten, individuell geprägten Erfahrungswelt
Proband rationalisiert sein Verhalten
Proband differenziert nicht nach den vorgesehenen Kriterien, sondern beurteilt den Gesamteindruck (Halo-Effekt)
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 41
Zusammenfassung
• Evaluation = „systematische, möglichst objektive Bewertungeines geplanten, laufenden oder abgeschlossen Projektes“
• zentrales Instrument in allen Phasen des Usability Engineering
Fragestellungen: How good? / Which is better? / Why bad?
• Empirische und nichtempirische Methoden
E: Usability Tests und Befragungen
NE: Inspektionsmethoden und formal-analytische Methoden
• Fragebögen dienen der quantitativen Messung subjektiver Nutzer-Aussagen
müssen hinreichend valide, reliabel und objektiv sein
aufwändig in der Entwicklung, daher Rückgriff auf Standard-FB, z.B.
SUS, IsoMetrics, AttrakDiff, meCUE
erfordern sorgfältige Nutzung und Auswertung, um Artefakte zu vermeiden
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 42
Literatur
• Baumgärtner, Peter (1999): Evaluation mediengestütztes Lernens : Theorie - Logik - Modelle. In: Kindt, Michael [Hrsg.]: Projektevaluation in der Lehre : Multimedia an Hochschulen zeigt Profil(e). Münster [u.a.], Waxmann.
• Sarodnick, F. und Brau, H. (2006): Methoden der Usability Evaluation, Wissenschaftliche Grundlagen und praktische Anwendung. Hans Huber Verlag.
• Nielsen, Jakob (1993): Usability Engineering. In: Wickens, C.D., Lee, J.D., Liu, Yili, Becker, S.E.G.(2004): An Introduction to Human FactorsEngineering. Second Edition. Pearson Prentice Hall, Upper Saddle River.
• Rubin, J.; Chisnell, D. und Spool, J. (2008): Handbook of Usability Testing: Howto Plan, Design, and Conduct Effective Tests. Second Edition. John Wiley & Sons.
TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 43
Literatur
• Bangor, A.; Miller, J. und Kortum, P. (2009): Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale”, In: Journal of Usability Studies, Vol. 4(3), S. 114–123.
• Brooke, J. (1996): SUS: A quick and dirty usability scale, In: Usability Evaluation in Industry. London, Taylor and Francis, S. 189–194.
• Gediga, G.; Hamborg, K.C. und Willumeit, H. (2000): Das IsoMetrics-Handbuch. Universität Osnabrück.
• Hassenzahl, M., Burmester, M. und Koller, F. (2008): Der User Experience (UX) auf der Spur: Zum Einsatz von www. attrakdiff. de. UsabilityProfessionals.
• Minge, M. und Riedel, L. (2013): meCUE–Ein modularer Fragebogen zur Erfassung des Nutzungserlebens. In: Computer, 8, 11.
• Thüring, M. und Mahlke, S. (2007): Usability, aesthetics and emotions in human–technology interaction. International Journal of Psychology, 42(4).