smarte annotationen. ein beitrag zur evaluation von empfehlungen für annotationen

56
SMARTE ANNOTATIONEN. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen Sandra Schön und Thomas Kurz unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger

Upload: salzburg-newmedialab

Post on 18-Dec-2014

1.613 views

Category:

Technology


3 download

DESCRIPTION

Sandra Schön und Thomas Kurzunter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger Smarte Annotationen.Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

TRANSCRIPT

Page 1: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN.

Ein Beitrag zur Evaluationvon Empfehlungen für Annotationen

Sandra Schön und Thomas Kurz

unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella,

Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger

Page 2: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Das Kompetenzzentrum für Neue Medien, Salzburg NewMediaLab – The Next Generation (SNML-TNG)arbeitet unter der Koordination der Salzburg Research Forschungsges.m.b.H. daran, digitale Inhalte zu personali-sieren, für alle auffindbar zu machen und nachhaltig zu nutzen: Dazu werden Informationen auf der Ebene der In-halte (Linked Content), der stukturierten Daten (Linked Data) und der sozialen Interaktion (Linked People) ver-knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me-dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe-tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit-teln des BMWFJ, des BMVIT und des Landes Salzburg. Homepage: www.newmedialab.at

© Salzburg NewMediaLab – The Next Generation Oktober 2011

ISBN 978-3-902448-31-6

Sandra Schön und Thomas Kurz

unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger

Smarte Annotationen.Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

Band 4 der Reihe „Linked Media Lab Reports“,herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert

Verlag und Herstellung: Salzburg Research, SalzburgUmschlaggestaltung: Daniela Gnad, Salzburg Research

Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikationin der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Page 3: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Vorwort

Das Kompetenzzentrum für neue Medien wurde beginnend mit dem Jahr 2000 als Denkfabrik für innovative Konzepte und Lösungen für die österreichische Medien- und Content-Industrie aufgebaut und bietet seitdem Technologieführern und den Betreibern fortschrittlicher Internet-Plattformen eine Heimat zur Entwicklung und Erprobung innovativer Informationssysteme und -architekturen. Gemeinsam mit führenden Vertretern der Medien- und Content-Industrie wurden dabei von Beginn an konkrete Lösungen entwickelt und erfolgreich umgesetzt.

Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia-Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des Semantic Web erstmals die Bedeutung von Inhalten auch für Computerprogram-me begreifbar zu machen. In dieser Zeit arbeitete das Salzburg NewMediaLab an der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Verwendungsbe-reich automatisch anpassen.

Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da-ten und von Personen bzw. auf deren sozialen Interaktion mit den Inhalten be-ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene Anwendun-gen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung personali-sierter Inhalte zu reduzieren.

Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter der Koordination der Salzburg Research Forschungsgesellschaft führende öster-reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG und Salzburger Nachrichten) und Softwarehäuser (mediamid, Semantic Web Compa-ny, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von Forschungsein-richtungen im Bereich der Multimedia-Technologien, des Semantic Web und der sozialen Medien (Studiengang MultiMediaTechnology der FH Salzburg, Semantic Technology Institut der Universität Innsbruck, Salzburg Research).

Wir hoffen, mit diesem vierten Band der „Linked Media Lab Reports“ einen gelun-genen Einblick in die Möglichkeiten der Bewertung von Annotationsvorschlägen und der Auswahl entsprechender Empfehlungsalgorithmen zu geben.

Georg Güntnerwww.newmedialab.atZentrumsleiter

Oktober 2011

Page 4: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen
Page 5: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Inhaltsverzeichnis

Einleitung und Hintergrund........................................................................... 7

Annotatonen: Entstehung und Einsatz..........................................................9Annotatonen .......................................................................................... 9Ziele der Annotaton...............................................................................10Annotatonsformen und Kombinatonen................................................ 10

Empfehlungssysteme und ihre Bewertung.................................................. 13Empfehlungen im Web...........................................................................13Quellen für Empfehlungssysteme...........................................................13Verfahren für Empfehlungssysteme....................................................... 14Zielsetzungen von Empfehlungssystemen.............................................. 15Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen.............15

Empfehlungssysteme für Annotatonen.......................................................19Quellen für Empfehlungen von Annotatonen........................................ 19Eingesetzte Verfahren für Empfehlungen von Annotatonen.................26Kombinaton von Quellen und Verfahren............................................... 27

Kriterien für „gute“ Empfehlungen für Annotatonen..................................29Ein Beispiel: Wie gut sind diese Vorschläge?.......................................... 29Mögliche Kriterien für gute Empfehlungen ............................................30

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen....................................................................31

Verfahren zur Bewertung der Empfehlungen für Annotatonen im Überblick..................................................................................... 31

(a) Bewertung der einzelnen Empfehlung durch Experten.....................32(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung

von Experten................................................................................33(c) Optmierung von Empfehlungsalgorithmen durch die Nutzer...........34(d) Experimenteller Einsatz: Unterschiede in der Nutzung von

Annotatonsvorschlägen ............................................................. 36(e) Experimentelle Nutzungsszenarien zur Bewertung von

Annotatonsvorschlägen.............................................................. 37(f) Vergleich der Annotatonen von Experten und den Annotatonen, die

das System vorschlagen würde.................................................... 40(g) Die „goldene Strategie“: Vergleich mit Standarddaten......................41Vergleich der Ansätze.............................................................................41

Page 6: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen..........................................................................................................43

Begrifsähnlichkeit..................................................................................43Syntaktsche Metriken............................................................................44Semantsche Metriken............................................................................44

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen.............47Mögliche Kennzahlen............................................................................. 47Anmerkung zur Bewertung von Unterschieden......................................48Diskussion.............................................................................................. 48

Page 7: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

EINLEITUNG UND HINTERGRUND

Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu können, wird mit Annotationen gearbeitet. Um den Vorgang der Annotation zu unterstützen – weil das Annotieren mühsam und zeitaufwändig ist – geben immer mehr Systeme Empfehlungen für Annotationen. Für diese ersten Zeilen sollte uns so ein System, sofern es gute Empfehlungen für Annotation gibt, das Schlagwort „Einleitung“ geben.

In diesem Lab Report werden Ansätze zusammengetragen und vorstellt, wie man die Qualität dieser Empfehlungen für Annotationen bewerten und messen kann. Damit kann ein wesentlicher Beitrag zur Qualitätssicherung der Annotationen ge-leistet werden: Je besser die Empfehlungen für Annotationen, desto besser selbst sind schließlich die Annotationen.

In diesem Lab-Bericht wird dazu zunächst einführend geklärt, was Annotationen und ihre Zielsetzungen sind und auch, welche Annotationsformen es gibt. Dazu werden wir den Forschungs- und Praxistand zu folgenden Fragen beschreiben und um eigene Ideen ergänzen. Im Vordergrund stehen dabei die folgenden Frage-stellungen:

– Wie bewertet man die Güte von Vorschlägen für Annotationen?

– Wie funktionieren (allgemein) Empfehlungssysteme und wie bewertet man sie?

– Wie funktionieren Empfehlungssysteme für Annotationen?

Die Klärung dieser Fragen sind die Voraussetzung dafür, die Hauptfrage klären zu können:

– Wie lässt sich die Qualität von Empfehlungen für Annotationen feststellen und messen?

Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren-de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in Forschungsarbeiten zum Einsatz kommen. Zusätzlich haben wir diesen Status Quo in einer Expertenrunde des Salzburg NewMediaLab Ende Mai 2011 diskutiert und unsere Erfahrungen und Ansichten dazu, auch aus einer eher praktischen Per-spektive von Archivaren und Softwarehäusern, ausgetauscht. Dieser Lab Report stellt damit eine Basis für weitere wissenschaftliche und praktische Maßnahmen dar.

7

Page 8: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Einleitung und Hintergrund

8

Page 9: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

ANNOTATIONEN: ENTSTEHUNG UND EINSATZ

Annotatonen

In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be-deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio-nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert, ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne-ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010)

Abbildung 1: Handschriftliche Notizen und Annotationen. Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (2011-03-15)

Nicht nur auf Papier, z. B. Notizen am Rand von Büchern, wird annotiert. Im World Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom-men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho-mepages oder Profile bei Facebook, annotiert werden.

9

Page 10: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Annotatonen: Entstehung und Einsatz

Ziele der Annotaton

Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate-rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab-sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un-terscheiden.

Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An-notationen vor allem um

– die Recherche der Materialien zu verbessern,

– um gute Empfehlungen für passendes eigenes weiteres Material zu geben,

– um die Materialien intelligent mit externen Daten und Ressourcen verknüp-fen zu können (z. B. mit dem Linked-Data-Ansatz) und

– um mit Methoden des Webmonitoring das eigene Material und dessen Ent-wicklung beobachten und bewerten zu können.

Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig

– für das eigene Informationsmanagement und

– um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos bei Facebook mit dem Namen von Kontakten versehen werden.

Darüberhinaus werden Annotationen auch für das eigene Lernen oder im Unter-richt eingesetzt, um damit beispielsweise wesentliche Aussagen eines Textes zu markieren oder offene Fragen zu notieren. Diese Variante steht jedoch nicht im Fokus des Beitrags.

Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo-tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei-gen wird, entstehen Annotationen nicht zwangsläufig bewusst.

Annotatonsformen und Kombinatonen

Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da-von vorgestellt.

Professionelle Klassifkaton

Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt. Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte, die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re-cherchieren kann. Mit Hilfe von kontrollierten Vokabularen und Thesauri werden Terme in Verbindung gebracht, so dass beispielsweise ein Text zu Skifahren dem Bereich „Sport“ zugeordnet werden kann. In traditionellen Medienarchiven wer-

10

Page 11: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

den Materialien zu Kategorien und Unterkategorien zugeordnet, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten.

Freie Verschlagwortung und Social Tagging

Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön-nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä-re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192).

Automatsche Annotaton

Neben den von Personen durchgeführten Annotationen gibt es auch automatisch generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern Informationen generiert. Auch können die zahlreichen (Meta-) Informationen die im Web anfallen und gesammelt werden, und bei der Entwicklung von Annotatio-nen berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er auf-gerufen, wen interessiert eine Webseite?

Kombinaton der Ansätze

Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus-drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi-schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro-blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma-chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku-mente z. B. über entsprechende Suchfunktionen nicht auffindbar.

Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl & Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati-onsextraktion) mit manuell erzeugte Metadaten durch Tagging oder Klassifikati-on.

11

Page 12: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Annotatonen: Entstehung und Einsatz

Beispielsweise wurde für das integrierte Projekt LIVE1 ein Prototyp entwickelt, der versucht, die Vorteile des traditionellen Klassifizierens mit den Vorteilen des Social Taggings zu verbinden (Güntner, Sint & Westenthaler, 2009).

1 Live Staging of Media Events, htp://ist-live.org (2009-10-12)

12

Page 13: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

EMPFEHLUNGSSYSTEME UND IHRE BEWERTUNG

In einer Veröffentlichung zu webbasierten Empfehlungssystemen hat das Salz-burg NewMediaLab bereits einiges zu ihrer Konzeption und den Möglichkeiten ih-rer Evaluation zusammengetragen. Folgendes ist eine Zusammenschau aus dieser Arbeit und gibt einen Einblick in webbasierte Empfehlungssysteme und ihre Be-wertung (Schaffert, Bürger, Hilzensauer, Schneider, Wieden-Bischof, 2010).

Empfehlungen im Web

Wachsende Datenbestände machen es schwierig sich zu orientieren. Empfeh-lungssysteme werden daher immer häufiger eingesetzt. Sie schlagen zum Beispiel Produkte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musik-gruppen oder potenzielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssys-teme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Emp-fehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter einem Empfehlungssystem ein System, „das einem Benutzer in einem gege-benen Kontext aus einer gegebenen Entitätsmenge aktiv eine Teilmenge „nützli-cher“ Elemente empfiehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufig als „Recommender-Systeme“ bezeichnet.

Quellen für Empfehlungssysteme

Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Infor-mationen über Nutzer sowie den Empfehlungselementen zur Verfügung. Bei-spielsweise sind dies (s. Schaffert u.a. 2009, 10):

– das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten,

– die Kommunikations- und Netzwerkstruktur als Möglichkeit die sozialen Ge-gebenheiten zu erfassen und zu nutzen,

– Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Webseiten zu evaluieren und zu beurteilen,

– Social Tagging als eine innovative und populäre Variante von gemeinschaft-licher Verschlagwortung von Dokumenten,

– Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Me-tainformationen analysiert und abgeleitet werden können,

– Metadatenformate als klassische Form von Metainformationen sowie schließlich

– verknüpfte Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data).

13

Page 14: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme und ihre Bewertung

Bei Empfehlungssystemen wird darüberhinaus auch damit experimentiert, bei-spielsweise Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfeh-lungen zu verbessern (Nunes & Blanc, 2008).

Empfehlungen aufgrund der unterschiedlichen Quellen werden auch folgender-maßen unterschieden: Explizite Empfehlungen sind Empfehlungen durch Bewer-tungen von Nutzern, daneben gibt es verhaltensbasierte Empfehlungen durch sonstige Aktivitäten. Nach Neumann (2009) sind mit der Nutzung dieser unter-schiedlichen Quellen auch unterschiedliche Herausforderungen verbunden.

Verfahren für Empfehlungssysteme

Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgen-den Verfahren oder eine Kombination von beiden genutzt:

– Beim inhaltsbasierten Filtern (engl. „Content Based Filtering“) beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerprofils ergeben hat, dass es ihn interessieren könnte (Klahold, 2009).

– Beim kollaborativen Filtern (engl. „Collaborative Filtering“) werden Empfeh-lungen auf der Basis von Daten zu ähnlichen Benutzerprofilen gegeben. Bei-spielsweise werden hier Bücher empfohlen, die andere Nutzer mit ähnli-chem Benutzerprofil bereits gekauft, gelesen oder positiv bewertet haben (Klahold, 2009).

Ein weiteres wichtiges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob personalisierte Empfehlungen gegeben werden oder ob für jeden Nutzer die gleichen Empfehlungen gegeben werden. Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönli-che) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005). Einen schnellen Einstieg in die unterschiedlichen Varianten der Empfehlungssys-teme zeigt ein kurzer Film des Salzburg NewMediaLab: Er zeigt, auf welche unter-schiedliche Arten man einen Süßigkeitenempfehlungsautomat konstruieren bzw. programmieren kann (vgl. Abbildung 2).

Abbildung 2: Screenshot zum Video zu Empfehlungssystemen.Quelle: Salzburg NewMediaLab, 2010. http://www.vimeo.com/10231184 (2011-03-15)

14

Page 15: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Zielsetzungen von Empfehlungssystemen

Empfehlungssysteme haben die Aufgabe, Nutzern von Anwendungen Objekte vor-zuschlagen, die für sie interessant sein können. Doch welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssystem enthält?

Unmittelbare Zwecke, die Empfehlungssysteme erfüllen sollen, sind, dass

– Nutzer für sie interessante, neuartige und nützliche Empfehlungen für Ex-perten, Produkte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhalten, und/oder

– dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden.

Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen darüberhinaus verfolgen können, sind dabei:

– mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen,

– zufriedenere Nutzer zu erhalten,

– sich durch besseren Service von Mitbewerbern zu unterscheiden sowie

– höhere Umsätze und/oder Gewinne zu sichern.

Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöh-te Umsätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäft bei Amazon oder dem iTunes Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten. Diese gilt es aber zu finden, daher sind Empfeh-lungssysteme unabdingbar (vgl. Klahold, 2009).

Strategische Ziele, die damit verfolgt werden können, sind zum Beispiel: die Nut-zer an den eigenen Service zu binden, sie zu aktivieren und/oder ein Alleinstel-lungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitig, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungs-systeme eingeführt werden können, ermöglichen Empfehlungssysteme auch leich-teres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können Betreiber, beispielsweise in Handelsplattformen, Auswirkungen der Empfehlun-gen von Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über gute Produktplatzierung und Werbung gewinnen.

Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen

Wie lassen sich Empfehlungssysteme bewerten? Die Qualität einer Empfehlung lässt sich nur dann eindeutig bewerten, wenn es anerkannte Maßstäbe und Richt-linien für eine qualitativ hochwertige Empfehlung gibt.

15

Page 16: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme und ihre Bewertung

Bewertung von Empfehlungen durch Befragungen

Relativ einfach können Empfehlungssysteme bewertet werden, bei denen die kor-rekten bzw. optimalen Lösungen eindeutig und bekannt sind. Ein Beispiel hierfür ist eine Routenempfehlung, bei der die Qualität anhand von Kilometern oder Fahr-zeit festgemacht werden kann. Wenn ein System die besten Empfehlungen gibt, arbeitet es optimal.

Auch nicht eindeutige Empfehlungen verlangen nach einer Überprüfung ihrer Qualität. Auch für sie wurden spezifische Qualitätskriterien entwickelt, um objek-tiv ihre Brauchbarkeit zu überprüfen. Klahold (2009) geht dabei auf Möglichkei-ten der Evaluation durch Befragungen ein (S. 37ff).

– Eine Möglichkeit der Überprüfung ist die Bewertung der Empfehlungen im Hinblick auf ihre Nützlichkeit aus Nutzersicht. Allerdings sind dazu ausrei-chend viele Nutzer zu befragen.

– Zudem kann das Empfehlungssystem systematisch mit Empfehlungen von Experten verglichen werden. Dazu müssen Experten auf Grundlage der zu empfehlenden Objekte Empfehlungen abgeben. Die Ähnlichkeit der Empfeh-lungen des Systems sowie der Empfehlungen der Experten kann wiederum berechnet werden und als Maßstab hergenommen werden. Eine Überein-stimmung von 100 Prozent ist hier die Zielgröße.

Bewertung von Algorithmen durch Analysen mit Testdaten

Bei der Entwicklung von Empfehlungssystemen gilt es häufig einen Vergleich un-terschiedlicher Algorithmen und Verfahren vorzunehmen. Es ist dazu jedoch nicht zwangsläufig notwendig, wie bei Klahold (2009) beschrieben, Nutzer- oder Exper-tenbefragungen durchzuführen. Wenn beispielsweise Einschätzungen der Nutzer über (zu empfehlende Elemente) oder ein paar Erkenntnisse über ihr Nutzerver-halten vorliegen, ist das folgende Verfahren möglich: Man greift darauf zurück, dass ein Empfehlungssystem „versucht, die Bewertung vorherzusagen, die der Nutzer dem Objekt geben würde, falls er es nach der Benutzung selbst bewerten müsste“ (Sorge, 2009, 19). Dazu berechnet man mit Hilfe der Algorithmen Bewer-tungen von Objekten die (eigentlich) bereits bekannt sind und vergleicht das Er-gebnis mit der tatsächlichen Bewertung.

Dieses Vorgehen wird anhand der Evaluation unterschiedlicher Empfehlungsalgo-rithmen bei Shardanand und Maes (1995) genauer beschrieben: Ziel der Untersu-chung war es, den besten Algorithmus für ein Empfehlungssystem für Musik aus-zuwählen. Basis für Empfehlungen sind dabei die Nutzerbewertungen von Musik-stücken und ein kollaboratives Filtern. Jedes Musikstück wird auf einer Skala von 1 („pass my earplugs“) bis 7 („one of my favorite few! can't live without them!!“) bewertet. Für die Evaluation der Empfehlungsalgorithmen wurden in 1.000 Nut-zerprofilen je 20 Prozent der bereits bewerteten Musikstücke in einem Nutzer-profil herausgenommen und als Zielmenge bestimmt. Die übrigen 80 Prozent der

16

Page 17: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

bewerteten Musikstücke wurden genommen, um daraus zu berechnen, welche Bewertung die Stücke aufgrund des verwendeten Algorithmus in der vorher be-stimmten Zielmenge für jeden Nutzer erhalten würden. Diese errechnete Bewer-tung wird mit der tatsächlichen Bewertung des Benutzers verglichen. Dabei kann untersucht (und verglichen) werden, inwieweit die Bewertungen durch die Algo-rithmen mit den tatsächlichen abweichen: So sollte die Bewertung nicht nur im Mittel möglichst korrekt geschätzt werden, sondern auch möglichst selten (hoch) abweichen. Weil nicht mit jedem Algorithmus gleichermaßen für jeden Fall Werte berechnet werden können, ist zudem zu untersuchen, wie hoch der Prozentsatz zu schätzender Werte ist (siehe Shardanand & Maes, 1995). Auf diese Weise ist es – vorausgesetzt, entsprechende Nutzerdaten liegen vor – sehr gut möglich (unter-schiedliche) Algorithmen zu bewerten.

Kennzahlen für Empfehlungssysteme: Precision, Recall und Novelty

Im Bereich der Empfehlungssysteme gibt es zwei weitere Größen, die bei der Ein-schätzung der Qualität eines Systems berechnet werden können (Herlocker u.a., 2004). Sie werden „Precision“ und „Recall“ genannt. Precision (engl. für „Präzisi-on“) ist dabei der Anteil der relevanten Empfehlungen an den empfohlenen Objek-ten. Recall (engl. für „Aufruf“) ist der Anteil der empfohlenen Elemente an den re-levanten Elementen. Anhand einer Darstellung lässt es sich leichter darstellen, wie sich diese beiden Maßstäbe unterscheiden.

Abbildung 3: Grundlagen für die Berechnung von Recall und Precision.Quelle: Abbildung nach einer Darstellung in Klahold, 2009, 40.

Dazu das Berechnungsbeispiel aus Klahold (2009): „Gibt es beispielsweise 10 re-levante Empfehlungselemente und sind unter 15 empfohlenen Elementen 5 rele-vante, so hat Precision einen Wert von 33% und Recall einen Wert von 50%“ (S. 41). Zwar geben die beiden Maßzahlen Prozentangaben an, die eine gewisse Ex-aktheit vorspiegeln. Da die beiden Maßzahlen jedoch wiederum auf Daten beru-hen, die mit obigen Verfahren erfasst wurden, ist ihre Genauigkeit und Brauchbar-keit nicht von vornherein gegeben.

Neben der Genauigkeit muss ein System auch wirklich neue und nicht einfach nahe liegende Empfehlungen geben (Schickel-Zuber, 2007, 17): Wenn jemand den

17

Page 18: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme und ihre Bewertung

Kinofilm über Harry Potter und den Orden der Phönix gesehen hat, wäre es auf den ersten Blick sinnvoll, ihm auch die ersten vier Harry-Potter-Filme zu empfeh-len. Allerdings ist die Wahrscheinlichkeit groß, dass er sie eh schon kennt. Die Neuartigkeit (engl. „Novelty“) einer Empfehlung zu überprüfen ist im Zweifel nur durch Befragungen der Nutzer feststellbar. Trotzdem gibt es Algorithmen, die die Neuartigkeit der Empfehlungen bewerten lassen (s. Schickel-Zuber, 2007, 19; er verweist auf Equation 2.4): Die Neuartigkeit wird dabei eruiert, in dem berechnet wird, wieviele der Empfehlungen auch in den allgemeinen Empfehlungen der Community auftreten. Je mehr es sind, desto weniger neuartig ist erwartungsge-mäß eine Empfehlung für einen Nutzer.

Diskussion dieser Verfahren

Die vorgestellten beiden Verfahren zur Bewertung der Güte von Empfehlungen von webbasierten Empfehlungen beschreiben zwei Varianten, wie vorgegangen werden kann. Prinzipiell sind beide Verfahren auch für den Einsatz für die Bewer-tung von Annotationen einzusetzen, wie wir später zeigen werden. Allerdings gibt es auch einige Unterschiede und Besonderheiten bei Annotationsvorschlägen.

18

Page 19: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

EMPFEHLUNGSSYSTEME FÜR ANNOTATIONEN

Empfehlungssysteme werden nicht nur für (Web-) Materialien allgemein einge-setzt, sondern auch im Zuge der Annotation von (Web-) Materialien und Multime-dia. Dabei werden Nutzer/innen Vorschläge für Annotationen gemacht.

Solche Empfehlungssysteme für Annotationen werden eingesetzt um:

– den Prozess der Annotation zu beschleunigen,

– den Prozess der Annotation zu verbessern sowie

– die Annotationen anzureichern.

Im folgenden beschreiben wir, auf welcher Grundlage Empfehlungen für Annota-tionen gegeben werden, welches also „Quellen“ für Empfehlungen von Annotatio-nen sein können. Geben Systeme Empfehlungen für Annotationen oder reichern sie Annotationen zusätzlich an spricht man regelmäßig, auch im deutschsprachi-gen von „Enhancing“ (engl. für Verbesserung/Anreicherung).

Quellen für Empfehlungen von Annotatonen

Wir haben bereits Quellen für Empfehlungssysteme genannt, die allgemein zur Verfügung stehen (s. Schaffert u.a. 2009, 10). Sie stehen prinzipiell auch für Emp-fehlungen für Annotationen zur Verfügung. Einen Überblick über unterschiedliche Quellen, die für Annotationsvorschläge herangezogen werden können, gibt Kock-ler (2008) in seiner Diplomarbeit. Er bezieht sich dabei speziell auf Social Tagging, die dargestellten Möglichkeiten gelten aber für Annotationen allgemein (vgl. dazu Memmel, Kockler & Schirru, 2009). Seine Darstellung wurde adaptiert und auf An-notationsvorschläge übertragen (siehe Abbildung 4).

19

Page 20: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme für Annotatonen

Abbildung 4: Quellen für Annotationsvorschläge.(in Anlehnung an Kockler, 2008 in Memmel, Kockler & Schirru, 2009)

Im Folgenden stellen wir die entsprechenden Methoden und einzelne Anwendun-gen vor.

Metadaten als Quelle für Annotatonsempfehlungen

Metadaten können als Quelle für Annoationsempfehlungen dienen. Das Exchange-able Image File Format, oder kurz Exif-Format, ist beispielsweise ein Standard für Metadaten von Fotos, die mit Digitalkameras aufgenommen werden (vgl. Wikipe-dia, 2011). Darin enthalten sind die GPS-Angaben, also der Ort der Aufnahme in Form von GPS-Koordinaten. Luo, Yu, Joshi und Hao (2008) versuchen beispiels-weise so, aus den GPS-Koordinaten von Fotos, den Aufnahmezeiten und weiteren Informationen dargestellte Events zu identifizieren, also automatisch Bildern Events zuzuordnen. Allerdings ist zu ergänzen, dass nur ein sehr kleiner Teil der im Web gesammelten Bilder derzeit mit GPS-Koordinaten ausgestattet ist und es sich hier noch um Forschungsarbeiten handelt, die erst zukünftig relevanter sind.

Texte als Quellen für automatsch generierte Annotatonsempfehlungen

Auch Texte können als Quelle für Annotationen genutzt werden. Unter anderem kommen folgende Verfahren der „Information Extraction“, also Verfahren, um aus Texten automatisch weiterführende Informationen zu erlangen, zum Einsatz. „In-formation Extraction“ definiert sich als der selektiven Strukturierung und Kombi-

20

Page 21: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

nation von impliziten oder expliziten Daten in einem oder mehreren Dokumenten. Information Extraction benutzt dazu semantische Klassifizierungen von Informa-tionen (vgl. Knoth, Schmidt & Smrž, 2008; Moens, 2006).

Dabei kommen semantische als auch statistische Verfahren zum Einsatz (s. Knoth, Schmidt & Smrž, 2008): Semantische Verfahren versuchen, u. a. aus der Satzstel-lung heraus zu erkennen, welche Bedeutung der Text hat. Statistische Verfahren benötigen große Mengen an Text, um beispielsweise Häufigkeitsanalysen durch-zuführen. Beide Ansätze werden vielerlei kombiniert.

Der SNML-Partner Semantic Web Company bietet mit dem Produkt „poolparty“ eine entsprechende Lösung an. Für unterschiedliche Branchen lässt sich auf der Homepage testen (siehe Abbildung 5), dass die Kombination aus Textextraktion und das Wissen aus kontrollierten Vokabularen zu hilfreichen Tagvorschlägen für den exemplarischen Text zur Wirtschaftspolitik aus der Wikipedia führt (u.a. Wirtschaftspolitik, Kosten, Einkommen, Finanzpolitik, u.a.).

Abbildung 5: Screenshot poolparty (Demoversion): Tags und Empfehlungen für den Wikipedia-Artikel „Wirtschaftspolitik“ [2011-07-28].

Quelle: Screenshot http://poolparty.punkt.at/demozone/stw_de/ [2011-07-28]

Multmediadaten als Quellen für automatsch generierte Annotatonsempfehlungen

Während es für Texte schon länger Vorschläge und Verfahren gibt, nehmen die Bestrebungen, automatische Annotationsempfehlungen für audiovisuelle Quell-materialien zu geben, in den letzten Jahren deutlich zu. Ein prominentes Beispiel ist die Bilder-Suchfunktion der Suchmaschine Google: Sie wertet Bilder nach den hauptsächlich verwendeten Farben, der Größe, der Art (Strichzeichnung) und vie-len weiteren Aspekten automatisch aus und ermöglicht damit den Nutzern der

21

Page 22: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme für Annotatonen

Suchmaschine Recherchemöglichkeiten, die weit über die reine Textsuche hinaus gehen.

Abbildung 6: Screenshot der Google-Bildersuche zum Begriff „Engel“.Links: Einschränkung auf „blau“, rechts auf „Clipart“

Quelle: http://www.google.de (2011-03-15)

Im Folgenden haben wir bei den größten offenen Foto- und Videoarchiven nach-geschaut, ob und (wenn möglich) wie hier Empfehlungen für Annotationen gege-ben werden. Das Ergebnis ist eindeutig: Bisher werden in diesen Systemen, zu-mindest beim Hochladen von Fotos und Videos, bisher keine Annotationsvor-schläge gegeben bzw. aus den Fotos und Videos heraus oder aus sonstigen Nutze-rinformationen heraus Annotationen erstellt.

Name Start Kategorie URL Werden Annotatio-nen vorgeschlagen?

Wenn ja, welche?

Buzznet 2005 Musik, Filme, Fotos

buzznet.com Ja, aber keine auto-matisch generier-ten, Optionen sind vorgegeben und im-mer gleich.

Fixe Tagvorschläge: Music, Fashion, Art und Pop Cul-ture

Flickr 2002 Fotos, Videos flickr.com nein (Zuordnung zu Alben)Fotki 1998 Fotos, Videos fotki.com nein (Zuordnung zu Alben)YouTube 2005 Videos youtube.com nein

Tabelle 1: Bekannte offene Foto- und Videoarchive und Vorschläge für Annotationen (beim Hochladen).

Quelle: Startjahr, Nutzerzahlen und Kategorie nach www.linqia.com, Angaben zum Tagging: eigene Recherchen

Es gibt aber im gesamten Multimedia-Bereich zahlreiche Ansätze und Verfahren, die Versuchen, automatisch generierte Annotationen zu erstellen.

Für Fotos ist der Lucence-Ansatz ein relativ bekanntes Verfahren, bei dem Farben und Texturen von Fotos ausgewertet werden (Lux & Chatzichristofis, 2008). Ein System, das mit Maschinenlernen arbeitet und relativ erfolgreiche auch Tiere und

22

Page 23: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Landschaftsstrukturen auf Fotos automatisch erkennen kann, wenn es mit ent-sprechenden Testdaten trainiert wurde, ist der Ansatz „Supervised Multiclass La-beling“ (Carneiro et al., 2007; vgl. Abbildung 7).

Abbildung 7: Modellierung von semantischen Klassen von Fotografien (a) Auswertung eines Bildes, (b) Auswertung der Texturen von Fotos einer Klasse (mit der gleichen Beschreibung, hier: mountain)

(c) Vergleich mit Klassen.Quelle: Carneiro et al., 2007; figure 1, S. 396.

Es gibt zahlreiche Spezialanwendungen für automatische Bild- und Mustererken-nung bzw. entsprechende Annotation in Videos: Um festzustellen, wo und wie häufig das eigene Firmenlogo in Videos auftaucht; beispielsweise als Sponsor ei-nes Autorennens, wurde so eine eigene Anwendung entwickelt, die sich „Brand Detector“2 bezeichnet.

Im Bereich der Musikdatenbanken hat Turnbull (2005) vier Ansätze beschrieben, wie versucht wird, aus Musikdateien zu erkennen, welchem Genre die Musik zu-zuordnen ist (vgl. Tabelle 2).

2 vgl. htp://www.hs-art.com/html/products/brand_detector.html (2011-04-15)

23

Page 24: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme für Annotatonen

Tabelle 2: Systeme und die verwendeten Extraktionsmethoden zur Genre-Zuordnung von Musikstücken.

Quelle: Turnbull (2005), Tabelle 1

Auch das Annotieren von Audio- und Videoaufzeichnungen stellt vor größere Her-ausforderungen. So werden immer häufiger Vorlesungen aufgenommen und Stu-dierenden zur Verfügung gestellt. Damit diese dann gezielt zu Stellen springen können oder auch nach Begriffen recherchieren können muss das Audio- oder Vi-deomaterial erst mit Annotationen versehen werden. Dazu werden eine Reihe un-terschiedlicher Verfahren genutzt, zum Beispiel der Spracherkennung (Zupancic, 2006). Aktuelle Experimente an der TU Graz kombinieren hier Verfahren, indem Texterkennungsprogramme den Text auf den aufgenommenen Folien auswerten und als Suchbegriffe für die Spracherkennung verwenden.

Insgesamt zeigen die Recherchen, dass es eine Reihe von Anwendungen gibt, die automatisch Annotationen erzeugen und mit diesen arbeiten, dass diese jedoch nicht immer Nutzern zur Annotation empfohlen werden. Dies kann auch daran lie-gen, dass die automatischen Annotationen als „perfekt“ und keiner weiteren Ana-lyse bedürftig eingeschätzt werden. So sind bei der Größe eines Bildes keine wei-tere Abstimmungen mehr notwendig.

Es ist also nicht so einfach, Systeme zu finden, bei denen aus Multimediadateien automatisch generierte Vorschläge für Annotationen erfolgen. Ein Beispiel ist hier die „Gesichtserkennung“ bei Facebook: Lädt man ein Foto bei Facebook hoch, er-kennt Facebook automatisch Gesichter (markiert mit dem Rahmen) und schlägt dann automatisch die Namen der Kontakte bei Facebook vor (vgl. Abbildung 8).

24

Page 25: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Abbildung 8: Erkennen von Gesichtern bei Facebook (und Vorschlag der Facebook-Kontakte).Quelle: Facebook.com (2011-03-15)

Verknüpfe Daten und Schemata als Quelle für Annotatonsempfehlungen

Thesauri, Ontologien und Linked Data können Quellen für Annotationsempfehlun-gen sein. Im Forschungsprojekt KiWi3 wurde mit diesem Ansatz versucht, die Vor-schläge für andere Wiki-Inhalte zu verbessern und auch semantische Empfehlun-gen einzubauen, die auf den Tags der Nutzer des semantischen Wikis basieren (vgl. Dolog, 2009).

Social Tagging als Quelle für Annotatonsempfehlungen

Vielfach werden (existierende) Tags für Webmaterialien Nutzern als Annotation vorgeschlagen. Dabei werden unter anderen vorgeschlagen:

– Tags, mit denen andere Nutzer das Material gekennzeichnet haben,

– Tags, die man bisher verwendet hat,

– Tags, die häufig verwendet werden oder

– Tags, die bei ähnlichen Materialien verwendet werden.

Delicious und MisterWong sind hier, als Social-Tagging-Plattformen zu allererst zu nennen. Nutzt man zum Beispiel Delicious und will man eine Webseite ver-schlagworten, erhält man Vorschläge für Tags, die man bereits genutzt hat. Es ist zu vermuten, dass diese nicht beliebig vorgeschlagen werden, sondern dass Deli-cious hier eine Auswahl vornimmt, eventuell durch Extraktionsmethoden. Zusätz-lich werden Tags vorgeschlagen, die besonders häufig genutzt werden und wie-derum zur Webseite passen (siehe Abbildung 9; rechts unten „Recommended Tags“).

3 htp://www.kiwi-project.eu, Stand 02/2011

25

Page 26: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme für Annotatonen

Abbildung 9: Screenshot von Delicious beim Taggen der SNML-Homepage.Quelle: Delicious, htttp://newmedialab.at (2011-03-15)

Weitere Quellen für die Empfehlungen für Annotatonen

Quelle für Empfehlungen kann auch das eigene Nutzerverhalten oder auch die be-stehenden Vernetzungen und sozialen Kontakte sein. Es wurden bereits zwei Bei-spiele dafür genannt:

– Bei Delicious werden Tags vorgeschlagen, die man bereits vergeben hat (vgl. Abbildung 9).

– Bei Facebook werden bei Fotos Namen der eigenen Facebook-Kontakte zur Markierung der Fotos vorgeschlagen (vgl. Abbildung 8).

Insgesamt zeigt sich, dass oft mehrere Quellen und Verfahren kombiniert genutzt werden, wie auch die folgenden Ausführungen zeigen.

Eingesetzte Verfahren für Empfehlungen von Annotatonen

Wie allgemein bei Empfehlungssystemen gibt es auch bei den Empfehlungen von Annotationen zwei Verfahren: das inhaltsbasierte Filtern und das kollaborative Filtern.

In aller Regel werden Annotationen auf Grundlage der Inhalte gegeben: Werden Empfehlungen für Annotationen gegeben, wird in der Regel das inhaltsbasierte Filtern eingesetzt, dabei beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Wie dargestellt kommen hier häufig Verfahren der Datenextraktion zum Einsatz, oft wird dabei auch auf Thesauri zurückgegrif-fen.

26

Page 27: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Es gibt aber auch Ansätze bei Empfehlungen von Annotationen, bei denen kollabo-ratives Filtern (engl. „Collaborative Filtering“) eingesetzt wird: Es werden z. B. bei Delicous Tags vorgeschlagen, die sehr häufig verwendet werden. Auch gibt es viel-fach personalisierte Vorschläge („bereits verwendete Tags“).

Kombinaton von Quellen und Verfahren

Wie bei den Empfehlungssystemen allgemein setzen auch Empfehlungssysteme für Annotationen häufig gleichzeitig auf mehrere Quellen und Verfahren um ihre Ergebnisse zu optimieren.

Folgendes Beispiel für einen Tag-Recommender stammt aus Schaffert u.a. (2009, 50ff): Im Projekt „Interedu“4 des Salzburg NewMediaLab wurde ein System entwi-ckelt, das das Tagging von Lernressourcen unterstützt, indem es Tagvorschläge generiert. Dabei kommen inhaltsbasiertes als auch kollaboratives Filtern zum Ein-satz:

– Die Hauptkomponentenanalyse ist ein statistisches Verfahren, dass mit Hilfe einer Analyse von „Trainingsdaten“ Rückschlüsse auf das Vorschlagen von Tags geben kann: Dazu werden die Texte der Trainingsdaten in Schlüssel-worte zerlegt, Stoppworte gefiltert und Stammformen gebildet, dann wird eine Dokument-Term-Matrix angelegt und Vektoren beschrieben. Weil allein durch das Vorkommen eines Schlüsselwortes nicht die Relevanz gezeigt ist, wird mit dem TF-IDF-Verfahren (Term Frequency/Inverse Document Fre-quency) festgestellt, ob es vergleichsweise häufig vorkommt, also „beson-ders“ ist. Ziel der Hauptkomponentenanalyse ist es nun, die bestehende Ma-trix so in der Anzahl der Dimensionen zu reduzieren, dass alle Hauptrichtun-gen vertreten sind.

– Mit KEA können Texte klassifiziert werden und sogenannte Keyphrases oder „Schlüsselwortketten“ in Texten erkannt werden. KEA unterstützt zwei Ar-ten von Klassifizierungen: die freie Klassifizierung (Schlüsselwortextrakti-on) sowie die eingeschränkte Klassifizierung (Kategorisierung), bei der der Text in eine Kategorie eingeordnet wird.

– Auch Assoziationsregeln können zum Vorschlagen von Tags oder Schlüssel-worte eingesetzt werden. Wenn eine Menge von Dokumenten signifikant häufig mit den selben Tags oder Schlüsselworten versehen wurde, kann ein Benutzer von dem Wissen der Vorgänger profitieren, indem seine Tags ver-vollständigt werden. Das Konzept der Assoziationsregeln setzt somit voraus, dass schon Tags vergeben worden sind.

Neben inhaltsbasiertem Filtern wird also auch kollaboratives Filtern einge-setzt. Andere Verfahren setzten wiederum deutlich stärker auf das Tagging-Verhalten anderer Nutzer (s. Mishne, 2006).

4 Partner: Salzburg Research, Educaton Highway und Punkt Netservices

27

Page 28: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Empfehlungssysteme für Annotatonen

28

Page 29: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

KRITERIEN FÜR „GUTE“ EMPFEHLUNGEN FÜR ANNOTATIONEN

Man möchte nun also herausbekommen, ob das eine oder andere Vorgehen beim Vorschlagen von Annotationen besser oder schlechter ist.

Ein Beispiel: Wie gut sind diese Vorschläge?

Werden Empfehlungen für Annotationen gegeben, ist nicht von vorne herein klar, ob oder wie gut diese Annotationen sind. Am Beispiel eines Systems, das automa-tisch Bilder nach Texturen und Merkmalen auswertet (Carneiro et al, 2007, siehe Abbildung 10), wird deutlich, dass es nicht simpel ist zu bewerten, wie gut die Vorschläge des Systems sind: So verwendet der menschliche Experte beim ersten Bild links oben die Schlagworte „Himmel, Jet, Flugzeug, Rauch“ und das System schlägt vor „Flugzeug, Jet, Rauch, Flug, Stützbalken“. Es ist schnell ersichtlich, dass das System treffende Vorschläge macht und weniger zutreffende. Doch wie lässt sich die Qualität genauer beschreiben?

Abbildung 10: Annotationsvorschläge eines Systems und Annotationen eines Experten.Quelle: Carneiro et al., 2007; figure 7, S. 405.

Besonders wichtig ist es Aussagen zur Qualität zu erhalten, wenn unterschiedliche Empfehlungssysteme für Annotationen verglichen werden sollen: Macht Algorith-mus A oder Algorithmus B bessere Vorschläge für Annotationen? Hier Entschei-dungen zu treffen ist nicht trivial.

29

Page 30: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Kriterien für „gute“ Empfehlungen für Annotatonen

Mögliche Kriterien für gute Empfehlungen

Gute Empfehlungen für Annotationen zeichnen laut Literatur und der Diskussion mit den SNML-Experten darin aus, dass

– sie, ganz allgemein gesprochen die wesentlichen Inhalte und Konzepte er-fassen.

Konkreter bedeutet dies unter anderem, dass diese Annotationsvorschläge

– von Experten genutzt werden,

– sie mit den Annotationen von Experten übereinstimmen,

– sie nicht zu allgemein sind und möglichst genau ein Material beschreiben und eindeutig sind,

– ähnliche Materialien auf ähnliche Arten und Weisen beschreiben,

– entsprechenden Thesauri u.ä. entsprechenden Vereinbarungen entspre-chen,

– häufig gewählt werden,

– ggf. personalisiert sind, also an die Bedürfnisse eines Nutzer(-kreises) an-gepasst sind,

– effektiv und im Arbeitsprozess integriert sind sowie

– hilfreich und brauchbar sind für weitere Services (z. B. Rechercheanfra-gen).

Für Praktiker/innen, insbesondere die Archivare des ORF, wurde darüberhinaus als ein wesentliches Kriterium für gute Annotationsvorschläge ein System ge-nannt, das lernt, also aus guten bzw. schlechten Vorschlägen lernt und entspre-chend die Vorschläge verbessert.

Diese Überlegungen helfen bei der Entwicklung von entsprechenden Bewertungs-verfahren.

30

Page 31: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

METHODISCHE ANSÄTZE ZUR EVALUATION DER QUALITÄT VON ANNO-TATIONSVORSCHLÄGEN

Im diesem Abschnitt werden mögliche Ansätze vorgestellt, wie unterschiedliche Algorithmen und Verfahren für die Generierung von Vorschlägen für Annotatio-nen bewertet und verglichen werden können. Es geht also darum, Handwerkszeug und Methoden zu ermitteln, die die Auswahl und Bestimmung von besseren Algo-rithmen zur Empfehlung von Annotationen unterstützen.

Das angestrebte Ergebnis ist also jeweils (vereinfacht) eine Aussage der Art

– Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4

– Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6

Ziel der Evaluation der Qualität von Empfehlungen für Annotationen soll also je-weils eine begründete Wahl von unterschiedlichen Algorithmen für die Annotati-onsvorschläge sein.

Verfahren zur Bewertung der Empfehlungen für Annotatonen im Über-blick

Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol-genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe-rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in-nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten:

– (a) Befragung von Experten zur Qualität der empfohlenen Annotationen,

– (b) direkter Vergleich der Annotationsempfehlungen durch Befragung von Experten,

– (c) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An-satz),

– (d) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations-vorschlägen) sowie

– (e) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor-schlägen.

Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis-tierende Datensätze genutzt werden können.

31

Page 32: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

– (f) Vergleich der Annotationen von Experten und mit den Annotationen, die das System vorschlagen würde, sowie

– (g) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten.

Abschließend werden all diese Ansätze noch vergleichend dargestellt.

(a) Bewertung der einzelnen Empfehlung durch Experten

Hier können Anleihen aus Arbeiten genommen werden, bei denen die Qualität au-tomatischer Annotationen evaluiert wurde.

Beispiel: In Tabelle 3 ist exemplarisch das Bewertungsschema einer Software zur Genomentschlüsselung abgebildet. Experten wurden gebeten, mit dieser Hilfe festzu-stellen, wie gut (high, general oder low) die Software hier jeweils ist.

Evaluaton Criteria for GO term assignment Criteria for protein associaton

HighThe GO term assignment was correct or close to what a curator would choose, gi -ven the evidence text.

The protein mentoned in the evidence text correctly represented the associated UniProt accession (correct species).

General

The GO term assignment was in the cor-rect lineage, given the evidence text, but was too high level (parent of the correct GO term) e.g. biological_process or too specifc.

The evidence text did not support anno-taton to the associated UniProt accessi-on but was generally correct for the pro-tein family or orthologs (non-human spe-cies).

Low

The evidence text did not support the GO term assignment. Note: The GO term may have been correct for the protein but the evidence text did not support it.

The evidence text did not menton the correct protein (e.g. for Rev7 protein (li-gand) incorrect evidence text referred to 'Rev7 receptor') or protein family.

Tabelle 3: Evaluationskriterien für automatische Annotationen einer Software zur Genomentschlüsselung. Quelle: Camon et al. 2005, Tabelle 3

Sollen mehrere Algorithmen für Annotationsvorschläge verglichen werden, müs-sen folglich Experten gebeten werden, Annotationsvorschläge unterschiedlicher Herkunft zu beurteilen. Im Anschluss kann dann beispielsweise berechnet wer-den, wie hoch die mittlere Qualität der Annotationsempfehlungen beim Algorith-mus A im Unterschied zum Algorithmus B ist.

32

Page 33: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

(a) Bewertung der Empfehlung durch Experten

Kurzbeschreibung Experten bewerten die Qualität der Annotatonen anhand von ausge-wählten Kriterien (z. B. Korrektheit, Eindeutgkeit).

Herausforderungen Für ein solches Verfahren ist es notwendig, festzulegen, was geeignete und wichtge Qualitätskriterien für Annotatonen sind – dies variiert nach Einsatzgebiet ggf. stark.

Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig.

Um zu aussagekräfigen Ergebnissen zu gelangen, die es erlauben, unter-schiedliche Algorithmen zu unterscheiden, sind umfangreiche Datener-hebungen notwendig. Es sollten dabei die Annotatonsvorschläge für je -weils die gleichen Materialien bewertet werden.

Chancen Bei entsprechender (kaum zu realisierender) Datenlage ein höchst ver-trauenswürdiges Verfahren.

Beispiele für den Ein-satz

Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-schlägen eingesetzt wurde.

(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten

Ein ähnliches Design ist die gleichzeitige Anzeige und der direkte Vergleich von den Annotationsempfehlungen auf der Grundlage unterschiedlicher Empfehlun-gen. Experten können hier direkt und vergleichend entscheiden, welches Vorge-hen bessere Annotationsempfehlungen gibt.

Beispiel: Der Nutzer kann bewerten, ob ihm die Annotationsvorschläge des Verfah-rens A oder des Verfahrens B besser gefallen (exakter sind usw.)

33

Page 34: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten

Kurzbeschreibung Experten bewerten die Qualität der Annotatonen von zwei Algorithmen anhand von ausgewählten Kriterien (z. B. Korrektheit, Eindeutgkeit) im Hinblick auf die „besseren“ Annotatosvorschläge.

Herausforderungen Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig.

Die Experten sollten dabei nicht wissen, welche Empfehlungen jeweils mit welchem Verfahren entstanden sind („blindes“ Review).

Das Verfahren macht nur bei Materialien Sinn, bei denen die Algorith-men unterschiedliche Vorschläge machen: Diese könnten auch gezielt bewertet werden.

Chancen Ökonomischer als Verfahren (a)

Beispiele für den Ein-satz

Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-schlägen eingesetzt wurde.

(c) Optmierung von Empfehlungsalgorithmen durch die Nutzer

Wenn das System von Experten genutzt wird, kann im Vertrauen auf ihre Beurtei-lungskompetenz auch auf folgende Weise festgestellt werden, welche Algorithmen und Verfahren für sie besonders wertvolle Annotationsvorschläge machen:

Beispiel: Mit der ALOE-Plattform wird derzeit versucht, eine Schnittstelle zu entwi-ckeln, die es Nutzern erlaubt, selbst die Regeln für die Erstellung der Tag-Vorschläge zu steuern. Wie die Abbildung der derzeitigen Nutzeroberfläche zeigt (s. Abbildung11. S. 35), kann beispielsweise vom Nutzer festgelegt werden, ob Tag-Vorschläge aus dem Tagging-Verhalten aller ALOE-Nutzer generiert werden sollen, oder ob nur Kontakte einbezogen werden sollen.

34

Page 35: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge.Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688

35

Page 36: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

(c) Optmierung von Empfehlungsalgorithmen durch die Nutzer

Kurzbeschreibung Nutzer wählen und konfgurieren selbst im Rahmen der Systemnutzung die entsprechenden Verfahren für die Annotatonsempfehlungen.

Herausforderungen Dieses Verfahren setzt voraus, dass sie Nutzer ständig und immer wieder überprüfen, ob und welche Verfahren ihnen besonders gute Annotaton -vorschläge liefert und sie auch entsprechendes Wissen und Wollen mit-bringen.Objektv gültge Ergebnisse können so nur eingeschränkt ermitelt wer-den.

Chancen Wird ein solches Verfahren eingesetzt, können unterschiedliche Vorlie-ben von Experten festgestellt werden. Durch das ofene Verfahren sind so auch neuartge Einsichten möglich.

Beispiele für den Ein-satz

Inwieweit aus dem Einsatz von ALOE (siehe Memmel, Kockler & Schirru (2009) auch Empfehlungen für bestmmte Verfahren abgeleitet werden, ist unklar.

(d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotat-onsvorschlägen

Sollen mehrere Empfehlungsalgorithmen miteinander verglichen werden, kann auch das Verhalten der Nutzer in laufenden Systemen genutzt werden. Dazu müs-sen ausgewählten Nutzergruppen Empfehlungen für Annotationen auf Grundlage von unterschiedlichen Empfehlungsalgorithmen gegeben werden und verglichen werden, wie häufig jeweils den Empfehlungen „Folge geleistet wird“ (Vergleichs-gruppendesign).

Beispiel: Nutzergruppe A erhält Vorschläge für Annotationen nach dem Verfahren A, Nutzergruppe B erhält Vorschläge für Annotationen nach dem Verfahren B. Welche Nutzergruppe wählt mehr der Vorschläge?

Auch könnte man, sofern Nutzer gleichzeitig mehrere Empfehlungen erhalten, be-obachten, welcher Empfehlung sie eher nachgehen und den dahinterliegenden Al-gorithmen dafür „Punkte“ geben.

Beispiel: Der Nutzer schreibt einen Text und erhält eine Reihe von Vorschlägen für Annotationen. Davon sind einige das Ergebnis des Verfahrens A, andere Ergebnisse des Verfahrens B. Wählt der Nutzer mehr Vorschläge des Verfahrens A oder B?

Es ist jedoch nicht damit getan, zu bewerten wie oft die Vorschläge auch akzep-tiert werden. Es ist auch wichtig festzustellen, welche Empfehlungen ein System nicht gibt oder wo die Empfehlungen unzureichend, beispielsweise zu allgemein, sind.

Beispiel: Wie in den beiden vorherigen Beispielen wird gleichzeitig bewertet, wie viele und auch welche zusätzlichen Annotationen Nutzer machen.

36

Page 37: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Um zu bewerten, wie weit die ergänzenden Annotationen der Nutzer von den An-notationsvorschlägen entfernt sind, sind die Hinweise auf S. 43ff hilfreich.

(d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen

Kurzbeschreibung Es wird ausgewertet, wie häufg Vorschläge angenommen werden bzw. eigene Ergänzungen gemacht werden (und ggf. wie weit sie von den Vor-schlägen abweichen)

Herausforderungen Es ist ggf. ein eigenes Tool zu entwickeln bzw. das Tool anzupassen.Es ist schwer zu sehen, warum Vorschläge nicht genommen werden (d.h., wie weit sie von einem guten Vorschlag enternt liegen).

Chancen Ggf. kann dieses Verfahren im laufenden Betrieb eingesetzt werden und so relatv einfach (bei entsprechenden Nutzerzahlen) viele Daten gesam-melt werden.

Beispiele für den Ein-satz

Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren in der be -schriebenen Weise bereits zur vergleichenden Bewertung von Algorith-men zur Annotatonsvorschlägen eingesetzt wurde.

Dass Vorschläge genutzt werden, wird jedoch gelegentlich als Indiz für die Qualität von Annotatonsvorschlägen gesehen.

(e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatons-vorschlägen

Bei den bisherigen Verfahren wurde jeweils bei der Entstehung bzw. Wahl der An-notationsvorschläge angesetzt und aus dem Verhalten von Experten oder Nutzern Ableitungen zur Qualität der Annotationsvorschläge gewonnen. Ein anderer An-satz besteht in der Analyse davon, wie brauchbar Annotationen bzw. Annotations-vorschläge für bestimmte Nutzungsszenarien sind.

Alle vorgestellten Verfahren finden auf der Ebene der einzelnen Empfehlungen von Annotationen für Webmaterialien statt. Darüberhinaus könnte man, sofern ein bestimmtes Empfehlungssystem für Annotationen im Einsatz ist, auch der Ebene der Nutzung Vergleiche ziehen.

Beispiel: Man lässt Nutzer Ressourcen suchen und stoppt die Zeit, bis sie Materialien finden die mit Hilfe von Annotationen, die mit dem Vorschlagsalgorithmus A gene-riert wurden. Vergleichsweise wird untersucht, ob dies (schneller) mit den Materiali-en gelingt, die mit dem Vorschlagsalgorithmus B generiert.

Denkbar ist auch, Systeme zu vergleichen, wenn bekannt ist, dass unterschiedliche Annotationsempfehlungen im Einsatz sind.

37

Page 38: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

Beispiel: Man weiss von System A, dass es Annotationvorschläge nach dem Verfah-ren A macht, beim System B wird das Verfahren B genutzt. Vorausgesetzt, es wird das gleiche Material (z. B. Bücher, Musikstücke, usw.) gekennzeichnet, kann unter-sucht werden, bei welchem System schneller (oder „besser“) recherchiert werden kann.

In einer unveröffentlichten Studie wurde so verglichen, wie die Recherche mit Hil-fe von Delicious (bei dem Nutzer taggen) im Vergleich zu Suchmaschinen und Webverzeichnissen abschneidet (s. Wichowski, 2009): Morrison (2007) stellte da-bei fest, dass Delicious hier einen knappen zweiten Platz einnimmt. Zudem stellte er jedoch fest, dass eine Kombination der Delicous-Tags mit einem kontrollierten Vokabular bessere Ergebnisse liefert als die Recherche in Webverzeichnissen.

Parallel dazu könnte man so ein System X, bei dem der Empfehlungsalgorithmus Y für Annotationen eingesetzt wird, mit einem System W vergleichen, bei dem der Empfehlungsalgorithmus Z eingesetzt wird, sofern eine Übereinstimmung der In-halte grundsätzlich gegeben ist. Dies ist beispielsweise im Bereich von Musik-stücken, von Buchbeschreibungen oder auch einer Best-Of-Liste von Websiten durchaus realistisch.

Sogenannte „Ontogames“ werden entwickelt und konzipiert um Annotationen für (oft Multimedia-) Content zu erhalten, der sonst nur schwer zu erhalten sind. Durch mitreissende, spannende Spielszenarios werden Spieler beispielsweise auf-gefordert möglichst schnell Schlagworte einzutippen bei denen Spielerteams mög-lichst viele Übereinstimmungen haben (und gegen andere Teams antreten). – So-weit zumindest kurz zusammengefasst die erste Spielidee eines „Ontogames“ wie sie in der Gruppe um von Ahn entwickelt wurden.

Betrachtet man Ontogames, beispielsweise die Sammlung auf der Website ontoga-me.org, fällt es nicht schwer daraus Spielideen abzuleiten, die es ermöglichen, die Annotationsvorschläge unterschiedlicher Annotationsvorschläge „spielerisch“ be-werten zu lassen.

Dazu eine ausführlichere Beschreibung eines Spiels: Die Idee des Spiels „Phetch“ ist es, mehr Informationen zu Bildern zu bekommen (vgl. von Ahn et al., 2006): Das Online-Spiel ist für je drei bis fünf Spieler entwickelt. Einer der Spieler wird zufällig als „Beschreiber“ ausgewählt, die anderen sind die „Sucher“. Der „Be-schreiber“ erhält vom Spiel ein Bild vorgelegt, das er mit einem kurzen Text be-schreiben soll, beispielsweise mit „ein weißes Gespenst steht auf der Brücke und schreit“. Die Sucher, die das Bild nicht gesehen haben, müssen nun möglichst schnell das richtige Bild mit Hilfe einer Bildersuchmaschine finden, indem sie dort nach passenden Suchbegriffen recherchieren und sich dann für ein Bild entschei-den. Wer als erstes das richtige Bild wählt, erhält Punkte und ist in der nächsten Runde der „Beschreiber“. Wenn das richtige Bild gefunden wurde, erhält natürlich auch der „Beschreiber“ Punkte. Bei folgendem Foto würden die Beschreibungen bei Phetch folgendermaßen lauten: „halb-Mann-halb-Frau mit schwarzem Haar“

38

Page 39: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

sowie „eine abstrakte Zeichnung mit einem Mann mit einer Violine und einer Frau mit einer Flöte“ (s. von Ahn et al., 2006).

Abbildung 12: Beispielabbildungen zur Beschreibung des Spieles „Phetch“.Quelle: von Ahn et al., 2006, Abbildung 1

Mit Hilfe dieses Spiels können also gute, hilfreiche Beschreibungen für Bilder ent-wickelt und validiert werden; durch den Spielcharakter kann dies mitunter recht schnell gehen, so dass in kurzer Zeit eine große Zahl von Bildern beschrieben wird. Im Vergleich mit einer Spiel-Variante (dem ESP-Game), bei der nur Schlag-worte eingegeben werden sollen zeigt sich, dass Phetch-Beschreibungen in 98,5 Prozent der Fälle richtig identifiziert wurden, hingegen traf dies nur bei 73,5 Pro-zent der Bilder mit ESP-Tags zu (von Ahn et al., 2006, 81).

Unter dem Schlagwort „Ontogames“ wurden wie erwähnt in den letzten Jahren zahlreiche Ideen entwickelt, wie spielerisch Annotationen gesammelt werden können und wie diese (siehe oben) auch verglichen und bewertet werden könn-ten. Daraus lassen sich auch Spiele entwicklen und ableiten, die bei der Evaluation von Annotationsvorschlägen unterstützen können.

Beispiel: In einem Spiel werden Annotationvorschläge für ein Bild angezeigt, die mit dem Algorithmus A generiert wurden, dazu das dazugehörige Bild und drei weitere Bilder aus einer Datenbank. Die Spieler sind aufgefordert, möglichst schnell das kor-rekte Bild auszuwählen. In der zweiten Runde stammt bei einem neuen Bild die Be-schreibung aus dem Algorithmus B. Die Daten werden im Hinblick darauf ausgewer-tet, wie häufig und wie schnell die Spieler die korrekten Annotationen (je Empfeh-lungsalgorithmus A oder B) gewählt haben.

39

Page 40: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

(e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen

Kurzbeschreibung Die Qualität von Annotatonsvorschlägen kann spielerisch überprüf wer-den wenn es gelingt, ein anregendes Spiel zu kreieren, durch das indirekt die Qualität der Annotatonsvorschläge überprüf wird (z. B. die Spieler die Vorschläge des Vorschlagsalgorithmus A erhalten systematsch mehr Punkte als Spieler, die Vorschläge des Vorschlagsalgorithmus B erhalten).

Herausforderungen Eine solche Spielidee und Anwendung muss erst entwickelt werden.

Chancen Bei Gestaltung eines spannenden Spiels könnte es gelingen, hier relatv viele und gute Daten zu erhalten. Im Fokus solches Verfahren steht der „Gebrauchswert“ von Annotato-nen und weniger ihre abstrakte „Qualität“.

Beispiele für den Ein-satz

Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-schlägen eingesetzt wurde.

(f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde

Beim vorherigen Abschnitt zur Bewertung von Empfehlungssystemen (vgl. S. 16 in diesem Band) wurde bereits ein Verfahren beschrieben, das auch für Bewer-tung von Annotationsvorschlägen eingesetzt werden kann. Es wird im folgenden allgemein beschrieben.

Beispiel: Man nehme Ressourcen und ihre von Experten vorgenommenen Annotatio-nen (oder eine Auswahl davon). Dann lässt man das Empfehlungssystem Annotatio-nen für die Ressourcen vorschlagen und vergleicht diese Ergebnisse mit den tatsäch-lichen Annotationen der Experten.

Dieses Verfahren funktioniert nur bei Systemen, die Vorschläge auf Grundlage des inhaltsbasierten Filterns geben. Sind Empfehlungsalgorithmen die Grundlage, bei der Nutzerdaten verwendet werden, muss es variiert werden.

Beispiel: Bei Empfehlungsalgorithmen die z. B. auf dem kollaborativen Filtern basie-ren, kann es sinnvoll sein, nur Daten von sehr aktiven Experten zu nehmen und dann jeweils nur für einen kleineren Teil (z. B. 10 Prozent) das System Annotationsvor-schläge machen zu lassen. Diese werden wiederum mit den real existierenden Emp-fehlungen verglichen.

Dieses Vorgehen wurde bereits für ein Empfehlungssystem für Musikstücke in diesem Band skizziert (vgl. Shardanand und Maes, 1995, S. 16) genauer beschrie-ben. Wählt man einen solchen Ansatz – vorausgesetzt, entsprechende Nutzerda-ten liegen vor – ist es hier sehr gut möglich (unterschiedliche) Algorithmen zu be-werten und damit „auf dem Trockenen“ Empfehlungsalgorithmen zu optimieren.

40

Page 41: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

(f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde

Kurzbeschreibung Man nimmt existerende Ressourcen und ihre Annotatonen und lässt das Empfehlungssystem dafür Annotatonen vorschlagen. Dann werden die Vorschläge mit den existerenden Annotatonen verglichen.

Herausforderungen Man muss Daten von Nutzern auswählen, die vorbildlich annoteren. Bei kollaboratvem Filtern muss ggf. eine entsprechende Stchprobe gezogen werden.

Chancen Ein Verfahren, das erlaubt im Detail und „auf dem Trockenen“ erlaubt Feinabstmmungen von Algorithmen vorzunehmen. Abgesehen von der notwendigen Datenaufereitung sind keine speziellen Werkzeuge zu im-plementeren oder Maßnahmen zu ergreifen.

Beispiele für den Ein-satz

Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits zur vergleichenden Bewertung von Algorithmen zur Annotatonsvorschlä-gen eingesetzt wurde.

Dieses Verfahren wurde jedoch z. B. bei der Evaluierung von Empfeh-lungssystemen für Musikstücke eingesetzt (siehe Shardanand und Maes, 1995)

(g) Die „goldene Strategie“: Vergleich mit Standarddaten

Prinzipiell ist schließlich ein Verfahren denkbar, dass die Qualität von Empfehlun-gen für einen Standarddatensatz errechnen lässt. Natürlich ist dies nur für Emp-fehlungsalgorithmen denkbar, die auf inhaltsbasiertem Filtern beruhen. Bisher nur ein Gedankenspiel ist es dann, dass es anerkannte, große Testdatensätze gibt, die für Evaluationen und Ergebnisvergleiche immer wieder herangezogen wer-den. Zwar gäbe es immer Einschränkungen auf bestimmte Branchen und Themen, die in den Datensätzen im Vordergrund stehen, so eine Strategie würden aber Benchmarks ermöglichen und Vergleiche zwischen Systemen erlauben, obwohl sie nicht gleichzeitig in einem Untersuchungsdesign verwendet wurden.

Beispiel: Ein Entwicklerteam prüft die Qualität ihres Empfehlungsalgorithmus mit Hilfe des etablierten Standardtestdatensatz „Golden“ und stellt fest, dass die Zahl der passenden Empfehlungen über den bisherigen Benchmarks liegt. Sie veröffentli-chen die Ergebnisse und die Fachwelt ist beeindruckt.

Vergleich der Ansätze

Zur besseren Übersicht werden die skizzierten möglichen Ansätze noch einmal zusammengefasst dargestellt und verglichen.

41

Page 42: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen

Name Vorteil Nachteil

a) Befragung von Experten zur Qualität der empfohle-nen Annotatonen

Relatv valide hoher Aufwand (Befragung, extra Tool)

(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Exper-ten

Relatv valide hoher Aufwand (Befragung, extra Tool, jedoch geringer als bei a)

(c) Optmierung von Emp-fehlungsalgorithmen durch die Nutzer (ALOE-Ansatz)

Durch das ofene Verfahren neuartge Einsichten möglich

hoher Aufwand an das Toolhohe Anforderung an NutzerValidität eingeschränkt

(d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen

Im laufenden Betrieb möglich Aufwand: Modifkatonen des Sys-tems notwendig, Wahlverhalten muss aufgezeichnet werden.Es ist schwer zu auszuwerten, warum Vorschläge nicht genom-men werden.

(e) Experimentelle Nut-zungsszenarien zur Bewer-tung von Annotatonsvor-schlägen

Im Fokus steht der „Gebrauchs-wert“ von Annotatonen und weniger ihre abstrakte „Quali-tät“.

Kreatvität und eigene Lösungen im Hinblick auf Methode und Tool gefragt – ggf. sehr hoher Aufwand.

(f) Vergleich der Annotato-nen von Experten und mit den Annotatonen, die das System vorschlagen würde.

Hier können „auf dem Tro-ckenen“ mehrere, auch kleine Varianten des Empfehlungsal-gorithmus bewertet und mit-einander verglichen werden, ohne dass dazu ein großer Auf-wand für Befragungen oder Toolentwicklungen notwendig ist.

Es ist notwendig, ein Verfahren zu entwickeln, dass die automatsche Bewertung der „Nähe“ von unter-schiedlichen Annotatonen über-nimmt (vgl. nächster Abschnit).

(g) Die goldene Strategie (nicht existerend)

Vergleiche von Empfehlungsal-gorithmen werden möglich, auch wenn sie nicht getestet werden.

Bisher nicht realisiert; zudem nur für inhaltsbasiertes Filtern denk-bar.

42

Page 43: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

VORSCHLÄGE ZUR BEURTEILUNG VON NÄHE UND ABWEICHUNGEN VON ANNOTATIONEN

Bei einem sehr attraktiven vorgestellten Verfahren (f) fehlt die Beurteilung, ob eine Annotation „gut oder schlecht“ ist, weil diese Einschätzung nicht von Nutze-rinnen oder Experten vorgenommen wird. Hier stellt sich die Frage, wie diese Nähe bewertet werden kann. Relativ einfach ist es, wenn das System identische Annotationen vorschlägt.

Beispiel: Der Experte würde „Ananas“ als Annotation schreien, das Empfehlungssys-tem schlägt als Annotation eines Bildes „Ananas“ vor.

Problematisch ist der weitaus häufigere Fall, dass die Vorschläge von den (ge-wünschten) Annotationen abweichen.

Beispiel: Das Empfehlungssystem „A“ schlägt als Annotation für ein Bild „Flugzeug“ vor, das Empfehlungssystem „B“ „Jumbojet“ (vgl. S. 29 in diesem Band). Der Experte hat jedoch als Annotation „Jet“ gewählt. Ist nun die Empfehlung des Systems A oder B besser? Und auch: Um wieviel genauer ist die Empfehlung von System A oder B ggf. besser?

Dieses Beispiel zeigt – zumindest ist das die Idee – dass es nicht simpel ist, eine solche Bewertung vorzunehmen. Notwendig wäre es für die Evaluation jedoch, diese Einschätzung automatisch vornehmen zu können.

Begrifsähnlichkeit

Ob zwei Begriffe die selbe Tatsache, oder allgemeiner, das selbe Ding beschreiben, also semantisch gleich sind, kann durch eine Analyse des semantischen Abstands ermittelt werden. Je ähnlicher sich die Begriffe in ihrer Bedeutung dabei sind, de-sto geringer wird deren Abstand. In der Mathematik ist der (minimale) Abstand zweier Punkte in einem metrischen Raum die Länge der kürzesten Verbindungsli-nie zwischen beiden. Die Berechnung der Streckenlängen wird durch die zugehö-rige Metrik vorgenommen. Im Fall der Bedeutungsähnlichkeit muss daher eine passende semantische Metrik gefunden werden. Syntaktische Metriken, also Me-triken, mit denen Aussagen über die syntaktische Ähnlichkeit getroffen werden können, führen meist nicht oder nur in Kombination mit semantischen Distanzbe-rechnungen zu verwertbaren Ergebnissen. Der Einsatz einer Metrik und die resul-tierende Ergebnisgüte hängen vom Vokabular ab und müssen ggf. im Vorfeld durch Testläufe (systematische Anwendung auf passenden Trainingsmengen und Ergebnisanalyse) entschieden werden.

43

Page 44: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen

Syntaktsche Metriken

Oft werden syntaktische Metriken in der Vorverarbeitung verwendet, um zum Beispiel falsche oder unterschiedliche Schreibweisen zu korrigieren. Beispielhaft für eine syntaktische Metrik erklären wir hier die sehr gebräuchliche Levenshtein Distanz (Levenshtein, 1966). Sie ergibt sich aus der minimalen Anzahl von Schrit-ten, die benötigt werden, um einen Begriff in den anderen überzuführen, wobei nur die drei Grundoperationen „Einfügen“, „Löschen“ und „Vertauschen“ auf ein-zelnen Gliedern der Zeichenkette erlaubt sind. Wie in folgendem Beispiel klar wird, beträgt die Levenshtein Distanz der Begriffe Tier und Tor 2 (vgl. Wikipedia-Eintrag zu Levenshtein, 2011-08-13):

1. Tier → Toer (ersetze i durch o)

2. Toer → Tor (lösche e)

Weitere Metriken, die für die Untersuchung syntaktischer Ähnlichkeit verwendet werden sind u.a. die Jaro-Winkler-Distanz (Winkler, 1990), der Hamming-Abstand (Hamming, 1950) und der Jaccard-Index (Jaccard, 1901).

Semantsche Metriken

Semantische Metriken lassen sich in zwei Gruppen einteilen: topologische und statistische. Während einer topologischen Metriken eine oder mehrere Ontologien (also sinnbehaftet verknüpfte Vokabulare) zu Grunde liegen, basieren statistische Verfahren auf so genannten Textkorpi (Sammlungen von Texten).

Topologische Verfahren

Topologische Verfahren verwenden als Grundlage eine oder mehrere Ontologien. Stark vereinfacht kann man ein Ontologie als eine Art gerichteten, gewichteten Graphen ansehen. Die Konzepte bilden dabei die Knoten, die Verbindungen zwi-schen den Konzepten bilden die Kanten. Die Gewichtung ergibt sich aus der se-mantischen Bedeutung der Kante. Je nach Typ verwenden topologische Verfahren Instanzen einer Ontologie und/oder die Ontologie selbst.

Das folgende Beispiel beschreibt kein bestimmtes Verfahren, es soll nur einen ers-ten Einblick in die Welt der topologischen Ähnlichkeitsmessung liefern. Den Gra-phen einer sehr einfachen Ontologie zeigt Abbildung 13. Sie beschreibt ein Sche-ma für Personen und deren berufliche Ausrichtung. Den Kanten wurden aus Grün-den der Übersichtlichkeit keine Namen bzw. Richtungen zugeordnet.

44

Page 45: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

Abbildung 13: Einfacher Beispielgraph.

Basierend auf der Ontologie kann man nun a) die Ähnlichkeit der ontologischen Konzepte selbst oder b) die Ähnlichkeit verschiedener Instanzen der Ontologie betrachten.

a) Ähnlichkeit ontologischer Konzepte

Ein einfaches Distanzmaß in einem Graphen ist das des kürzesten Weges. Es ge-nügt, die Anzahl der Kanten zu zählen, die auf diesem Weg zwischen zwei Konzep-ten liegen. So ergibt sich aus obigen Beispiel, dass das Konzept Maler dem Kon-zept Musiker ähnlicher ist (Distanz 2) als dem des Politikers (Distanz 3). Auch ist in diesem Beispiel das Konzept der Romantik in der Musik seinem literarischen Pendant näher als dem der musischen Klassik.

b) Ähnlichkeit ontologischer Instanzen

Angenommen, es existieren drei Instanzen der obigen Ontologie: Mozart (Musiker – Klassik), Trakl (Schriftsteller – Symbolismus) und Josef II (Politiker). Geht man bei den Instanzen so vor, wie oben bei der konzeptionellen Berechnung, beträgt der Abstand zwischen Mozart, Trakl und Josef II jeweils 4. Berücksichtigt man nun zusätzlich instanzenspezifische Merkmale wie das Geburtsdatum der Personen verändert sich dieser Abstand. Der Abstand von Mozart zu Josef II beträgt 15 Jah-re, von Mozart und Trakl 131 Jahre. Bezieht man also das Geburtsjahr der Perso-nen in die Berechnung der semantischen Distanz ein, ist Mozart Josef II ähnlicher als Trakl. Berücksichtigt man zusätzlich weitere Eigenschaften, z.B. den Geburts-ort, rücken Mozart und Trakl (beide in Salzburg geboren) wieder näher zusam-men. Wie die Kanten einer Ontologie in die eines gewichteten Graphen umgesetzt werden und welche Faktoren in die Gesamtberechnung einfließen, wird in diver-sen Algorithmen unterschiedlich behandelt. Die Semantik der Relationen lässt sich in einem solchen Model durch die Gewichtung der Kanten ausdrücken. So hat der Pfad „Romantik (Literatur) ist verwandt zu Romantik (Musik)“ ggf. ein gerin-geres Kantengewicht als der Pfad „Musiker ist Vertreter der Epoche Romantik“. Beispiele für topologische Verfahren sind simGIC (Pesquita u.a., 2008), GraSM (Couto, Silva & Coutinho, 2007) und LDSD (Passant, 2010).

45

Page 46: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen

Statstsche Verfahren

Statistische Verfahren gründen auf der Analyse einer a-priori definierten Menge von textuellen Inhalten (Textkorpus). Diese Methoden bieten den Vorteil, dass sie bei genügend großer Trainingsmenge/-zeit für das eigentliche Berechnen der Ab-stände wenig Zeit benötigen (im Vergleich zu z.B. topologischen Verfahren) und in vielen Fällen ausreichend gute Ergebnisse liefern. Die Menge der statistischen Verfahren ist sehr groß, es werden hier deshalb nur zwei Verfahren näher erläu-tert.

a) Latent Semantic Analysis

Das Latent-Semantic-Analysis-Verfahren (LSA) beruht auf der Vermutung, dass Begriffe mit ähnlicher Bedeutung (bzw. aus der selben Begriffswelt) in Texten nä-her beieinander stehen als nicht sinnverwandte. Mit diesem Verfahren ist es mög-lich, diese benachbarten Begriffe zu finden und einem Hauptkonzept (Hauptkom-ponente) zuzuordnen. So werden beispielsweise die Begriffe PKW, Wagen und Rostlaube dem Konzept Auto zugeordnet.

Der mathematische Hintergrund des LSA-Algorithmus basiert auf den mathemati-schen Prinzipien Singulärwertzerlegung und Dimensionsreduktion und kann z.B. bei Dumais (2004) genauer studiert werden.

Ein Problem des LSA ist, dass beim Hinzukommen von neuen Begriffen (also bei einer Erweiterung des Textkorpus) die gesamte A-Priori-Berechnung wiederholt werden muss. Auch die richtige Wahl der Dimensionsgröße kann ein Problem dar-stellen: Ist sie zu klein, leidet die Ergebnisgüte; ist sie zu groß, kann es zu Ressour-cenproblemen (Rechenleistung, Speicher) kommen.

b) Normalisierte Google-Distanz

Die normalisierten Google-Distanz (NGD) basiert auf der Annahme, das verwand-te Konzepte oft zusammen im gleichen Text vorkommen. Als Korpus dient der ak-tuelle Google Index. Der erste Schritt für die Berechnung besteht darin, die Anzahl der Suchtreffer für die beiden Konzepte zu ermitteln. Zusätzlich wird die Anzahl der Treffer einer Anfrage mit beiden Konzepten (mit logischem UND verbunden) und die Gesamtanzahl der indizierten Seiten benötigt. Die NGD wird mittels der folgenden Formel berechnet.

Abbildung 14: Normalisierte Google Distanz.Quelle: Cilibrasi & Vitanyi (2007)

Dabei sind x und y die beiden Begriffe, f die Funktion, die eine Suchanfrage auf die Mächtigkeit deren Ergebnismenge abbildet, und M die Gesamtanzahl der von Goo-gle indizierten Seiten. Weitere Informationen zu NGD finden sich in bei Couto, Sil-va & Coutinho (2007). Weitere Beispiele für statistische Verfahren sind PMI (Bou-ma, 2009), SOC-PMI (Islam & Inkpen, 2008) und ESA (Gabrilovich & Markovitch, 2007).

46

Page 47: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

MÖGLICHE KENNZAHLEN ZUR BEWERTUNG VON ANNOTATIONSVOR-SCHLÄGEN

Es wurden bereits mehrere Verfahren genannt, die bei der Bewertung von Anno-tationsvorschlägen zum Einsatz kommen können. Ergänzend möchten wir Kenn-zahlen beschreiben, die bei der Beurteilung hilfreich sein können. Es zeigt sich da-bei, dass Kennzahlen wie die „Neuigkeit“ oder „Recall“ wenig Sinn machen, wenn es um die Bewertung von Annotationvorschlägen geht. So sollte ein Buchvor-schlag bei Amazon z.B. einem Harry-Potter-Fan nicht alte Harry-Potter-Bücher vorschlagen sondern etwas Neues, was er (eher) noch nicht kennt – bei Annotati-onsvorschlägen ist jedoch kein „Neuigkeitsfaktor“ erwünscht: Es macht in der Re-gel keinen Sinn, Nutzern möglichst neuartige Annotationen vorzuschlagen.

Mögliche Kennzahlen

Im Folgenden skizzieren wir mögliche Kennzahlen, die bei der Bestimmung der Qualität von Annotationsvorschlägen zum Einsatz kommen könnten.

Abdeckung: Anteil der Ressourcen, zu denen Annotatonvorschläge gemacht werden können

Nicht in jedem Fall können Systeme Annotationen vorschlagen. Eine interessante Kennzahl ist so der Anteil, zu dem ein Algorithmus überhaupt Empfehlungen be-rechnen kann.

Anteil der Fehler bei Annotatonsvorschlägen

Manchmal ist möglich, eindeutig von „Fehlern“ bei den Annotationsvorschlägen zu schreiben. Der mittlere Fehler und die Standardabweichung für Fehler sind hier mögliche Kennzahlen.

Präzision

In Anlehnung an Herlocker (2004) könnte der Anteil der Annotationvorschläge, die als korrekt und relevant eingestuft werden als „Präzision“ bezeichnet werden.

Nähe

„Daneben ist auch vorbei“ ist eine Redensart, aber es kann eventuell Sinn machen zu bestimmen, wie „nah“ der Annotationsvorschlag an einer gewünschten Lösung ist.

47

Page 48: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen

Anmerkung zur Bewertung von Unterschieden

Das angestrebte Ergebnis aller skizzierter Verfahren ist jeweils (vereinfacht) eine Aussage der Art

– Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4

– Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6

Jedoch ist ein Unterschied von Mittelwerten u.ä. nicht notwendigerweise eine ge-eignete Grundlage für die Entscheidung für oder gegen einen bestimmten Algo-rithmus. Je nach Umfang der Datenquelle oder Stichprobe können solche Unter-schiede auch im Rahmen von zufälligen Schwankungen entstehen und sind nicht notwendigerweise ein als statistisch signifikantes Indiz für einen besseren bzw. schlechteren Empfehlungsalgorithmus zu bewerten. Zur Auswertung und Inter-pretation solcher Daten, beispielsweise Mittelwertunterschieden, ist dabei auf Verfahren wie den T-Test bzw. auf die allgemeine statistische Methodenliteratur zu verweisen (z. B. Bortz & Döring, 2006).

Diskussion

Bei unseren internen Diskussionen zeigte sich, dass die dargestellten Optionen für Kennzahlen nicht für jeden Experten sinnvoll erschienen bzw. innerhalb des Salz-burg NewMediaLabs deutlich unterschiedliche Abwägungen getroffen werden. Während die Forscher/innen eher klassische wissenschaftliche Gütekriterien ei-nes Empfehlungssystem erheben möchten und dabei auch einen möglichst hohen durchschnittlichen Wert erhalten wollen, haben die Archivare deutlich andere Be-dürfnisse: Ein Empfehlungssystem, das im Mittel „passable“ Empfehlungen gibt, ist für sie nicht unbedingt gut. Auch muss ein Empfehlungssystem aus ihrer Sicht nicht unbedingt eine gute Abdeckung haben (also für jeden Content Empfehlun-gen für Annotationen generieren können). Für die Archivare ist vielmehr wichtig, dass Annotationsvorschläge, schlichtweg sehr gut sein müssen – es aber gar nicht schlimm ist, wenn das System nichts empfiehlt, wenn es nichts „sehr gutes“ zu empfehlen hat. In der Praxis ist es einfach lästig, viele „weniger gute“ oder unge-eignet Vorschläge lesen oder löschen zu müssen.

Auch wurde wiederum von den Archivaren darauf hingewiesen, dass ein Empfeh-lungssystem für Annotationen unbedingt lernen müsse. Es mache schlichtweg kei-nen Spaß und sei ermüdend, immer wieder Ähnliches korrigieren oder ablehnen zu müssen, diese Arbeit würde jedoch gerne gemacht, wenn das System dadurch bessere Empfehlungen geben könnte.

48

Page 49: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

LITERATUR UND QUELLEN

• von Ahn, L.; Ginosar, S., Kedia, M., Liu, R. & Blum, M. (2006). Improving Accesibility of the Web with a Compu-ter Game. Proceedings of the SIGCHI conference on Human Factors in computng systems table of contents, Montréal, Québec, Canada, 79-82.

• Ames, Morgan & Naaman, Mor (2007). Why We Tag: Motvatons for Annotaton in Mobile and Online Media. Online verfügbar: htp://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=BE3E2E214C7C94F819FF65112A8B6696?doi=10.1.1.90.4934&rep=rep1&type=pdf [2011-02-01]

• Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluaton für Human- und Sozialwissenschafler (4. Aufage). Berlin: Springer.

• Bouma, G. (2009). Normalized (Pointwise) Mutual Informaton in Collocaton Extracton. Proceedings of Ge-sellschaf für Sprachtechnologie & Computerlinguistk (GSCL).

• Brand-Haushofer, Richard (2005). Recommender Systeme in digitalen Bibliotheken. Bakk. Arbeit. Insttut: In-formatonsverarbeitung., Abt. f. Informatonswirtschaf. Wien, Wirtschafsuniv.. Online zugänglich unter: htp://epub.wu-wien.ac.at/dyn/virlib/bakkWI/showentry?ID=epub-wu-01_93d&style=aihtml (2010-01-04)

• Camon, Evelyn B.; Barrell, Daniel G.; Dimmer, Emily C.; Lee, Vivian; Magrane, Michele; Maslen, John; Binns, David & Apweiler, Rolf (2005). An evaluaton of GO annotaton retrieval for BioCreAtIvE and GOA, In: BMC Bioinformatcs 2005, 6 (Suppl 1):S17doi:10.1186/1471-2105-6-S1-S17

• Carneiro, Gustavo; Chan, Antoni B.; Moreno, Pedro J. & Vasconcelos, Nuno (2007). Supervised Learning of Se-mantc Classes for Image Annotaton and Retrieval. In: IEEE Transactons on Patern Analysis and Machine In -telligence (TPAMI), March 2007 (Vol. 29, No. 3), pp. 394-410.

• Cilibrasi, Rudi & Vitanyi, Paul (2007). The Google Similarity Distance, IEEE Trans. Knowledge and Data Engi-neering, 19:3(2007), 370-383.

• Couto, F., Silva, M., & Coutnho, P. (2007). Measuring semantc similarity between Gene Ontology terms. In: Data and Knowledge Engineering, 61:137–152

• Derntl, Thomas; Hampel, Thorsten; Motschnig, Renate & Pitner, Tomas (2009). Social Tagging und Inclusive Universal Access. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 51-71.

• Dolog, Peter (2009). Tag Based Recommendaton in KIWI. OntologSession, 12 February 2009. Online zugäng-lich unter: htp://ontolog.cim3.net/fle/work/SemantcWiki/SWiki-05_Applicaton-2_20090212/Tag-based-Recommendatons-in-KIWI--PeterDolog_20090212.pdf (2010-02-18)

• Dumais, S. T. (2004). Latent semantc analysis. Annual Review of Informaton Science and Technology (ARIST), Volume 38, Chapter 4, 189-230.

• Gabrilovich, E. & Markovitch, S. (2007). Computng Semantc Relatedness using Wikipedia-based Explicit Se-mantc Analysis. In: Proceedings of the 20th Internatonal Joint Conference on Artfcial Intelligence , Hydera-bad, India.

• Güntner, Georg; Sint, Rolf & Westenthaler, Rupert (2009). Ein Ansatz zur Unterstützung traditoneller Klassif-katon durch Social Tagging. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 187-199.

• Hamming, R.W. (1950). Error-detectng and error-correctng codes. In: Bell System Technical Journal XXIX (2): 147-160.

49

Page 50: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen

• Herlocker, J., Borchers, A., Konstan, J., and Riedl, J. (1999). An algorithmic framework for performing collabo-ratve fltering. In Proceedings of the 22nd annual internatonal ACM SIGIR conference on Research and deve-lopment in informaton retrieval, SIGIR’1999, pages 230-235.

• Islam, A. & Inkpen, D. (2008). Semantc text similarity using corpus-based word similarity and string similarity. ACM Trans. Knowl. Discov. Data 2, 2 (Jul. 2008), 1–25.

• Jaccard, Paul (1901). Étude comparatve de la distributon forale dans une porton des Alpes et des Jura. In: Bulletn de la Société Vaudoise des Sciences Naturelles 37: 547–579.

• Klahold, André (2009). Empfehlungssysteme: Recommender Systems – Grundlagen, Konzepte und Lösungen. Wiesbaden: Vieweger + Teubner.

• Knoth, Petr; Schmidt, Marek & Smrž, Pavel (2008). Informaton Extracton — State-of-the-Art. Knowledge in a Wiki (KiWi), Deliverable 2.5. htp://wiki.kiwi-project.eu/multmedia/kiwi-pub: KiWi_D2.5_fnal.pdf (2009-09-02)

• Kockler, Michael (2008). Concepton and Implementaton of Tagging Support Mechanisms in a Web 2.0 Social Media Sharing Platorm. Diplomarbeit an der Technischen Universität Karlsruhe.

• Mishne, Gilad (2006). AutoTag: a collaboratve approach to automated tag assignment for weblog posts. WWW 2006: 953-954.

• Levenshtein, V. I. (1966). Binary codes capable of correctng deletons, insertons, and reversals. In: Doklady Akademii Nauk SSSR. 163, Nr. 4, 1965, 845–848 (Russisch, Englische Übersetzung in: Soviet Physics Doklady, 10(8) 707–710, 1966).

• Luhn, Hans Peter (1958). A Business Intelligence System. In: IBM Journal, 2, 4, 314-319.

• Luo, Jiebo ; Yu, Jie; Joshi, Dhiraj & Hao, Wei (2008). Event recogniton: viewing the world with a third eye. In Proceeding of the 16th ACM internatonal conference on Multmedia (MM '08). ACM, New York, NY, USA, 1071-1080. DOI=10.1145/1459359.1459574 htp://doi.acm.org/10.1145/1459359.1459574

• Lux, Mathias & Chatzichristofs, Savvas A. (2008). Lire: Lucene Image Retrieval – An Extensible Java CBIR Libra-ry. In proceedings of the 16th ACM Internatonal Conference on Multmedia, Vancouver, Canada, 2008, pp. 1085-1088.

• Memmel, Martn; Kockler, Michael und Schiiru, Rafael (2009). Providing Mult Source Tag Recommendatons in a Social Resource Sharing Platorm. Journal of Universal Computer Science, vol. 15, no. 3, 678-691.

• Neumann, Andreas W. (2009). Recommender Systems for Informaton Provides. Designing Customer Centric Paths to Informaton. Heidelberg: Physica-Verlag.

• Nunes, Maria & Cerri, Stefano (2008). Improving Recommendatons by Using Personality Traits in User Prof-les. In: Proceedings of I-Know '08 and I-Media '08, Graz, Austria, 92-100.

• Passant, A. (2010). dbrec - Music recommendatons using DBpedia. In Proceedings of the 9th Internatonal Se-mantc Web Conference (Part II), LNCS, Springer, 6497: 209-224, Springer.

• Pesquita, Cata; Faria, Daniel; Bastos, Hugo; Ferreira, António; Falcao, Andre O. & Couto, Francisco (2008). Metrics for GO based protein semantc similarity: a systematc evaluaton. In: BMC Bioinformatcs, 5(9), 4.

• Schafert, Sandra; Bürger, Tobias; Hilzensauer, Wolf; Schneider, Cornelia & Wieden-Bischof, Diana (2010). Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“ (hrsg. von Georg Güntner und Sebastan Schafert), Salzburg: Salzburg Research.

• Schafert, Sandra; Eder, Julia; Hilzensauer, Wolf, Kurz, Thomas; Markus, Mark; Schafert, Sebastan; Wes-tenthaler, Rupert & Wieden-Bischof, Diana (2009). (Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. Erschienen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 2. Salzburg: Salzburg Research.

50

Page 51: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

• Schafert, Sandra; Güntner, Georg; Lassnig, Markus & Wieden-Bischof, Diana (2010). Reputaton und Feed-back im Web. Einsatzgebiete und Beispiele. Erschienen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 4. Salzburg: Salzburg Research.

• Schafert, Sandra; Hilzensauer, Wolf & Wieden-Bischof, Diana (2009). Social Tagging. In: Sandra Schafert u.a., (Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. Erschie-nen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 2. Salzburg: Salzburg Research, 34-46.

• Schickel-Zuber, Vincent (2007). Ontology Filtering. Inferring Missing User’s Preferences in eCommerce Re-commender Systems. Thesis an der Ecole Polytechnique Federale de Lausanne. Online zugänglich unter: htp://vpaa.epf.ch/webdav/site/vpaa/shared/Prix%20de%20recherche%2008/Thesis_3934_Schickel.pdf [2010-01-23]

• Shardanand, Upendra, Maes, Pate (1995). Social Informaton Filtering: Algorithms for Automatng „Word of Mouth“. In: Proceedings of ACM CHI'95 Conference on Human Factros in Computng Systems, Denver, US, 210-217. Online zugänglich unter: htp://jolomo.net/ringo/chi-95-paper.pdf (2010-01-07)

• Sorge, Christoph (2007). Selbstorganisierende Empfehlungssysteme im Internet. Eine interdisziplinäre zwi-schen Technik und Recht. Karlsruhe: Universitätsverlag.

• Terveen L. & Hill W. (2001): Beyond Recommender Systems: Helping People Help Each Other, In: HCI in the New Millennium, Jack Carroll, ed., Addison-Wesley.

• Turnbull, Douglas (2005). Automatc Music Annotaton. Research Exam Spring, Department of Computer Science, UC San Diego. URL: htp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.130.7630&rep=rep1&type=pdf (2011-03-30)

• Wikipedia (2010). Annotaton. Online verfügbar: htp://de.wikipedia.org/wiki/Annotaton [2010-12-12]

• Wikipedia (2011). Exchangeable Image File Format. Online verfügbar: htp://de.wikipedia.org/wiki/Exchange-able_Image_File_Format [2011-06-23]

• Winkler, W. E. (1990). String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. In: Proceedings of the Secton on Survey Research Methods (American Statstcal Associaton): 354–359.

• Zupancic, Bernd (2006). Vorlesungsaufzeichnungen und digitale Annotatonen. Einsatz und Nutzen in der Leh-re. Dissertaton an der an der Fakultät für Angewandte Wissenschafen der Albert-Ludwigs Universität Frei-burg im Breisgau. Online zugänglich unter: htp://deposit.ddb.de/cgi-bin/dokserv?idn=980813530&dok_var=d1&dok_ext=pdf&flename=980813530.pdf [2011-02-01]

51

Page 52: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen

52

Page 53: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

LINKED MEDIA LAB REPORTS – DIE NEUE REIHE DES SNML-TNG

Dies ist das vierte Band in der neuen Reihe „Linked Media Lab Reports“ des Salz-burg NewMediaLab – The Next Generation (herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert). In dieser Reihe werden in Deutsch oder in Englisch Werkstattberichte veröffentlicht, also Beiträge mit eher konzeptionel-len Charakter und Anleitungen. Die nächsten Bände sind bereits in Vorbereitung.

Band 1

Linked Media. Ein White-Paper zu den Potentalen von Linked People, Linked Content und Linked Data in Unternehmen.(Salzburg NewMediaLab – The Next Generaton)

ISBN 978-3-902448-27-9

Issue 2 (auf Englisch)Linked Media InterfacesGraphical User Interfaces for Search and Annotaton(Marius Schebella, Thomas Kurz and Georg Güntner)

ISBN 978-3-902448-29-3

Issue 3 (auf Englisch)Media Objects in the Web of Linked DataPublishing Multmedia as Linked Data(Thomas Kurz)

ISBN 978-3-902448-30-9

Band 4 Smarte Annotatonen.Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen.(Sandra Schön, Thomas Kurz und andere)

ISBN 978-3-902448-31-6

Band 5 (geplant für November 2011)Qualitätssicherung bei AnnotatonenSoziale und technologische Verfahren in der Medienbranche

ISBN 978-3-902448-32-3

53

Page 54: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen

SOCIAL MEDIA – DIE PUBLIKATIONSREIHE DES SNML-TNG

In der Reihe „Social Media“ des Salzburg NewMediaLab (herausgegeben von Ge-org Güntner und Sebastian Schaffert) sind bisher folgende Bände erschienen:

Band 1

Erfolgreicher Aufau von Online-Communitys. Konzepte, Szenarien und Handlungsempfehlungen. (Sandra Schafert und Diana Wieden-Bischof)

ISBN 978-3-902448-13-2

Band 2

(Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. (Sandra Schafert, Julia Eder, Wolf Hilzensauer, Thomas Kurz, Mark Markus, Sebastan Schafert, Rupert Westenthaler, Rupert und Diana Wieden-Bischof)

ISBN 978-3-902448-15-6

Band 3

Empfehlungen im Web. Konzepte und Realisierungen.(Sandra Schafert, Tobias Bürger, Cornelia Schneider und Diana Wieden-Bischof)

ISBN 978-3-902448-16-3

Band 4

Reputaton und Feedback im Web. Einsatzgebiete und Beispiele. (Sandra Schafert, Georg Güntner, Markus Lassnig und Diana Wieden-Bischof)

ISBN 978-3-902448-17-0

Band 5 – in Kooperaton mit evolaris und Salzburg Research

Mobile Gemeinschafen.Erfolgreiche Beispiele aus den Bereichen Spielen, Lernen und Gesundheit.

(Sandra Schön, Diana Wieden-Bischof, Cornelia Schneider und Martn Schumann)

ISBN 978-3-902448-25-5

54

Page 55: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen

55

Page 56: Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen

Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen

56