ranking von produktmerkmalen in online- shops
TRANSCRIPT
1
TECHNISCHE UNIVERSITÄT DRESDEN
Fakultät für Informatik Institut für Systemarchitektur Professur für Rechnernetze
Prof. Dr. rer. nat. habil. Dr. h. c. Alexander Schill
Großer Beleg zum Thema
Ranking von Produktmerkmalen in Online-
Shops
Marcel Gerlach
[email protected] Matrikelnummer: 3295994
Betreuer: Dr.-Ing. Daniel Schuster
Abgabetermin: 16.06.2011
2
3
Fakultät Informatik, Institut für Systemarchitektur,
Professur Rechnernetze
Aufgabenstellung für den Großen Beleg
Name, Vorname: Gerlach, Marcel
Studiengang: Informatik Matr.-Nr.:
3295994
Thema: Ranking von Produktmerkmalen in Online-Shops
Zielstellung
In Online-Shops gibt es zu jedem Produkt meist eine Detail-Ansicht, wo einzelne
Produktmerkmale aufgelistet werden. Vor allem für technische Produkte wie
Digitalkameras können diese Listen sehr lang und unübersichtlich werden, so
dass sie kaum noch zur Bewertung oder für den Vergleich von Produkten taugen.
In der Arbeit soll untersucht werden, wie mit Hilfe von semantischen
Technologien und Techniken aus dem Bereich Information Extraction frei
verfügbare Informationen aus dem Web zu Produktklassen und der Relevanz
ihrer Produktmerkmale gesammelt werden können, so dass ein Ranking dieser
Produktmerkmale möglich wird. Es sollen zunächst existierende Ranking-
Ansätze untersucht und anschließend ein eigenes Verfahren für
Merkmalsranking entwickelt werden. Der Ansatz soll in verschiedenen
Produktkategorien arbeiten und anhand eines Goldstandards in mindestens 2
verschiedenen Produktkategorien evaluiert und iterativ verbessert werden. Die
Ranking-Methode soll in das an der Professur Rechnernetze entwickelte
Fedseeko-Systems für föderierte Produktsuche über mehrere Online-Shops
integriert werden.
Schwerpunkte
Grundlagen: Ranking-Verfahren, Web Information Extraction,
Produktinformationen
Erstellung eines Goldstandards für Merkmalsranking
Entwicklung von Extraktionsmethoden zur Gewinnung von Ranking-
Informationen
Entwicklung des Rankingverfahrens
Implementierung und Evaluierung des Rankingverfahrens anhand des
Goldstandards
Betreuer: Dr.-Ing. Daniel Schuster
Betreuender
Hochschullehrer: Prof. Dr. rer. nat. habil. Dr. h. c. Alexander Schill
Beginn am: 15.10.2010
Einzureichen am: 14.04.2011
4
5
Inhaltsverzeichnis
1. Einleitung ......................................................................................................... 7
1.1. Motivation .................................................................................................. 7
1.2. Inhalte der Arbeit ....................................................................................... 9
2. Grundlagen .................................................................................................... 10
2.1. Web Information Extraction ..................................................................... 10
2.1.1. Grundsätzliche Funktionsweise......................................................... 10
2.1.2. Qualitätskriterien ............................................................................... 11
2.2. Rankingverfahren .................................................................................... 12
2.2.1. Algorithmen....................................................................................... 12
2.2.2. Evaluierungsmethoden ..................................................................... 14
2.2.3. Anwendungsgebiete ......................................................................... 18
2.3. Produktinformationen .............................................................................. 20
2.3.1. Formen von Produktinformationen .................................................... 20
2.3.2. Mögliche Probleme bei der Erfassung............................................... 21
2.3.3. Produktontologien ............................................................................. 21
2.4. Verwandte Arbeiten ................................................................................. 23
2.4.1. Extracting and Ranking Product Features in Opinion Documents ..... 23
2.4.2. Extracting Product Features and Opinions from Reviews.................. 25
2.5. Internet-Suchmaschinen .......................................................................... 26
2.6. Fedseeko ................................................................................................ 29
2.7. Fazit ........................................................................................................ 30
3. Anforderungsanalyse ..................................................................................... 31
3.1. Anforderungen ........................................................................................ 31
3.1.1. Anforderungen an die Relevanzbeurteilung ...................................... 31
3.1.2. Integration in Fedseeko .................................................................... 31
3.2. Entwicklung Goldstandards ..................................................................... 32
3.2.1. Goldstandard Festplatten .................................................................. 33
3.2.2. Goldstandard Mainboards ................................................................. 35
3.2.3. Goldstandard Digitalkameras ............................................................ 36
3.3. Fazit ........................................................................................................ 38
4. Systemkonzept .............................................................................................. 39
4. 1. Entwicklung von Extraktionsmethoden für Rankinginformationen ........... 39
4.1.1. Ermittlung passender Suchworte ...................................................... 40
4.1.2. Gewinnung von Rankingdaten .......................................................... 43
6
4.2. Entwicklung eines Rankingverfahrens ..................................................... 44
4.2.1. Ermittlung der Vorkommen jedes Merkmales .................................... 45
4.2.2. Normalisierte Abbildung auf Wertebereich ........................................ 46
4.2.3. Klassifizierung durch Analyse vorhandener Goldstandards ............... 47
4.2.4. Gewichtete Kombination ................................................................... 49
5. Implementierung ............................................................................................ 51
5.1. Datenbankkommunikation ....................................................................... 51
5.2. Suchwortermittlung .................................................................................. 52
5.2.1. Autonome Suchwortermittlung .......................................................... 53
5.2.2. Ermittlung der Produktnamen ........................................................... 55
5.2.3. Kombination von Suchwörtern und Produktnamen............................ 55
5.3. Dokumentenextraktion ............................................................................ 55
5.3.1. Gewinnung relevanter Dokumente .................................................... 56
5.3.2. Dokumentenextraktion ...................................................................... 56
5.4. Rankingsystem ........................................................................................ 57
5.4.1. Ermittlung der Wörteranzahlen.......................................................... 58
5.4.2. Rankingverfahren.............................................................................. 58
6. Evaluierung .................................................................................................... 61
6.1. Suchwortbereitstellung ............................................................................ 61
6.2. Bewertung der Suchmaschinenergebnisse.............................................. 64
6.3. Fazit ........................................................................................................ 67
7. Zusammenfassung / Ausblick ........................................................................ 69
Referenzen / Literatur ........................................................................................ 72
Abbildungsverzeichnis ....................................................................................... 74
7
1. EINLEITUNG
Dieser Beleg behandelt das Thema „Ranking von Produktmerkmalen in Online-
Shops“. Der Hauptteil der Arbeit beschäftigt sich damit, wie man mithilfe von
Technologien aus dem Bereich Information Extraction und Ranking Informationen
zu Produkten und der Relevanz ihrer Merkmale sammeln kann. Das angestrebte
Ziel ist der Gewinn von Rankinginformationen, sodass es möglich wird, eine
Rangfolge der Produktmerkmale bezüglich ihrer Bedeutung für die
Kaufentscheidung eines Nutzers zu erstellen. Das Projekt soll anschließend in
Fedseeko anwendbar sein, ein System zur föderierten Suche nach Produkten,
bzw. Produktinformationen [Wal11]. In Kapitel 2 wird das Thema Fedseeko näher
behandelt werden.
In dieser Einleitung soll die Motivation für dieses Thema genauer erläutert
werden. Ebenso wird ein Ausblick für die kommenden Kapitel gegeben.
1.1. Motivation
Mit dem Beginn des Informationszeitalters ist die Anzahl an verfügbaren
Informationen rasend schnell angestiegen. Neue Technologien sorgten dafür,
dass sich Nachrichten, Bilder und Berichte immer schneller über den Erdball
verbreiten konnten. Dieser Prozess wurde noch einmal deutlich beschleunigt, als
das Internet nach und nach für einen immer größer werdenden Teil der
Menschheit verfügbar wurde. Der schnelle technologische Fortschritt sorgte auch
dafür, dass der Weltmarkt mittlerweile mit einer Fülle an technischen Produkten
aufwartet, die kein Mensch allein und ohne Hilfsmittel überschauen könnte.
Zusätzlich gibt es für jedes Einzelne dieser Produkte wieder eine große Menge
an Informationen, sodass es inzwischen notwendig geworden ist, diese riesige
Anzahl an Daten, Fakten und Beschreibungen weitestgehend automatisiert zu
ordnen und zu klassifizieren. Das bereits erwähnte Fedseeko-System setzt an
dieser Stelle an.
Mit der steigenden Komplexität der Produkte wird der Mensch allerdings auch mit
immer zahlreicher werdenden Produktmerkmalen konfrontiert. Es wird
zunehmend schwieriger, den Überblick über die technischen Daten eines
Produktes zu behalten. Gerade bei Digitalkameras ist dieses Problem besonders
groß, denn viele Hersteller, bzw. Online Shops, weisen bis zu 90 verschiedene
Merkmale in den Artikelbeschreibungen aus. Abbildung 1 demonstriert dies sehr
deutlich. Sie zeigt einen Ausschnitt der Produktmerkmale der Kamera ES 70 von
Samsung, wie man sie bei amazon.de vorfindet. Sucht man in dieser Masse an
Informationen einige spezielle Daten oder möchte man mehrere Produkte
anhand einzelner Merkmale vergleichen, so wird dies viel Zeit und Mühe kosten.
Erschwerend kommt hinzu, dass verschiedene Hersteller verschiedene Begriffe
8
für ein und dasselbe Merkmal verwenden. Dieses Problem des
Informationsüberflusses beschränkt sich selbstverständlich nicht auf
Digitalkameras. In einer Zeit, in der es schon Küchengeräte mit
Internetverbindung gibt, werden technische Produkte immer komplexer und
werden gleichzeitig mit immer mehr Merkmalen und Daten zu beschreiben sein.
Es ist als sicher anzusehen, dass die Problematik der Informationsflut in den
nächsten Jahren noch an Größe zunimmt.
Abbildung 1: Ausschnitt aus den Produktmerkmalen der Digitalkamera Samsung ES70 bei
amazon.de
Es gilt also nun, Lösungen zu finden, wie man diese Menge an Informationen
formalisieren und vor allem kategorisieren kann. Dieses Thema wird auch in
Zukunft besonders für Online Shops wichtig sein, denn diese sind darauf
angewiesen, dem potenziellen Kunden möglichst alle Informationen, die für die
Kaufentscheidung wichtig sind, bereitzustellen. Gleichzeitig muss dies natürlich in
einer Form geschehen, die den Kunden nicht überfordert, sodass vorher ermittelt
werden sollte, welche Produktmerkmale einer Produktkategorie besonders
relevant für den Anwender sind. Da diese Wichtung nach Relevanz aufgrund der
großen Zahl an verschiedenen Kategorien (der eCl@ss-Standard1 kennt allein
32.000 verschiedene Produktklassen) nicht ohne technische Hilfsmittel zu
schaffen ist, wird in dieser Arbeit untersucht, wie effektiv diese Aufgabe mit
aktuellen Systemen erledigt werden kann. Im Vordergrund soll allerdings die
Erstellung und Implementierung eines eigenen Lösungsansatzes stehen.
1 Mehr zum eCl@ss-Standard unter 2.3.3. Produktontologien
9
1.2. Inhalte der Arbeit
Im Anschluss an diese Einleitung werden wir uns in Kapitel 2 mit den
theoretischen Grundlagen beschäftigen, die für die Entwicklung eines Systems
zur Rankingerstellung notwendig sind. Um auswertbare Daten für eine
Relevanzbeurteilung, bzw. für eine Rankingerstellung zu erhalten, müssen wir
uns deswegen zuerst mit den Techniken der Informationsextraktion
auseinandersetzen. Danach werden wir verschiedene Rankingalgorithmen
betrachten, die für den Gegenstand dieser Arbeit relevant sein könnten.
Außerdem muss ein Blick auf Produktmerkmale im Allgemeinen geworfen
werden, um schon vor der eigentlichen Entwicklung des Systems eventuelle
Sackgassen oder auch Lösungsansätze zu erkennen. Am Ende des zweiten
Kapitels werden wir dann verschiedene Arbeiten untersuchen, die sich mit
ähnlichen Aufgabenstellungen beschäftigt haben. Des Weiteren werden wir an
dieser Stelle einen Einblick in das Fedseeko-System erhalten, welches einen
zentralen Punkt in unserem Lösungskonzept darstellen wird.
In Kapitel 3 werden wir schließlich die Anforderungen an das zu entwickelnde
System genauer spezifizieren. Dieses Kapitel beschäftigt sich ebenfalls mit den
Goldstandards, die für die Evaluierung unserer Arbeit entscheidend sind. Kapitel
4 und 5 sind dann der Entwicklung und Realisierung eigener
Informationsextraktions- und Rankingansätze vorbehalten, während Kapitel 6 die
Evaluierung der erarbeiteten Ergebnisse beschreibt. Am Ende der Arbeit werden
noch einmal alle Erkenntnisse zusammengefasst und mögliche Ansätze für die
Zukunft gezeigt.
10
2. GRUNDLAGEN
2.1. Web Information Extraction
Durch das sehr schnelle Wachstum des Internets sehen wir uns immer öfter mit
dem Problem der Informationsüberflutung konfrontiert. Da die Anzahl online
verfügbarer Dokumente rasant steigt, wird es immer schwieriger, gezielt
Informationen zu bekommen, bzw. diese in kurzer und prägnanter Form
darzustellen.
Um dieses Problem zu lösen, werden Systeme zur Informationsextraktion
entwickelt und eingesetzt. Diese Systeme sollen Dokumente vor dem
Hintergrund einer vorher spezifizierten Domäne analysieren und gezielt
Informationen aus ihnen extrahieren. Dabei werden nicht relevante Teile
ignoriert. Was relevant ist und was nicht, wird vorher beispielsweise mit einem
speziellen Regelwerk vorgegeben.
2.1.1. GRUNDSÄTZLICHE FUNKTIONSWEISE
Information Extraction kann sowohl auf strukturierte, als auch auf unstrukturierte
Daten angewendet werden. Da nur der letzte Fall in der folgenden Arbeit relevant
sein wird, beschränken wir uns auf die Informationsgewinnung aus
unstrukturierten Daten. Ein Informationsextraktionssystem bearbeitet in der Regel
nur eine bestimmte Domäne. Für diese wird ein spezielles Antwortmuster
festgelegt, das alle relevanten Daten beinhalten soll. Diese Muster bestehen aus
einer Menge von Attribut-Wert-Paaren und werden Templates genannt. Im
Prozess der Informationsextraktion werden diese dann instanziiert und mit
Werten für die Attribute versehen. Als Eingabedaten erhält das System eine
vorher festgelegte Menge an Dokumenten.
Den Prozess der Informationsextraktion kann man nach [Cun97] nun in fünf
grundlegende Schritte unterteilen. Im ersten Schritt, Named Entity Recognition,
werden Eigennamen von Objekten erkannt und verarbeitet. Das können Namen
oder auch Orte sein. Darauf folgt die Coreference Resolution, bei der die
Referenzen zwischen den im ersten Schritt erkannten Objekten im Text
ausgewertet werden. Das können zum Beispiel Synonyme, Relativ- oder
Personalpronomen sein. Im dritten Schritt wird die Template Element
Construction durchgeführt. Die im ersten Schritt gefundenen Objekte werden
dabei mit Informationen versehen. Danach werden die Beziehungen zwischen
den einzelnen Objekten analysiert. Dieser Schritt nennt sich Template Relation
Construction. Am Schluss werden in der Scenario Template Production alle
Objekte mit dem Domänenszenario verbunden.
11
Abbildung 2: Die fünf grundlegenden Schritte der Informationsextraktion nach [Cun97]
2.1.2. QUALITÄTSKRITERIEN
Die Qualität und Leistung eines Informationsextraktionssystems wird in den
Kategorien Präzision P und Vollständigkeit V gemessen. Präzision (Precision)
gibt den Anteil der korrekt gewonnenen Wissenseinheiten (Templates oder
einzelne Attribut-Werte-Paare) an den insgesamt gewonnenen Wissenseinheiten
an. Eine hohe Präzision bedeutet somit einen hohen Prozentsatz an relevanten
Informationen. Vollständigkeit (Recall) bezeichnet das Verhältnis der insgesamt
korrekt gewonnen Wissenseinheiten zu den absolut gewinnbaren korrekten
Wissenseinheiten. Hier bedeutet ein hoher Wert, dass fast alle relevanten
Informationen gefunden wurden. Beide Kategorien gleichzeitig zu optimieren, ist
sehr schwierig. Je mehr Wert man auf Präzision legt, desto größer ist die Gefahr,
dass ein System eventuell relevante Wissenseinheiten aussortiert. Achtet man
besonders auf Vollständigkeit, steigt das Risiko irrelevante Informationen als
wesentlich zu erfassen.
Um ein einziges Maß für die Güte von Informationsextraktionssystemen zu
gewinnen, hat man das F-Maß eingeführt, welches beide Kategorien beinhaltet:
Wie man sehen kann, ist das F-Maß im Prinzip das geometrische Mittel aus
Präzision und Vollständigkeit. Der Parameter β dient dazu, eine der beiden
Kategorien besonders stark zu gewichten und ist standardmäßig 1. Liegt er
darunter, so wird der Präzisionswert besonders betont. Für Werte größer 1 findet
hingegen die Vollständigkeit größere Berücksichtigung in der Berechnung.
12
2.2. Rankingverfahren
Wie schon erwähnt, wächst die Anzahl im Internet verfügbarer Dokumente sehr
schnell. Mittlerweile wurde eine so große Menge erreicht, dass es für einen
Nutzer in der Regel unmöglich ist, alle Dokumente zu einer bestimmen
Informationsanfrage zu durchsuchen. Um diesen Missstand zu beseitigen, ist
eine Bewertung der Dokumente bezüglich eines oder mehrerer vorher
spezifizierter Kriterien notwendig. Für diese Aufgabe werden Rankingalgorithmen
entwickelt und eingesetzt. Diese fungieren als eine Art Ordnungsrelation
zwischen den einzelnen Dokumenten und erstellen eine Rangfolge,
beispielsweise bezüglich der Relevanz zu einer speziellen Informationsanfrage.
Somit wird für den Nutzer praktisch eine Vorauswahl getroffen, welche
Dokumente für ihn besonders relevant sind. Ein besonders wichtiges
Anwendungsgebiet sind Web-Suchmaschinendienste, die später gesondert
behandelt werden sollen.
2.2.1. ALGORITHMEN
Prinzipiell kann man die derzeit verwendeten Rankingverfahren in inhaltsbasierte
und strukturbasierte Algorithmen einteilen. Beide Verfahren weisen jedem
Dokument anhand ihrer Relevanz zu einer oder mehreren Anfragen einen
Punktwert zu, nach dem dann sortiert wird. Inhaltsbasierte Algorithmen
analysieren in erster Linie Inhalt und Struktur der einzelnen Dokumente, während
strukturbasierte Verfahren die Verlinkungstrukturen der Dokumente
untereinander untersuchen. Im Folgenden sollen einige Verfahren kurz
vorgestellt werden.
TF-IDF: Das Kürzel steht für "Term Frequency – Inverse Document Frequency".
Die „Term Frequency“ (tf) gibt die Häufigkeit eines Begriffes t in einem
Dokument d an. Um Dokumente unterschiedlicher Länge miteinander vergleichen
zu können, wird die entsprechende Berechnungsformel normiert. Dies kann
entweder mit der Anzahl aller Wörter in dem Dokument geschehen (Nd) oder mit
der Häufigkeit des am zahlreichsten vertretenen Begriffes (max {freqx,d}). In
beiden Fällen wird durch die Normierungsgröße dividiert. Somit ergeben sich für
die Term Frequency folgende Formeln:
13
Beziehungsweise normiert:
Leider verfälschen besonders häufig vorkommende Begriffe die
Relevanzbewertung in vielen Fällen. In Dokumenten, die sich mit PC-Hardware
auseinandersetzen, wird zum Beispiel das Wort „Computer“ fast überall gefunden
werden. Deswegen wird das Verfahren der „Document Frequency“ (df)
angewendet, um die Relevanz solcher Wörter richtig einzustufen. Dieses
Verfahren zählt die Dokumente, die einen bestimmten Begriff t enthalten (dft). Für
die Bewertung selbst nutzt man den Kehrwert (die „Inverse Document
Frequency“ (idf)), der auch auf die insgesamt durchsuchten Dokumente (|D|)
Bezug nimmt:
Im Endeffekt werden Begriffe, die in sehr vielen Dokumenten vorkommen, eher
niedrig bewertet, während Begriff, die nur selten vorkommen, eine hohe
Relevanzbewertung bekommen. Es gibt auch eine Variante, bei der dieser Wert
logarithmisch skaliert wird. Dies sorgt für noch deutlichere Unterschiede
zwischen häufigen und seltenen Begriffen, am eigentlichen Prinzip ändert sich
jedoch nichts.
Aus Term Frequency und Inverse Document Frequency wird dann das
eigentliche Rankinggewicht tfidft,d ermittelt:
Einem Begriff t wird also im Dokument d eine hohe Relevanz zugewiesen, wenn
er in wenigen anderen Dokumenten vorkommt, aber in d selbst recht häufig
auftritt.
Okapi BM25: Die BM25-Wichtung stellt bei den inhaltsbasierten Verfahren den
aktuellen Stand der Forschung dar und basiert zum Teil auf der schon
eingeführten TF-IDF-Bewertung und dem probabilistischen Retrieval Modell, das
ab 1970 von Stephen E. Robertson und Karen Spärck Jones entwickelt wurde.
Die Wichtung erfolgt inhaltsbasiert und es werden einige Teile der TF-IDF-
Wichtung verwendet, so zum Beispiel der idft-Wert. Dieser wird aber etwas
anders berechnet:
14
Kommt ein Begriff t sehr häufig vor (in über der Hälfte der Dokumente), dann
kann er sogar negativ bewertet werden.
Der Gesamtwert der BM25q,d-Wichtung eines Dokumentes d mit der Anfrage q
berechnet sich dann wie folgt:
tft,d ist die bereits vorgestellte Term Frequency, also die Häufigkeit eines Wortes
t in einem Dokument d. Ld ist die Länge des Dokumentes d und Lave die
durchschnittliche Länge aller untersuchten Dokumente. k1 (≥ 0) und b (ϵ [0,1])
sind frei wählbare Parameter, mit denen man die Wichtung anpassen kann.
BM25 wird heutzutage sehr oft verwendet und zeigt in der Praxis auch gute
Leistungen in Bezug auf Präzision und Vollständigkeit.
Als Vertreter strukturbasierter Rankings seien hier noch PageRank/TrustRank
und HITS (Hyperlinked Induced Topic Search) genannt. Diese Algorithmen
untersuchen in erster Linie die Verlinkungsstruktur zwischen Dokumenten. Da in
dieser Arbeit jedoch weniger diese Strukturen, sondern vor allem die Textinhalte
der einzelnen Dokumente interessant sind, wird hier nicht näher auf diese
Verfahren eingegangen. Lediglich PageRank wird im Unterkapitel zu den
Suchmaschinen noch einmal kurz vorgestellt.
2.2.2. EVALUIERUNGSMETHODEN
Um Rankingmethoden geeignet evaluieren zu können, benötigt man eine große
Menge von Dokumenten und zugehörige Informationsanfragen und eine bereits
vorhandene Relevanzbeurteilung als ideales Vergleichsobjekt. Eine solche
Beurteilung nennt man Goldstandard2. In der Praxis gibt es einige Standard-
Sammlungen, die immer wieder für die Bewertung von Rankingverfahren
herangezogen werden, zum Beispiel TREC oder GOV2.
Die bei den Extraktionsverfahren eingeführten Maße Präzision und
Vollständigkeit lassen sich in abgewandelter Form auch für die Bewertung von
Rankingverfahren verwenden. Eine Möglichkeit ist das Precision-Recall-
2 Mehr zum Thema Goldstandard unter Punkt 3.3
15
Diagramm. Dabei werden für jedes Dokument in der Ergebnisliste für eine
spezifische Informationsanfrage diese beiden Kennwerte berechnet. Dann
werden für Teilmengen dieser Liste die beiden berechneten Werte in ein
Diagramm eingetragen. Die Teilmengen werden wie folgt ermittelt: Im ersten
Schritt nimmt man die einelementige Menge mit dem relevantesten Ergebnis. Die
nächsten Teilmengen ergeben sich dadurch, dass man immer das nächstbeste
Ergebnis zu der vorherigen Menge hinzunimmt, bis man die komplette
Ergebnisliste in dieser Menge hat.
Abbildung 3: Sägezahnverlauf des Precision-Recall-Diagramms
Ohne vorherige Interpolation ergibt sich im Diagramm ein „Sägezahnverlauf“, da
bei Hinzunahme eines irrelevanten Ergebnisses der neue Punkt direkt unter dem
vorherigen Punkt liegt (da Recall gleich bleibt und Precision kleiner wird) und bei
einem relevanten Ergebnis Precision und Recall beide ansteigen (Abbildung 3).
Aus dem Diagramm kann man schließlich die interpolierte Präzision pinterp(r) einer
bestimmten Recall-Stufe r bestimmen. Sie berechnet sich folgendermaßen:
p(r‘) ist die Präzision an der aktuellen Recallstufe r. Letztendlich ist die
interpolierte Version also nichts anderes, als die höchste Präzision ab einem
bestimmten Recall-Level. Für die Bewertung eines Rankingverfahrens erhält man
so mehrere Ergebnisse, je nachdem, welche Werte man für r auswählt.
Graphisch wird durch diese Interpolation aus dem Sägezahnverlauf eine
geglättete Kurve (Abbildung 4).
16
Abbildung 4: Interpoliertes Precision-Recall-Diagramm
Möchte man ein Ranking allerdings mit einer einzelnen Wertung versehen, dann
bieten sich die Verfahren der Average Precision (AP) und der Mean Average
Precision (MAP) an. Die Average Precision gibt für eine Anfrage q den Mittelwert
aller Precisionwerte der relevanten Ergebnisse an:
Nr gibt die Anzahl der relevanten Ergebnisse an und Rn den Recall des n-ten
relevanten Ergebnisses. Ermittelt man den Wert für eine Menge von Anfragen Q,
dann erhält man die Mean Average Precision (MAP):
Der Vorteil von MAP ist natürlich, dass mehrere Anfragen in die
Qualitätsbewertung einfließen. Damit ist eine bessere Vergleichbarkeit zwischen
verschiedenen Rankingverfahren gesichert.
Leider sind die bisher vorgestellten Evaluierungsmethoden darauf beschränkt,
bei den einzelnen Ergebnissen zwischen „relevant“ und „nicht relevant“ zu
unterscheiden. Deswegen sind sie für die Bewertung des zu entwickelnden
Systems nur eingeschränkt nutzbar, da wir später verschiedene Relevanzgrade
nutzen werden. Also muss auch auf ein System zurückgegriffen werden, welches
mehrere Relevanzabstufungen kennt, beispielsweise nDCG (Normalized
Discounted Comlulative Gain).
17
Wie schon angedeutet, nutzt man NDCG in erster Linie, um Rankingalgorithmen
zu evaluieren, die mit mehr als zwei Relevanzstufen arbeiten. Die Grundidee ist,
Ergebnislisten dahingehend zu untersuchen, ob Dokumente mit hoher Relevanz
möglichst auch am Anfang stehen. Als Ausgangspunkt verwendet man den noch
nicht normalisierten Discounted Comulative Gain (DCG), der wie folgt definiert
ist:
p steht für eine beliebige Position in der Ergebnisliste und reli ist der
Relevanzgrad des Dokumentes an der Stelle i. Wie man gut erkennen kann,
werden Dokumente umso geringer bewertet, je weiter hinten sie in der
Ergebnisliste positioniert sind. Dafür sorgt der duale Logarithmus als Divisor in
der Summenfunktion, dessen Wert mit steigender Dokumentenposition größer
wird. Den höchsten Wert erreicht der zu evaluierende Rankingalgorithmus also,
wenn die resultierende Ergebnisliste durchgehend nach Relevanz absteigend
angeordnet ist. Das ausgerechnet der duale Logarithmus zur Reduzierung des
Dokumentenwertes verwendet wird, ist rein willkürlich. Es existieren auch
Varianten mit anderen Operationen als Divisor.
Ein großer Nachteil des reinen DCG ist, dass man nur die Ergebnislistenwerte
einer einzelnen Anfrage untereinander vergleich kann, denn bei mehreren
Anfragen kann die maximal zu erreichende Punktzahl aufgrund unterschiedlicher
Ergebnismengen voneinander verschieden sein. Darum hat man eine
normalisierte Version entwickelt, die unabhängig vom einzelnen Punktewert einer
Ergebnisliste ist. Dazu teilt man den erreichten DCG-Wert eines
Rankingalgorithmus für eine einzelne Anfrage durch den maximal möglichen
Wert IDCG (der Wert, der bei absolut korrekter Anordnung erreicht werden
würde):
Damit bewegen sich alle möglichen Werte zwischen 0 und 1. 0 wird erreicht,
wenn alle Dokumente in der Ergebnisliste bis zur Position p ohne Relevanz sind.
Sind die Dokumente der Ergebnisliste perfekt sortiert, so gilt DCGp = IDCGp. In
diesem Fall wird der nDCGp-Wert 1.
Somit hat man mit nDCG eine recht einfach zu implementierende Methode, um
einen Rankingalgorithmus mit mehreren Relevanzstufen zu evaluieren.
Interpretiert man das Ranking von Produktmerkmalen allerdings als eine
Zuweisung von Merkmalen zu verschiedenen Relevanzklassen, so kann die Güte
18
des Rankingverfahrens auch mittels Evaluationsmethoden für
Klassifizierungssysteme bewertet werden. Klassifizierungssysteme weisen
Objekte zu einer oder mehreren Klassen zu. Im Folgenden sollen die beiden
bekanntesten Bewertungsverfahren vorgestellt werden, Microaveraging und
Macroaveraging.
Mit beiden Methoden kann man für eine gegebene Klassifizierung Precision und
Recall berechnen. Dazu ist als Vergleichswert eine korrekte Klassifizierung
notwendig. Anhand dieser kann man dann für jede einzelne Klasse der zu
bewertenden Klassifizierung die True Positives (Anzahl korrekt zugewiesener
Objekte), die False Positives (Anzahl falsch zugewiesener Objekte) und die
False Negatives (Anzahl fälschlicherweise nicht zugewiesener Objekte)
berechnen. Mit diesen drei Kennwerten für jede Klasse lässt sich nun mit den
beiden genannten Methoden Precision und Recall der zu untersuchenden
Klassifizierung berechnen. Microaveraging und Macroaveraging ähneln sich vom
Berechnungsschema sehr, setzen jedoch bei der Bewertung unterschiedliche
Schwerpunkte. Wie an den Formeln für Precison und Recall leicht abzulesen ist,
besitzt bei Microaveraging jedes Dokument das gleiche Bewertungsgewicht:
Beim Macroaveraging hat hingegen jede Klasse das gleiche Gewicht,
unabhängig von der Anzahl der enthaltenen Dokumente. Kleine Klassen mit
wenigen Objekten haben so verglichen mit großen Klassen einen
überproportional hohen Einfluss auf die Bewertung.
Für die Evaluation des Rankingsystems wird vor allem das Microaveraging-
Verfahren wesentlich sein, da die korrekte Beurteilung jedes Produktmerkmals
wichtig ist, als die Betrachtung einzelner Relevanzklassen.
2.2.3. ANWENDUNGSGEBIETE
Document Retrieval
Das sogenannte Document Retrieval ist die Standardanwendung von
Rankingalgorithmen. Es gibt hierbei eine vorbestimmte Menge von Dokumenten
und einen Anwender, der spezielle Informationen sucht. Diese versucht er mittels
einer Anfrage an die Dokumentensammlung zu finden. Das Ziel besteht nun
darin, die Ergebnisliste in eine bestimmte Ordnung gemäß der Relevanz zur
19
Anfrage zu bringen, sodass die relevantesten Dokumente zuerst präsentiert
werden. Internet-Suchmaschinen sind die klassische Anwendung des Document
Retrievals.
Key Term Extraction
Key Term Extraction kann im Deutschen mit der Extraktion von
Schlüsselbegriffen oder Schlagwörtern übersetzt werden. Man ermittelt also die
wichtigsten Begriffe innerhalb eines Dokumentes, um beispielsweise diese in
andere Sprachen zu übersetzen, automatisch ein Glossar zu erstellen oder
Begriffe zu finden und zu korrigieren, die im falschen Kontext benutzt werden.
Die im Dokument vorkommenden Begriffe werden also in eine bestimmte
Reihenfolge (Ranking) gebracht, bei der die wichtigsten Begriffe zuerst
aufgelistet werden. Dies kann beispielsweise von der Anzahl der Vorkommen der
einzelnen Begriffe abhängen oder von ihrer Relevanz zum übergeordneten
Thema des Dokumentes.
Opinion Mining
Opinion Mining, Sentiment (dt. Gefühl, Meinung) Detection, auch Sentiment
Analysis oder im Deutschen Gefühlserkennung genannt, ist ein Teil des Text
Mining. Es geht hierbei um die automatische Auswertung der Stimmung in
Texten und die Ermittlung der Meinung des Verfassers. Auch in der Sentiment
Detection findet Ranking Anwendung, denn die untersuchten Dokumente werden
beispielsweise nach Intensität der Stimmungen sortiert. Es besteht ebenfalls die
Möglichkeit, so die Relevanz, Bewertung oder Ausprägung verschiedener
Produktmerkmale aus Testberichten oder ähnlichen Dokumenten in Erfahrung zu
bringen. Im Kapitel 2.4. werden Arbeiten vorgestellt, die sich zum Teil auf diese
Anwendungsmöglichkeit bezogen haben.
Collaborative Filtering
Unter Collaborative Filtering versteht man den Prozess des Aussiebens (oder
Filterns) von Informationen unter Zuhilfenahme von mehreren Agenten und/oder
Datenquellen. Im Internet Information Retrieval spielt Collaborative Filtering vor
allem in Empfehlungsdiensten eine große Rolle. Hierbei werden dem Benutzer
automatisch Empfehlungen zu seinen Interessen gemacht, basierend auf den
Interessen von vielen anderen Benutzern, die ähnliche Eigenschaften wie der
Anwender haben. Ein gutes Beispiel ist amazon.de. Basierend auf dem eigenen
Kaufverhalten, bekommt man von dem Online Shop Kaufempfehlungen für
Produkte, die auch andere Benutzer mit ähnlichen Interessen erworben haben.
Alle vorgeschlagenen Empfehlungen werden mittels Ranking in eine Sortierung
gebracht, sodass der Nutzer die beste Empfehlung zuerst vorgeschlagen
bekommt.
20
Expert Finding
In vielen Fällen besteht die Aufgabe darin, eine Person zu finden, die auf einem
bestimmten Gebiet besonders kompetent ist. Diese Suche kann sehr
arbeitsintensiv und zeitraubend sein. Daher macht es sich das sogenannte
"Expert Finding" zur Aufgabe, automatisch Experten für ein bestimmtes
Fachgebiet zu finden. Dazu werden eine spezielle Dokumentensammlung, eine
Liste von potenziellen Experten für ein Thema und eine Menge von Fachgebieten
benötigt. Die Herausforderung ist dann, aus der Dokumentensammlung
Rückschlüsse auf die Beziehung zwischen den Expertenkandidaten und den
Fachgebieten zu ziehen. Die vom System zurückgegebenen Expertenvorschläge
werden durch Ranking in eine Sortierung gebracht, sodass der fachkundigste an
erster Stelle stehen sollte. In [Fan08] wird ein probabilistischer Ansatz dazu
vorgestellt.
2.3. Produktinformationen
Um ein Ranking von „Produktinformationen“ oder „Produktmerkmalen“ zu
erstellen, sollte man zuerst einmal etwas näher auf diese Begriffe eingehen.
Prinzipiell weist jedes existierende Produkt spezielle Merkmale auf. Das kann bei
Joghurts die Geschmacksrichtung sein, bei Autos die Leistung des Motors oder
bei einem Kühlschrank der Stromverbrauch. Um mögliche Kunden über die
Eigenschaften eines angebotenen Artikels aufzuklären, versehen Hersteller und
Händler ihre Produkte mit Produktinformationen. Diese sollen möglichst
umfassend die Leistung und Beschaffenheit eines Artikels angeben. Das
ermöglicht dem potenziellen Kunden, anhand der Informationen zu beurteilen, ob
ein Produkt für ihn geeignet ist oder nicht. Außerdem lassen sich so mehrere
Artikel untereinander leichter vergleichen. Durch die wachsende Anzahl an
Produktmerkmalen pro Produkt, hat sich dieser Nutzen durch die steigende
Unübersichtlichkeit leider etwas abgeschwächt.
2.3.1. FORMEN VON PRODUKTINFORMATIONEN
Produktinformationen können in verschiedenen Formen vorliegen. Bei
Nahrungsmitteln hat sich beispielsweise die Nährwerttabelle und die Zutatenliste
etabliert. In anderen Produktkategorien gibt es aber viele weitere Formen.
Allgemein kann man sagen, dass sich für jede Kategorie eine locker
standardisierte Form der Angabe durchgesetzt hat, diese aber immer noch von
Hersteller zu Hersteller leicht unterschiedlich sein kann.
Modellhaft betrachtet, kann man Produktinformationen als eine Menge von
Wertepaaren auffassen, die ein bestimmtes Objekt beschreiben. Ein Wertepaar
besteht aus einer allgemeinen Eigenschaft und dem spezifischen Wert, der das
21
Produkt bezüglich dieser Eigenschaft beschreibt. Bei einem Staubsauger könnte
das stark vereinfacht zum Beispiel folgendermaßen aussehen: {Hersteller,
Siemens}, {Leistung, 1800W}, {Staubbeuteltyp, S67}, {Kabellänge, 6,5m}.
2.3.2. MÖGLICHE PROBLEME BEI DER ERFASSUNG
Bei der automatisierten Erfassung von Produktinformationen sind einige Dinge zu
beachten. Zunächst einmal kommt es sehr häufig vor, dass praktisch
inhaltsgleiche Merkmale mittels Synonymen unterschiedlich bezeichnet werden.
Zum Beispiel werden IDE-Schnittstellen mitunter auch als PATA bezeichnet und
im Englischen Mainboards auch oft als Motherboards. Zählt man nun die
Häufigkeit der Vorkommen, darf man diese unterschiedlich bezeichneten, aber
inhaltsgleichen Merkmale nicht getrennt erfassen, sondern muss diese in einem
Punkt zusammenfassen. Dies führt gleich zum nächsten Punkt: Wenn die
Informationen aus Quellen mit unterschiedlichen Sprachen bezogen werden,
müssen auch diese korrekt zusammengeführt werden. Dabei muss auch
berücksichtigt werden, dass sich viele englische Fachbegriffe in der deutschen
Sprache durchgesetzt haben.
2.3.3. PRODUKTONTOLOGIEN
Abschließend zu den Produktmerkmalen soll hier nochmal ein Blick auf bereits
vorhandene Produktontologien geworfen werden. Prinzipiell sind Ontologien
formale Darstellungen von Begriffen und deren Beziehungen untereinander
innerhalb einer spezifischen Domäne. Sie dienen in erster Linie dazu, Wissen zu
strukturieren und besser austauschbar zu machen. Ebenso lassen sich neue
Sachverhalte in einer Domäne mit ihnen leichter formalisieren.
eCl@ss ist ein internationaler Standard für unternehmensinterne und -externe
Kommunikation und keine Ontologie im klassischen Sinne, da hier in erster Linie
nur Entitäten beschrieben, aber keine Beziehungen zwischen ihnen abgebildet
werden [eCl10]. Er beschreibt Produkte, Materialien und Dienstleistungen. Diese
lassen sich der vierstufigen Klassenstruktur von eCl@ss zuordnen: Sachgebiete,
Hauptgruppen, Gruppen und Untergruppen. Konkrete Instanzen von Produkten
und Dienstleistungen sind allerdings nur in der 4. Ebene (Untergruppe) definiert.
Dafür stehen über 5.000 Attribute zur Verfügung.
22
Abbildung 5: Vereinfachtes eCl@ss Datenmodell (eCl10)
eCl@ss soll helfen, den Datenaustausch zwischen Unternehmen zu
standardisieren und kann auf jeden Wertschöpfungsprozess angewendet
werden. Die aktuelle Version 6.2 besteht aus über 32.000 Klassen in 26
Sachgebieten. Mittels Suchbegriffen können gezielt Produkte aus diesem
umfangreichen Katalog gefunden werden.
GoodRelations: Die GoodRelations Ontologie [Hep08] wurde eigens für die
maschinenlesbare Beschreibung von Produkten und insbesondere
Produktangeboten im Internet konzipiert. Genutzt wird dabei die eCl@ssOWL-
Ontologie (siehe oben), um die einzelnen Produkte und Dienstleistungen zu
definieren. GoodRelations selbst beschreibt dann im Detail das jeweilige
Angebot. Im Fokus stehen dabei die Beziehungen zwischen Gütern
(Dienstleistungen oder Produkten) und den Teilnehmern der
Wertschöpfungskette, also beispielsweise Hersteller, Zulieferer, Händler und
Kunden.
Angebote selbst können durch die verschiedensten Attribute beschrieben
werden: Art der Transaktion (beispielsweise Leasing, Kauf, Verkauf usw.),
spezielle Versandarten, Preise in den verschiedensten Währungen, akzeptierte
Zahlungsmethoden und vieles mehr. GoodRelations lässt sich relativ einfach in
bestehende Websites einbinden und besitzt mehrere Ausgabeformate, etwa
HTML, XML oder dataRSS.
23
Abbildung 6: Beispiel eines Angebotes für einen Sony-Fernseher (Hep08)
2.4. Verwandte Arbeiten
Die Erstellung eines Rankings von Produktmerkmalen in Online Shops ist eine
relativ neue Idee, Arbeiten zu diesem Thema existieren nach derzeitigem
Informationsstand zur Anfertigungszeit dieses Beleges noch nicht. Dennoch
sollen im Folgenden zwei Arbeiten vorgestellt werden, deren Thema der Aufgabe
dieses Beleges zumindest ähnelt.
2.4.1. EXTRACTING AND RANKING PRODUCT FEATURES IN OPINION
DOCUMENTS
Die im Folgenden vorgestellte Arbeit wurde 2010 von Zhang et al. an der
Universität von Illinois in Zusammenarbeit mit HP erstellt und ähnelt der Thematik
dieses Beleges am meisten [Zha10]. Es sollten Produktmerkmale aus „Opinion
Papers“, also Tests, Erfahrungsberichten usw. extrahiert und in eine Rangfolge
gebracht werden. Diese sollte sich nach der Bedeutung der Merkmale richten,
24
welche sich aus deren Relevanz und Häufigkeit ergibt. Zuerst müssen allerdings
die möglichen Merkmale, die ein bestimmtes Produkt aufweisen kann, extrahiert
werden. Dies allein stellt schon ein großes Problem dar. Eine Möglichkeit, die in
Frage kommenden Merkmale zu ermitteln, ist Double Propagation. Dieses
Verfahren orientiert sich an den Relationen zwischen Substantiven und die sie
beschreibenden Worte, meistens andere Substantive oder Adjektive. Dabei
werden mit einigen domänenspezifischen Startworten (seed) erste Merkmale aus
einem Dokument extrahiert. Mit diesen Merkmalen können weitere
Beschreibungsworte ermittelt werden, mit denen man in den folgenden
Iterationen wieder zusätzliche Merkmale gewinnt. So werden nach und nach alle
in einem Dokument vorkommenden Produktmerkmale bestimmt. Ist die Menge
der zu untersuchenden Dokumente allerdings sehr groß, leidet die Präzision
stark darunter und viele nutzlose Daten werden ermittelt. Andererseits sinkt die
Vollständigkeit des Verfahrens erheblich, wenn die Dokumentenmenge zu klein
ist.
Die Arbeit beschäftigt sich vor allem damit, wie man diese beiden Nachteile von
Double Propagation ausbessern kann. Um die Vollständigkeit des Verfahrens zu
verbessern, wurden zwei Erweiterungen eingeführt, das part-whole-Pattern und
das no-Pattern. Ersteres drückt aus, dass ein oder mehrere Objekte Teile eines
anderen Objektes sein können. So kann man beispielsweise aus dem Satz „Die
Linse der Kamera…“ ermitteln, dass eine Linse Teil einer Kamera ist. Dies ist
sehr wichtig, denn so kann man darauf schließen, dass das Substantiv „Linse“
ein Feature ist. Das no-Pattern hilft hingegen, Kommentare wie „kein Lärm“ (engl.
„no noise“) richtig zu klassifizieren, denn Double Propagation übergeht solche
Formulierungen oft.
Um das Problem der geringen Präzision zu lösen, wird ein Ranking der
ermittelten Produktmerkmale erstellt. Dafür wird jedem extrahierten Merkmal ein
Wert zugewiesen, der sich aus der Häufigkeit des Begriffes in der
Dokumentensammlung und dessen Relevanz ergibt. Während die
Auftrittshäufigkeit recht einfach zu ermitteln ist, wird für die Relevanz der
strukturierte Rankingalgorithmus HITS genutzt. Mit Hilfe der aus
Auftrittshäufigkeit und Relevanz gebildeten Rangfolge, kann man nun irrelevante
Merkmale wieder verwerfen.
Die zum Abschluss der Arbeit durchgeführten umfangreichen Experimente
zeigen vielversprechende Ergebnisse. Es konnten im Vergleich zum
standardmäßigen Double Propagation Verbesserungen in den Bereichen
Präzision (circa 5% besser als im klassischen DP) und Vollständigkeit (circa 12%
besser) erzielt werden. Die angestrebte Optimierung des Double Propagation-
Prinzips konnte so erreicht werden. Die Forschungsgruppe arbeitet derzeit daran,
diese Verbesserungen weiter auszubauen.
25
2.4.2. EXTRACTING PRODUCT FEATURES AND OPINIONS FROM
REVIEWS
Die zweite hier genauer betrachtete Arbeit wurde von Ana-Maria Popescu und
Oren Etzioni 2005 an der University of Washington angefertigt [Pop05]. Sie
beschäftigt sich mit dem Extrahieren von Produktmerkmalen und Meinungen aus
Testberichten.
Diese Aufgabe wird in vier Teilaufgaben unterteilt:
1. Produktmerkmale erkennen
2. Meinungen bezüglich der Produktmerkmale erkennen
3. Tendenz der Meinung erkennen (positiv, neutral, negativ)
4. Meinungen bezüglich ihrer Stärke in eine Rangfolge bringen
In der Arbeit wird OPINE vorgestellt, ein System, welches alle vier Teilaufgaben
lösen soll. Es basiert auf dem Know-ItAll Web Information-Extraction System.
OPINE benötigt lediglich ein Produkt und eine Menge von Testberichten und gibt
nach der Bearbeitung die Produktmerkmale und die Meinungen der Testberichte
in einer Rangfolge bezüglich der Stärke aus. „Katastrophal“ wird also in der
Rangfolge über „verbesserungswürdig“ stehen und „perfekt“ über „annehmbar“.
Rein formal soll OPINE also aus einer gegebenen Produktklasse mit einer oder
mehrerer Instanzen eine Menge von Tupeln generieren, die den Aufbau
{(Produktmerkmal f, Meinung0, …, Meinungn)} haben. Die Meinungen sollen wie
schon eingangs erwähnt, in eine Rangfolge bezüglich ihrer Ausdrucksstärke
gebracht werden.
Im Folgenden soll die Funktionsweise von OPINE kurz umrissen werden. Die
eingegebenen Reviews werden vom MINIPAR-Parser [Lin98] verarbeitet und in
eine Form gebracht, aus der dann der OPINE Feature Assessor im nächsten
Schritt die einzelnen Produktmerkmale auslesen kann. Der Feature Assessor ist
eine spezielle Version des Know-ItAll-Systems und analysiert die geparsten
Berichte Satz für Satz mithilfe der WordNet IS-A Hierarchie.
Im Weiteren werden die Berichte dann nach möglichen Meinungen durchsucht.
Alle Textstellen, die dafür in Frage kommen, werden dann anhand eines
komplexen Regelwerkes analysiert. Wird eine potenzielle Meinung dann auch
tatsächlich als eine solche identifiziert, wird sie in die Menge der ermittelten
Meinungen aufgenommen. Abschließend gibt OPINE dann die Produktmerkmale
zusammen mit den Meinungen aus.
26
Abbildung 7: Geplante Funktionsweise von OPINE
Das Finden nur implizit erwähnter Produktmerkmale und das Ranken der
extrahierten Meinungen wurde im Verlauf der Arbeit vorerst zurückgestellt. Diese
Funktionen sind demnach noch nicht im erstellten Prototyp vorhanden.
OPINE wurde mittels der Arbeiten von Hu und Liu evaluiert [Hu04], die auf dem
Gebieten Information Extraction und Ranking schon große Fortschritte erzielen
konnten. OPINE erziele bei einem geringen Verlust der Vollständigkeit (-3%) eine
deutlich höhere Präzision (+22%) als vergleichbare Systeme von Hu und
anderen.
2.5. Internet-Suchmaschinen
Um Informationen aus Dokumenten zu extrahieren, müssen wir zuvor erst einmal
die entsprechenden Dokumente erfassen. Suchmaschinen helfen uns hierbei,
denn sie stellen für eine bestimmte Anfrage eine Menge von
Ergebnisdokumenten zur Verfügung, die für uns relevant sein könnten. Im
weiteren Verlauf dieser Arbeit werden wir zeigen, dass Internet-Suchmaschinen
auch in unserem System eine wichtige Rolle spielen werden. Deswegen lohnt es
sich, an dieser Stelle einen Blick auf ihre Funktionsweise zu werfen. Die
Sortierung der Ergebnisliste sollte dabei besonders im Fokus stehen.
Es existieren viele verschiedene Arten von Suchmaschinen, die man anhand von
Funktionsweise und Einsatzgebiet klassifizieren kann. Wir wollen uns hier auf die
indexbasierten Internet-Suchmaschinen beschränken.
27
Abbildung 8: Indexbasierte Suchmaschine (Quelle: Jakob Voss)
Das wesentliche Element einer Suchmaschine ist der Index, eine Datenstruktur,
die Informationen über alle der Suchmaschine bekannten Dokumente enthält, um
diese später schneller wieder aufzufinden. Der Index muss ständig aktualisiert
und erweitert werden. Bei Internet-Suchmaschinen geschieht dies in der Regel
mithilfe von Web-Crawlern. Dies sind kleine, automatisierte Programme, die
selbstständig Dokumente und Websites im Internet durchsuchen und
analysieren, um gegebenenfalls den Index der Suchmaschine um neue
Informationen zu ergänzen oder alte Einträge zu löschen, bzw. zu aktualisieren.
Stellt ein Nutzer oder ein Programm eine Anfrage mittels einem oder mehrerer
Suchbegriffe an die Suchmaschine, so stellt diese eine Ergebnisliste zusammen.
Dies geschieht durch Analyse der Anfrage und einem Abgleich mit dem Index
des Suchdienstes. In einer klassischen Internet-Suchmaschine erhält man eine
Reihe von Ergebnis-URL, die auf möglicherweise relevante Dokumente
verlinken.
Besonders interessant ist hierbei, auf welche Art und Weise die Reihenfolge der
Trefferanzeige ermittelt wird.
Prinzipiell gilt, dass in der Praxis viele verschiedene Techniken verwendet
werden, um die Ergebnislisten zu sortieren. Die meisten Suchmaschinenbetreiber
legen jedoch aus Wettbewerbsgründen nicht alle Verfahren offen.
Google nutzt unter anderem das PageRank-Verfahren: Dies ist ein
strukturbasierter Ranking-Algorithmus, der Dokumenten auf Basis ihrer
Verlinkungsstruktur untereinander Punktwerte zuweist. Die Grundidee ist, Links
zwischen Dokumenten als Empfehlung des Autors des verlinkenden Dokuments
anzusehen. Die Qualität eines Dokumentes ist demnach von der Anzahl der
eingehenden Empfehlungen bzw. Links abhängig [Lüb09]. Das bedeutet, dass
die Güte eines Dokumentes ohne Kenntnis der Anfrage an die Suchmaschine
schon im voraus berechnet werden kann. Dies geschieht, in dem man allen
erfassten Dokumenten D initial einen PageRank-Wert PR= 1 oder PR= 1 / |D|
zuweist.
28
Der Wert des Dokumentes k wird dann wie folgt berechnet:
Bk bezeichnet die Menge der Dokumente, die auf k verlinken und outdegree(v)
gibt die Anzahl aller Verlinkungen in v an. Der PageRank-Wert eines
Dokumentes berechnet sich also aus der Summe der PageRank-Werte aller
Dokumente, die auf es verlinken, geteilt durch deren absolute Zahl an
ausgehenden Links. Der Parameter d ist ein Dämpfungsfaktor, der in der Praxis
zwischen 0 und 1 liegt. Je höher der Wert eines Dokumentes ist, desto eher wird
es in der Ergebnisliste angezeigt.
Der PageRank-Wert ist aber nur einer von vielen Faktoren. So spielt zum
Beispiel die Auftrittshäufigkeit eines Schlagwortes in URL, Titel und Text einer
Website eine Rolle. Weiterhin sind Alter und Aufbau eines Dokumentes sehr
wichtig für die Ergebnissortierung. Alle bekannten Einflussgrößen hier zu nennen,
würde aber den Rahmen der Arbeit sprengen.
Abschließend sollten noch die Meta-Suchmaschinen erwähnt werden. Dies sind
Suchmaschinen ohne eigenen Index. Startet ein Anwender eine Suche, so leitet
das System die Anfrage an mehrere angebundene Suchmaschinen weiter und
stellt dann aus deren Suchresultaten die Ergebnismenge zusammen. Vorteilhaft
ist hierbei, dass man dabei mit seiner Anfrage eine größere Datenmenge
erreicht.
Abbildung 9: Funktionsweise einer Meta-Suchmaschine (Quelle: Jakob Voss)
29
2.6. Fedseeko
Fedseeko [Wal11] ist ein System, welches selbstständig Produktinformationen
aus verschiedenen Quellen im Web zusammenträgt. Es wurde 2008 an der TU
Dresden entwickelt und wurde mit dem Framework Ruby on Rails implementiert.
Heutzutage wird von Herstellern, Händlern und natürlich unzähligen anderen
Onlineplattformen, wie Blogs, Foren oder Testseiten, eine riesige Menge an
Produktinformationen bereitgestellt. Besonders nachteilig an dieser
Informationsflut ist vor allem die Mächtigkeit dieser Menge selbst, die mittlerweile
so groß geworden ist, dass sie kaum ein Mensch ohne weitere Hilfsmittel in
vertretbarer Zeit sichten könnte. Außerdem treten gerade bei
Produktinformationen viele Inkonsistenzen auf, da manche Informationen veraltet
oder schlichtweg falsch sind. Fedseeko soll Nutzern helfen, diese Probleme zu
überwinden, indem es aus den drei oben genannten Informationsquellen
(Herstellern, Händlern und Drittparteien) ein möglichst objektives und
vollständiges Produktbild erstellt.
Dies geschieht, indem man dem System verschiedene Quellresourcen zur
Verfügung stellt. Für jeden der möglichen Quelltypen existieren Web Services,
die Anfragen an APIs oder Websites stellen können. So können mit dem
Händlerservice Informationen von Onlineshops wie Amazon abgerufen werden.
Dazu kann man manuell eine Konfiguration erstellen, in der alle notwendigen
Zugriffsinformationen für die Web Services oder Websites der Händler enthalten
sind. Man hat ebenfalls die Möglichkeit, auf die manuelle Erstellung einer
Konfiguration zu verzichten und stattdessen auf den Web Scraper
zurückzugreifen. Dazu muss man eine Web Scraping Konfiguration zu Fedseeko
hinzufügen. Danach wird die Ergebnisseite des Händlers gelabelt, sodass man
alle notwendigen Felder auslesen kann.
Mit dem Herstellerservice werden Produktinformationen direkt von den Hersteller-
Websites extrahiert und auf eine Ontologie gemappt. Dazu wird zunächst über
eine Meta-Suchmaschine der direkte Pfad zur Produktansicht auf der
Herstellerseite ermittelt. Mittels des Pfades ist es dann möglich, die Informationen
automatisch auszulesen und zu systematisieren. Für Blogs, Foren, Testseiten
usw. steht ein weiterer generischer Adapter zur Verfügung, der ebenfalls über
eine bereitgestellte API Informationen sammeln kann. Dazu wird ein Web
Scraper eingesetzt, um die erforderlichen Anfragen generieren zu können.
30
Abbildung 10: Architekturübersicht von Fedseeko Quelle: [Wal11]
2.7. Fazit
In diesem Kapitel wurden die erforderlichen Grundlagen für die Konzeption, das
Verständnis und die Evaluation von Ranking- und Extraktionsmethoden
vorgestellt. Die verwandten Arbeiten und die Übersicht über das Fedseeko
System sind hilfreich für die Konzeption eines eigenen Extraktions- und
Rankigsystems von Produktmerkmalen. Bevor ein solches entworfen werden
kann, müssen im nun folgenden Kapitel zuerst die genauen Anforderungen
untersucht und gestellt werden.
31
3. ANFORDERUNGSANALYSE
3.1. Anforderungen
Das zu entwickelnde System hat zwei Hauptkriterien zu erfüllen. Zum einen muss
es die Relevanz von Produktmerkmalen berechnen und in ein Ranking bringen,
zum anderen muss es auf der Datenbasis des Fedseeko Systems arbeiten. Im
Folgenden werden diese beiden Anforderungen näher spezifiziert.
3.1.1. ANFORDERUNGEN AN DIE RELEVANZBEURTEILUNG
Das System muss in der Lage sein, selbstständig die spezifischen
Produktmerkmale verschiedener Produktklassen zu ermitteln. Diese Merkmale
sollen dann in eine objektive Rangfolge bezüglich ihrer allgemeinen Relevanz
gebracht werden. „Allgemeine Relevanz“ bedeutet in diesem Fall, dass die
Merkmale, die besonders wichtig für die Kaufentscheidung sind, einen hohen
Relevanzwert bekommen und weniger wichtige Merkmale nur niedrig bewertet
werden. Die Einteilung, welche Produkteigenschaften besonders bedeutend sind
und welche weniger Berücksichtigung finden, soll unabhängig vom einzelnen
Nutzer und automatisiert geschehen. Um die Relevanz zu beurteilen, sollen
mittels Information Extraction-Verfahren Rankinginformationen aus
produktrelevanten Websites gewonnen werden. Der in dieser Arbeit ebenfalls zu
entwickelnde Rankingalgorithmus soll dann aus diesen Rankinginformationen
eine Rangfolge bezüglich der Relevanz der Merkmale für den durchschnittlichen
Anwender erstellen.
3.1.2. INTEGRATION IN FEDSEEKO
Das System zur Relevanzbeurteilung soll anschließend in das Fedseeko User
Interface integriert werden. Hier bietet sich eine Stelle im System an, an der eine
Auswahl aus vielen Produktmerkmalen zu treffen ist, sodass eine Integration in
die Merkmals-Facetten im Produktindex angestrebt wird (Abbildung 11).
32
Abbildung 11: Erweiterte Facets-Anzeige bei Produktmerkmalen von Digitalkameras
Die Abbildung zeigt einen Teil der Anzeige aller Facets der Produktmerkmale.
Zum derzeitigen Stand werden die Merkmale dort alphabetisch geordnet
angezeigt. Hat man nun eine Relevanzbeurteilung zur Verfügung, so könnte man
die wichtigsten Produkteigenschaften zuerst in der Auswahl anzeigen. Zur
besseren Hervorhebung dieser Einteilung, ist auch eine farbliche Unterscheidung
zwischen den verschiedenen Relevanzklassen denkbar.
Da alle Merkmale aus der Fedseeko Datenbank ausgelesen werden, ist es
notwendig, diese in die Entwicklung des Rankingsystems mit einzubeziehen.
3.2. Entwicklung Goldstandards
Um das entwickelte System möglichst effektiv evaluieren zu können, benötigt
man Vergleichsobjekte. In diesem Fall sollen drei Rankings manuell erstellt
werden, die eine möglichst allgemeingültige Rangfolge von Produktmerkmalen
darstellen, sogenannte Goldstandards. Diese Standards sind Datenmengen, die
beschreiben, wie unsere Rankings im optimalen Fall aussehen sollten. In
unserem Sinne bedeutet das, eine solche Wichtung der Produktmerkmale zu
finden, die möglichst nah an die durchschnittliche Relevanzeinschätzung aller
möglichen Anwender kommt.
33
Die gewählten Produktkategorien sind Festplatten, Mainboards und
Digitalkameras, da diese Bereiche eine Vielzahl technischer Vergleichsmerkmale
aufweisen, die sehr unterschiedlich zu wichten sind. Bei der Erstellung solcher
Goldstandards ist vor allem Fachwissen und Objektivität notwendig, um eine
möglichst fundierte und neutrale Gewichtung der Merkmale zu erreichen. Bei der
Entwicklung der folgenden Rankings wurde eine Vielzahl externer Quellen
konsultiert, beispielsweise Review-Datenbanken oder Experten-Foren. Auf
Problematik der objektiven Erstellung solcher Standards wird im Evaluations- und
Ausblickskapitel noch einmal genauer eingegangen.
Zunächst wurde ermittelt, welche Produktmerkmale in der Fedseeko-Plattform für
Digitalkameras, Festplatten und Mainboards berücksichtigt werden. Danach
wurden die Angaben verschiedener Händler, Hersteller und Hardware-Websites
durchsucht, um eine möglichst umfangreiche Anzahl von gewichteten Merkmalen
zu erreichen. Die Wichtung erfolgt auf einer Skala von 1 (unwichtig für
Kaufentscheidung) über 3 (durchschnittlich wichtig) bis 5 (sehr wichtig für
Kaufentscheidung).
Bewertung Bedeutung
1 Für Kaufentscheidung kaum/nicht relevant
2 Für Kaufentscheidung wenig relevant
3 Für Kaufentscheidung durchschnittlich relevant
4 Für Kaufentscheidung wichtig
5 Für Kaufentscheidung sehr wichtig
Die Qualität des entwickelten Systems wird sich im Rahmen der Evaluierung mit
den erstellten Goldstandards messen lassen. Es sollte eine möglichst gute
Annäherung an die drei manuell entwickelten Rankings angestrebt werden.
3.2.1. GOLDSTANDARD FESTPLATTEN
Da von den meisten Anwendern beim Festplattenkauf zuerst auf die
Speicherkapazität geschaut wird, wird dieses Merkmal als besonders wichtig
bewertet. Auch wissen viele Käufer schon vor dem Kauf, ob sie eine interne oder
externe Platte benötigen. Deshalb ist auch dieser Punkt besonders wichtig.
Drehzahl, Zugriffszeit, Cache und Transferrate sind entscheidende Merkmale, um
die Geschwindigkeit einer Platte für verschiedene Einsatzgebiete einzuschätzen
und sind deshalb oft gefragt. Auch stehen einige Hersteller für besonders hohe
Qualität und werden deswegen von einigen Kunden bevorzugt ausgewählt. Dafür
werden Angaben wie die Anzahl der Sektoren pro Platte oder das Gewicht
meistens überlesen und nicht zum Gegenstand der Kaufüberlegungen gemacht.
34
Merkmal Typische Werte Relevanz
Speicherkapazität / Capacity 500GB, 1,5TB… 5
Drehzahl / Rotational Speed 5400/7200 RPM… 4
Bauart / Build Type Intern/Extern 5
Abmessungen / Physical
Dimension
26,1 x 147 x 101,6… 2
Geräuschentwicklung Ruhe /
Accustic Idle
20 dBA 2
Geräuschentwicklung Betrieb /
Accustic Operating
28 dBA 3
Bus-Typ / Interface PATA, SATA, SCSI 4
Formfaktor / Form Factor 8,9cm, 3,5 Zoll 3
Gewicht / Weight 0,8 kg 1
Cache / Data Buffer 32, 64 MB 4
Transferrate / Transfer Rate 3 Gb/s… 4
Zugriffszeit / Latency 8 ms… 5
Schreib / Leseköpfe 4/2… 1
Garantie / Warranty 2 Jahre, 36 Monate… 3
User-Sektoren / Platte / Sector
Size
3.907.029.168… 1
Stoßfestigkeit Betrieb / Linar
Shock Operating
65G; 2 ms… 2
Stoßfestigkeit Ruhezustand /
Linar Shock Idle
250 G, 2 ms… 1
Temperatur Ruhezustand /
Temperature Idle
-40 bis 70 °C… 1
Temperatur Betrieb /
Temperature Operating
0 bis 60 °C… 2
Energieverbrauch Standby /
Power Requirement
0,80 Watt… 2
Energieverbrauch Ruhe / PR
Idle
3,7 Watt… 1
Energieverbrauch Hochfahren /
PR Startup
4 Watt… 1
Energieverbrauch Betrieb / PR
Operating
6,0 Watt… 2
Vibrationen Ruhezustand /
Vibrations Idle
1,04 (XYZ) 1
Vibrationen Betrieb / Vibrations
Operating
0,67 (XYZ) 1
Betriebsspannung / Voltage 5V 1
Technische Besonderheiten /
Specials
NoiseGuard… 3
35
3.2.2. GOLDSTANDARD MAINBOARDS
Da Chipsatz und Sockel eines Mainboards entscheidend für die Kompatibilität mit
den vorhandenen CPUs sind, kommt diesen eine besondere Bedeutung zu.
Ähnliches gilt für die unterstützten Speichertypen und den Front Side Bus.
Deswegen wurden diese vier Merkmale alle als besonders wichtig bewertet.
Ähnlich wie bei den Festplatten stehen auch bei den Mainboards einige
Hersteller für besonders hohe Qualität und gute Ausstattung, sodass dieser
Punkt hier ebenfalls wichtig ist. Merkmale wie Audio-Chip, Onboard-LAN oder die
Anzahl der SATA-Anschlüsse sind zwar prinzipiell wichtig, jedoch haben sie nur
eine mittlere Wichtigkeit bekommen, da sie mittlerweile auf jedem Mainboard in
ähnlicher Form vorzufinden sind und deshalb nicht als entscheidendes
Vergleichsmerkmal herangezogen werden können.
Als Vertreter besonders unwichtiger Merkmale sei hier der
Diskettenlaufwerksanschluss genannt (FDD). Diese werden kaum noch
verwendet und sind praktisch bedeutungslos geworden.
Merkmal Typische Werte Relevanz
Chipsatz / Chipset Intel P55, AMD 785G… 5
Sockel / Socket LGA 1156, AM3… 5
BIOS Award, AMI… 3
Abmessungen / Physical
Dimension
305mm x 244mm… 2
Audio VIA VT1828S… 3
VGA GMA X4500 3
HDMI 1x 2
Line-IN 1x, 2x… 2
Mikrofonanschluss / Microphone 1x 2
Formfaktor / Form Factor ATX, ITX… 2
FDD 0x, 1x… 1
Front Side Bus 1066, 3200MHz…. 5
IDE 1x ATA133 2
SATA 6x SATA II 3
LAN-Chipsatz / LAN-Chipset Realtek 8112 1
LAN-Anschluss 1xRJ45 10/100/1000 3
PCI 2x, 3x, 4x… 2
PCI-Express x1 2x, 3x… 2
PCI-Express x16 1x, 2x… 4
USB 8x 2.0 3
P/S 2 2x 2
Port I/O 1x 2
eSATA 1x, 2x (JMB363) 2
36
S/P-DIF 1 out optical 1
FireWire 1x FireWire (VT6308P) 3
RAID Intel P55 SATA RAID 3
RAID-Port 6xS-ATA RAID Level
0.1.5.10
2
RAM-Sockel 4 x DIMM 240 Pin DDR3… 2
RAM-Typ / RAM-Type DDR3-1066/1333/1600… 5
RAM (max) 16384MB, 32GB 3
Stromanschluss / Power 24pol ATX;8pol ATX 2
Software Norton Security 3
Technische Besonderheiten ASUS Q-Shield… 3
3.2.3. GOLDSTANDARD DIGITALKAMERAS
Für die Bildqualität von Digitalkameras ist der Bildsensor von größter Bedeutung
und hat deswegen die höchste Wichtigkeit. Auch die Brennweite, Lichtstärke und
die effektiven Pixel sind dafür entscheidend und deshalb entsprechend hoch
eingestuft. Weniger wichtig ist hingegen der digitale Zoom, da er im Gegensatz
zum optischen Gegenstück das Bild nur größer rechnet und deswegen keinen
positiven Einfluss auf die Qualität hat. Auch das Audio-Format und der Video-
Ausgang spielen bei der Bewertung einer Kamera nur eine sehr untergeordnete
Rolle.
Merkmal Typische Werte Relevanz
Bildsensor-Typ / CCD-Sensor 1/2,33" CCD 5
Effektive Pixel / Effective Pixels 10,2 Megapixel… 4
Gesamte Pixel / Pixels 10,4 Megapixel… 2
Objektiv-Brennweite / Focal
Length
f = 4,9 ~ 24,5 mm 4
Optischer Zoom / optical zoom 5x 4
Digitaler Zoom / digital zoom 1.0x – 4.0x 2
Lichtstärke / Aperture f/3.1 (W) - f/5.9 (T) 4
Bildstabilisierung / Stabilizer Ja / Nein 3
Display-Typ / display type TFT 2
Displaygröße / display size 3.0„„ 3
Displayauflösung / display pixels 230.000 3
Autofokus / Autofocus TTL Autofocus 4
Autofokus Minimaldistanz / AF
min
5 cm 4
Verschlusszeit / Shutter speed
MAX
4s 3
37
Verschlusszeit / Shutter speed
MIN
1/2000s 4
Belichtungssteuerung / exposure
control
AE Lock, Safety Shift… 2
Belichtungsmessung / light
metering
Spot, Multi… 3
Lichtempfindlichkeit / sensitivity 100 / 200 / 400 / 800 /
1600…
3
Blitz-Modi / Flash types Auto, Red-eye correction… 2
Blitzreichweite / Flash ranges 0,2 m ~ 3,75 m… 3
Bildgrößen / Image Sizes 1024x768 Pixel… 4
Dateiformat Audio / File format
Audio
WAV 1
Dateiformat Video / File format
Video
AVI 3
Dateiformat Bild / File format
Image
JPEG 4
Abmessungen / Physical
dimension
96,1 x 58 x 21,9 mm 3
Gewicht / Weight 120g 2
Maximale Videoauflösung / video
res.
1280 x 720… 4
Maximale Bilder/s / Max
Framerate
30fps 3
Interner Speicher / Internal
Memory
40 MB… 2
Speicherkarten / Memory Card SD / SDHC… 4
Video-Ausgang / Video Output NTSC / PAL 1
Akkutyp / Power source Li-Akku, 750 mAh 3
Selbstauslöser / Self timer 2sec / 10 sec 2
Digitaler Anschluss / digital
interface
USB 2.0 Hi-Speed 3
Umgebungstemperatur /
operating temp.
0 – 40°C 2
38
3.3. Fazit
Nach den Grundlagen und den in diesem Kapitel erarbeiteten Anforderungen an
das zu entwickelnde System, können nun Lösungskonzepte erarbeitet werden. In
den weiteren Kapiteln soll weiterhin geklärt werden, inwiefern die nun folgenden
Ansätze das Problem der Relevanzbeurteilung von Produktmerkmalen
bewältigen können. Insbesondere die Goldstandards werden im Ranking und der
anschließenden Evaluation des Systems in Kapitel 6 eine große Rolle spielen.
39
4. SYSTEMKONZEPT
Dieses Kapitel beschreibt die allgemeine Konzeption des Rankingsystems. Es ist
in zwei Teile gegliedert, die jeweils ein wesentliches Teilsystem beschreiben.
Dabei handelt es sich um das Finden und Extrahieren von Rankinginformationen
und das eigentliche Rankingverfahren, welches anhand der Rankingdaten die
eigentliche Funktion der Relevanzbeurteilung der Merkmale durchführt.
4. 1. Entwicklung von Extraktionsmethoden für
Rankinginformationen
Jeder Rankingalgorithmus benötigt Eingabedaten, anhand derer das Ranking
durchgeführt wird. Die Qualität der Eingabedaten ist dabei für die
Leistungsfähigkeit entscheidend. In Abhängigkeit von der Funktionsweise des
Ranking können unterschiedliche Formen von Rankinginformationen notwendig
sein. In diesem Kapitel soll die Entwicklung entsprechender Extraktionsmethoden
behandelt werden. Ein wichtiges Kriterium ist hierbei, dass die
Informationsextraktion automatisch und komplett ohne Nutzereingaben abläuft.
Lediglich die Produktkategorie, zu der Rankinginformationen benötigt werden,
muss bekannt sein.
Das Ziel ist es, geeignete Informationen zu erhalten, mit denen man die Relevanz
von Produktmerkmalen bestimmen kann. Dies soll für jede Produktkategorie, die
in Fedseeko vertreten ist, möglich sein. Abbildung 12 zeigt alle derzeit (März
2011) verfügbaren Kategorien.
Abbildung 12: Verfügbare Produktkategorien in Fedseeko
Die Grundidee ist, im Internet verfügbare Dokumente zu ermitteln, die sich mit
Produkten der zu untersuchenden Produktart auseinandersetzen, beispielsweise
Review-Sammlungen für Digitalkameras oder technische Diskussionsplattformen.
Diese Dokumente sollen dann die Eingabedaten für das Rankingverfahren
40
darstellen. Die Herausforderung ist, diese Dokumente zu finden und für eine
Analyse durch den Rankingalgorithmus aufzubereiten.
Der Prozess zur Gewinnung von Rankinginformationen lässt sich somit in zwei
wesentliche Teilaufgaben unterteilen:
1. Bereitstellung passender Suchworte
2. Gewinn von Rankingdaten
Abbildung 13 zeigt eine grobe Einordnung der Extraktionsteilschritte in das
Gesamtsystem. Einzig und allein die zu beurteilende Produktkategorie dient als
Eingabewert. Alle weiteren Schritte laufen automatisch ab.
Abbildung 13: Grobentwurf des Extraktionssystems
Im Folgenden werden wir jede Teilaufgabe einzeln betrachten und
Lösungskonzepte vorstellen.
4.1.1. ERMITTLUNG PASSENDER SUCHWORTE
Dieser Abschnitt soll das Finden passender Suchworte behandeln. Das Ziel muss
sein, Anfragen an Suchmaschinen zu ermitteln, deren resultierende Trefferliste
möglichst viele Websites beinhält, die sich mit Produkten der zu untersuchenden
Produktkategorie auseinandersetzen. Hierbei gibt es drei Ansätze, die untersucht
und später implementiert werden. Der erste Ansatz behandelt die
nutzerunabhängige Ermittlung von Suchworten, basierend auf der
Produktkategorie, während sich der zweite Ansatz auf die Produktnamen selbst
beschränkt. Variante drei ist eine Kombination der beiden vorherigen Methoden.
Im Folgenden sollen alle Verfahren kurz vorgestellt werden.
41
Autonome Suchwortermittlung
Die Idee der autonomen Suchwortermittlung ist es, basierend auf der
Produktkategorie, selbstständig „gute“ Anfragen an Suchmaschinen zu ermitteln.
„Gut“ bedeutet hierbei, dass die Trefferliste möglichst viele produktspezifische
Websites für die zu untersuchende Produktkategorie enthält. Um dies zu
erreichen, sollen im ersten Schritt Websites ermittelt werden, die sich allgemein
mit der speziellen Produktkategorie beschäftigen. Eine Möglichkeit, derartige
Seiten zu finden, ist die Suche nach spezifischen Produktmerkmalen der zu
untersuchenden Kategorie. Dazu soll der Web Service eines
Suchmaschinenanbieters genutzt werden, bspw. die Bing Web Search API. Im
Folgenden werden dann die möglichen Merkmale nacheinander als Suchanfrage
an den Service gesendet und die dadurch gewonnenen URL gesammelt. Für
plausible Ergebnisse sollten mindestens 20.000 Treffer berücksichtigt werden. Im
nächsten Teilschritt werden dann die Websites der URLs nach häufig
vorkommenden Schlagworten durchsucht. Der Fokus liegt dabei auf prominenten
Stellen wie Titelleisten oder Überschriften, da diese für Suchmaschinen eine
wichtige Bedeutung für das Ranking der Suchergebnisse haben. Finden sich
Suchworte an diesen Stellen wieder, so hat dies einen positiven Einfluss auf die
Relevanzbeurteilung der meisten Suchmaschinen. Begriffe, die besonders häufig
und an prominenten Stellen vorkommen, kommen demnach als Erstes als
mögliche Suchwörter infrage.
Mittels einer Stoppliste können dann wenig relevante, dafür aber oft
vorkommende Wörter wie beispielsweise „at“, „and“ „to“ usw. herausgefiltert
werden. Damit die später folgende Relevanzbewertung der Merkmale nicht
verfälscht wird, kommen auch die einzelnen Produktmerkmale nicht als
Suchbegriffe infrage.
Abbildung 14: Schema der autonomen Suchwörterermittlung
42
Das später vorgestellte Rankingverfahren basiert auf der Häufigkeit des
Vorkommens der Produktmerkmale auf Produktwebsites. Würde man einzelne
Produktmerkmale direkt als Anfrage an einen Suchmaschinen-Web Service
stellen, würden diese überdurchschnittlich oft vorkommen und es wäre keine
Aussage mehr über deren tatsächliche Relevanz für den Käufer möglich.
Effektive Suchbegriffe könnten beispielsweise „review“, „test“ oder andere
kategoriespezifische Schlagwörter sein. Es besteht bei dieser Methode jedoch
die Gefahr, dass auch Wörter ohne jeglichen Bezug zur untersuchenden
Produktkategorie als Suchanfrage ausgewählt werden. Solche „falschen“
Suchwörter zu erkennen und herauszufiltern, ist eine sehr große
Herausforderung und mit viel Aufwand verbunden. Der im Folgenden vorgestellte
alternative Ansatz umgeht dieses Problem, in dem er sich komplett auf konkrete
Produktnamen beschränkt.
Beschränkung auf Produktnamen
Wie schon eingangs erwähnt, besteht der zweite Ansatz aus der Beschränkung
der bereitgestellten Suchmaschinenanfragen auf einzelne Produktnamen der zu
untersuchenden Kategorie. Eine naheliegende Möglichkeit ist hier der Bezug der
Produkte direkt aus der Fedseeko-Datenbank. Allerdings sind auch weitere
Bezugswege denkbar, beispielsweise die Nutzung von Web Services
verschiedener Onlineshops, wie etwa die Amazon API. Das System dieser Arbeit
wird vorerst nur die Produktnamen aus Fedseeko verwenden, die Anbindung
weiterer Quellen ist ein Ansatz für eine mögliche spätere Weiterentwicklung.
Die Ausgabe dieses Teilsystems besteht aus einer Liste aller in Fedseeko
enthaltenen Produktnamen einer Produktkategorie.
Abbildung 15: Produktnamen als Suchwörter
Produktnamen und autonom ermittelte Suchwörter
Eine dritte Variante zur Bereitstellung möglichst effektiver Such-
maschinenanfragen ist die Kombination aus Produktnamen und selbstständig
ermittelten Suchbegriffen. In diesem Fall werden die beiden vorangegangenen
43
Konzepte parallel durchgeführt. Anschließend erfolgt eine Kombination aller
Produktnamen mit den ermittelten Suchbegriffen. Dabei wird das kartesische
Produkt aus der Menge der Produktnamen P und der Menge der Suchbegriffe Q
gebildet:
Abbildung 16: Verknüpfung von Produktnamen und Suchbegriffen
Der Vorteil dieser Lösung ist, dass durch die Bildung des kartesischen Produktes
insgesamt mehr Anfragen erstellt werden können, was auch potenziell mehr
auswertbare Dokumente bedeutet.
4.1.2. GEWINNUNG VON RANKINGDATEN
Dieser Teilschritt beschreibt die eigentliche Informationsextraktion. Die
ermittelten Suchanfragen müssen nun in auswertbare Dokumente für das
Rankingverfahren umgesetzt werden. Dazu wird erneut der Web Service eines
Suchmaschinenanbieters genutzt. Die gesammelten Suchanfragen sollen dabei
nacheinander an den Web Service gesendet werden. Aus der resultierenden
Treffermenge werden die URL und ihre Position in der Ergebnisliste extrahiert
und gespeichert. Letzteres ist wichtig, um im Rankingverfahren besonders
relevante (in der Trefferliste weit vorne stehende) Dokumenteninhalte stärker zu
wichten. Somit wird gleichzeitig das interne Ergebnisranking des verwendeten
Web Services in das Ranking der Produktmerkmale indirekt eingebunden.
44
Abbildung 17: Prinzip der Extraktion der Rankingdaten
Als Eingabe für das Rankingverfahren liefert dieser letzte Teilschritt der
Informationsextraktion also eine ausreichend große Menge an Dokumenten, die
sich mit der zu untersuchenden Produktkategorie beschäftigen sollten. Anhand
dieser Daten werden im eigentlichen Rankingverfahren die Relevanzwerte aller
möglichen Produktmerkmale bestimmt.
4.2. Entwicklung eines Rankingverfahrens
In diesem Unterkapitel soll erläutert werden, wie das Rankingverfahren für
Produktmerkmale funktioniert. Das Ziel ist, gegebene Produktmerkmale einer
Produktkategorie anhand ihrer Relevanz für den Anwender zu bewerten. Als
Eingabe liegen die in Kapitel 4.1. extrahierten Rankingdaten in Form von
Internet-Dokumenten vor. Die Bewertung der Merkmale erfolgt, wie in Kapitel 3
beschrieben, anhand einer Skala von 1 bis 5. Zur Übersicht sind im Folgenden
die Bedeutungen der einzelnen Relevanzabstufungen hier noch einmal kurz
erläutert:
Bewertung Bedeutung
1 Für Kaufentscheidung kaum/nicht relevant
2 Für Kaufentscheidung wenig relevant
3 Für Kaufentscheidung durchschnittlich relevant
4 Für Kaufentscheidung wichtig
5 Für Kaufentscheidung sehr wichtig
Ein Rankingverfahren weist grundsätzlich jedem Datensatz, in diesem Fall
Produktmerkmalen, einen Rankingwert aus dem Intervall [0,1] zu. Dies geschieht
durch die Auswertung der eingegebenen Internetdokumente. Der entwickelte
Rankingalgorithmus wird eine gewichtete Kombination mehrerer Teilwerte
darstellen und folglich aus mehreren Teilverfahren bestehen:
1. Ermittlung der Vorkommen jedes Merkmals
2. Normalisierte Abbildung auf Wertebereich 0..1
3. Klassifizierung durch Analyse vorhandener Goldstandards
4. Gewichtete Kombination
Abbildung 18 zeigt eine Übersicht über die angestrebte Systemstruktur des
Rankingverfahrens. In den folgenden Abschnitten soll jeder einzelne Bereich
45
genauer beschrieben und seine Bedeutung für das gesamte Ranking dargestellt
werden.
Abbildung 18: Übersicht über gesamtes Rankingsystem
4.2.1. ERMITTLUNG DER VORKOMMEN JEDES MERKMALES
Anhand der eingegebenen Rankingdaten, in diesem Fall die ermittelten Internet-
Dokumente, wird für jedes Merkmal und seine Synonyme die Anzahl der
Vorkommen gezählt. Hierbei gibt es mehrere Möglichkeiten. Wörter aus
Internetdokumenten, die aus den jeweils ersten zehn Treffern der
Suchmaschinenanfragen extrahiert wurden, könnten dabei mehrfach zählen (vgl.
Tabelle).
Position in Ergebnisliste 1,2 3,4 5,6 7,8 9,10 >10
Wortmultiplikator 6x 5x 4x 3x 2x 1x
Bei dieser Möglichkeit geht man davon aus, dass die ersten zehn Treffer der
Ergebnisliste einen bedeutend höheren Einfluss auf die Relevanzbeurteilung
haben, als die weiteren Treffer, die erst später folgen.
Ein weiterer Ansatz wäre, sich ausschließlich auf die ersten zehn Treffer zu
beschränken, diese aber alle einfach zu werten. Dies würde zwar die Datenbasis
46
stark verkleineren, jedoch kann man davon ausgehen, dass man dabei einen
sehr hohen Anteil relevanter Daten hat und somit verfälschende Treffer stark
reduziert.
Letztendlich ist es aber auch möglich, alle ermittelten Ergebnisse zu verwenden
und nur einfach zu werten. Alle drei Varianten wurden im Belegsystem
implementiert und getestet (siehe Evaluation).
Die Vorkommen der Synonyme erhöhen dabei immer die Wortanzahl des
Hauptmerkmales. Somit erhält man für alle Merkmale der zu untersuchenden
Produktkategorie einen Zahlenwert, der die Häufigkeit ihrer Vorkommen
beschreibt. Dieser Wert ist der Ausgangswert aller weiteren Teilschritte.
4.2.2. NORMALISIERTE ABBILDUNG AUF WERTEBEREICH
Ausgehend von der Vorkommenshäufigkeit jedes Merkmales, muss dieser Wert
nun auf den Wertebereich zwischen Null und Eins normiert werden. Wie
Testläufe mit dem Prototyp gezeigt haben, ist es dabei nicht ausreichend, die
Wortanzahl aller Merkmale linear auf diesen Bereich abzubilden. Der Grund
hierfür ist die Verteilung der Wortanzahl der einzelnen Merkmale. Einige wenige
Produkteigenschaften werden bis zu 20-mal häufiger genannt, als der Großteil
der übrigen Merkmale. Die Folge einer linearen Abbildung wäre eine Häufung der
weniger oft genannten Produkteigenschaften im Intervall [0,0.1], während die
wenigen restlichen, jedoch sehr oft genannten Merkmale im übrigen
Wertebereich verteilt lägen. Dies würde eine Relevanzbeurteilung der weniger
häufig genannten Merkmale sehr schwierig machen, da die Unterschiede nur
minimal wären. Deshalb wird statt einer linearen Skala eine logarithmische
Abbildung genutzt.
Um die Wortanzahl eines Merkmales P auf den Bereich [0,1] abzubilden (= nP),
wird dessen logarithmierte Wortanzahl wP durch die logarithmierte Wortanzahl
des besten Merkmales wmax geteilt. Die Basis k des Logarithmus ist ein frei
wählbarer Parameter. In den bisherigen Praxistests hat sich der Wert ‚2„, also der
duale Logarithmus, bewährt. Diese Abbildung der absoluten Wortanzahlen auf
das Intervall [0, 1] ist der erste Teil des kombinierten Rankings.
47
4.2.3. KLASSIFIZIERUNG DURCH ANALYSE VORHANDENER
GOLDSTANDARDS
Im Folgenden soll der zweite Teil des kombinierten Ranking beschrieben werden.
Das Ziel ist auch in diesem Fall die Abbildung jedes Produktmerkmales auf das
Intervall [0,1]. Hierbei macht man sich aber diesmal die typischen Verteilungen
der Produktmerkmale in die einzelnen Relevanzklassen zunutze. Bei der
Erstellung der Goldstandards für die Evaluierung fiel auf, dass sich die
Relationen zwischen den einzelnen Relevanzklassen 1 bis 5, unabhängig von
der Produktkategorie, teilweise stark ähnelten. Hierbei entstand der Ansatz, diese
Muster für das Ranking zu nutzen. Dieser Teil des Rankingsystems analysiert die
vorhandenen, manuell erstellten Goldstandards und berechnet aus ihnen eine
möglichst allgemeingültige Verteilung der einzelnen Relevanzklassen.
Dies geschieht durch die Untersuchung aller eingegebenen Goldstandards. Für
jeden dieser Standards wird die Anzahl der Merkmale in jeder Relevanzklasse
ermittelt und diese in Relation zur Gesamtanzahl aller Merkmale gesetzt. Somit
erhält man Wissen darüber, wie sich die Relevanzverteilungen der einzelnen
Produktmerkmale verhalten. Folgende Tabelle zeigt die Verteilung beim
Goldstandard für Digitalkameras:
Relevanzklasse Anzahl Merkmale Anteil
1 6 15,7%
2 8 20,5%
3 15 39,5%
4 7 18,4%
5 2 5,9%
Der Anteil jeder Relevanzklasse wird für jede Produktkategorie, für die ein
Goldstandard vorliegt, vorerst separat ermittelt. Anschließend wird aus allen
Anteilen für jede Relevanzklasse der Mittelwert berechnet, der dann letztendlich
für die eigentliche Berechnung genutzt wird.
Für die Abbildung jedes Merkmales in das Intervall [0,1] wird nun zunächst die
Wortanzahl des Merkmales durch die Wortanzahl des meistgenannten
Merkmales dividiert. Dabei erhält man bereits einen Wert im angestrebten
Intervall. Anhand des Quotienten und der eingangs berechneten Verteilung der
Relevanzklassen kann man nun bestimmen, in welche Klasse das Merkmal
gehört.
48
Abbildung 19: Beispielhafte Aufteilung der Relevanzklassen auf das Intervall [0,1] bei
Digitalkameras
In Abhängigkeit der Relevanzklasse muss nun das Produktmerkmal in das
jeweilige korrespondierende Intervall abgebildet werden. Beträgt der Quotient
eines Digitalkameramerkmals beispielsweise 0.72, so kann man anhand der
Aufteilung aus Abbildung 19 daraus folgern, dass dieses Merkmal der
Relevanzklasse 3 zugehörig sein könnte. Folglich muss es auf das Intervall [0.4,
0.6[ abgebildet werden.
Relevanzklasse Intervall
1 [0, 0.2[
2 [0.2, 0.4[
3 [0.4, 0.6[
4 [0.6, 0.8[
5 [0.8, 1]
Der genaue Relevanzwert des Merkmals P wird wie folgt berechnet: Zunächst
wird der Quotient aus Wortanzahl wP und der maximalen Wortanzahl wmax aller
Merkmale gebildet. Dann wird anhand der Relevanzklassenintervalle der
analysierten Goldstandards ermittelt, in welche dieser Intervalle das Merkmal
fällt. Von dem Quotienten wird nun die untere Intervallgrenze des
entsprechenden Intervalls subtrahiert. Danach wird dieser Wert durch die Größe
des Relevanzklassenintervalls (Io – Iu) dividiert. Anschließend wird dieser
Quotient mit 0.2, der Ergebnisintervallgröße multipliziert. Somit erhält man die
Position des Merkmals im Zielintervall. Um den endgültigen Ergebniswert zu
49
erhalten, muss man nur noch mit der unteren Intervallgrenze ZIu des Zielintervalls
addieren.
Um diese Formel noch einmal zu verdeutlichen, soll das bereits erwähnte
Digitalkamerabeispiel erneut herangezogen werden. Wie bereits ermittel, beträgt
der Quotient des zu rankenden Merkmals aus wP und wmax 0.72 und liegt damit
gemäß der Goldstandardanalyse (Abb. 18) im Intervall der Relevanzklasse drei.
Diese Klasse beschreibt das Intervall [0.362, 0.757]. Demnach muss von 0.72
noch 0.362 subtrahiert werden. Das Ergebnis lautet 0.358. Außerdem beträgt die
Intervallgröße Io(0.757) – Iu(0.362) = 0.395. Der Quotient aus 0.358 und 0.395
beträgt 0.906. Multipliziert mit 0.2 ergibt dies 0,182. Das Zielintervall für
Relevanzklasse drei lautet [0.4, 0.6]. ZIu ist folglich 0.4. Addiert man dies zu
0.182 erhält man 0.582 als ausgegeben goldstandardabhängigen Relevanzwert.
4.2.4. GEWICHTETE KOMBINATION
Im abschließenden Schritt des Rankingverfahrens müssen nun die beiden bisher
beschriebenen Methoden kombiniert werden. Beide bilden ein eingegebenes
Produktmerkmal auf das Intervall [0,1] ab. Eine Kombination der beiden
Verfahren soll das Gleiche tun und gleichzeitig eine Gewichtung zwischen beiden
Methoden ermöglichen. Deswegen wurde folgende Verknüpfung aus
normalisierter Abbildung und goldstandardabhängigen Relevanzwert gewählt:
Der Relevanzwert r eines Produktmerkmals P ergibt sich, wenn man die Summe
aus der normalisierten Abbildung nP und dem goldstandardabhängigen
Relevanzwert cP bildet. Beide Summanden werden mit dem Paramater a, bzw. b
multipliziert und es muss gelten: a + b = 1. Anhand des Ergebnisses kann man
dem Produktmerkmal durch folgende Tabelle seinen endgültigen Relevanzwert
zuweisen.
Ergebnisintervall Relevanzklasse
0 ≤ rP < 0.2 1
0.2 ≤ rP < 0.4 2
0.4 ≤ rP < 0.6 3
0.6 ≤ rP < 0.8 4
0.8 ≤ rP ≤ 1 5
50
Prototypentests haben die besten Ergebnisse mit der Parameterbelegung a = 0.2
und b = 0.8 ergeben. Mit dem Abschluss des Systems und Relevanzbeurteilung
der Produktmerkmale ist das Rankingverfahren inhaltlich komplett
abgeschlossen.
Die vorgestellte Kombination beider Verfahren schließt nun den Konzeptteil
dieser Arbeit ab. Es wurde gezeigt, wie man mit geeigneten Extraktionsmethoden
verwertbare Rankingdaten gewinnen kann. Des Weiteren wurde ein Ansatz für
ein Rankingverfahren vorgestellt, welches anhand dieser Rankingdaten einzelne
Produktmerkmale einer Produktkategorie in Relevanzklassen einteilen kann.
Das folgende Kapitel widmet sich nun der Umsetzung aller entworfenen
Konzepte.
51
5. IMPLEMENTIERUNG
Nachdem wir in Kapitel 4, basierend auf den Anforderungen aus Kapitel 3, ein
Konzept für das Ranking von Produktmerkmalen erarbeitet haben, soll dieser
Abschnitt nun dessen Umsetzung, bzw. Implementierung behandeln. Man kann
das erstellte Konzept in vier grundlegende Teilsysteme unterteilen (Abb. 20):
1. Datenbankkommunikation
2. Suchwortbereitstellung
3. Dokumentenextraktion
4. Rankingsystem
Das gesamte System wurde mit der eclipse IDE in Java Version 6 geschrieben.
Auf die verwendeten Bibliotheken und Tookits wird in den einzelnen
Unterkapiteln 5.1. – 5.4. eingegangen, die sich jeweils mit der Umsetzung der
genannten Teilsysteme beschäftigen.
Abbildung 20: Systemübersicht
5.1. Datenbankkommunikation
Dieser Abschnitt behandelt die Kommunikation des Systems mit der Fedseeko
Datenbank. Auf diese werden wir während des Programmablaufes sowohl lesend
52
als auch schreibend zugreifen. Die weiteren Teilsysteme benötigen für das
Ranken der Merkmale einer Produktkategorie ihre instantiierten Produkte und
alle spezifischen Merkmale, die in Fedseeko dargestellt werden können. Diese
werden für die Generierung der Queries und für das Ranken selbst benötigt. Die
Datenbank enthält weiterhin die Herstellerbezeichnungen aller Produktmerkmale.
Diese werden als Synonyme für die einzelnen Eigenschaften zusätzlich
exportiert.
Die Fedseeko Datenbank liegt als MySQL-System vor. Der Zugriff erfolgt über
den JDBC Driver MySQL Connector 5.1.14. Dieser bietet die Funktionalität,
Anfragen an das Datenbanksystem zu stellen. Mittels einfacher SQL-Abfrage ist
es so möglich, alle Produkte und Merkmale eine Produktkategorie (inklusive der
Herstellerbezeichnungen) in das Rankingsystem zu importieren.
Nach Berechnung aller Relevanzwerte müssen diese in die Datenbank
geschrieben werden. Auch dies ist mit dem Connector möglich. Beim initialen
Ranking wird der Datenbank eine neue Spalte „relevancy“ hinzugefügt, bei
späteren Anwendungen werden lediglich die bereits vorhandenen Relevanzwerte
modifiziert.
Abbildung 21: Ausschnitt aus der Fedseeko-Datenbank (Produktmerkmale)
Weitere Modifikationen innerhalb der Datenbank sind nicht notwendig.
5.2. Suchwortermittlung
Im Folgenden soll die Umsetzung der Suchwortermittlung beschrieben werden.
Die drei im Konzeptteil vorgestellten Varianten werden dabei getrennt
voneinander betrachtet.
53
5.2.1. AUTONOME SUCHWORTERMITTLUNG
Dieser Abschnitt beschäftigt sich mit der selbstständigen Ermittlung möglichst
effektiver Suchbegriffe. Hierfür wird unter anderem die Bing Web Search API 2.0
genutzt [Bing11], um nach Web-Dokumenten zu suchen, die für die zu
untersuchende Produktkategorie relevant sind. Um das zu realisieren, werden die
in Punkt 5.1. importierten Produktmerkmale jeweils getrennt voneinander als
Suchanfrage an die Bing API gesendet. Die entspechende URL ist von folgender
Form:
http://api.search.live.com/xml.aspx?Appid=key&query=[Merkmal]&sources
=web&web.count=50&web.offset=0
Mit dieser Anfrage erhält man die ersten 50 Suchergebnisse in einem Antwort-
Dokument zusammengefasst. Um mehr Suchergebnisse zu erhalten, muss man
die Anfrage erneut stellen und dabei in der Anfrage-URL das Offset erhöhen.
Dieser Wert gibt an, wieviele Ergebnisse am Anfang der Liste übersprungen
werden sollen. Möchte man also die Ergebnisse 51-100 ermitteln, muss das
Offset auf „50“ gestellt werden. Das Format der Antwort kann JSON oder XML
sein und ist über die Parameter der Anfrage-URL einstellbar. Für das hier
vorgestellte System wurde XML gewählt. Abbildung 22 zeigt einen Ausschnitt der
Anwort. Mittels SAX-Parser werden die URL im <web:URL>-Tag aller Treffer
ausgelesen und in einer HashSet-Datenstruktur gesammelt. Dies wird für alle
Produktmerkmale und deren Synonyme durchgeführt. In Abhängigkeit von der
Anzahl der Merkmale der gewählten Produktkategorie werden so bis zu 20.000
URL ermittelt.
Abbildung 22: Teil der Bing-Antwort auf eine Suchanfrage
54
Um die gewonnenen URLs als auswertbare Dokumente zu erhalten, ist ein
weiterer Schritt nötig. Dazu müssen die Quellen der URL heruntergeladen
werden. Dabei werden Teile des Palladian Toolkits genutzt, einer Sammlung
von Algorithmen auf dem Gebiet des Internet Information Retrieval [Urb11]. Der
Fokus von Palladian liegt beim Finden, Extrahieren und Klassifizieren von
Informationen aus dem Internet. Unter anderem stellt das Tookit die Klasse
URLDownloader zur Verfügung, die aus einer gegebenen URL ein DOM-
konformes Document-Objekt mit deren Inhalt erzeugt. Dank Parallelverarbeitung
durch mehrere Threads kann auch eine große Zahl an URL umgewandelt
werden.
Abbildung 23: Teilgebiete des Palladian Toolkits
DOM (Document Object Model) ist eine plattform- und sprachunabhängige
Schnittstellenspezifikation. Sie erlaubt es, Programmen oder Scripten dynamisch
auf den Inhalt, die Struktur und das Format entsprechender Dokumente,
meistens im XML- oder HTML-Format, zuzugreifen. Abbildung 24 zeigt einen
Ausschnitt aus einem typischen DOM-Knotenbaum eines HTML-Dokumentes.
Abbildung 24: Ausschnitt eines DOM-Knotenbaums
Aus den generierten Dokumenten wird nun der Textinhalt des Dokumentes, des
Dokumententitels und aller enthaltener Überschriften (<h*>-Tags) mittels SAX-
Parser extrahiert. Besonders häufig vorkommende Wörter kommen, wie im
Konzeptteil schon erläutert, als potenzielle Suchworte infrage. Mittels einer
implementierten Stoppliste werden oft vorkommende, jedoch irrelevante Wörter
55
gerausgefiltert. Gleiches gilt für die anfangs eingegeben Produktmerkmale. Die
Begründung hierzu findet sich im Konzepteil unter 4.1.
5.2.2. ERMITTLUNG DER PRODUKTNAMEN
Der folgende kurze Abschnitt beschäftigt sich mit der Ermittlung der
Produktnamen, die für die Erstellung der Suchanfragen notwendig sind. Die
Implementation des Belegsystems beschränkt sich dabei auf die Nutzung der in
Fedseeko vorhandenen konkreten Produkte. Wie in Abschnitt 5.1. schon
erläutert, ist es mit dem MySQL Connector problemlos möglich, mittels SQL-
Anfrage alle Produktnamen einer gegebenen Produktkategorie zu erhalten. Die
Antwort des Datenbanksystems auf die Anfrage muss anschließend nur
entsprechend ausgelesen werden, damit man alle gewünschten Namen erhält.
5.2.3. KOMBINATION VON SUCHWÖRTERN UND PRODUKTNAMEN
Für die Kombination der beiden vorhergehenden Methoden, müssen zunächst
beide Verfahren getrennt voneinander ausgeführt werden. Die Menge der
ermittelten Suchwörter und die Menge der Produktnamen werden in seperaten
Datenstrukturen gespeichert. Anschließend wird durch eine einfach
verschachtelte Schleife das kartesische Produkt beider Mengen gebildet und die
Ergebnismenge durch die Klasse QueryProvider zur Verfügung gestellt.
Damit der teilweise langwierige Prozess der Suchwörterermittlung nicht bei jeder
Ausführung des Systems erneut durchgeführt werden muss, werden die
kombinierten Anfragen für jede Produktkategorie jeweils in einer XML-Datei
gespeichert. Nachdem diese Datei angelegt ist, werden die gespeicherten
Anfragen direkt aus der XML-Struktur ausgelesen und an das Extraktionssystem
weitergeleitet. Möchte man die Anfragen jedoch erneut erstellen lassen, wenn
beispielsweise neue Produktnamen in Fedseeko integriert wurden, so muss nur
diese XML-Datei gelöscht werden, um beim nächsten Start eine neue
Anfrageliste zu generieren.
5.3. Dokumentenextraktion
Die Dokumentenextraktion gliedert sich in zwei Teile. Im ersten Teilschritt
müssen möglichst relevante Dokumente gefunden werden, die die Grundlage für
den späteren Rankingprozess bilden sollen. Im zweiten Schritt müssen dann die
Inhalte dieser Dokumente extrahiert werden, damit auswertbare Daten für den
Rankingalgorithmus bereitgestellt werden können.
56
5.3.1. GEWINNUNG RELEVANTER DOKUMENTE
Als Eingabe für die Dokumentenextraktion dienen die Suchwörter, die von der
Suchwörterbereitstellung aus Punkt 5.2. geliefert werden. Welche der drei
vorgestellten Varianten dabei tatsächlich genutzt wird, ist für die prinzipielle
Funktionsweise der Dokumentenextraktion letztendlich unerheblich, da immer
eine Liste von Suchstrings als Eingabe dient.
Jeder Suchstring in der Eingabeliste wird zu Beginn der Dokumentenextraktion
als Suchanfrage an die Bing Web Search API 2.0 gestellt.
http://api.search.live.com/xml.aspx?Appid=key&query=[Suchstring]&sourc
es=web&web.count=50&web.offset=0
Die Bedeutungen der einzelnen Parameter der Anfrage wurden bereits in Punkt
5.2.1. erläutert. Die Bing API liefert als Antwort ein XML-Dokument mit den
entsprechenden Suchergebnissen. Ähnlich wie in der autonomen
Suchwortermittlung werden auch diesmal alle URL in den <web:Url>-Tags mittels
SAX-Parser ausgelesen und gespeichert. Gleichzeitig wird auch die Position des
jeweiligen Treffers in der Ergebnisliste gespeichert. Dafür wurde eigens die
Klasse RankURL erstellt, die alle notwendigen Informationen über ein einzelnes
Suchergebnis verwaltet.
Nacheinander wird so eine große Menge an URL gesammelt, die nun im
folgenden Schritt heruntergeladen und auswertbar gemacht werden müssen.
5.3.2. DOKUMENTENEXTRAKTION
Im zweiten Schritt müssen nun die URL in auswertbare Daten konvertiert werden.
Das Ziel ist es, alle Textinhalte der Dokumente, auf die die URL zeigen, als String
zu erhalten. Wie schon bei der autonomen Suchwortermittlung wird auch hier der
URLDownloader des Palladian Toolkits verwendet. Da dieser aber ein ganzes
Set an URL als Eingabe benötigt und als Rückgabe eine Collection an
Dokumenten liefert, geht hierbei die Beziehung zwischen einer URL und ihrer
Position in der Ergebnisliste verloren. Deshalb war es notwendig, eine eigene
Klasse vom URLDownloader abzuleiten und diese entsprechend anzupassen.
Die verwendete Klasse RankURLDownloader erbt vom Palladian-
URLDownloader und arbeitet ebenso mit mehreren parallelen Threads (Abb. 24).
Es werden hierbei zwei Methoden modifiziert, um die Klasse an die neuen
Anforderungen anzupassen.
Eine Methode ermöglicht es, fortan ein Set von RankURL als Eingabewert zu
verwenden. Die andere Methode (startDownload(), siehe Listing), die letztendlich
für den eigentlichen Download des Dokumentes verantwortlich ist, gibt nun
RankDocuments zurück. In dieser neuen Klasse werden nun das
57
heruntergeladene Dokument der URL und die Position des Quelllinks in der
Ergebnisliste der Suchmaschinenantwort gekapselt. Somit ist sichergestellt, dass
der Rankingalgorithmus für jedes auszuwertendes Dokument dessen Position in
der Ergebnisliste kennt.
Damit ist die Umwandlung von URLs in Dokumente abgeschlossen.
Abbildung 25: Listing des RankURLDownloaders
5.4. Rankingsystem
Wie im Konzeptkapitel beschrieben, basiert das Rankingverfahren neben den
vorhandenen Goldstandards auf der Anzahl der Vorkommen jedes
58
Produktmerkmales und seiner Synonyme in den Trefferdokumenten. Also gilt es
zunächst, die Wörter zu zählen, bevor dann der eigentliche Rankingalgorithmus
zum Einsatz kommen kann.
5.4.1. ERMITTLUNG DER WÖRTERANZAHLEN
Um die Wörteranzahlen der einzelnen Produktmerkmale zu ermitteln, müssen die
einzelnen Document-Objekte in Strings umgewandelt werden. Dazu wird erneut
auf das Palladian Toolkit zurückgegriffen. Dieses stellt eine Klasse namens
HTMLHelper zur Verfügung, welche in der Lage ist, den Textinhalt jedes
beliebigen DOM-Dokumentes zu extrahieren. Somit liegen alle
heruntergeladenen Dokumente als String vor und es ist problemlos möglich, für
jedes Merkmal und seine Synonyme die Wortanzahl zu bestimmen. Sollte man
sich für eine stärkere Gewichtung für Dokumente, die am Anfang der Trefferliste
der Suchmaschine standen, entscheiden, so werden die Wörter, die in diesen
Dokumenten vorkommen, an dieser Stelle mehrfach gewertet (vgl. 4.2.1.).
Um das Testen und die spätere Evaluation zu erleichtern, werden alle Wörter mit
ihren Wortanzahlen in eine XML-Datei geschrieben. So muss bei Änderungen im
Rankingverfahren nicht für jeden Testlauf der zeitintensive Prozess der
Suchmaschinenanwendung und Dokumentenextraktion durchgeführt werden.
5.4.2. RANKINGVERFAHREN
Außer der Wortanzahl für jedes Produktmerkmal, wird noch mindestens ein
vorhandener Goldstandard benötigt, um das Ranking durchzuführen. Dies wird
durch die Einbeziehung der Relevanzklassenverteilung der Goldstandards in den
Rankingalgorithmus notwendig (vgl. 4.2.3.). Zunächst wird ermittelt, ob für die
aktuell zu bewertende Produktkategorie schon ein Goldstandard vorliegt. Ist dies
der Fall, wird dieser zur Analyse der Klassenverteilung verwendet. Liegt kein
Goldstandard für die Kategorie vor, werden alle vorhanden Goldstandards der
anderen Produktarten genutzt, um eine Durchschnittsverteilung zu bilden.
Die Standards müssen dabei als XML-Datei in Programmverzeichnis vorliegen.
Abbildung 25 zeigt einen Ausschnitt aus dem Goldstandard für Digitalkameras.
Auf Wunsch kann aus der Fedseeko Datenbank für jede Produktkategorie eine
Schablone erzeugt werden, in die nur noch die Relevanzwerte eingetragen
werden müssen. So ist es komfortabel möglich, weitere Standards zu erzeugen.
Lediglich die fundierte Ermittlung möglichst allgemeingültiger Bewertungen für die
jeweiligen Produktmerkmale muss manuell durchgeführt werden.
59
Abbildung 26: Goldstandardausschnitt Digitalkameras
Der eigentliche Rankingalgorithmus, der in Kapitel 4.2.4. vorgestellt wurde, ist in
der Klasse CombinedRanker implementiert (Abb. 27).
Abbildung 27: Listing aus dem CombinedRanker
60
Aus Relevanzklassenverteilung (functionA()) und Wortanzahlen (functionB()) wird
nun für jedes Produktmerkmal der zu untersuchenden Produktkategorie der
Relevanzwert berechnet. Parallel zur Ausgabe dieser Werte auf der Konsole
werden die Ergebnisse in die Fedseeko Datenbank geschrieben.
Inwiefern diese Relevanzwerte helfen können, eine Abschätzung über die
Relevanz von Produktmerkmalen zu erstellen, soll im nun folgenden 6. Kapitel
untersucht werden, in dem die einzelnen Teilsysteme evaluiert werden.
61
6. EVALUIERUNG
In diesem Kapitel wird die Evaluierung des gesamten Rankingverfahrens und
seiner einzelnen Teilsysteme behandelt. Dabei sollen die Leistungen und
Grenzen des Rankings insgesamt gezeigt werden. Außerdem gilt es für die
Teilsysteme, für die alternative Konzepte erarbeitet wurden, die optimalen
Lösungen zu finden. Dies betrifft die Suchwortbereitstellung, für die drei
verschiedene Alternativen existieren und die Bewertung der Such-
maschinenergebnisse, für die ebenfalls drei unterschiedliche Wege möglich sind.
In jedem Teilkapitel wird zuerst das allgemeine Vorgehen bei der Evaluation
erklärt, bevor die Ergebnisse dargestellt und ausgewertet werden.
6.1. Suchwortbereitstellung
Dieser Abschnitt behandelt die Evaluierung der Suchwortbereitstellung. Dieses
Teilsystem soll Suchwörter finden und bereitstellen, die als
Suchmaschinenanfrage einen möglichst großen Anteil produktspezifischer
Websites liefern. Im Konzeptteil wurden drei Möglichkeiten vorgestellt, um dies
zu erreichen. Die autonome Suchwortermittlung versucht mittels der Analyse
von produktspefizischen Websites, möglichst effektive Suchworte zu finden. Eine
weitere Möglichkeit stellt die reine Beschränkung auf die in Fedseeko
vorhandenen Produktnamen dar. Schließlich ist es noch möglich, beide
Varianten zu kombinieren.
Es gilt nun, die Variante auszuwählen, die als Suchmaschinenanfrage möglichst
viele relevante Websites in der Ergebnisliste liefert. Je größer der Anteil
irrelevanter Websites ist, desto mehr wird später das Ranking der
Produktmerkmale verfremdet.
Um die einzelnen Verfahren zu evaluieren, wurde von jedem Teilsystem eine
Menge von Suchanfragen generiert und an die Bing API gesendet. Dies wurde
für die drei Produktkategorien Mainboards, Digitalkameras und Festplatten
durchgeführt. Es wurden jeweils die 50 ersten Ergebnisse ausgewählt und
manuell in relevante und irrelevante Treffer aufgeteilt. Die Abbildungen 28 und 29
geben für beide Kategorien jeweils ein Beispiel. Abbildung 28 zeigt einen kurzen
Text zur Kamera Samsung S860 mit mehreren Produktmerkmalen, während auf
Abbildung 29 eine Website für einen Samsung Wissenstest über mobile Geräte
zu sehen ist. Beide URL waren in derselben Bing-Suchanfrage als Treffer
enthalten. Der Wissenstest beschäftigt sich nicht mit Digitalkameras und ist
deswegen irrelevant.
62
Abbildung 28: Relevante Website für das Ranking
Abbildung 29: Irrelevante Webseite für das Ranking
63
Im Folgenden die Ergebnisse für die drei Durchläufe.
Digitalkameras:
Verfahren Relevante
Ergebnisse
Anteil relevanter
Ergebnisse
Autonome
Suchwortermittlung
38 76%
Produktnamen 46 92%
Suchwörter +
Produktnamen
41 82%
Mainboards:
Verfahren Relevante
Ergebnisse
Anteil relevanter
Ergebnisse
Autonome
Suchwortermittlung
21 42%
Produktnamen 43 86%
Suchwörter +
Produktnamen
31 62%
Festplatten:
Verfahren Relevante
Ergebnisse
Anteil relevanter
Ergebnisse
Autonome
Suchwortermittlung
32 64%
Produktnamen 44 88%
Suchwörter +
Produktnamen
37 74%
Tests mit dem Prototypen haben ergeben, dass bei der autonomen
Suchwortermittlung das Risiko des Auftretens verfälschender Suchwörter stark
ansteigt, je mehr Suchwörter man ermittelt. Während bei den zehn potenziell
besten Suchwörtern der Anteil irrlevanter Begriffe bei etwa 10-40% liegt, so steigt
dieser Anteil bei den ersten zwanzig Wörtern im Durchschnitt schon auf etwa 30-
60%.
Die besten Ergebnisse brachte die Verwendung der Produktnamen. Diese
erzielten einen Anteil produktspezifischer Seiten von etwa 85-95%. Die
Ergebnisse der kombinierten Anfrage von autonom ermittelten Suchworten und
Produktnamen brachten etwa 60-80% relevante Websites hervor. Die Güte
64
dieser Methode ist stark von der Qualität der autonomen Suchwortermittlung
abhängig.
Wie man an den Ergebnissen sehen kann, sind die ermittelten Werte keineswegs
für alle Produktkategorien gleich. Besonders die Kategorie Mainboards brachte
besonders schlechte Ergebnisse bei der autonomen Suchwortermittlung hervor,
während bei Digitalkameras der Anteil relevanter Suchworte unabhängig von der
Bereitstellungsmethode stets über dem restlichen Durchschnitt der anderen
Produktkategorien lag. Einzig die Suche nach konkreten Produktnamen brachte
bei allen getesteten Kategorien einen stabilen und vor allem sehr hohen Anteil
produktspezifischer Websites hervor. Deshalb verwendet das fertige
Rankingsystem reine Produktnamen als Suchanfrage.
6.2. Bewertung der Suchmaschinenergebnisse
In diesem Unterkapitel soll der Einfluss der unterschiedlichen Bewertung der
Suchmaschinenergebnisse auf das gesamte Rankingverfahren untersucht
werden. Diese Ergebnisse liefern die Dokumente, deren Textinhalte für das
Ranking untersucht werden. Letztlich bilden dann die Wortanzahlen der
einzelnen Produktmerkmale und ihrer Synonyme in diesen Dokumenten die
Grundlage für die Relevanzbeurteilung. Nun soll untersucht werden, wie man
möglichst effektiv mit der Reihenfolge der Dokumente in den
Suchmaschinenergebnissen umgeht. In Kapitel 4.2.1. wurden diesbezüglich drei
verschiedene Ansätze vorgestellt. Ansatz 1 verwendet die ersten 100
Suchergebnisse und wichtet sie anhand folgender Tabelle unterschiedlich:
Position in Ergebnisliste 1,2 3,4 5,6 7,8 9,10 >10
Wortmultiplikator 6x 5x 4x 3x 2x 1x
Ansatz 2 verwendet ebenfalls die ersten 100 Suchergebnisse und wichtet alle
Treffer gleich. Ansatz 3 nutzt nur die ersten 10 Ergebnisse, die alle gleichwertig
sind.
Die Bewertung der unterschiedlichen Wichtungen der Suchergebnisse hängt eng
mit der Bewertung des gesamten Rankingsystems zusammen, da die ermittelten
Wortanzahlen direkt in den Rankingalgorithmus einfließen. Deshalb ist es
notwendig, die gesamte Relevanzbeurteilung aller Produktmerkmale für jede der
drei Alternativen zu evaluieren. Diese Ergebnisse stellen somit gleichzeitig auch
die Evaluierung für das Gesamtsystem dar.
In Kapitel 2.2.2. wurden Micro- und Macroaveraging als Evaluierungsmethoden
für Klassifizierungsalgorithmen vorgestellt. Da die Zuweisung von
Produktmerkmalen in die Relevanzbereiche 1-5 als Klassifizierung interpretiert
werden kann, können diese beiden Verfahren zur Beurteilung herangezogen
65
werden. Da die korrekte Zuweisung für alle Merkmale gleichermaßen von
Bedeutung ist, wird Microaveraging zur Bewertung verwendet. Anhand des
Berechnungsschemas ist zu sehen, dass hierbei alle Produktmerkmale
gleichwertig in die Ermittlung von Precision P und Recall R eingehen.
Für weitere Testreihen wurde das Microaveraging noch an die speziellen
Gegebenheiten des Rankings von Produktmerkmalen angepasst. Die
Berechnungsformeln für Precision und Recall blieben unverändert, jedoch
werden Produktmerkmale, die lediglich um eine Relevanzklasse falsch bewertet
werden auch als True Positives, also als richtig bewertet beurteilt. Der Grund
hierfür ist die Schwierigkeit, eine absolut allgemeingültige Relevanzbeurteilung
aller Produktmerkmale zu finden. Jeder Anwender wird eine geringfügig bis
deutlich unterschiedliche Einschätzung für jede Produktkategorie aufweisen.
Deshalb ist für ein Ranking von Produktmerkmalen besonders wichtig, dass die
Tendenzen klar zu erkennen sind und weniger die absoluten Werte für jedes
Merkmal korrekt sein müssen.
Für die Evaluation wurden für jede der drei alternativen Möglichkeiten zur
Bewertung der Suchmaschinenergebnisse Precision und Recall mit der
herkömmlichen Bewertung der True Positives und mit der modifizierten
Bewertung gemessen. Die Suchwörter beschränken sich auf Produktnamen und
als Testkategorie wurden Digitalkameras ausgewählt.
Ergebnisse Microaveraging
Ergebnislistenbewertung Precision Recall
100 Ergebnisse, erste 10 höher gewichtet 0,33 0,33
100 Ergebnisse, alle gleich gewichtet 0,31 0,31
10 Ergebnisse, alle gleich gewichtet 0,37 0,37
Ergebnisse modifiziertes Microaveraging
Ergebnislistenbewertung Precisionmod Recallmod
100 Ergebnisse, erste 10 höher gewichtet 0,62 0,62
100 Ergebnisse, alle gleich gewichtet 0,57 0,57
10 Ergebnisse, alle gleich gewichtet 0,69 0,69
In diesem Anwendungsfall sind Precision und Recall immer gleich groß. Dies
liegt daran, dass beim Ranking von Produktmerkmalen in jedem Falle alle
Produktmerkmale einer Klasse zugewiesen werden, was nicht bei allen
Klassifizierungsproblemen zwingend der Fall sein muss. Somit sind die False
Positives und False Negatives über alle Klassen betrachtet immer gleich hoch.
66
An den Ergebnissen lässt sich ablesen, dass die Werte für Precision und Recall
in der unmodifizierten Microaveragingversion mit 0,31 – 0,37 generell nicht sehr
hoch sind. Dennoch lässt sich eine leichte Tendenz zugunsten der Beschränkung
auf die zehn ersten Ergebnisse feststellen. Dies könnte darin begründet sein, das
sich in diesen Bereichen der Ergebnisliste von Bing fast ausschließlich relevante
Websites mit viel Textinhalt befinden.
Der Unterschied der ermittelten Precision/Recall-Werte zur modifizierten Version
von Microaveraging, lässt sich in Abbildung 30 sehr gut ablesen. Im Durchschnitt
sind die Ergebnisse in etwa doppelt so hoch wie in der normalen Version.
Angesichts der Tatsache, dass auch einfache Fehlbewertungen als True
Positives gewertet wurden, war dies durchaus zu erwarten. Letztlich sollte man
für eine objektivere Betrachtung des Systems den Mittelwert beider Messungen
bilden:
Mittelwert aus modifizierten und unmodifizierten Microaveraging
Ergebnislistenbewertung Precision/mod Recall/mod
100 Ergebnisse, erste 10 höher gewichtet 0,48 0,48
100 Ergebnisse, alle gleich gewichtet 0,44 0,44
10 Ergebnisse, alle gleich gewichtet 0,53 0,53
Abbildung 30: Grafische Darstellung der Messungen
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
100 Ergebnisse, erste 10 höher gewichtet
100 Ergebnisse, alle gleich gewichtet
10 Ergebnisse, alle gleich gewichtet
Microaveraging
mod. Microaveraging
67
Die Tendenzen zwischen den einzelnen Methoden zur Ergebniswichtung bleiben
gleich. Die Beschränkung auf die die zehn ersten Suchmaschinenergebnisse
stellt sich dabei als beste Alternative heraus, während die beiden anderen
Methoden im Vergleich dazu leicht abfallen. Als weiterer Vorteil von Ansatz 3
kommt hinzu, dass die Beschränkung auf 10 Ergebnisse pro Suchanfrage
deutlich performanter ist, als die Ansätze mit 100 Suchergebnissen.
Deshalb wertet das fertige Rankingsystem nur die ersten 10 Suchergebnisse für
jede Suchanfrage aus.
6.3. Fazit
Die Ergebnisse in 6.1. und 6.2. haben die Leistungsfähigkeit und die Grenzen
des Systems deutlich gezeigt. Anhand der Ergebnisse des modifizierten
Microaveragings kann man zeigen, dass das Systems durchaus in der Lage ist,
die Tendenzen für die Relevanz von Produktmerkmalen abzuschätzen. Es gibt
mehrere Gründe, weshalb keine genauere Bestimmung möglich ist.
Ein Grund ist die Abhängigkeit von vorhandenen Daten, in diesem Fall der
Fedseeko Datenbank. Da man alle Produkte, Produktmerkmale und deren
Synonyme aus dieser Datenbank bezieht, ist man auf die Aussagekraft der
Begriffe angewiesen, wie sie in der Datenbank zu finden sind. Beim Aufbau der
Fedseeko Datenbasis wurde verständlicherweise die Einsatzmöglichkeit in einem
Rankingsystem nicht berücksichtigt, sodass die Daten eher in einer
zweckmäßigen, weniger jedoch in einer aussagekräftigen Form vorzufinden sind.
Somit kann es vorkommen, dass die Ergebnisse für einzelne Produktmerkmale
teilweise stark verfälscht werden. Ein Beispiel dazu findet man in der Tabelle am
Ende dieses Kapitels: Digitaler und optischer Zoom sind technisch zwei
unterschiedliche Funktionen, die auch von verschiedenartiger Bedeutung für den
Nutzer sind. Dennoch findet sich bei beiden Produktmerkmalen das einfache
Wort „Zoom“ als Synonym in der Datenbank. Dieses sehr allgemeine Wort sorgt
bei beiden Merkmalen für einen Großteil der Worttreffer. Obwohl digitaler Zoom
weniger wichtig ist, als optischer Zoom, so bekommt er aufgrund der vielen
Vorkommen des gemeinsamen Synonyms dennoch die Relevanzkategorie fünf
zugewiesen.
Ein weiterer Grund ist, dass die erstellten Goldstandards, anhand derer die
Bewertung des Rankingsystems vorgenommen wurde, lediglich den Versuch
darstellen, eine möglichst objektive und allgemeingültige Sicht auf die Relevanz
von Produktmerkmalen darzustellen. Aufgrund der enormen Anzahl vielfältiger
Meinungen und der wechselnden Bedeutung einzelner Produktmerkmale für die
unterschiedliche Einsatzzwecke eines Produktes, kann sicher kein Goldstandard
den absoluten Allgemeingültigkeitsanspruch stellen.
68
Des Weiteren wird jede Abbildung von Wortanzahlen eines Produktmerkmales
auf Relevanzklassen immer mit einer gewissen Unschärfe verbunden sein. So ist
beispielsweise die normalisierte Abbildung der einzelnen Merkmale mittels des
dualen Logarithmus nur eine möglicht effizient gewählte willkürliche
Abschätzung.
Zum Abschluss dieses Kapitels soll hier noch eine Gegenüberstellung zwischen
den Ergebnissen für die Produktmerkmale einer Digitalkamera und dem
dazugehörigen Goldstandard erfolgen. Aufgrund der großen Menge an
Produkteigenschaften, sind nicht alle vollständig abgebildet.
Rankingsystem Merkmal Goldstandard
5 Effektive Pixel 5
5 Digitaler Zoom 3
5 Optischer Zoom 5
4 Gewicht 4
4 Auflösung 3
3 LCD-Display 3
2 Speicherkapazität 4
2 Batterie/Akku 3
4 SD-Karte 3
2 Bildstabilisierung 4
3 Avi-Support 2
4 Jpeg-Support 2
1 MMC Plus 1
2 SDHC 3
2 Bildrate 3
3 Verschlusszeit 4
69
7. ZUSAMMENFASSUNG / AUSBLICK
Ziel dieser Arbeit war es, ein Ranking für Produktmerkmale in Onlineshops zu
erstellen. Produktmerkmale verschiedenster Produktkategorien sollten anhand
ihrer Relevanz für den Anwender bewertet werden. Dabei beschränkte man sich
auf die Produkte und Merkmale innerhalb des Fedseekosystems. In Kapitel 4
wurde ein allgemeines Konzept, inklusive mehrerer alternativer Teilsysteme,
erarbeitet. Der entwickelte Rankingalgorithmus besteht aus zwei Funktionen, die
auf der Wortanzahl eines Produktmerkmales in relevanten Internetdokumenten
und dem Goldstandard für die jeweilige Produktkategorie basieren. Kapitel 5
beschreibt kurz einige allgemeine Aspekte der Implementation.
Von besonderem Interesse ist Kapitel 6, da es einige Erkenntnisse bezüglich der
Frage bringt, ob man mittels der Wortanzahl eines Produktmerkmales und seiner
Synonyme eine Relevanzbeurteilung treffen kann. Diese Frage kann man nun
eingeschränkt mit “Ja” beantworten. Nach der Evaluierung mit dem
Microaveragingverfahren und seiner modifizierten Variante ist klar, dass das
Rankingverfahren in seinem jetzigen Zustand durchaus in der Lage ist,
Tendenzen zwischen den einzelnen Produktmerkmalen bezüglich ihrer Relevanz
zu erkennen. Einer genaueren Bestimmung ihrer Relevanzwerte stehen mehrere
Dinge im Wege, deren Gründe schon in Kapitel 6.3. näher erläutert wurden.
Verbesserungspotenzial liegt vor allem in der Ausgangsdatenbasis von
Fedseeko. Mit aussagekräftigeren Produktmerkmalen ließen sich die Ergebnisse
der Evaluierung höchstwahrscheinlich noch einmal deutlich steigern.
Des Weiteren hat sich gezeigt, dass die Aufteilung der Relevanzwerte in fünf
verschiedene Klassen durchaus eine akzeptable Abschätzung ist, auch wenn die
Grenzen zwischen den Relevanzwerten in der Realität natürlich fließend sind und
sich nicht ohne Weiteres so voneinander unterscheiden lassen. Auch innerhalb
einer einzelnen Kategorie gibt es wieder mehrere Relevanzstufen, doch für eine
so feine und genaue Unterscheidung besteht weder der Bedarf, noch die
praktische Möglichkeit, diese zu ermitteln.
Weiterhin besteht natürlich die Frage, wie man Goldstandards für diesen Zweck
möglichst effektiv und allgemeingültig erstellen kann. Diese spielen eine
essentielle Rolle bei der Bewertung der Rankingfunktion und wurden in der
Implementation und Konzeption des entwickelten Systems sogar in Form von
Relevanzklassenverteilungen als Eingabedaten verwendet. Dennoch ist ihre
Erstellung mit einigen Problemen verbunden (vgl. Kapitel 3.2. & 6.3.),
insbesondere was die Objektivität der konsultierten Quellen betrifft. Ein Ansatz
wären groß angelegte Umfragen zur Relevanz von Produktmerkmalen
verschiedenster Produktkategorien. Gerade mittels Tagging könnte eine große
und damit ansatzweise repräsentative Datenmenge erstellt werden.
70
Abschließend lässt sich sagen, dass das in dieser Arbeit entwickelte
Rankingsystem für den vorgesehenen Einsatzzweck anwendbar ist, da der
Rankingalgorithmus im Prinzip plausible Ergebnisse liefert und vor allem die
Relevanzverhältnisse der unterschiedlichen Produktmerkmale überwiegend
korrekt abbildet. Gerade bei der Anwendung in Online-Shops ist dies von
größerer Bedeutung, als die Ermittlung des genauen Relevanzwertes, da hier vor
allem die nutzerfreundliche Sortierung und Anordnung der Produktmerkmale in
den Angebotstexten im Vordergrund steht.
In zukünftigen Arbeiten zu diesem Thema sollten vor allem weitere Möglichkeiten
zur Goldstandarderstellung, sowieso zusätzliche Quellen und Verfahren für
alternative Rankingalgorithmen untersucht werden.
71
72
REFERENZEN / LITERATUR
Bing API Basics. (2011). Retrieved 25.05.2011 from
http://www.bing.com/developers/s/API%20Basics.pdf
Appelt, D. E. (1999). Introduction to Information Extraction Technology. IJCAI-
99. Artificial Intelligence Center 333 Ravenswood Ave. Menlo Park, CA.
Arasu, & Garcia-Molina. (2003). Extracting structured data from web pages.
SIGMOD 2003, June 9-12, 2003, San Diego, CA. Copyright 2003 ACM 1-58113-
634-X/03/06
Cunningham, H. (1997). Information Extraction – A User Guide. Research Memo
CS. Retrieved 12 08, 2010, from
http://home.mit.bme.hu/~dezsenyi/research/cikkek
/cunningham97information.pdf
eCl@ss e.V. (2010, 12 07). eCl@ss, der internationale Standard. Retrieved 12 07,
2010, from eCl@ss, der internationale Standard: http://www.eclass.de/
Fang, H., & Zhai, C. (2008). Probabilistic Models for Expert Finding. University of
Illinois at Urbana-Champaign. IIS-0347933 / IIS-0428472.
Hepp, M. (2008). GoodRelations: An Ontology for Describing Web Offers. From
A. Gangemi and J. Euzenat (Eds.): EKAW 2008, LNCS 5268, pp. 329–346, 2008.
© Springer-Verlag Berlin Heidelberg 2008
Hu, B., & Liu, M. (2004). Mining and Summarizing Customer Reviews. KDD’04,
August 22–25, 2004, Seattle, Washington, USA. Copyright 2004 ACM 1-58113-
888-1/04/0008.
Lin, D. (1998). Dependency-based evaluation of MINIPAR. Workshop on
Evaluation of Parsing Systems at ICLRE. University of Alberta Edmonton, Alberta,
Canada T6G 2H1.
Lübke, R. (2009). Ranking - Algorithmen, Anwendungen, Evaluation. TU
Dresden. Fakultät Informatik Professur für Rechnernetze.
Neumann, G. (2000). Informationsextraktion. Research Paper. Spektrum
Akademischer Verlag.
73
Pang, B. L. (2008). Opinion Mining and Sentiment Analysis. Foundations and
TrendsR_ in Information Retrieval Vol. 2, Nos. 1–2 (2008) 1–135 Copyright 2008
B. Pang and L. Lee DOI: 10.1561/1500000001.
Popescu, A.-M., & Etzioni, O. (2005). Extracting Product Features and Opinions
from Reviews. Department of Computer Science and Engineering University of
Washington Seattle, WA 98195-2350.
Qiu, G., Bing, L., Bu, J., & Chen, C. (2009). Expanding Domain Sentiment Lexicon
through Double Propagation. College of Computer Science Zhejiang University /
Department of Computer Science University of Illinois at Chicago.
Stoyanov, Veselin, & Cardie. (2008). Topic Identification for Fine-grained Opinion
Analysis. 22nd International Conference on Computational Linguistics (Coling
2008), pages 817–824 Manchester, August 2008.
Urbansky, D., Muthmann, K., & Katz, P. (2011). TUD Palladian Overview.
Department of Systems Engineering, Chair Computer Networks, IIR Group,
Germany.
Walther, M. (Juni 2011). Federated Product Information Retrieval and Semantic
Product Comparisons on the Web. Chair Computer Networks . TU Dresden.
Walther, M. (2008). Föderierte semantische Suche nach Produktinformationen.
Chair Computer Networks. TU Dresden.
Zhang, L., & Bing, L. (2010). Extracting and Ranking Product Features in Opinion
Documents. Coling 2010: Poster Volume, pages 1462–1470, Beijing, August 2010
Zhang, S. (2010). Extracting Product Features and Sentiments from Chinese
Customer Reviews. Proceedings of the Seventh conference on International
Language Resources and Evaluation (LREC'10). Fujitsu Research and
Development Center, Peking.
74
ABBILDUNGSVERZEICHNIS
Abbildung 1: Ausschnitt aus den Produktmerkmalen der Digitalkamera Samsung
ES70 bei amazon.de ........................................................................................... 8
Abbildung 2: Die fünf grundlegenden Schritte der Informationsextraktion nach
[Cun97] .............................................................................................................. 11
Abbildung 3: Sägezahnverlauf des Precision-Recall-Diagramms ....................... 15
Abbildung 4: Interpoliertes Precision-Recall-Diagramm ..................................... 16
Abbildung 5: Vereinfachtes eCl@ss Datenmodell (eCl10) ................................. 22
Abbildung 6: Beispiel eines Angebotes für einen Sony-Fernseher (Hep08) ....... 23
Abbildung 7: Geplante Funktionsweise von OPINE ........................................... 26
Abbildung 8: Indexbasierte Suchmaschine (Quelle: Jakob Voss) ....................... 27
Abbildung 9: Funktionsweise einer Meta-Suchmaschine (Quelle: Jakob Voss) .. 28
Abbildung 10: Architekturübersicht von Fedseeko Quelle: [Wal11] .................... 30
Abbildung 11: Erweiterte Facets-Anzeige bei Produktmerkmalen von
Digitalkameras ................................................................................................... 32
Abbildung 12: Verfügbare Produktkategorien in Fedseeko ................................ 39
Abbildung 13: Grobentwurf des Extraktionssystems .......................................... 40
Abbildung 14: Schema der autonomen Suchwörterermittlung ............................ 41
Abbildung 15: Produktnamen als Suchwörter .................................................... 42
Abbildung 16: Verknüpfung von Produktnamen und Suchbegriffen ................... 43
Abbildung 17: Prinzip der Extraktion der Rankingdaten ..................................... 44
Abbildung 18: Übersicht über gesamtes Rankingsystem ................................... 45
Abbildung 19: Beispielhafte Aufteilung der Relevanzklassen auf das Intervall [0,1]
bei Digitalkameras ............................................................................................. 48
Abbildung 20: Systemübersicht .......................................................................... 51
Abbildung 21: Ausschnitt aus der Fedseeko-Datenbank (Produktmerkmale) ..... 52
Abbildung 22: Teil der Bing-Antwort auf eine Suchanfrage ................................ 53
Abbildung 23: Teilgebiete des Palladian Toolkits ............................................... 54
Abbildung 24: Ausschnitt eines DOM-Knotenbaums .......................................... 54
Abbildung 25: Listing des RankURLDownloaders .............................................. 57
Abbildung 26: Goldstandardausschnitt Digitalkameras ...................................... 59
Abbildung 27: Listing aus dem CombinedRanker............................................... 59
Abbildung 28: Relevante Website für das Ranking ............................................ 62
Abbildung 29: Irrelevante Webseite für das Ranking .......................................... 62
Abbildung 30: Grafische Darstellung der Messungen ........................................ 66
75
Selbstständigkeitserklärung Hiermit erkläre ich, dass ich die vorliegende Belegarbeit zum Thema „Ranking
von Produktmerkmalen in Online-Shops“ vollkommen selbstständig verfasst und
keine anderen als die angegebenen Quellen und Hilfsmittel benutzt, sowie Zitate
kenntlich gemacht habe.
Dresden, den