ranking von produktmerkmalen in online- shops

1

TECHNISCHE UNIVERSITÄT DRESDEN

Fakultät für Informatik Institut für Systemarchitektur Professur für Rechnernetze

Prof. Dr. rer. nat. habil. Dr. h. c. Alexander Schill

Großer Beleg zum Thema

Ranking von Produktmerkmalen in Online-

Shops

Marcel Gerlach

[email protected] Matrikelnummer: 3295994

Betreuer: Dr.-Ing. Daniel Schuster

Abgabetermin: 16.06.2011

3

Fakultät Informatik, Institut für Systemarchitektur,

Professur Rechnernetze

Aufgabenstellung für den Großen Beleg

Name, Vorname: Gerlach, Marcel

Studiengang: Informatik Matr.-Nr.:

3295994

Thema: Ranking von Produktmerkmalen in Online-Shops

Zielstellung

In Online-Shops gibt es zu jedem Produkt meist eine Detail-Ansicht, wo einzelne

Produktmerkmale aufgelistet werden. Vor allem für technische Produkte wie

Digitalkameras können diese Listen sehr lang und unübersichtlich werden, so

dass sie kaum noch zur Bewertung oder für den Vergleich von Produkten taugen.

In der Arbeit soll untersucht werden, wie mit Hilfe von semantischen

Technologien und Techniken aus dem Bereich Information Extraction frei

verfügbare Informationen aus dem Web zu Produktklassen und der Relevanz

ihrer Produktmerkmale gesammelt werden können, so dass ein Ranking dieser

Produktmerkmale möglich wird. Es sollen zunächst existierende Ranking-

Ansätze untersucht und anschließend ein eigenes Verfahren für

Merkmalsranking entwickelt werden. Der Ansatz soll in verschiedenen

Produktkategorien arbeiten und anhand eines Goldstandards in mindestens 2

verschiedenen Produktkategorien evaluiert und iterativ verbessert werden. Die

Ranking-Methode soll in das an der Professur Rechnernetze entwickelte

Fedseeko-Systems für föderierte Produktsuche über mehrere Online-Shops

integriert werden.

Schwerpunkte

Grundlagen: Ranking-Verfahren, Web Information Extraction,

Produktinformationen

Erstellung eines Goldstandards für Merkmalsranking

Entwicklung von Extraktionsmethoden zur Gewinnung von Ranking-

Informationen

Entwicklung des Rankingverfahrens

Implementierung und Evaluierung des Rankingverfahrens anhand des

Goldstandards

Betreuer: Dr.-Ing. Daniel Schuster

Betreuender

Hochschullehrer: Prof. Dr. rer. nat. habil. Dr. h. c. Alexander Schill

Beginn am: 15.10.2010

Einzureichen am: 14.04.2011

5

Inhaltsverzeichnis

1. Einleitung ......................................................................................................... 7

1.1. Motivation .................................................................................................. 7

1.2. Inhalte der Arbeit ....................................................................................... 9

2. Grundlagen .................................................................................................... 10

2.1. Web Information Extraction ..................................................................... 10

2.1.1. Grundsätzliche Funktionsweise......................................................... 10

2.1.2. Qualitätskriterien ............................................................................... 11

2.2. Rankingverfahren .................................................................................... 12

2.2.1. Algorithmen....................................................................................... 12

2.2.2. Evaluierungsmethoden ..................................................................... 14

2.2.3. Anwendungsgebiete ......................................................................... 18

2.3. Produktinformationen .............................................................................. 20

2.3.1. Formen von Produktinformationen .................................................... 20

2.3.2. Mögliche Probleme bei der Erfassung............................................... 21

2.3.3. Produktontologien ............................................................................. 21

2.4. Verwandte Arbeiten ................................................................................. 23

2.4.1. Extracting and Ranking Product Features in Opinion Documents ..... 23

2.4.2. Extracting Product Features and Opinions from Reviews.................. 25

2.5. Internet-Suchmaschinen .......................................................................... 26

2.6. Fedseeko ................................................................................................ 29

2.7. Fazit ........................................................................................................ 30

3. Anforderungsanalyse ..................................................................................... 31

3.1. Anforderungen ........................................................................................ 31

3.1.1. Anforderungen an die Relevanzbeurteilung ...................................... 31

3.1.2. Integration in Fedseeko .................................................................... 31

3.2. Entwicklung Goldstandards ..................................................................... 32

3.2.1. Goldstandard Festplatten .................................................................. 33

3.2.2. Goldstandard Mainboards ................................................................. 35

3.2.3. Goldstandard Digitalkameras ............................................................ 36

3.3. Fazit ........................................................................................................ 38

4. Systemkonzept .............................................................................................. 39

4. 1. Entwicklung von Extraktionsmethoden für Rankinginformationen ........... 39

4.1.1. Ermittlung passender Suchworte ...................................................... 40

4.1.2. Gewinnung von Rankingdaten .......................................................... 43

6

4.2. Entwicklung eines Rankingverfahrens ..................................................... 44

4.2.1. Ermittlung der Vorkommen jedes Merkmales .................................... 45

4.2.2. Normalisierte Abbildung auf Wertebereich ........................................ 46

4.2.3. Klassifizierung durch Analyse vorhandener Goldstandards ............... 47

4.2.4. Gewichtete Kombination ................................................................... 49

5. Implementierung ............................................................................................ 51

5.1. Datenbankkommunikation ....................................................................... 51

5.2. Suchwortermittlung .................................................................................. 52

5.2.1. Autonome Suchwortermittlung .......................................................... 53

5.2.2. Ermittlung der Produktnamen ........................................................... 55

5.2.3. Kombination von Suchwörtern und Produktnamen............................ 55

5.3. Dokumentenextraktion ............................................................................ 55

5.3.1. Gewinnung relevanter Dokumente .................................................... 56

5.3.2. Dokumentenextraktion ...................................................................... 56

5.4. Rankingsystem ........................................................................................ 57

5.4.1. Ermittlung der Wörteranzahlen.......................................................... 58

5.4.2. Rankingverfahren.............................................................................. 58

6. Evaluierung .................................................................................................... 61

6.1. Suchwortbereitstellung ............................................................................ 61

6.2. Bewertung der Suchmaschinenergebnisse.............................................. 64

6.3. Fazit ........................................................................................................ 67

7. Zusammenfassung / Ausblick ........................................................................ 69

Referenzen / Literatur ........................................................................................ 72

Abbildungsverzeichnis ....................................................................................... 74

7

1. EINLEITUNG

Dieser Beleg behandelt das Thema „Ranking von Produktmerkmalen in Online-

Shops“. Der Hauptteil der Arbeit beschäftigt sich damit, wie man mithilfe von

Technologien aus dem Bereich Information Extraction und Ranking Informationen

zu Produkten und der Relevanz ihrer Merkmale sammeln kann. Das angestrebte

Ziel ist der Gewinn von Rankinginformationen, sodass es möglich wird, eine

Rangfolge der Produktmerkmale bezüglich ihrer Bedeutung für die

Kaufentscheidung eines Nutzers zu erstellen. Das Projekt soll anschließend in

Fedseeko anwendbar sein, ein System zur föderierten Suche nach Produkten,

bzw. Produktinformationen [Wal11]. In Kapitel 2 wird das Thema Fedseeko näher

behandelt werden.

In dieser Einleitung soll die Motivation für dieses Thema genauer erläutert

werden. Ebenso wird ein Ausblick für die kommenden Kapitel gegeben.

1.1. Motivation

Mit dem Beginn des Informationszeitalters ist die Anzahl an verfügbaren

Informationen rasend schnell angestiegen. Neue Technologien sorgten dafür,

dass sich Nachrichten, Bilder und Berichte immer schneller über den Erdball

verbreiten konnten. Dieser Prozess wurde noch einmal deutlich beschleunigt, als

das Internet nach und nach für einen immer größer werdenden Teil der

Menschheit verfügbar wurde. Der schnelle technologische Fortschritt sorgte auch

dafür, dass der Weltmarkt mittlerweile mit einer Fülle an technischen Produkten

aufwartet, die kein Mensch allein und ohne Hilfsmittel überschauen könnte.

Zusätzlich gibt es für jedes Einzelne dieser Produkte wieder eine große Menge

an Informationen, sodass es inzwischen notwendig geworden ist, diese riesige

Anzahl an Daten, Fakten und Beschreibungen weitestgehend automatisiert zu

ordnen und zu klassifizieren. Das bereits erwähnte Fedseeko-System setzt an

dieser Stelle an.

Mit der steigenden Komplexität der Produkte wird der Mensch allerdings auch mit

immer zahlreicher werdenden Produktmerkmalen konfrontiert. Es wird

zunehmend schwieriger, den Überblick über die technischen Daten eines

Produktes zu behalten. Gerade bei Digitalkameras ist dieses Problem besonders

groß, denn viele Hersteller, bzw. Online Shops, weisen bis zu 90 verschiedene

Merkmale in den Artikelbeschreibungen aus. Abbildung 1 demonstriert dies sehr

deutlich. Sie zeigt einen Ausschnitt der Produktmerkmale der Kamera ES 70 von

Samsung, wie man sie bei amazon.de vorfindet. Sucht man in dieser Masse an

Informationen einige spezielle Daten oder möchte man mehrere Produkte

anhand einzelner Merkmale vergleichen, so wird dies viel Zeit und Mühe kosten.

Erschwerend kommt hinzu, dass verschiedene Hersteller verschiedene Begriffe

8

für ein und dasselbe Merkmal verwenden. Dieses Problem des

Informationsüberflusses beschränkt sich selbstverständlich nicht auf

Digitalkameras. In einer Zeit, in der es schon Küchengeräte mit

Internetverbindung gibt, werden technische Produkte immer komplexer und

werden gleichzeitig mit immer mehr Merkmalen und Daten zu beschreiben sein.

Es ist als sicher anzusehen, dass die Problematik der Informationsflut in den

nächsten Jahren noch an Größe zunimmt.

Abbildung 1: Ausschnitt aus den Produktmerkmalen der Digitalkamera Samsung ES70 bei

amazon.de

Es gilt also nun, Lösungen zu finden, wie man diese Menge an Informationen

formalisieren und vor allem kategorisieren kann. Dieses Thema wird auch in

Zukunft besonders für Online Shops wichtig sein, denn diese sind darauf

angewiesen, dem potenziellen Kunden möglichst alle Informationen, die für die

Kaufentscheidung wichtig sind, bereitzustellen. Gleichzeitig muss dies natürlich in

einer Form geschehen, die den Kunden nicht überfordert, sodass vorher ermittelt

werden sollte, welche Produktmerkmale einer Produktkategorie besonders

relevant für den Anwender sind. Da diese Wichtung nach Relevanz aufgrund der

großen Zahl an verschiedenen Kategorien (der eCl@ss-Standard1 kennt allein

32.000 verschiedene Produktklassen) nicht ohne technische Hilfsmittel zu

schaffen ist, wird in dieser Arbeit untersucht, wie effektiv diese Aufgabe mit

aktuellen Systemen erledigt werden kann. Im Vordergrund soll allerdings die

Erstellung und Implementierung eines eigenen Lösungsansatzes stehen.

1 Mehr zum eCl@ss-Standard unter 2.3.3. Produktontologien

9

1.2. Inhalte der Arbeit

Im Anschluss an diese Einleitung werden wir uns in Kapitel 2 mit den

theoretischen Grundlagen beschäftigen, die für die Entwicklung eines Systems

zur Rankingerstellung notwendig sind. Um auswertbare Daten für eine

Relevanzbeurteilung, bzw. für eine Rankingerstellung zu erhalten, müssen wir

uns deswegen zuerst mit den Techniken der Informationsextraktion

auseinandersetzen. Danach werden wir verschiedene Rankingalgorithmen

betrachten, die für den Gegenstand dieser Arbeit relevant sein könnten.

Außerdem muss ein Blick auf Produktmerkmale im Allgemeinen geworfen

werden, um schon vor der eigentlichen Entwicklung des Systems eventuelle

Sackgassen oder auch Lösungsansätze zu erkennen. Am Ende des zweiten

Kapitels werden wir dann verschiedene Arbeiten untersuchen, die sich mit

ähnlichen Aufgabenstellungen beschäftigt haben. Des Weiteren werden wir an

dieser Stelle einen Einblick in das Fedseeko-System erhalten, welches einen

zentralen Punkt in unserem Lösungskonzept darstellen wird.

In Kapitel 3 werden wir schließlich die Anforderungen an das zu entwickelnde

System genauer spezifizieren. Dieses Kapitel beschäftigt sich ebenfalls mit den

Goldstandards, die für die Evaluierung unserer Arbeit entscheidend sind. Kapitel

4 und 5 sind dann der Entwicklung und Realisierung eigener

Informationsextraktions- und Rankingansätze vorbehalten, während Kapitel 6 die

Evaluierung der erarbeiteten Ergebnisse beschreibt. Am Ende der Arbeit werden

noch einmal alle Erkenntnisse zusammengefasst und mögliche Ansätze für die

Zukunft gezeigt.

10

2. GRUNDLAGEN

2.1. Web Information Extraction

Durch das sehr schnelle Wachstum des Internets sehen wir uns immer öfter mit

dem Problem der Informationsüberflutung konfrontiert. Da die Anzahl online

verfügbarer Dokumente rasant steigt, wird es immer schwieriger, gezielt

Informationen zu bekommen, bzw. diese in kurzer und prägnanter Form

darzustellen.

Um dieses Problem zu lösen, werden Systeme zur Informationsextraktion

entwickelt und eingesetzt. Diese Systeme sollen Dokumente vor dem

Hintergrund einer vorher spezifizierten Domäne analysieren und gezielt

Informationen aus ihnen extrahieren. Dabei werden nicht relevante Teile

ignoriert. Was relevant ist und was nicht, wird vorher beispielsweise mit einem

speziellen Regelwerk vorgegeben.

2.1.1. GRUNDSÄTZLICHE FUNKTIONSWEISE

Information Extraction kann sowohl auf strukturierte, als auch auf unstrukturierte

Daten angewendet werden. Da nur der letzte Fall in der folgenden Arbeit relevant

sein wird, beschränken wir uns auf die Informationsgewinnung aus

unstrukturierten Daten. Ein Informationsextraktionssystem bearbeitet in der Regel

nur eine bestimmte Domäne. Für diese wird ein spezielles Antwortmuster

festgelegt, das alle relevanten Daten beinhalten soll. Diese Muster bestehen aus

einer Menge von Attribut-Wert-Paaren und werden Templates genannt. Im

Prozess der Informationsextraktion werden diese dann instanziiert und mit

Werten für die Attribute versehen. Als Eingabedaten erhält das System eine

vorher festgelegte Menge an Dokumenten.

Den Prozess der Informationsextraktion kann man nach [Cun97] nun in fünf

grundlegende Schritte unterteilen. Im ersten Schritt, Named Entity Recognition,

werden Eigennamen von Objekten erkannt und verarbeitet. Das können Namen

oder auch Orte sein. Darauf folgt die Coreference Resolution, bei der die

Referenzen zwischen den im ersten Schritt erkannten Objekten im Text

ausgewertet werden. Das können zum Beispiel Synonyme, Relativ- oder

Personalpronomen sein. Im dritten Schritt wird die Template Element

Construction durchgeführt. Die im ersten Schritt gefundenen Objekte werden

dabei mit Informationen versehen. Danach werden die Beziehungen zwischen

den einzelnen Objekten analysiert. Dieser Schritt nennt sich Template Relation

Construction. Am Schluss werden in der Scenario Template Production alle

Objekte mit dem Domänenszenario verbunden.

11

Abbildung 2: Die fünf grundlegenden Schritte der Informationsextraktion nach [Cun97]

2.1.2. QUALITÄTSKRITERIEN

Die Qualität und Leistung eines Informationsextraktionssystems wird in den

Kategorien Präzision P und Vollständigkeit V gemessen. Präzision (Precision)

gibt den Anteil der korrekt gewonnenen Wissenseinheiten (Templates oder

einzelne Attribut-Werte-Paare) an den insgesamt gewonnenen Wissenseinheiten

an. Eine hohe Präzision bedeutet somit einen hohen Prozentsatz an relevanten

Informationen. Vollständigkeit (Recall) bezeichnet das Verhältnis der insgesamt

korrekt gewonnen Wissenseinheiten zu den absolut gewinnbaren korrekten

Wissenseinheiten. Hier bedeutet ein hoher Wert, dass fast alle relevanten

Informationen gefunden wurden. Beide Kategorien gleichzeitig zu optimieren, ist

sehr schwierig. Je mehr Wert man auf Präzision legt, desto größer ist die Gefahr,

dass ein System eventuell relevante Wissenseinheiten aussortiert. Achtet man

besonders auf Vollständigkeit, steigt das Risiko irrelevante Informationen als

wesentlich zu erfassen.

Um ein einziges Maß für die Güte von Informationsextraktionssystemen zu

gewinnen, hat man das F-Maß eingeführt, welches beide Kategorien beinhaltet:

Wie man sehen kann, ist das F-Maß im Prinzip das geometrische Mittel aus

Präzision und Vollständigkeit. Der Parameter β dient dazu, eine der beiden

Kategorien besonders stark zu gewichten und ist standardmäßig 1. Liegt er

darunter, so wird der Präzisionswert besonders betont. Für Werte größer 1 findet

hingegen die Vollständigkeit größere Berücksichtigung in der Berechnung.

12

2.2. Rankingverfahren

Wie schon erwähnt, wächst die Anzahl im Internet verfügbarer Dokumente sehr

schnell. Mittlerweile wurde eine so große Menge erreicht, dass es für einen

Nutzer in der Regel unmöglich ist, alle Dokumente zu einer bestimmen

Informationsanfrage zu durchsuchen. Um diesen Missstand zu beseitigen, ist

eine Bewertung der Dokumente bezüglich eines oder mehrerer vorher

spezifizierter Kriterien notwendig. Für diese Aufgabe werden Rankingalgorithmen

entwickelt und eingesetzt. Diese fungieren als eine Art Ordnungsrelation

zwischen den einzelnen Dokumenten und erstellen eine Rangfolge,

beispielsweise bezüglich der Relevanz zu einer speziellen Informationsanfrage.

Somit wird für den Nutzer praktisch eine Vorauswahl getroffen, welche

Dokumente für ihn besonders relevant sind. Ein besonders wichtiges

Anwendungsgebiet sind Web-Suchmaschinendienste, die später gesondert

behandelt werden sollen.

2.2.1. ALGORITHMEN

Prinzipiell kann man die derzeit verwendeten Rankingverfahren in inhaltsbasierte

und strukturbasierte Algorithmen einteilen. Beide Verfahren weisen jedem

Dokument anhand ihrer Relevanz zu einer oder mehreren Anfragen einen

Punktwert zu, nach dem dann sortiert wird. Inhaltsbasierte Algorithmen

analysieren in erster Linie Inhalt und Struktur der einzelnen Dokumente, während

strukturbasierte Verfahren die Verlinkungstrukturen der Dokumente

untereinander untersuchen. Im Folgenden sollen einige Verfahren kurz

vorgestellt werden.

TF-IDF: Das Kürzel steht für "Term Frequency – Inverse Document Frequency".

Die „Term Frequency“ (tf) gibt die Häufigkeit eines Begriffes t in einem

Dokument d an. Um Dokumente unterschiedlicher Länge miteinander vergleichen

zu können, wird die entsprechende Berechnungsformel normiert. Dies kann

entweder mit der Anzahl aller Wörter in dem Dokument geschehen (Nd) oder mit

der Häufigkeit des am zahlreichsten vertretenen Begriffes (max {freqx,d}). In

beiden Fällen wird durch die Normierungsgröße dividiert. Somit ergeben sich für

die Term Frequency folgende Formeln:

13

Beziehungsweise normiert:

Leider verfälschen besonders häufig vorkommende Begriffe die

Relevanzbewertung in vielen Fällen. In Dokumenten, die sich mit PC-Hardware

auseinandersetzen, wird zum Beispiel das Wort „Computer“ fast überall gefunden

werden. Deswegen wird das Verfahren der „Document Frequency“ (df)

angewendet, um die Relevanz solcher Wörter richtig einzustufen. Dieses

Verfahren zählt die Dokumente, die einen bestimmten Begriff t enthalten (dft). Für

die Bewertung selbst nutzt man den Kehrwert (die „Inverse Document

Frequency“ (idf)), der auch auf die insgesamt durchsuchten Dokumente (|D|)

Bezug nimmt:

Im Endeffekt werden Begriffe, die in sehr vielen Dokumenten vorkommen, eher

niedrig bewertet, während Begriff, die nur selten vorkommen, eine hohe

Relevanzbewertung bekommen. Es gibt auch eine Variante, bei der dieser Wert

logarithmisch skaliert wird. Dies sorgt für noch deutlichere Unterschiede

zwischen häufigen und seltenen Begriffen, am eigentlichen Prinzip ändert sich

jedoch nichts.

Aus Term Frequency und Inverse Document Frequency wird dann das

eigentliche Rankinggewicht tfidft,d ermittelt:

Einem Begriff t wird also im Dokument d eine hohe Relevanz zugewiesen, wenn

er in wenigen anderen Dokumenten vorkommt, aber in d selbst recht häufig

auftritt.

Okapi BM25: Die BM25-Wichtung stellt bei den inhaltsbasierten Verfahren den

aktuellen Stand der Forschung dar und basiert zum Teil auf der schon

eingeführten TF-IDF-Bewertung und dem probabilistischen Retrieval Modell, das

ab 1970 von Stephen E. Robertson und Karen Spärck Jones entwickelt wurde.

Die Wichtung erfolgt inhaltsbasiert und es werden einige Teile der TF-IDF-

Wichtung verwendet, so zum Beispiel der idft-Wert. Dieser wird aber etwas

anders berechnet:

14

Kommt ein Begriff t sehr häufig vor (in über der Hälfte der Dokumente), dann

kann er sogar negativ bewertet werden.

Der Gesamtwert der BM25q,d-Wichtung eines Dokumentes d mit der Anfrage q

berechnet sich dann wie folgt:

tft,d ist die bereits vorgestellte Term Frequency, also die Häufigkeit eines Wortes

t in einem Dokument d. Ld ist die Länge des Dokumentes d und Lave die

durchschnittliche Länge aller untersuchten Dokumente. k1 (≥ 0) und b (ϵ [0,1])

sind frei wählbare Parameter, mit denen man die Wichtung anpassen kann.

BM25 wird heutzutage sehr oft verwendet und zeigt in der Praxis auch gute

Leistungen in Bezug auf Präzision und Vollständigkeit.

Als Vertreter strukturbasierter Rankings seien hier noch PageRank/TrustRank

und HITS (Hyperlinked Induced Topic Search) genannt. Diese Algorithmen

untersuchen in erster Linie die Verlinkungsstruktur zwischen Dokumenten. Da in

dieser Arbeit jedoch weniger diese Strukturen, sondern vor allem die Textinhalte

der einzelnen Dokumente interessant sind, wird hier nicht näher auf diese

Verfahren eingegangen. Lediglich PageRank wird im Unterkapitel zu den

Suchmaschinen noch einmal kurz vorgestellt.

2.2.2. EVALUIERUNGSMETHODEN

Um Rankingmethoden geeignet evaluieren zu können, benötigt man eine große

Menge von Dokumenten und zugehörige Informationsanfragen und eine bereits

vorhandene Relevanzbeurteilung als ideales Vergleichsobjekt. Eine solche

Beurteilung nennt man Goldstandard2. In der Praxis gibt es einige Standard-

Sammlungen, die immer wieder für die Bewertung von Rankingverfahren

herangezogen werden, zum Beispiel TREC oder GOV2.

Die bei den Extraktionsverfahren eingeführten Maße Präzision und

Vollständigkeit lassen sich in abgewandelter Form auch für die Bewertung von

Rankingverfahren verwenden. Eine Möglichkeit ist das Precision-Recall-

2 Mehr zum Thema Goldstandard unter Punkt 3.3

15

Diagramm. Dabei werden für jedes Dokument in der Ergebnisliste für eine

spezifische Informationsanfrage diese beiden Kennwerte berechnet. Dann

werden für Teilmengen dieser Liste die beiden berechneten Werte in ein

Diagramm eingetragen. Die Teilmengen werden wie folgt ermittelt: Im ersten

Schritt nimmt man die einelementige Menge mit dem relevantesten Ergebnis. Die

nächsten Teilmengen ergeben sich dadurch, dass man immer das nächstbeste

Ergebnis zu der vorherigen Menge hinzunimmt, bis man die komplette

Ergebnisliste in dieser Menge hat.

Abbildung 3: Sägezahnverlauf des Precision-Recall-Diagramms

Ohne vorherige Interpolation ergibt sich im Diagramm ein „Sägezahnverlauf“, da

bei Hinzunahme eines irrelevanten Ergebnisses der neue Punkt direkt unter dem

vorherigen Punkt liegt (da Recall gleich bleibt und Precision kleiner wird) und bei

einem relevanten Ergebnis Precision und Recall beide ansteigen (Abbildung 3).

Aus dem Diagramm kann man schließlich die interpolierte Präzision pinterp(r) einer

bestimmten Recall-Stufe r bestimmen. Sie berechnet sich folgendermaßen:

p(r‘) ist die Präzision an der aktuellen Recallstufe r. Letztendlich ist die

interpolierte Version also nichts anderes, als die höchste Präzision ab einem

bestimmten Recall-Level. Für die Bewertung eines Rankingverfahrens erhält man

so mehrere Ergebnisse, je nachdem, welche Werte man für r auswählt.

Graphisch wird durch diese Interpolation aus dem Sägezahnverlauf eine

geglättete Kurve (Abbildung 4).

16

Abbildung 4: Interpoliertes Precision-Recall-Diagramm

Möchte man ein Ranking allerdings mit einer einzelnen Wertung versehen, dann

bieten sich die Verfahren der Average Precision (AP) und der Mean Average

Precision (MAP) an. Die Average Precision gibt für eine Anfrage q den Mittelwert

aller Precisionwerte der relevanten Ergebnisse an:

Nr gibt die Anzahl der relevanten Ergebnisse an und Rn den Recall des n-ten

relevanten Ergebnisses. Ermittelt man den Wert für eine Menge von Anfragen Q,

dann erhält man die Mean Average Precision (MAP):

Der Vorteil von MAP ist natürlich, dass mehrere Anfragen in die

Qualitätsbewertung einfließen. Damit ist eine bessere Vergleichbarkeit zwischen

verschiedenen Rankingverfahren gesichert.

Leider sind die bisher vorgestellten Evaluierungsmethoden darauf beschränkt,

bei den einzelnen Ergebnissen zwischen „relevant“ und „nicht relevant“ zu

unterscheiden. Deswegen sind sie für die Bewertung des zu entwickelnden

Systems nur eingeschränkt nutzbar, da wir später verschiedene Relevanzgrade

nutzen werden. Also muss auch auf ein System zurückgegriffen werden, welches

mehrere Relevanzabstufungen kennt, beispielsweise nDCG (Normalized

Discounted Comlulative Gain).

17

Wie schon angedeutet, nutzt man NDCG in erster Linie, um Rankingalgorithmen

zu evaluieren, die mit mehr als zwei Relevanzstufen arbeiten. Die Grundidee ist,

Ergebnislisten dahingehend zu untersuchen, ob Dokumente mit hoher Relevanz

möglichst auch am Anfang stehen. Als Ausgangspunkt verwendet man den noch

nicht normalisierten Discounted Comulative Gain (DCG), der wie folgt definiert

ist:

p steht für eine beliebige Position in der Ergebnisliste und reli ist der

Relevanzgrad des Dokumentes an der Stelle i. Wie man gut erkennen kann,

werden Dokumente umso geringer bewertet, je weiter hinten sie in der

Ergebnisliste positioniert sind. Dafür sorgt der duale Logarithmus als Divisor in

der Summenfunktion, dessen Wert mit steigender Dokumentenposition größer

wird. Den höchsten Wert erreicht der zu evaluierende Rankingalgorithmus also,

wenn die resultierende Ergebnisliste durchgehend nach Relevanz absteigend

angeordnet ist. Das ausgerechnet der duale Logarithmus zur Reduzierung des

Dokumentenwertes verwendet wird, ist rein willkürlich. Es existieren auch

Varianten mit anderen Operationen als Divisor.

Ein großer Nachteil des reinen DCG ist, dass man nur die Ergebnislistenwerte

einer einzelnen Anfrage untereinander vergleich kann, denn bei mehreren

Anfragen kann die maximal zu erreichende Punktzahl aufgrund unterschiedlicher

Ergebnismengen voneinander verschieden sein. Darum hat man eine

normalisierte Version entwickelt, die unabhängig vom einzelnen Punktewert einer

Ergebnisliste ist. Dazu teilt man den erreichten DCG-Wert eines

Rankingalgorithmus für eine einzelne Anfrage durch den maximal möglichen

Wert IDCG (der Wert, der bei absolut korrekter Anordnung erreicht werden

würde):

Damit bewegen sich alle möglichen Werte zwischen 0 und 1. 0 wird erreicht,

wenn alle Dokumente in der Ergebnisliste bis zur Position p ohne Relevanz sind.

Sind die Dokumente der Ergebnisliste perfekt sortiert, so gilt DCGp = IDCGp. In

diesem Fall wird der nDCGp-Wert 1.

Somit hat man mit nDCG eine recht einfach zu implementierende Methode, um

einen Rankingalgorithmus mit mehreren Relevanzstufen zu evaluieren.

Interpretiert man das Ranking von Produktmerkmalen allerdings als eine

Zuweisung von Merkmalen zu verschiedenen Relevanzklassen, so kann die Güte

18

des Rankingverfahrens auch mittels Evaluationsmethoden für

Klassifizierungssysteme bewertet werden. Klassifizierungssysteme weisen

Objekte zu einer oder mehreren Klassen zu. Im Folgenden sollen die beiden

bekanntesten Bewertungsverfahren vorgestellt werden, Microaveraging und

Macroaveraging.

Mit beiden Methoden kann man für eine gegebene Klassifizierung Precision und

Recall berechnen. Dazu ist als Vergleichswert eine korrekte Klassifizierung

notwendig. Anhand dieser kann man dann für jede einzelne Klasse der zu

bewertenden Klassifizierung die True Positives (Anzahl korrekt zugewiesener

Objekte), die False Positives (Anzahl falsch zugewiesener Objekte) und die

False Negatives (Anzahl fälschlicherweise nicht zugewiesener Objekte)

berechnen. Mit diesen drei Kennwerten für jede Klasse lässt sich nun mit den

beiden genannten Methoden Precision und Recall der zu untersuchenden

Klassifizierung berechnen. Microaveraging und Macroaveraging ähneln sich vom

Berechnungsschema sehr, setzen jedoch bei der Bewertung unterschiedliche

Schwerpunkte. Wie an den Formeln für Precison und Recall leicht abzulesen ist,

besitzt bei Microaveraging jedes Dokument das gleiche Bewertungsgewicht:

Beim Macroaveraging hat hingegen jede Klasse das gleiche Gewicht,

unabhängig von der Anzahl der enthaltenen Dokumente. Kleine Klassen mit

wenigen Objekten haben so verglichen mit großen Klassen einen

überproportional hohen Einfluss auf die Bewertung.

Für die Evaluation des Rankingsystems wird vor allem das Microaveraging-

Verfahren wesentlich sein, da die korrekte Beurteilung jedes Produktmerkmals

wichtig ist, als die Betrachtung einzelner Relevanzklassen.

2.2.3. ANWENDUNGSGEBIETE

Document Retrieval

Das sogenannte Document Retrieval ist die Standardanwendung von

Rankingalgorithmen. Es gibt hierbei eine vorbestimmte Menge von Dokumenten

und einen Anwender, der spezielle Informationen sucht. Diese versucht er mittels

einer Anfrage an die Dokumentensammlung zu finden. Das Ziel besteht nun

darin, die Ergebnisliste in eine bestimmte Ordnung gemäß der Relevanz zur

19

Anfrage zu bringen, sodass die relevantesten Dokumente zuerst präsentiert

werden. Internet-Suchmaschinen sind die klassische Anwendung des Document

Retrievals.

Key Term Extraction

Key Term Extraction kann im Deutschen mit der Extraktion von

Schlüsselbegriffen oder Schlagwörtern übersetzt werden. Man ermittelt also die

wichtigsten Begriffe innerhalb eines Dokumentes, um beispielsweise diese in

andere Sprachen zu übersetzen, automatisch ein Glossar zu erstellen oder

Begriffe zu finden und zu korrigieren, die im falschen Kontext benutzt werden.

Die im Dokument vorkommenden Begriffe werden also in eine bestimmte

Reihenfolge (Ranking) gebracht, bei der die wichtigsten Begriffe zuerst

aufgelistet werden. Dies kann beispielsweise von der Anzahl der Vorkommen der

einzelnen Begriffe abhängen oder von ihrer Relevanz zum übergeordneten

Thema des Dokumentes.

Opinion Mining

Opinion Mining, Sentiment (dt. Gefühl, Meinung) Detection, auch Sentiment

Analysis oder im Deutschen Gefühlserkennung genannt, ist ein Teil des Text

Mining. Es geht hierbei um die automatische Auswertung der Stimmung in

Texten und die Ermittlung der Meinung des Verfassers. Auch in der Sentiment

Detection findet Ranking Anwendung, denn die untersuchten Dokumente werden

beispielsweise nach Intensität der Stimmungen sortiert. Es besteht ebenfalls die

Möglichkeit, so die Relevanz, Bewertung oder Ausprägung verschiedener

Produktmerkmale aus Testberichten oder ähnlichen Dokumenten in Erfahrung zu

bringen. Im Kapitel 2.4. werden Arbeiten vorgestellt, die sich zum Teil auf diese

Anwendungsmöglichkeit bezogen haben.

Collaborative Filtering

Unter Collaborative Filtering versteht man den Prozess des Aussiebens (oder

Filterns) von Informationen unter Zuhilfenahme von mehreren Agenten und/oder

Datenquellen. Im Internet Information Retrieval spielt Collaborative Filtering vor

allem in Empfehlungsdiensten eine große Rolle. Hierbei werden dem Benutzer

automatisch Empfehlungen zu seinen Interessen gemacht, basierend auf den

Interessen von vielen anderen Benutzern, die ähnliche Eigenschaften wie der

Anwender haben. Ein gutes Beispiel ist amazon.de. Basierend auf dem eigenen

Kaufverhalten, bekommt man von dem Online Shop Kaufempfehlungen für

Produkte, die auch andere Benutzer mit ähnlichen Interessen erworben haben.

Alle vorgeschlagenen Empfehlungen werden mittels Ranking in eine Sortierung

gebracht, sodass der Nutzer die beste Empfehlung zuerst vorgeschlagen

bekommt.

20

Expert Finding

In vielen Fällen besteht die Aufgabe darin, eine Person zu finden, die auf einem

bestimmten Gebiet besonders kompetent ist. Diese Suche kann sehr

arbeitsintensiv und zeitraubend sein. Daher macht es sich das sogenannte

"Expert Finding" zur Aufgabe, automatisch Experten für ein bestimmtes

Fachgebiet zu finden. Dazu werden eine spezielle Dokumentensammlung, eine

Liste von potenziellen Experten für ein Thema und eine Menge von Fachgebieten

benötigt. Die Herausforderung ist dann, aus der Dokumentensammlung

Rückschlüsse auf die Beziehung zwischen den Expertenkandidaten und den

Fachgebieten zu ziehen. Die vom System zurückgegebenen Expertenvorschläge

werden durch Ranking in eine Sortierung gebracht, sodass der fachkundigste an

erster Stelle stehen sollte. In [Fan08] wird ein probabilistischer Ansatz dazu

vorgestellt.

2.3. Produktinformationen

Um ein Ranking von „Produktinformationen“ oder „Produktmerkmalen“ zu

erstellen, sollte man zuerst einmal etwas näher auf diese Begriffe eingehen.

Prinzipiell weist jedes existierende Produkt spezielle Merkmale auf. Das kann bei

Joghurts die Geschmacksrichtung sein, bei Autos die Leistung des Motors oder

bei einem Kühlschrank der Stromverbrauch. Um mögliche Kunden über die

Eigenschaften eines angebotenen Artikels aufzuklären, versehen Hersteller und

Händler ihre Produkte mit Produktinformationen. Diese sollen möglichst

umfassend die Leistung und Beschaffenheit eines Artikels angeben. Das

ermöglicht dem potenziellen Kunden, anhand der Informationen zu beurteilen, ob

ein Produkt für ihn geeignet ist oder nicht. Außerdem lassen sich so mehrere

Artikel untereinander leichter vergleichen. Durch die wachsende Anzahl an

Produktmerkmalen pro Produkt, hat sich dieser Nutzen durch die steigende

Unübersichtlichkeit leider etwas abgeschwächt.

2.3.1. FORMEN VON PRODUKTINFORMATIONEN

Produktinformationen können in verschiedenen Formen vorliegen. Bei

Nahrungsmitteln hat sich beispielsweise die Nährwerttabelle und die Zutatenliste

etabliert. In anderen Produktkategorien gibt es aber viele weitere Formen.

Allgemein kann man sagen, dass sich für jede Kategorie eine locker

standardisierte Form der Angabe durchgesetzt hat, diese aber immer noch von

Hersteller zu Hersteller leicht unterschiedlich sein kann.

Modellhaft betrachtet, kann man Produktinformationen als eine Menge von

Wertepaaren auffassen, die ein bestimmtes Objekt beschreiben. Ein Wertepaar

besteht aus einer allgemeinen Eigenschaft und dem spezifischen Wert, der das

21

Produkt bezüglich dieser Eigenschaft beschreibt. Bei einem Staubsauger könnte

das stark vereinfacht zum Beispiel folgendermaßen aussehen: {Hersteller,

Siemens}, {Leistung, 1800W}, {Staubbeuteltyp, S67}, {Kabellänge, 6,5m}.

2.3.2. MÖGLICHE PROBLEME BEI DER ERFASSUNG

Bei der automatisierten Erfassung von Produktinformationen sind einige Dinge zu

beachten. Zunächst einmal kommt es sehr häufig vor, dass praktisch

inhaltsgleiche Merkmale mittels Synonymen unterschiedlich bezeichnet werden.

Zum Beispiel werden IDE-Schnittstellen mitunter auch als PATA bezeichnet und

im Englischen Mainboards auch oft als Motherboards. Zählt man nun die

Häufigkeit der Vorkommen, darf man diese unterschiedlich bezeichneten, aber

inhaltsgleichen Merkmale nicht getrennt erfassen, sondern muss diese in einem

Punkt zusammenfassen. Dies führt gleich zum nächsten Punkt: Wenn die

Informationen aus Quellen mit unterschiedlichen Sprachen bezogen werden,

müssen auch diese korrekt zusammengeführt werden. Dabei muss auch

berücksichtigt werden, dass sich viele englische Fachbegriffe in der deutschen

Sprache durchgesetzt haben.

2.3.3. PRODUKTONTOLOGIEN

Abschließend zu den Produktmerkmalen soll hier nochmal ein Blick auf bereits

vorhandene Produktontologien geworfen werden. Prinzipiell sind Ontologien

formale Darstellungen von Begriffen und deren Beziehungen untereinander

innerhalb einer spezifischen Domäne. Sie dienen in erster Linie dazu, Wissen zu

strukturieren und besser austauschbar zu machen. Ebenso lassen sich neue

Sachverhalte in einer Domäne mit ihnen leichter formalisieren.

eCl@ss ist ein internationaler Standard für unternehmensinterne und -externe

Kommunikation und keine Ontologie im klassischen Sinne, da hier in erster Linie

nur Entitäten beschrieben, aber keine Beziehungen zwischen ihnen abgebildet

werden [eCl10]. Er beschreibt Produkte, Materialien und Dienstleistungen. Diese

lassen sich der vierstufigen Klassenstruktur von eCl@ss zuordnen: Sachgebiete,

Hauptgruppen, Gruppen und Untergruppen. Konkrete Instanzen von Produkten

und Dienstleistungen sind allerdings nur in der 4. Ebene (Untergruppe) definiert.

Dafür stehen über 5.000 Attribute zur Verfügung.

22

Abbildung 5: Vereinfachtes eCl@ss Datenmodell (eCl10)

eCl@ss soll helfen, den Datenaustausch zwischen Unternehmen zu

standardisieren und kann auf jeden Wertschöpfungsprozess angewendet

werden. Die aktuelle Version 6.2 besteht aus über 32.000 Klassen in 26

Sachgebieten. Mittels Suchbegriffen können gezielt Produkte aus diesem

umfangreichen Katalog gefunden werden.

GoodRelations: Die GoodRelations Ontologie [Hep08] wurde eigens für die

maschinenlesbare Beschreibung von Produkten und insbesondere

Produktangeboten im Internet konzipiert. Genutzt wird dabei die eCl@ssOWL-

Ontologie (siehe oben), um die einzelnen Produkte und Dienstleistungen zu

definieren. GoodRelations selbst beschreibt dann im Detail das jeweilige

Angebot. Im Fokus stehen dabei die Beziehungen zwischen Gütern

(Dienstleistungen oder Produkten) und den Teilnehmern der

Wertschöpfungskette, also beispielsweise Hersteller, Zulieferer, Händler und

Kunden.

Angebote selbst können durch die verschiedensten Attribute beschrieben

werden: Art der Transaktion (beispielsweise Leasing, Kauf, Verkauf usw.),

spezielle Versandarten, Preise in den verschiedensten Währungen, akzeptierte

Zahlungsmethoden und vieles mehr. GoodRelations lässt sich relativ einfach in

bestehende Websites einbinden und besitzt mehrere Ausgabeformate, etwa

HTML, XML oder dataRSS.

23

Abbildung 6: Beispiel eines Angebotes für einen Sony-Fernseher (Hep08)

2.4. Verwandte Arbeiten

Die Erstellung eines Rankings von Produktmerkmalen in Online Shops ist eine

relativ neue Idee, Arbeiten zu diesem Thema existieren nach derzeitigem

Informationsstand zur Anfertigungszeit dieses Beleges noch nicht. Dennoch

sollen im Folgenden zwei Arbeiten vorgestellt werden, deren Thema der Aufgabe

dieses Beleges zumindest ähnelt.

2.4.1. EXTRACTING AND RANKING PRODUCT FEATURES IN OPINION

DOCUMENTS

Die im Folgenden vorgestellte Arbeit wurde 2010 von Zhang et al. an der

Universität von Illinois in Zusammenarbeit mit HP erstellt und ähnelt der Thematik

dieses Beleges am meisten [Zha10]. Es sollten Produktmerkmale aus „Opinion

Papers“, also Tests, Erfahrungsberichten usw. extrahiert und in eine Rangfolge

gebracht werden. Diese sollte sich nach der Bedeutung der Merkmale richten,

24

welche sich aus deren Relevanz und Häufigkeit ergibt. Zuerst müssen allerdings

die möglichen Merkmale, die ein bestimmtes Produkt aufweisen kann, extrahiert

werden. Dies allein stellt schon ein großes Problem dar. Eine Möglichkeit, die in

Frage kommenden Merkmale zu ermitteln, ist Double Propagation. Dieses

Verfahren orientiert sich an den Relationen zwischen Substantiven und die sie

beschreibenden Worte, meistens andere Substantive oder Adjektive. Dabei

werden mit einigen domänenspezifischen Startworten (seed) erste Merkmale aus

einem Dokument extrahiert. Mit diesen Merkmalen können weitere

Beschreibungsworte ermittelt werden, mit denen man in den folgenden

Iterationen wieder zusätzliche Merkmale gewinnt. So werden nach und nach alle

in einem Dokument vorkommenden Produktmerkmale bestimmt. Ist die Menge

der zu untersuchenden Dokumente allerdings sehr groß, leidet die Präzision

stark darunter und viele nutzlose Daten werden ermittelt. Andererseits sinkt die

Vollständigkeit des Verfahrens erheblich, wenn die Dokumentenmenge zu klein

ist.

Die Arbeit beschäftigt sich vor allem damit, wie man diese beiden Nachteile von

Double Propagation ausbessern kann. Um die Vollständigkeit des Verfahrens zu

verbessern, wurden zwei Erweiterungen eingeführt, das part-whole-Pattern und

das no-Pattern. Ersteres drückt aus, dass ein oder mehrere Objekte Teile eines

anderen Objektes sein können. So kann man beispielsweise aus dem Satz „Die

Linse der Kamera…“ ermitteln, dass eine Linse Teil einer Kamera ist. Dies ist

sehr wichtig, denn so kann man darauf schließen, dass das Substantiv „Linse“

ein Feature ist. Das no-Pattern hilft hingegen, Kommentare wie „kein Lärm“ (engl.

„no noise“) richtig zu klassifizieren, denn Double Propagation übergeht solche

Formulierungen oft.

Um das Problem der geringen Präzision zu lösen, wird ein Ranking der

ermittelten Produktmerkmale erstellt. Dafür wird jedem extrahierten Merkmal ein

Wert zugewiesen, der sich aus der Häufigkeit des Begriffes in der

Dokumentensammlung und dessen Relevanz ergibt. Während die

Auftrittshäufigkeit recht einfach zu ermitteln ist, wird für die Relevanz der

strukturierte Rankingalgorithmus HITS genutzt. Mit Hilfe der aus

Auftrittshäufigkeit und Relevanz gebildeten Rangfolge, kann man nun irrelevante

Merkmale wieder verwerfen.

Die zum Abschluss der Arbeit durchgeführten umfangreichen Experimente

zeigen vielversprechende Ergebnisse. Es konnten im Vergleich zum

standardmäßigen Double Propagation Verbesserungen in den Bereichen

Präzision (circa 5% besser als im klassischen DP) und Vollständigkeit (circa 12%

besser) erzielt werden. Die angestrebte Optimierung des Double Propagation-

Prinzips konnte so erreicht werden. Die Forschungsgruppe arbeitet derzeit daran,

diese Verbesserungen weiter auszubauen.

25

2.4.2. EXTRACTING PRODUCT FEATURES AND OPINIONS FROM

REVIEWS

Die zweite hier genauer betrachtete Arbeit wurde von Ana-Maria Popescu und

Oren Etzioni 2005 an der University of Washington angefertigt [Pop05]. Sie

beschäftigt sich mit dem Extrahieren von Produktmerkmalen und Meinungen aus

Testberichten.

Diese Aufgabe wird in vier Teilaufgaben unterteilt:

1. Produktmerkmale erkennen

2. Meinungen bezüglich der Produktmerkmale erkennen

3. Tendenz der Meinung erkennen (positiv, neutral, negativ)

4. Meinungen bezüglich ihrer Stärke in eine Rangfolge bringen

In der Arbeit wird OPINE vorgestellt, ein System, welches alle vier Teilaufgaben

lösen soll. Es basiert auf dem Know-ItAll Web Information-Extraction System.

OPINE benötigt lediglich ein Produkt und eine Menge von Testberichten und gibt

nach der Bearbeitung die Produktmerkmale und die Meinungen der Testberichte

in einer Rangfolge bezüglich der Stärke aus. „Katastrophal“ wird also in der

Rangfolge über „verbesserungswürdig“ stehen und „perfekt“ über „annehmbar“.

Rein formal soll OPINE also aus einer gegebenen Produktklasse mit einer oder

mehrerer Instanzen eine Menge von Tupeln generieren, die den Aufbau

{(Produktmerkmal f, Meinung0, …, Meinungn)} haben. Die Meinungen sollen wie

schon eingangs erwähnt, in eine Rangfolge bezüglich ihrer Ausdrucksstärke

gebracht werden.

Im Folgenden soll die Funktionsweise von OPINE kurz umrissen werden. Die

eingegebenen Reviews werden vom MINIPAR-Parser [Lin98] verarbeitet und in

eine Form gebracht, aus der dann der OPINE Feature Assessor im nächsten

Schritt die einzelnen Produktmerkmale auslesen kann. Der Feature Assessor ist

eine spezielle Version des Know-ItAll-Systems und analysiert die geparsten

Berichte Satz für Satz mithilfe der WordNet IS-A Hierarchie.

Im Weiteren werden die Berichte dann nach möglichen Meinungen durchsucht.

Alle Textstellen, die dafür in Frage kommen, werden dann anhand eines

komplexen Regelwerkes analysiert. Wird eine potenzielle Meinung dann auch

tatsächlich als eine solche identifiziert, wird sie in die Menge der ermittelten

Meinungen aufgenommen. Abschließend gibt OPINE dann die Produktmerkmale

zusammen mit den Meinungen aus.

26

Abbildung 7: Geplante Funktionsweise von OPINE

Das Finden nur implizit erwähnter Produktmerkmale und das Ranken der

extrahierten Meinungen wurde im Verlauf der Arbeit vorerst zurückgestellt. Diese

Funktionen sind demnach noch nicht im erstellten Prototyp vorhanden.

OPINE wurde mittels der Arbeiten von Hu und Liu evaluiert [Hu04], die auf dem

Gebieten Information Extraction und Ranking schon große Fortschritte erzielen

konnten. OPINE erziele bei einem geringen Verlust der Vollständigkeit (-3%) eine

deutlich höhere Präzision (+22%) als vergleichbare Systeme von Hu und

anderen.

2.5. Internet-Suchmaschinen

Um Informationen aus Dokumenten zu extrahieren, müssen wir zuvor erst einmal

die entsprechenden Dokumente erfassen. Suchmaschinen helfen uns hierbei,

denn sie stellen für eine bestimmte Anfrage eine Menge von

Ergebnisdokumenten zur Verfügung, die für uns relevant sein könnten. Im

weiteren Verlauf dieser Arbeit werden wir zeigen, dass Internet-Suchmaschinen

auch in unserem System eine wichtige Rolle spielen werden. Deswegen lohnt es

sich, an dieser Stelle einen Blick auf ihre Funktionsweise zu werfen. Die

Sortierung der Ergebnisliste sollte dabei besonders im Fokus stehen.

Es existieren viele verschiedene Arten von Suchmaschinen, die man anhand von

Funktionsweise und Einsatzgebiet klassifizieren kann. Wir wollen uns hier auf die

indexbasierten Internet-Suchmaschinen beschränken.

27

Abbildung 8: Indexbasierte Suchmaschine (Quelle: Jakob Voss)

Das wesentliche Element einer Suchmaschine ist der Index, eine Datenstruktur,

die Informationen über alle der Suchmaschine bekannten Dokumente enthält, um

diese später schneller wieder aufzufinden. Der Index muss ständig aktualisiert

und erweitert werden. Bei Internet-Suchmaschinen geschieht dies in der Regel

mithilfe von Web-Crawlern. Dies sind kleine, automatisierte Programme, die

selbstständig Dokumente und Websites im Internet durchsuchen und

analysieren, um gegebenenfalls den Index der Suchmaschine um neue

Informationen zu ergänzen oder alte Einträge zu löschen, bzw. zu aktualisieren.

Stellt ein Nutzer oder ein Programm eine Anfrage mittels einem oder mehrerer

Suchbegriffe an die Suchmaschine, so stellt diese eine Ergebnisliste zusammen.

Dies geschieht durch Analyse der Anfrage und einem Abgleich mit dem Index

des Suchdienstes. In einer klassischen Internet-Suchmaschine erhält man eine

Reihe von Ergebnis-URL, die auf möglicherweise relevante Dokumente

verlinken.

Besonders interessant ist hierbei, auf welche Art und Weise die Reihenfolge der

Trefferanzeige ermittelt wird.

Prinzipiell gilt, dass in der Praxis viele verschiedene Techniken verwendet

werden, um die Ergebnislisten zu sortieren. Die meisten Suchmaschinenbetreiber

legen jedoch aus Wettbewerbsgründen nicht alle Verfahren offen.

Google nutzt unter anderem das PageRank-Verfahren: Dies ist ein

strukturbasierter Ranking-Algorithmus, der Dokumenten auf Basis ihrer

Verlinkungsstruktur untereinander Punktwerte zuweist. Die Grundidee ist, Links

zwischen Dokumenten als Empfehlung des Autors des verlinkenden Dokuments

anzusehen. Die Qualität eines Dokumentes ist demnach von der Anzahl der

eingehenden Empfehlungen bzw. Links abhängig [Lüb09]. Das bedeutet, dass

die Güte eines Dokumentes ohne Kenntnis der Anfrage an die Suchmaschine

schon im voraus berechnet werden kann. Dies geschieht, in dem man allen

erfassten Dokumenten D initial einen PageRank-Wert PR= 1 oder PR= 1 / |D|

zuweist.

28

Der Wert des Dokumentes k wird dann wie folgt berechnet:

Bk bezeichnet die Menge der Dokumente, die auf k verlinken und outdegree(v)

gibt die Anzahl aller Verlinkungen in v an. Der PageRank-Wert eines

Dokumentes berechnet sich also aus der Summe der PageRank-Werte aller

Dokumente, die auf es verlinken, geteilt durch deren absolute Zahl an

ausgehenden Links. Der Parameter d ist ein Dämpfungsfaktor, der in der Praxis

zwischen 0 und 1 liegt. Je höher der Wert eines Dokumentes ist, desto eher wird

es in der Ergebnisliste angezeigt.

Der PageRank-Wert ist aber nur einer von vielen Faktoren. So spielt zum

Beispiel die Auftrittshäufigkeit eines Schlagwortes in URL, Titel und Text einer

Website eine Rolle. Weiterhin sind Alter und Aufbau eines Dokumentes sehr

wichtig für die Ergebnissortierung. Alle bekannten Einflussgrößen hier zu nennen,

würde aber den Rahmen der Arbeit sprengen.

Abschließend sollten noch die Meta-Suchmaschinen erwähnt werden. Dies sind

Suchmaschinen ohne eigenen Index. Startet ein Anwender eine Suche, so leitet

das System die Anfrage an mehrere angebundene Suchmaschinen weiter und

stellt dann aus deren Suchresultaten die Ergebnismenge zusammen. Vorteilhaft

ist hierbei, dass man dabei mit seiner Anfrage eine größere Datenmenge

erreicht.

Abbildung 9: Funktionsweise einer Meta-Suchmaschine (Quelle: Jakob Voss)

29

2.6. Fedseeko

Fedseeko [Wal11] ist ein System, welches selbstständig Produktinformationen

aus verschiedenen Quellen im Web zusammenträgt. Es wurde 2008 an der TU

Dresden entwickelt und wurde mit dem Framework Ruby on Rails implementiert.

Heutzutage wird von Herstellern, Händlern und natürlich unzähligen anderen

Onlineplattformen, wie Blogs, Foren oder Testseiten, eine riesige Menge an

Produktinformationen bereitgestellt. Besonders nachteilig an dieser

Informationsflut ist vor allem die Mächtigkeit dieser Menge selbst, die mittlerweile

so groß geworden ist, dass sie kaum ein Mensch ohne weitere Hilfsmittel in

vertretbarer Zeit sichten könnte. Außerdem treten gerade bei

Produktinformationen viele Inkonsistenzen auf, da manche Informationen veraltet

oder schlichtweg falsch sind. Fedseeko soll Nutzern helfen, diese Probleme zu

überwinden, indem es aus den drei oben genannten Informationsquellen

(Herstellern, Händlern und Drittparteien) ein möglichst objektives und

vollständiges Produktbild erstellt.

Dies geschieht, indem man dem System verschiedene Quellresourcen zur

Verfügung stellt. Für jeden der möglichen Quelltypen existieren Web Services,

die Anfragen an APIs oder Websites stellen können. So können mit dem

Händlerservice Informationen von Onlineshops wie Amazon abgerufen werden.

Dazu kann man manuell eine Konfiguration erstellen, in der alle notwendigen

Zugriffsinformationen für die Web Services oder Websites der Händler enthalten

sind. Man hat ebenfalls die Möglichkeit, auf die manuelle Erstellung einer

Konfiguration zu verzichten und stattdessen auf den Web Scraper

zurückzugreifen. Dazu muss man eine Web Scraping Konfiguration zu Fedseeko

hinzufügen. Danach wird die Ergebnisseite des Händlers gelabelt, sodass man

alle notwendigen Felder auslesen kann.

Mit dem Herstellerservice werden Produktinformationen direkt von den Hersteller-

Websites extrahiert und auf eine Ontologie gemappt. Dazu wird zunächst über

eine Meta-Suchmaschine der direkte Pfad zur Produktansicht auf der

Herstellerseite ermittelt. Mittels des Pfades ist es dann möglich, die Informationen

automatisch auszulesen und zu systematisieren. Für Blogs, Foren, Testseiten

usw. steht ein weiterer generischer Adapter zur Verfügung, der ebenfalls über

eine bereitgestellte API Informationen sammeln kann. Dazu wird ein Web

Scraper eingesetzt, um die erforderlichen Anfragen generieren zu können.

30

Abbildung 10: Architekturübersicht von Fedseeko Quelle: [Wal11]

2.7. Fazit

In diesem Kapitel wurden die erforderlichen Grundlagen für die Konzeption, das

Verständnis und die Evaluation von Ranking- und Extraktionsmethoden

vorgestellt. Die verwandten Arbeiten und die Übersicht über das Fedseeko

System sind hilfreich für die Konzeption eines eigenen Extraktions- und

Rankigsystems von Produktmerkmalen. Bevor ein solches entworfen werden

kann, müssen im nun folgenden Kapitel zuerst die genauen Anforderungen

untersucht und gestellt werden.

31

3. ANFORDERUNGSANALYSE

3.1. Anforderungen

Das zu entwickelnde System hat zwei Hauptkriterien zu erfüllen. Zum einen muss

es die Relevanz von Produktmerkmalen berechnen und in ein Ranking bringen,

zum anderen muss es auf der Datenbasis des Fedseeko Systems arbeiten. Im

Folgenden werden diese beiden Anforderungen näher spezifiziert.

3.1.1. ANFORDERUNGEN AN DIE RELEVANZBEURTEILUNG

Das System muss in der Lage sein, selbstständig die spezifischen

Produktmerkmale verschiedener Produktklassen zu ermitteln. Diese Merkmale

sollen dann in eine objektive Rangfolge bezüglich ihrer allgemeinen Relevanz

gebracht werden. „Allgemeine Relevanz“ bedeutet in diesem Fall, dass die

Merkmale, die besonders wichtig für die Kaufentscheidung sind, einen hohen

Relevanzwert bekommen und weniger wichtige Merkmale nur niedrig bewertet

werden. Die Einteilung, welche Produkteigenschaften besonders bedeutend sind

und welche weniger Berücksichtigung finden, soll unabhängig vom einzelnen

Nutzer und automatisiert geschehen. Um die Relevanz zu beurteilen, sollen

mittels Information Extraction-Verfahren Rankinginformationen aus

produktrelevanten Websites gewonnen werden. Der in dieser Arbeit ebenfalls zu

entwickelnde Rankingalgorithmus soll dann aus diesen Rankinginformationen

eine Rangfolge bezüglich der Relevanz der Merkmale für den durchschnittlichen

Anwender erstellen.

3.1.2. INTEGRATION IN FEDSEEKO

Das System zur Relevanzbeurteilung soll anschließend in das Fedseeko User

Interface integriert werden. Hier bietet sich eine Stelle im System an, an der eine

Auswahl aus vielen Produktmerkmalen zu treffen ist, sodass eine Integration in

die Merkmals-Facetten im Produktindex angestrebt wird (Abbildung 11).

32

Abbildung 11: Erweiterte Facets-Anzeige bei Produktmerkmalen von Digitalkameras

Die Abbildung zeigt einen Teil der Anzeige aller Facets der Produktmerkmale.

Zum derzeitigen Stand werden die Merkmale dort alphabetisch geordnet

angezeigt. Hat man nun eine Relevanzbeurteilung zur Verfügung, so könnte man

die wichtigsten Produkteigenschaften zuerst in der Auswahl anzeigen. Zur

besseren Hervorhebung dieser Einteilung, ist auch eine farbliche Unterscheidung

zwischen den verschiedenen Relevanzklassen denkbar.

Da alle Merkmale aus der Fedseeko Datenbank ausgelesen werden, ist es

notwendig, diese in die Entwicklung des Rankingsystems mit einzubeziehen.

3.2. Entwicklung Goldstandards

Um das entwickelte System möglichst effektiv evaluieren zu können, benötigt

man Vergleichsobjekte. In diesem Fall sollen drei Rankings manuell erstellt

werden, die eine möglichst allgemeingültige Rangfolge von Produktmerkmalen

darstellen, sogenannte Goldstandards. Diese Standards sind Datenmengen, die

beschreiben, wie unsere Rankings im optimalen Fall aussehen sollten. In

unserem Sinne bedeutet das, eine solche Wichtung der Produktmerkmale zu

finden, die möglichst nah an die durchschnittliche Relevanzeinschätzung aller

möglichen Anwender kommt.

33

Die gewählten Produktkategorien sind Festplatten, Mainboards und

Digitalkameras, da diese Bereiche eine Vielzahl technischer Vergleichsmerkmale

aufweisen, die sehr unterschiedlich zu wichten sind. Bei der Erstellung solcher

Goldstandards ist vor allem Fachwissen und Objektivität notwendig, um eine

möglichst fundierte und neutrale Gewichtung der Merkmale zu erreichen. Bei der

Entwicklung der folgenden Rankings wurde eine Vielzahl externer Quellen

konsultiert, beispielsweise Review-Datenbanken oder Experten-Foren. Auf

Problematik der objektiven Erstellung solcher Standards wird im Evaluations- und

Ausblickskapitel noch einmal genauer eingegangen.

Zunächst wurde ermittelt, welche Produktmerkmale in der Fedseeko-Plattform für

Digitalkameras, Festplatten und Mainboards berücksichtigt werden. Danach

wurden die Angaben verschiedener Händler, Hersteller und Hardware-Websites

durchsucht, um eine möglichst umfangreiche Anzahl von gewichteten Merkmalen

zu erreichen. Die Wichtung erfolgt auf einer Skala von 1 (unwichtig für

Kaufentscheidung) über 3 (durchschnittlich wichtig) bis 5 (sehr wichtig für

Kaufentscheidung).

Bewertung Bedeutung

1 Für Kaufentscheidung kaum/nicht relevant

2 Für Kaufentscheidung wenig relevant

3 Für Kaufentscheidung durchschnittlich relevant

4 Für Kaufentscheidung wichtig

5 Für Kaufentscheidung sehr wichtig

Die Qualität des entwickelten Systems wird sich im Rahmen der Evaluierung mit

den erstellten Goldstandards messen lassen. Es sollte eine möglichst gute

Annäherung an die drei manuell entwickelten Rankings angestrebt werden.

3.2.1. GOLDSTANDARD FESTPLATTEN

Da von den meisten Anwendern beim Festplattenkauf zuerst auf die

Speicherkapazität geschaut wird, wird dieses Merkmal als besonders wichtig

bewertet. Auch wissen viele Käufer schon vor dem Kauf, ob sie eine interne oder

externe Platte benötigen. Deshalb ist auch dieser Punkt besonders wichtig.

Drehzahl, Zugriffszeit, Cache und Transferrate sind entscheidende Merkmale, um

die Geschwindigkeit einer Platte für verschiedene Einsatzgebiete einzuschätzen

und sind deshalb oft gefragt. Auch stehen einige Hersteller für besonders hohe

Qualität und werden deswegen von einigen Kunden bevorzugt ausgewählt. Dafür

werden Angaben wie die Anzahl der Sektoren pro Platte oder das Gewicht

meistens überlesen und nicht zum Gegenstand der Kaufüberlegungen gemacht.

34

Merkmal Typische Werte Relevanz

Speicherkapazität / Capacity 500GB, 1,5TB… 5

Drehzahl / Rotational Speed 5400/7200 RPM… 4

Bauart / Build Type Intern/Extern 5

Abmessungen / Physical

Dimension

26,1 x 147 x 101,6… 2

Geräuschentwicklung Ruhe /

Accustic Idle

20 dBA 2

Geräuschentwicklung Betrieb /

Accustic Operating

28 dBA 3

Bus-Typ / Interface PATA, SATA, SCSI 4

Formfaktor / Form Factor 8,9cm, 3,5 Zoll 3

Gewicht / Weight 0,8 kg 1

Cache / Data Buffer 32, 64 MB 4

Transferrate / Transfer Rate 3 Gb/s… 4

Zugriffszeit / Latency 8 ms… 5

Schreib / Leseköpfe 4/2… 1

Garantie / Warranty 2 Jahre, 36 Monate… 3

User-Sektoren / Platte / Sector

Size

3.907.029.168… 1

Stoßfestigkeit Betrieb / Linar

Shock Operating

65G; 2 ms… 2

Stoßfestigkeit Ruhezustand /

Linar Shock Idle

250 G, 2 ms… 1

Temperatur Ruhezustand /

Temperature Idle

-40 bis 70 °C… 1

Temperatur Betrieb /

Temperature Operating

0 bis 60 °C… 2

Energieverbrauch Standby /

Power Requirement

0,80 Watt… 2

Energieverbrauch Ruhe / PR

Idle

3,7 Watt… 1

Energieverbrauch Hochfahren /

PR Startup

4 Watt… 1

Energieverbrauch Betrieb / PR

Operating

6,0 Watt… 2

Vibrationen Ruhezustand /

Vibrations Idle

1,04 (XYZ) 1

Vibrationen Betrieb / Vibrations

Operating

0,67 (XYZ) 1

Betriebsspannung / Voltage 5V 1

Technische Besonderheiten /

Specials

NoiseGuard… 3

35

3.2.2. GOLDSTANDARD MAINBOARDS

Da Chipsatz und Sockel eines Mainboards entscheidend für die Kompatibilität mit

den vorhandenen CPUs sind, kommt diesen eine besondere Bedeutung zu.

Ähnliches gilt für die unterstützten Speichertypen und den Front Side Bus.

Deswegen wurden diese vier Merkmale alle als besonders wichtig bewertet.

Ähnlich wie bei den Festplatten stehen auch bei den Mainboards einige

Hersteller für besonders hohe Qualität und gute Ausstattung, sodass dieser

Punkt hier ebenfalls wichtig ist. Merkmale wie Audio-Chip, Onboard-LAN oder die

Anzahl der SATA-Anschlüsse sind zwar prinzipiell wichtig, jedoch haben sie nur

eine mittlere Wichtigkeit bekommen, da sie mittlerweile auf jedem Mainboard in

ähnlicher Form vorzufinden sind und deshalb nicht als entscheidendes

Vergleichsmerkmal herangezogen werden können.

Als Vertreter besonders unwichtiger Merkmale sei hier der

Diskettenlaufwerksanschluss genannt (FDD). Diese werden kaum noch

verwendet und sind praktisch bedeutungslos geworden.


Chipsatz / Chipset Intel P55, AMD 785G… 5

Sockel / Socket LGA 1156, AM3… 5

BIOS Award, AMI… 3


Dimension

305mm x 244mm… 2

Audio VIA VT1828S… 3

VGA GMA X4500 3

HDMI 1x 2

Line-IN 1x, 2x… 2

Mikrofonanschluss / Microphone 1x 2

Formfaktor / Form Factor ATX, ITX… 2

FDD 0x, 1x… 1

Front Side Bus 1066, 3200MHz…. 5

IDE 1x ATA133 2

SATA 6x SATA II 3

LAN-Chipsatz / LAN-Chipset Realtek 8112 1

LAN-Anschluss 1xRJ45 10/100/1000 3

PCI 2x, 3x, 4x… 2

PCI-Express x1 2x, 3x… 2

PCI-Express x16 1x, 2x… 4

USB 8x 2.0 3

P/S 2 2x 2

Port I/O 1x 2

eSATA 1x, 2x (JMB363) 2

36

S/P-DIF 1 out optical 1

FireWire 1x FireWire (VT6308P) 3

RAID Intel P55 SATA RAID 3

RAID-Port 6xS-ATA RAID Level

0.1.5.10

2

RAM-Sockel 4 x DIMM 240 Pin DDR3… 2

RAM-Typ / RAM-Type DDR3-1066/1333/1600… 5

RAM (max) 16384MB, 32GB 3

Stromanschluss / Power 24pol ATX;8pol ATX 2

Software Norton Security 3

Technische Besonderheiten ASUS Q-Shield… 3

3.2.3. GOLDSTANDARD DIGITALKAMERAS

Für die Bildqualität von Digitalkameras ist der Bildsensor von größter Bedeutung

und hat deswegen die höchste Wichtigkeit. Auch die Brennweite, Lichtstärke und

die effektiven Pixel sind dafür entscheidend und deshalb entsprechend hoch

eingestuft. Weniger wichtig ist hingegen der digitale Zoom, da er im Gegensatz

zum optischen Gegenstück das Bild nur größer rechnet und deswegen keinen

positiven Einfluss auf die Qualität hat. Auch das Audio-Format und der Video-

Ausgang spielen bei der Bewertung einer Kamera nur eine sehr untergeordnete

Rolle.


Bildsensor-Typ / CCD-Sensor 1/2,33" CCD 5

Effektive Pixel / Effective Pixels 10,2 Megapixel… 4

Gesamte Pixel / Pixels 10,4 Megapixel… 2

Objektiv-Brennweite / Focal

Length

f = 4,9 ~ 24,5 mm 4

Optischer Zoom / optical zoom 5x 4

Digitaler Zoom / digital zoom 1.0x – 4.0x 2

Lichtstärke / Aperture f/3.1 (W) - f/5.9 (T) 4

Bildstabilisierung / Stabilizer Ja / Nein 3

Display-Typ / display type TFT 2

Displaygröße / display size 3.0„„ 3

Displayauflösung / display pixels 230.000 3

Autofokus / Autofocus TTL Autofocus 4

Autofokus Minimaldistanz / AF

min

5 cm 4

Verschlusszeit / Shutter speed

MAX

4s 3

37

Verschlusszeit / Shutter speed

MIN

1/2000s 4

Belichtungssteuerung / exposure

control

AE Lock, Safety Shift… 2

Belichtungsmessung / light

metering

Spot, Multi… 3

Lichtempfindlichkeit / sensitivity 100 / 200 / 400 / 800 /

1600…

3

Blitz-Modi / Flash types Auto, Red-eye correction… 2

Blitzreichweite / Flash ranges 0,2 m ~ 3,75 m… 3

Bildgrößen / Image Sizes 1024x768 Pixel… 4

Dateiformat Audio / File format

Audio

WAV 1

Dateiformat Video / File format

Video

AVI 3

Dateiformat Bild / File format

Image

JPEG 4


dimension

96,1 x 58 x 21,9 mm 3

Gewicht / Weight 120g 2

Maximale Videoauflösung / video

res.

1280 x 720… 4

Maximale Bilder/s / Max

Framerate

30fps 3

Interner Speicher / Internal

Memory

40 MB… 2

Speicherkarten / Memory Card SD / SDHC… 4

Video-Ausgang / Video Output NTSC / PAL 1

Akkutyp / Power source Li-Akku, 750 mAh 3

Selbstauslöser / Self timer 2sec / 10 sec 2

Digitaler Anschluss / digital

interface

USB 2.0 Hi-Speed 3

Umgebungstemperatur /

operating temp.

0 – 40°C 2

38

3.3. Fazit

Nach den Grundlagen und den in diesem Kapitel erarbeiteten Anforderungen an

das zu entwickelnde System, können nun Lösungskonzepte erarbeitet werden. In

den weiteren Kapiteln soll weiterhin geklärt werden, inwiefern die nun folgenden

Ansätze das Problem der Relevanzbeurteilung von Produktmerkmalen

bewältigen können. Insbesondere die Goldstandards werden im Ranking und der

anschließenden Evaluation des Systems in Kapitel 6 eine große Rolle spielen.

39

4. SYSTEMKONZEPT

Dieses Kapitel beschreibt die allgemeine Konzeption des Rankingsystems. Es ist

in zwei Teile gegliedert, die jeweils ein wesentliches Teilsystem beschreiben.

Dabei handelt es sich um das Finden und Extrahieren von Rankinginformationen

und das eigentliche Rankingverfahren, welches anhand der Rankingdaten die

eigentliche Funktion der Relevanzbeurteilung der Merkmale durchführt.

4. 1. Entwicklung von Extraktionsmethoden für

Rankinginformationen

Jeder Rankingalgorithmus benötigt Eingabedaten, anhand derer das Ranking

durchgeführt wird. Die Qualität der Eingabedaten ist dabei für die

Leistungsfähigkeit entscheidend. In Abhängigkeit von der Funktionsweise des

Ranking können unterschiedliche Formen von Rankinginformationen notwendig

sein. In diesem Kapitel soll die Entwicklung entsprechender Extraktionsmethoden

behandelt werden. Ein wichtiges Kriterium ist hierbei, dass die

Informationsextraktion automatisch und komplett ohne Nutzereingaben abläuft.

Lediglich die Produktkategorie, zu der Rankinginformationen benötigt werden,

muss bekannt sein.

Das Ziel ist es, geeignete Informationen zu erhalten, mit denen man die Relevanz

von Produktmerkmalen bestimmen kann. Dies soll für jede Produktkategorie, die

in Fedseeko vertreten ist, möglich sein. Abbildung 12 zeigt alle derzeit (März

2011) verfügbaren Kategorien.

Abbildung 12: Verfügbare Produktkategorien in Fedseeko

Die Grundidee ist, im Internet verfügbare Dokumente zu ermitteln, die sich mit

Produkten der zu untersuchenden Produktart auseinandersetzen, beispielsweise

Review-Sammlungen für Digitalkameras oder technische Diskussionsplattformen.

Diese Dokumente sollen dann die Eingabedaten für das Rankingverfahren

40

darstellen. Die Herausforderung ist, diese Dokumente zu finden und für eine

Analyse durch den Rankingalgorithmus aufzubereiten.

Der Prozess zur Gewinnung von Rankinginformationen lässt sich somit in zwei

wesentliche Teilaufgaben unterteilen:

1. Bereitstellung passender Suchworte

2. Gewinn von Rankingdaten

Abbildung 13 zeigt eine grobe Einordnung der Extraktionsteilschritte in das

Gesamtsystem. Einzig und allein die zu beurteilende Produktkategorie dient als

Eingabewert. Alle weiteren Schritte laufen automatisch ab.

Abbildung 13: Grobentwurf des Extraktionssystems

Im Folgenden werden wir jede Teilaufgabe einzeln betrachten und

Lösungskonzepte vorstellen.

4.1.1. ERMITTLUNG PASSENDER SUCHWORTE

Dieser Abschnitt soll das Finden passender Suchworte behandeln. Das Ziel muss

sein, Anfragen an Suchmaschinen zu ermitteln, deren resultierende Trefferliste

möglichst viele Websites beinhält, die sich mit Produkten der zu untersuchenden

Produktkategorie auseinandersetzen. Hierbei gibt es drei Ansätze, die untersucht

und später implementiert werden. Der erste Ansatz behandelt die

nutzerunabhängige Ermittlung von Suchworten, basierend auf der

Produktkategorie, während sich der zweite Ansatz auf die Produktnamen selbst

beschränkt. Variante drei ist eine Kombination der beiden vorherigen Methoden.

Im Folgenden sollen alle Verfahren kurz vorgestellt werden.

41

Autonome Suchwortermittlung

Die Idee der autonomen Suchwortermittlung ist es, basierend auf der

Produktkategorie, selbstständig „gute“ Anfragen an Suchmaschinen zu ermitteln.

„Gut“ bedeutet hierbei, dass die Trefferliste möglichst viele produktspezifische

Websites für die zu untersuchende Produktkategorie enthält. Um dies zu

erreichen, sollen im ersten Schritt Websites ermittelt werden, die sich allgemein

mit der speziellen Produktkategorie beschäftigen. Eine Möglichkeit, derartige

Seiten zu finden, ist die Suche nach spezifischen Produktmerkmalen der zu

untersuchenden Kategorie. Dazu soll der Web Service eines

Suchmaschinenanbieters genutzt werden, bspw. die Bing Web Search API. Im

Folgenden werden dann die möglichen Merkmale nacheinander als Suchanfrage

an den Service gesendet und die dadurch gewonnenen URL gesammelt. Für

plausible Ergebnisse sollten mindestens 20.000 Treffer berücksichtigt werden. Im

nächsten Teilschritt werden dann die Websites der URLs nach häufig

vorkommenden Schlagworten durchsucht. Der Fokus liegt dabei auf prominenten

Stellen wie Titelleisten oder Überschriften, da diese für Suchmaschinen eine

wichtige Bedeutung für das Ranking der Suchergebnisse haben. Finden sich

Suchworte an diesen Stellen wieder, so hat dies einen positiven Einfluss auf die

Relevanzbeurteilung der meisten Suchmaschinen. Begriffe, die besonders häufig

und an prominenten Stellen vorkommen, kommen demnach als Erstes als

mögliche Suchwörter infrage.

Mittels einer Stoppliste können dann wenig relevante, dafür aber oft

vorkommende Wörter wie beispielsweise „at“, „and“ „to“ usw. herausgefiltert

werden. Damit die später folgende Relevanzbewertung der Merkmale nicht

verfälscht wird, kommen auch die einzelnen Produktmerkmale nicht als

Suchbegriffe infrage.

Abbildung 14: Schema der autonomen Suchwörterermittlung

42

Das später vorgestellte Rankingverfahren basiert auf der Häufigkeit des

Vorkommens der Produktmerkmale auf Produktwebsites. Würde man einzelne

Produktmerkmale direkt als Anfrage an einen Suchmaschinen-Web Service

stellen, würden diese überdurchschnittlich oft vorkommen und es wäre keine

Aussage mehr über deren tatsächliche Relevanz für den Käufer möglich.

Effektive Suchbegriffe könnten beispielsweise „review“, „test“ oder andere

kategoriespezifische Schlagwörter sein. Es besteht bei dieser Methode jedoch

die Gefahr, dass auch Wörter ohne jeglichen Bezug zur untersuchenden

Produktkategorie als Suchanfrage ausgewählt werden. Solche „falschen“

Suchwörter zu erkennen und herauszufiltern, ist eine sehr große

Herausforderung und mit viel Aufwand verbunden. Der im Folgenden vorgestellte

alternative Ansatz umgeht dieses Problem, in dem er sich komplett auf konkrete

Produktnamen beschränkt.

Beschränkung auf Produktnamen

Wie schon eingangs erwähnt, besteht der zweite Ansatz aus der Beschränkung

der bereitgestellten Suchmaschinenanfragen auf einzelne Produktnamen der zu

untersuchenden Kategorie. Eine naheliegende Möglichkeit ist hier der Bezug der

Produkte direkt aus der Fedseeko-Datenbank. Allerdings sind auch weitere

Bezugswege denkbar, beispielsweise die Nutzung von Web Services

verschiedener Onlineshops, wie etwa die Amazon API. Das System dieser Arbeit

wird vorerst nur die Produktnamen aus Fedseeko verwenden, die Anbindung

weiterer Quellen ist ein Ansatz für eine mögliche spätere Weiterentwicklung.

Die Ausgabe dieses Teilsystems besteht aus einer Liste aller in Fedseeko

enthaltenen Produktnamen einer Produktkategorie.

Abbildung 15: Produktnamen als Suchwörter

Produktnamen und autonom ermittelte Suchwörter

Eine dritte Variante zur Bereitstellung möglichst effektiver Such-

maschinenanfragen ist die Kombination aus Produktnamen und selbstständig

ermittelten Suchbegriffen. In diesem Fall werden die beiden vorangegangenen

43

Konzepte parallel durchgeführt. Anschließend erfolgt eine Kombination aller

Produktnamen mit den ermittelten Suchbegriffen. Dabei wird das kartesische

Produkt aus der Menge der Produktnamen P und der Menge der Suchbegriffe Q

gebildet:

Abbildung 16: Verknüpfung von Produktnamen und Suchbegriffen

Der Vorteil dieser Lösung ist, dass durch die Bildung des kartesischen Produktes

insgesamt mehr Anfragen erstellt werden können, was auch potenziell mehr

auswertbare Dokumente bedeutet.

4.1.2. GEWINNUNG VON RANKINGDATEN

Dieser Teilschritt beschreibt die eigentliche Informationsextraktion. Die

ermittelten Suchanfragen müssen nun in auswertbare Dokumente für das

Rankingverfahren umgesetzt werden. Dazu wird erneut der Web Service eines

Suchmaschinenanbieters genutzt. Die gesammelten Suchanfragen sollen dabei

nacheinander an den Web Service gesendet werden. Aus der resultierenden

Treffermenge werden die URL und ihre Position in der Ergebnisliste extrahiert

und gespeichert. Letzteres ist wichtig, um im Rankingverfahren besonders

relevante (in der Trefferliste weit vorne stehende) Dokumenteninhalte stärker zu

wichten. Somit wird gleichzeitig das interne Ergebnisranking des verwendeten

Web Services in das Ranking der Produktmerkmale indirekt eingebunden.

44

Abbildung 17: Prinzip der Extraktion der Rankingdaten

Als Eingabe für das Rankingverfahren liefert dieser letzte Teilschritt der

Informationsextraktion also eine ausreichend große Menge an Dokumenten, die

sich mit der zu untersuchenden Produktkategorie beschäftigen sollten. Anhand

dieser Daten werden im eigentlichen Rankingverfahren die Relevanzwerte aller

möglichen Produktmerkmale bestimmt.

4.2. Entwicklung eines Rankingverfahrens

In diesem Unterkapitel soll erläutert werden, wie das Rankingverfahren für

Produktmerkmale funktioniert. Das Ziel ist, gegebene Produktmerkmale einer

Produktkategorie anhand ihrer Relevanz für den Anwender zu bewerten. Als

Eingabe liegen die in Kapitel 4.1. extrahierten Rankingdaten in Form von

Internet-Dokumenten vor. Die Bewertung der Merkmale erfolgt, wie in Kapitel 3

beschrieben, anhand einer Skala von 1 bis 5. Zur Übersicht sind im Folgenden

die Bedeutungen der einzelnen Relevanzabstufungen hier noch einmal kurz

erläutert:

Bewertung Bedeutung

1 Für Kaufentscheidung kaum/nicht relevant

2 Für Kaufentscheidung wenig relevant

3 Für Kaufentscheidung durchschnittlich relevant

4 Für Kaufentscheidung wichtig

5 Für Kaufentscheidung sehr wichtig

Ein Rankingverfahren weist grundsätzlich jedem Datensatz, in diesem Fall

Produktmerkmalen, einen Rankingwert aus dem Intervall [0,1] zu. Dies geschieht

durch die Auswertung der eingegebenen Internetdokumente. Der entwickelte

Rankingalgorithmus wird eine gewichtete Kombination mehrerer Teilwerte

darstellen und folglich aus mehreren Teilverfahren bestehen:

1. Ermittlung der Vorkommen jedes Merkmals

2. Normalisierte Abbildung auf Wertebereich 0..1

3. Klassifizierung durch Analyse vorhandener Goldstandards

4. Gewichtete Kombination

Abbildung 18 zeigt eine Übersicht über die angestrebte Systemstruktur des

Rankingverfahrens. In den folgenden Abschnitten soll jeder einzelne Bereich

45

genauer beschrieben und seine Bedeutung für das gesamte Ranking dargestellt

werden.

Abbildung 18: Übersicht über gesamtes Rankingsystem

4.2.1. ERMITTLUNG DER VORKOMMEN JEDES MERKMALES

Anhand der eingegebenen Rankingdaten, in diesem Fall die ermittelten Internet-

Dokumente, wird für jedes Merkmal und seine Synonyme die Anzahl der

Vorkommen gezählt. Hierbei gibt es mehrere Möglichkeiten. Wörter aus

Internetdokumenten, die aus den jeweils ersten zehn Treffern der

Suchmaschinenanfragen extrahiert wurden, könnten dabei mehrfach zählen (vgl.

Tabelle).

Position in Ergebnisliste 1,2 3,4 5,6 7,8 9,10 >10

Wortmultiplikator 6x 5x 4x 3x 2x 1x

Bei dieser Möglichkeit geht man davon aus, dass die ersten zehn Treffer der

Ergebnisliste einen bedeutend höheren Einfluss auf die Relevanzbeurteilung

haben, als die weiteren Treffer, die erst später folgen.

Ein weiterer Ansatz wäre, sich ausschließlich auf die ersten zehn Treffer zu

beschränken, diese aber alle einfach zu werten. Dies würde zwar die Datenbasis

46

stark verkleineren, jedoch kann man davon ausgehen, dass man dabei einen

sehr hohen Anteil relevanter Daten hat und somit verfälschende Treffer stark

reduziert.

Letztendlich ist es aber auch möglich, alle ermittelten Ergebnisse zu verwenden

und nur einfach zu werten. Alle drei Varianten wurden im Belegsystem

implementiert und getestet (siehe Evaluation).

Die Vorkommen der Synonyme erhöhen dabei immer die Wortanzahl des

Hauptmerkmales. Somit erhält man für alle Merkmale der zu untersuchenden

Produktkategorie einen Zahlenwert, der die Häufigkeit ihrer Vorkommen

beschreibt. Dieser Wert ist der Ausgangswert aller weiteren Teilschritte.

4.2.2. NORMALISIERTE ABBILDUNG AUF WERTEBEREICH

Ausgehend von der Vorkommenshäufigkeit jedes Merkmales, muss dieser Wert

nun auf den Wertebereich zwischen Null und Eins normiert werden. Wie

Testläufe mit dem Prototyp gezeigt haben, ist es dabei nicht ausreichend, die

Wortanzahl aller Merkmale linear auf diesen Bereich abzubilden. Der Grund

hierfür ist die Verteilung der Wortanzahl der einzelnen Merkmale. Einige wenige

Produkteigenschaften werden bis zu 20-mal häufiger genannt, als der Großteil

der übrigen Merkmale. Die Folge einer linearen Abbildung wäre eine Häufung der

weniger oft genannten Produkteigenschaften im Intervall [0,0.1], während die

wenigen restlichen, jedoch sehr oft genannten Merkmale im übrigen

Wertebereich verteilt lägen. Dies würde eine Relevanzbeurteilung der weniger

häufig genannten Merkmale sehr schwierig machen, da die Unterschiede nur

minimal wären. Deshalb wird statt einer linearen Skala eine logarithmische

Abbildung genutzt.

Um die Wortanzahl eines Merkmales P auf den Bereich [0,1] abzubilden (= nP),

wird dessen logarithmierte Wortanzahl wP durch die logarithmierte Wortanzahl

des besten Merkmales wmax geteilt. Die Basis k des Logarithmus ist ein frei

wählbarer Parameter. In den bisherigen Praxistests hat sich der Wert ‚2„, also der

duale Logarithmus, bewährt. Diese Abbildung der absoluten Wortanzahlen auf

das Intervall [0, 1] ist der erste Teil des kombinierten Rankings.

47

4.2.3. KLASSIFIZIERUNG DURCH ANALYSE VORHANDENER

GOLDSTANDARDS

Im Folgenden soll der zweite Teil des kombinierten Ranking beschrieben werden.

Das Ziel ist auch in diesem Fall die Abbildung jedes Produktmerkmales auf das

Intervall [0,1]. Hierbei macht man sich aber diesmal die typischen Verteilungen

der Produktmerkmale in die einzelnen Relevanzklassen zunutze. Bei der

Erstellung der Goldstandards für die Evaluierung fiel auf, dass sich die

Relationen zwischen den einzelnen Relevanzklassen 1 bis 5, unabhängig von

der Produktkategorie, teilweise stark ähnelten. Hierbei entstand der Ansatz, diese

Muster für das Ranking zu nutzen. Dieser Teil des Rankingsystems analysiert die

vorhandenen, manuell erstellten Goldstandards und berechnet aus ihnen eine

möglichst allgemeingültige Verteilung der einzelnen Relevanzklassen.

Dies geschieht durch die Untersuchung aller eingegebenen Goldstandards. Für

jeden dieser Standards wird die Anzahl der Merkmale in jeder Relevanzklasse

ermittelt und diese in Relation zur Gesamtanzahl aller Merkmale gesetzt. Somit

erhält man Wissen darüber, wie sich die Relevanzverteilungen der einzelnen

Produktmerkmale verhalten. Folgende Tabelle zeigt die Verteilung beim

Goldstandard für Digitalkameras:

Relevanzklasse Anzahl Merkmale Anteil

1 6 15,7%

2 8 20,5%

3 15 39,5%

4 7 18,4%

5 2 5,9%

Der Anteil jeder Relevanzklasse wird für jede Produktkategorie, für die ein

Goldstandard vorliegt, vorerst separat ermittelt. Anschließend wird aus allen

Anteilen für jede Relevanzklasse der Mittelwert berechnet, der dann letztendlich

für die eigentliche Berechnung genutzt wird.

Für die Abbildung jedes Merkmales in das Intervall [0,1] wird nun zunächst die

Wortanzahl des Merkmales durch die Wortanzahl des meistgenannten

Merkmales dividiert. Dabei erhält man bereits einen Wert im angestrebten

Intervall. Anhand des Quotienten und der eingangs berechneten Verteilung der

Relevanzklassen kann man nun bestimmen, in welche Klasse das Merkmal

gehört.

48

Abbildung 19: Beispielhafte Aufteilung der Relevanzklassen auf das Intervall [0,1] bei

Digitalkameras

In Abhängigkeit der Relevanzklasse muss nun das Produktmerkmal in das

jeweilige korrespondierende Intervall abgebildet werden. Beträgt der Quotient

eines Digitalkameramerkmals beispielsweise 0.72, so kann man anhand der

Aufteilung aus Abbildung 19 daraus folgern, dass dieses Merkmal der

Relevanzklasse 3 zugehörig sein könnte. Folglich muss es auf das Intervall [0.4,

0.6[ abgebildet werden.

Relevanzklasse Intervall

1 [0, 0.2[

2 [0.2, 0.4[

3 [0.4, 0.6[

4 [0.6, 0.8[

5 [0.8, 1]

Der genaue Relevanzwert des Merkmals P wird wie folgt berechnet: Zunächst

wird der Quotient aus Wortanzahl wP und der maximalen Wortanzahl wmax aller

Merkmale gebildet. Dann wird anhand der Relevanzklassenintervalle der

analysierten Goldstandards ermittelt, in welche dieser Intervalle das Merkmal

fällt. Von dem Quotienten wird nun die untere Intervallgrenze des

entsprechenden Intervalls subtrahiert. Danach wird dieser Wert durch die Größe

des Relevanzklassenintervalls (Io – Iu) dividiert. Anschließend wird dieser

Quotient mit 0.2, der Ergebnisintervallgröße multipliziert. Somit erhält man die

Position des Merkmals im Zielintervall. Um den endgültigen Ergebniswert zu

49

erhalten, muss man nur noch mit der unteren Intervallgrenze ZIu des Zielintervalls

addieren.

Um diese Formel noch einmal zu verdeutlichen, soll das bereits erwähnte

Digitalkamerabeispiel erneut herangezogen werden. Wie bereits ermittel, beträgt

der Quotient des zu rankenden Merkmals aus wP und wmax 0.72 und liegt damit

gemäß der Goldstandardanalyse (Abb. 18) im Intervall der Relevanzklasse drei.

Diese Klasse beschreibt das Intervall [0.362, 0.757]. Demnach muss von 0.72

noch 0.362 subtrahiert werden. Das Ergebnis lautet 0.358. Außerdem beträgt die

Intervallgröße Io(0.757) – Iu(0.362) = 0.395. Der Quotient aus 0.358 und 0.395

beträgt 0.906. Multipliziert mit 0.2 ergibt dies 0,182. Das Zielintervall für

Relevanzklasse drei lautet [0.4, 0.6]. ZIu ist folglich 0.4. Addiert man dies zu

0.182 erhält man 0.582 als ausgegeben goldstandardabhängigen Relevanzwert.

4.2.4. GEWICHTETE KOMBINATION

Im abschließenden Schritt des Rankingverfahrens müssen nun die beiden bisher

beschriebenen Methoden kombiniert werden. Beide bilden ein eingegebenes

Produktmerkmal auf das Intervall [0,1] ab. Eine Kombination der beiden

Verfahren soll das Gleiche tun und gleichzeitig eine Gewichtung zwischen beiden

Methoden ermöglichen. Deswegen wurde folgende Verknüpfung aus

normalisierter Abbildung und goldstandardabhängigen Relevanzwert gewählt:

Der Relevanzwert r eines Produktmerkmals P ergibt sich, wenn man die Summe

aus der normalisierten Abbildung nP und dem goldstandardabhängigen

Relevanzwert cP bildet. Beide Summanden werden mit dem Paramater a, bzw. b

multipliziert und es muss gelten: a + b = 1. Anhand des Ergebnisses kann man

dem Produktmerkmal durch folgende Tabelle seinen endgültigen Relevanzwert

zuweisen.

Ergebnisintervall Relevanzklasse

0 ≤ rP < 0.2 1

0.2 ≤ rP < 0.4 2

0.4 ≤ rP < 0.6 3

0.6 ≤ rP < 0.8 4

0.8 ≤ rP ≤ 1 5

50

Prototypentests haben die besten Ergebnisse mit der Parameterbelegung a = 0.2

und b = 0.8 ergeben. Mit dem Abschluss des Systems und Relevanzbeurteilung

der Produktmerkmale ist das Rankingverfahren inhaltlich komplett

abgeschlossen.

Die vorgestellte Kombination beider Verfahren schließt nun den Konzeptteil

dieser Arbeit ab. Es wurde gezeigt, wie man mit geeigneten Extraktionsmethoden

verwertbare Rankingdaten gewinnen kann. Des Weiteren wurde ein Ansatz für

ein Rankingverfahren vorgestellt, welches anhand dieser Rankingdaten einzelne

Produktmerkmale einer Produktkategorie in Relevanzklassen einteilen kann.

Das folgende Kapitel widmet sich nun der Umsetzung aller entworfenen

Konzepte.

51

5. IMPLEMENTIERUNG

Nachdem wir in Kapitel 4, basierend auf den Anforderungen aus Kapitel 3, ein

Konzept für das Ranking von Produktmerkmalen erarbeitet haben, soll dieser

Abschnitt nun dessen Umsetzung, bzw. Implementierung behandeln. Man kann

das erstellte Konzept in vier grundlegende Teilsysteme unterteilen (Abb. 20):

1. Datenbankkommunikation

2. Suchwortbereitstellung

3. Dokumentenextraktion

4. Rankingsystem

Das gesamte System wurde mit der eclipse IDE in Java Version 6 geschrieben.

Auf die verwendeten Bibliotheken und Tookits wird in den einzelnen

Unterkapiteln 5.1. – 5.4. eingegangen, die sich jeweils mit der Umsetzung der

genannten Teilsysteme beschäftigen.

Abbildung 20: Systemübersicht

5.1. Datenbankkommunikation

Dieser Abschnitt behandelt die Kommunikation des Systems mit der Fedseeko

Datenbank. Auf diese werden wir während des Programmablaufes sowohl lesend

52

als auch schreibend zugreifen. Die weiteren Teilsysteme benötigen für das

Ranken der Merkmale einer Produktkategorie ihre instantiierten Produkte und

alle spezifischen Merkmale, die in Fedseeko dargestellt werden können. Diese

werden für die Generierung der Queries und für das Ranken selbst benötigt. Die

Datenbank enthält weiterhin die Herstellerbezeichnungen aller Produktmerkmale.

Diese werden als Synonyme für die einzelnen Eigenschaften zusätzlich

exportiert.

Die Fedseeko Datenbank liegt als MySQL-System vor. Der Zugriff erfolgt über

den JDBC Driver MySQL Connector 5.1.14. Dieser bietet die Funktionalität,

Anfragen an das Datenbanksystem zu stellen. Mittels einfacher SQL-Abfrage ist

es so möglich, alle Produkte und Merkmale eine Produktkategorie (inklusive der

Herstellerbezeichnungen) in das Rankingsystem zu importieren.

Nach Berechnung aller Relevanzwerte müssen diese in die Datenbank

geschrieben werden. Auch dies ist mit dem Connector möglich. Beim initialen

Ranking wird der Datenbank eine neue Spalte „relevancy“ hinzugefügt, bei

späteren Anwendungen werden lediglich die bereits vorhandenen Relevanzwerte

modifiziert.

Abbildung 21: Ausschnitt aus der Fedseeko-Datenbank (Produktmerkmale)

Weitere Modifikationen innerhalb der Datenbank sind nicht notwendig.

5.2. Suchwortermittlung

Im Folgenden soll die Umsetzung der Suchwortermittlung beschrieben werden.

Die drei im Konzeptteil vorgestellten Varianten werden dabei getrennt

voneinander betrachtet.

53

5.2.1. AUTONOME SUCHWORTERMITTLUNG

Dieser Abschnitt beschäftigt sich mit der selbstständigen Ermittlung möglichst

effektiver Suchbegriffe. Hierfür wird unter anderem die Bing Web Search API 2.0

genutzt [Bing11], um nach Web-Dokumenten zu suchen, die für die zu

untersuchende Produktkategorie relevant sind. Um das zu realisieren, werden die

in Punkt 5.1. importierten Produktmerkmale jeweils getrennt voneinander als

Suchanfrage an die Bing API gesendet. Die entspechende URL ist von folgender

Form:

http://api.search.live.com/xml.aspx?Appid=key&query=[Merkmal]&sources

=web&web.count=50&web.offset=0

Mit dieser Anfrage erhält man die ersten 50 Suchergebnisse in einem Antwort-

Dokument zusammengefasst. Um mehr Suchergebnisse zu erhalten, muss man

die Anfrage erneut stellen und dabei in der Anfrage-URL das Offset erhöhen.

Dieser Wert gibt an, wieviele Ergebnisse am Anfang der Liste übersprungen

werden sollen. Möchte man also die Ergebnisse 51-100 ermitteln, muss das

Offset auf „50“ gestellt werden. Das Format der Antwort kann JSON oder XML

sein und ist über die Parameter der Anfrage-URL einstellbar. Für das hier

vorgestellte System wurde XML gewählt. Abbildung 22 zeigt einen Ausschnitt der

Anwort. Mittels SAX-Parser werden die URL im <web:URL>-Tag aller Treffer

ausgelesen und in einer HashSet-Datenstruktur gesammelt. Dies wird für alle

Produktmerkmale und deren Synonyme durchgeführt. In Abhängigkeit von der

Anzahl der Merkmale der gewählten Produktkategorie werden so bis zu 20.000

URL ermittelt.

Abbildung 22: Teil der Bing-Antwort auf eine Suchanfrage

54

Um die gewonnenen URLs als auswertbare Dokumente zu erhalten, ist ein

weiterer Schritt nötig. Dazu müssen die Quellen der URL heruntergeladen

werden. Dabei werden Teile des Palladian Toolkits genutzt, einer Sammlung

von Algorithmen auf dem Gebiet des Internet Information Retrieval [Urb11]. Der

Fokus von Palladian liegt beim Finden, Extrahieren und Klassifizieren von

Informationen aus dem Internet. Unter anderem stellt das Tookit die Klasse

URLDownloader zur Verfügung, die aus einer gegebenen URL ein DOM-

konformes Document-Objekt mit deren Inhalt erzeugt. Dank Parallelverarbeitung

durch mehrere Threads kann auch eine große Zahl an URL umgewandelt

werden.

Abbildung 23: Teilgebiete des Palladian Toolkits

DOM (Document Object Model) ist eine plattform- und sprachunabhängige

Schnittstellenspezifikation. Sie erlaubt es, Programmen oder Scripten dynamisch

auf den Inhalt, die Struktur und das Format entsprechender Dokumente,

meistens im XML- oder HTML-Format, zuzugreifen. Abbildung 24 zeigt einen

Ausschnitt aus einem typischen DOM-Knotenbaum eines HTML-Dokumentes.

Abbildung 24: Ausschnitt eines DOM-Knotenbaums

Aus den generierten Dokumenten wird nun der Textinhalt des Dokumentes, des

Dokumententitels und aller enthaltener Überschriften (<h*>-Tags) mittels SAX-

Parser extrahiert. Besonders häufig vorkommende Wörter kommen, wie im

Konzeptteil schon erläutert, als potenzielle Suchworte infrage. Mittels einer

implementierten Stoppliste werden oft vorkommende, jedoch irrelevante Wörter

55

gerausgefiltert. Gleiches gilt für die anfangs eingegeben Produktmerkmale. Die

Begründung hierzu findet sich im Konzepteil unter 4.1.

5.2.2. ERMITTLUNG DER PRODUKTNAMEN

Der folgende kurze Abschnitt beschäftigt sich mit der Ermittlung der

Produktnamen, die für die Erstellung der Suchanfragen notwendig sind. Die

Implementation des Belegsystems beschränkt sich dabei auf die Nutzung der in

Fedseeko vorhandenen konkreten Produkte. Wie in Abschnitt 5.1. schon

erläutert, ist es mit dem MySQL Connector problemlos möglich, mittels SQL-

Anfrage alle Produktnamen einer gegebenen Produktkategorie zu erhalten. Die

Antwort des Datenbanksystems auf die Anfrage muss anschließend nur

entsprechend ausgelesen werden, damit man alle gewünschten Namen erhält.

5.2.3. KOMBINATION VON SUCHWÖRTERN UND PRODUKTNAMEN

Für die Kombination der beiden vorhergehenden Methoden, müssen zunächst

beide Verfahren getrennt voneinander ausgeführt werden. Die Menge der

ermittelten Suchwörter und die Menge der Produktnamen werden in seperaten

Datenstrukturen gespeichert. Anschließend wird durch eine einfach

verschachtelte Schleife das kartesische Produkt beider Mengen gebildet und die

Ergebnismenge durch die Klasse QueryProvider zur Verfügung gestellt.

Damit der teilweise langwierige Prozess der Suchwörterermittlung nicht bei jeder

Ausführung des Systems erneut durchgeführt werden muss, werden die

kombinierten Anfragen für jede Produktkategorie jeweils in einer XML-Datei

gespeichert. Nachdem diese Datei angelegt ist, werden die gespeicherten

Anfragen direkt aus der XML-Struktur ausgelesen und an das Extraktionssystem

weitergeleitet. Möchte man die Anfragen jedoch erneut erstellen lassen, wenn

beispielsweise neue Produktnamen in Fedseeko integriert wurden, so muss nur

diese XML-Datei gelöscht werden, um beim nächsten Start eine neue

Anfrageliste zu generieren.

5.3. Dokumentenextraktion

Die Dokumentenextraktion gliedert sich in zwei Teile. Im ersten Teilschritt

müssen möglichst relevante Dokumente gefunden werden, die die Grundlage für

den späteren Rankingprozess bilden sollen. Im zweiten Schritt müssen dann die

Inhalte dieser Dokumente extrahiert werden, damit auswertbare Daten für den

Rankingalgorithmus bereitgestellt werden können.

56

5.3.1. GEWINNUNG RELEVANTER DOKUMENTE

Als Eingabe für die Dokumentenextraktion dienen die Suchwörter, die von der

Suchwörterbereitstellung aus Punkt 5.2. geliefert werden. Welche der drei

vorgestellten Varianten dabei tatsächlich genutzt wird, ist für die prinzipielle

Funktionsweise der Dokumentenextraktion letztendlich unerheblich, da immer

eine Liste von Suchstrings als Eingabe dient.

Jeder Suchstring in der Eingabeliste wird zu Beginn der Dokumentenextraktion

als Suchanfrage an die Bing Web Search API 2.0 gestellt.

http://api.search.live.com/xml.aspx?Appid=key&query=[Suchstring]&sourc

es=web&web.count=50&web.offset=0

Die Bedeutungen der einzelnen Parameter der Anfrage wurden bereits in Punkt

5.2.1. erläutert. Die Bing API liefert als Antwort ein XML-Dokument mit den

entsprechenden Suchergebnissen. Ähnlich wie in der autonomen

Suchwortermittlung werden auch diesmal alle URL in den <web:Url>-Tags mittels

SAX-Parser ausgelesen und gespeichert. Gleichzeitig wird auch die Position des

jeweiligen Treffers in der Ergebnisliste gespeichert. Dafür wurde eigens die

Klasse RankURL erstellt, die alle notwendigen Informationen über ein einzelnes

Suchergebnis verwaltet.

Nacheinander wird so eine große Menge an URL gesammelt, die nun im

folgenden Schritt heruntergeladen und auswertbar gemacht werden müssen.

5.3.2. DOKUMENTENEXTRAKTION

Im zweiten Schritt müssen nun die URL in auswertbare Daten konvertiert werden.

Das Ziel ist es, alle Textinhalte der Dokumente, auf die die URL zeigen, als String

zu erhalten. Wie schon bei der autonomen Suchwortermittlung wird auch hier der

URLDownloader des Palladian Toolkits verwendet. Da dieser aber ein ganzes

Set an URL als Eingabe benötigt und als Rückgabe eine Collection an

Dokumenten liefert, geht hierbei die Beziehung zwischen einer URL und ihrer

Position in der Ergebnisliste verloren. Deshalb war es notwendig, eine eigene

Klasse vom URLDownloader abzuleiten und diese entsprechend anzupassen.

Die verwendete Klasse RankURLDownloader erbt vom Palladian-

URLDownloader und arbeitet ebenso mit mehreren parallelen Threads (Abb. 24).

Es werden hierbei zwei Methoden modifiziert, um die Klasse an die neuen

Anforderungen anzupassen.

Eine Methode ermöglicht es, fortan ein Set von RankURL als Eingabewert zu

verwenden. Die andere Methode (startDownload(), siehe Listing), die letztendlich

für den eigentlichen Download des Dokumentes verantwortlich ist, gibt nun

RankDocuments zurück. In dieser neuen Klasse werden nun das

57

heruntergeladene Dokument der URL und die Position des Quelllinks in der

Ergebnisliste der Suchmaschinenantwort gekapselt. Somit ist sichergestellt, dass

der Rankingalgorithmus für jedes auszuwertendes Dokument dessen Position in

der Ergebnisliste kennt.

Damit ist die Umwandlung von URLs in Dokumente abgeschlossen.

Abbildung 25: Listing des RankURLDownloaders

5.4. Rankingsystem

Wie im Konzeptkapitel beschrieben, basiert das Rankingverfahren neben den

vorhandenen Goldstandards auf der Anzahl der Vorkommen jedes

58

Produktmerkmales und seiner Synonyme in den Trefferdokumenten. Also gilt es

zunächst, die Wörter zu zählen, bevor dann der eigentliche Rankingalgorithmus

zum Einsatz kommen kann.

5.4.1. ERMITTLUNG DER WÖRTERANZAHLEN

Um die Wörteranzahlen der einzelnen Produktmerkmale zu ermitteln, müssen die

einzelnen Document-Objekte in Strings umgewandelt werden. Dazu wird erneut

auf das Palladian Toolkit zurückgegriffen. Dieses stellt eine Klasse namens

HTMLHelper zur Verfügung, welche in der Lage ist, den Textinhalt jedes

beliebigen DOM-Dokumentes zu extrahieren. Somit liegen alle

heruntergeladenen Dokumente als String vor und es ist problemlos möglich, für

jedes Merkmal und seine Synonyme die Wortanzahl zu bestimmen. Sollte man

sich für eine stärkere Gewichtung für Dokumente, die am Anfang der Trefferliste

der Suchmaschine standen, entscheiden, so werden die Wörter, die in diesen

Dokumenten vorkommen, an dieser Stelle mehrfach gewertet (vgl. 4.2.1.).

Um das Testen und die spätere Evaluation zu erleichtern, werden alle Wörter mit

ihren Wortanzahlen in eine XML-Datei geschrieben. So muss bei Änderungen im

Rankingverfahren nicht für jeden Testlauf der zeitintensive Prozess der

Suchmaschinenanwendung und Dokumentenextraktion durchgeführt werden.

5.4.2. RANKINGVERFAHREN

Außer der Wortanzahl für jedes Produktmerkmal, wird noch mindestens ein

vorhandener Goldstandard benötigt, um das Ranking durchzuführen. Dies wird

durch die Einbeziehung der Relevanzklassenverteilung der Goldstandards in den

Rankingalgorithmus notwendig (vgl. 4.2.3.). Zunächst wird ermittelt, ob für die

aktuell zu bewertende Produktkategorie schon ein Goldstandard vorliegt. Ist dies

der Fall, wird dieser zur Analyse der Klassenverteilung verwendet. Liegt kein

Goldstandard für die Kategorie vor, werden alle vorhanden Goldstandards der

anderen Produktarten genutzt, um eine Durchschnittsverteilung zu bilden.

Die Standards müssen dabei als XML-Datei in Programmverzeichnis vorliegen.

Abbildung 25 zeigt einen Ausschnitt aus dem Goldstandard für Digitalkameras.

Auf Wunsch kann aus der Fedseeko Datenbank für jede Produktkategorie eine

Schablone erzeugt werden, in die nur noch die Relevanzwerte eingetragen

werden müssen. So ist es komfortabel möglich, weitere Standards zu erzeugen.

Lediglich die fundierte Ermittlung möglichst allgemeingültiger Bewertungen für die

jeweiligen Produktmerkmale muss manuell durchgeführt werden.

59

Abbildung 26: Goldstandardausschnitt Digitalkameras

Der eigentliche Rankingalgorithmus, der in Kapitel 4.2.4. vorgestellt wurde, ist in

der Klasse CombinedRanker implementiert (Abb. 27).

Abbildung 27: Listing aus dem CombinedRanker

60

Aus Relevanzklassenverteilung (functionA()) und Wortanzahlen (functionB()) wird

nun für jedes Produktmerkmal der zu untersuchenden Produktkategorie der

Relevanzwert berechnet. Parallel zur Ausgabe dieser Werte auf der Konsole

werden die Ergebnisse in die Fedseeko Datenbank geschrieben.

Inwiefern diese Relevanzwerte helfen können, eine Abschätzung über die

Relevanz von Produktmerkmalen zu erstellen, soll im nun folgenden 6. Kapitel

untersucht werden, in dem die einzelnen Teilsysteme evaluiert werden.

61

6. EVALUIERUNG

In diesem Kapitel wird die Evaluierung des gesamten Rankingverfahrens und

seiner einzelnen Teilsysteme behandelt. Dabei sollen die Leistungen und

Grenzen des Rankings insgesamt gezeigt werden. Außerdem gilt es für die

Teilsysteme, für die alternative Konzepte erarbeitet wurden, die optimalen

Lösungen zu finden. Dies betrifft die Suchwortbereitstellung, für die drei

verschiedene Alternativen existieren und die Bewertung der Such-

maschinenergebnisse, für die ebenfalls drei unterschiedliche Wege möglich sind.

In jedem Teilkapitel wird zuerst das allgemeine Vorgehen bei der Evaluation

erklärt, bevor die Ergebnisse dargestellt und ausgewertet werden.

6.1. Suchwortbereitstellung

Dieser Abschnitt behandelt die Evaluierung der Suchwortbereitstellung. Dieses

Teilsystem soll Suchwörter finden und bereitstellen, die als

Suchmaschinenanfrage einen möglichst großen Anteil produktspezifischer

Websites liefern. Im Konzeptteil wurden drei Möglichkeiten vorgestellt, um dies

zu erreichen. Die autonome Suchwortermittlung versucht mittels der Analyse

von produktspefizischen Websites, möglichst effektive Suchworte zu finden. Eine

weitere Möglichkeit stellt die reine Beschränkung auf die in Fedseeko

vorhandenen Produktnamen dar. Schließlich ist es noch möglich, beide

Varianten zu kombinieren.

Es gilt nun, die Variante auszuwählen, die als Suchmaschinenanfrage möglichst

viele relevante Websites in der Ergebnisliste liefert. Je größer der Anteil

irrelevanter Websites ist, desto mehr wird später das Ranking der

Produktmerkmale verfremdet.

Um die einzelnen Verfahren zu evaluieren, wurde von jedem Teilsystem eine

Menge von Suchanfragen generiert und an die Bing API gesendet. Dies wurde

für die drei Produktkategorien Mainboards, Digitalkameras und Festplatten

durchgeführt. Es wurden jeweils die 50 ersten Ergebnisse ausgewählt und

manuell in relevante und irrelevante Treffer aufgeteilt. Die Abbildungen 28 und 29

geben für beide Kategorien jeweils ein Beispiel. Abbildung 28 zeigt einen kurzen

Text zur Kamera Samsung S860 mit mehreren Produktmerkmalen, während auf

Abbildung 29 eine Website für einen Samsung Wissenstest über mobile Geräte

zu sehen ist. Beide URL waren in derselben Bing-Suchanfrage als Treffer

enthalten. Der Wissenstest beschäftigt sich nicht mit Digitalkameras und ist

deswegen irrelevant.

62

Abbildung 28: Relevante Website für das Ranking

Abbildung 29: Irrelevante Webseite für das Ranking

63

Im Folgenden die Ergebnisse für die drei Durchläufe.

Digitalkameras:

Verfahren Relevante

Ergebnisse

Anteil relevanter

Ergebnisse

Autonome

Suchwortermittlung

38 76%

Produktnamen 46 92%

Suchwörter +

Produktnamen

41 82%

Mainboards:

Verfahren Relevante

Ergebnisse

Anteil relevanter

Ergebnisse

Autonome

Suchwortermittlung

21 42%

Produktnamen 43 86%

Suchwörter +

Produktnamen

31 62%

Festplatten:

Verfahren Relevante

Ergebnisse

Anteil relevanter

Ergebnisse

Autonome

Suchwortermittlung

32 64%

Produktnamen 44 88%

Suchwörter +

Produktnamen

37 74%

Tests mit dem Prototypen haben ergeben, dass bei der autonomen

Suchwortermittlung das Risiko des Auftretens verfälschender Suchwörter stark

ansteigt, je mehr Suchwörter man ermittelt. Während bei den zehn potenziell

besten Suchwörtern der Anteil irrlevanter Begriffe bei etwa 10-40% liegt, so steigt

dieser Anteil bei den ersten zwanzig Wörtern im Durchschnitt schon auf etwa 30-

60%.

Die besten Ergebnisse brachte die Verwendung der Produktnamen. Diese

erzielten einen Anteil produktspezifischer Seiten von etwa 85-95%. Die

Ergebnisse der kombinierten Anfrage von autonom ermittelten Suchworten und

Produktnamen brachten etwa 60-80% relevante Websites hervor. Die Güte

64

dieser Methode ist stark von der Qualität der autonomen Suchwortermittlung

abhängig.

Wie man an den Ergebnissen sehen kann, sind die ermittelten Werte keineswegs

für alle Produktkategorien gleich. Besonders die Kategorie Mainboards brachte

besonders schlechte Ergebnisse bei der autonomen Suchwortermittlung hervor,

während bei Digitalkameras der Anteil relevanter Suchworte unabhängig von der

Bereitstellungsmethode stets über dem restlichen Durchschnitt der anderen

Produktkategorien lag. Einzig die Suche nach konkreten Produktnamen brachte

bei allen getesteten Kategorien einen stabilen und vor allem sehr hohen Anteil

produktspezifischer Websites hervor. Deshalb verwendet das fertige

Rankingsystem reine Produktnamen als Suchanfrage.

6.2. Bewertung der Suchmaschinenergebnisse

In diesem Unterkapitel soll der Einfluss der unterschiedlichen Bewertung der

Suchmaschinenergebnisse auf das gesamte Rankingverfahren untersucht

werden. Diese Ergebnisse liefern die Dokumente, deren Textinhalte für das

Ranking untersucht werden. Letztlich bilden dann die Wortanzahlen der

einzelnen Produktmerkmale und ihrer Synonyme in diesen Dokumenten die

Grundlage für die Relevanzbeurteilung. Nun soll untersucht werden, wie man

möglichst effektiv mit der Reihenfolge der Dokumente in den

Suchmaschinenergebnissen umgeht. In Kapitel 4.2.1. wurden diesbezüglich drei

verschiedene Ansätze vorgestellt. Ansatz 1 verwendet die ersten 100

Suchergebnisse und wichtet sie anhand folgender Tabelle unterschiedlich:

Position in Ergebnisliste 1,2 3,4 5,6 7,8 9,10 >10

Wortmultiplikator 6x 5x 4x 3x 2x 1x

Ansatz 2 verwendet ebenfalls die ersten 100 Suchergebnisse und wichtet alle

Treffer gleich. Ansatz 3 nutzt nur die ersten 10 Ergebnisse, die alle gleichwertig

sind.

Die Bewertung der unterschiedlichen Wichtungen der Suchergebnisse hängt eng

mit der Bewertung des gesamten Rankingsystems zusammen, da die ermittelten

Wortanzahlen direkt in den Rankingalgorithmus einfließen. Deshalb ist es

notwendig, die gesamte Relevanzbeurteilung aller Produktmerkmale für jede der

drei Alternativen zu evaluieren. Diese Ergebnisse stellen somit gleichzeitig auch

die Evaluierung für das Gesamtsystem dar.

In Kapitel 2.2.2. wurden Micro- und Macroaveraging als Evaluierungsmethoden

für Klassifizierungsalgorithmen vorgestellt. Da die Zuweisung von

Produktmerkmalen in die Relevanzbereiche 1-5 als Klassifizierung interpretiert

werden kann, können diese beiden Verfahren zur Beurteilung herangezogen

65

werden. Da die korrekte Zuweisung für alle Merkmale gleichermaßen von

Bedeutung ist, wird Microaveraging zur Bewertung verwendet. Anhand des

Berechnungsschemas ist zu sehen, dass hierbei alle Produktmerkmale

gleichwertig in die Ermittlung von Precision P und Recall R eingehen.

Für weitere Testreihen wurde das Microaveraging noch an die speziellen

Gegebenheiten des Rankings von Produktmerkmalen angepasst. Die

Berechnungsformeln für Precision und Recall blieben unverändert, jedoch

werden Produktmerkmale, die lediglich um eine Relevanzklasse falsch bewertet

werden auch als True Positives, also als richtig bewertet beurteilt. Der Grund

hierfür ist die Schwierigkeit, eine absolut allgemeingültige Relevanzbeurteilung

aller Produktmerkmale zu finden. Jeder Anwender wird eine geringfügig bis

deutlich unterschiedliche Einschätzung für jede Produktkategorie aufweisen.

Deshalb ist für ein Ranking von Produktmerkmalen besonders wichtig, dass die

Tendenzen klar zu erkennen sind und weniger die absoluten Werte für jedes

Merkmal korrekt sein müssen.

Für die Evaluation wurden für jede der drei alternativen Möglichkeiten zur

Bewertung der Suchmaschinenergebnisse Precision und Recall mit der

herkömmlichen Bewertung der True Positives und mit der modifizierten

Bewertung gemessen. Die Suchwörter beschränken sich auf Produktnamen und

als Testkategorie wurden Digitalkameras ausgewählt.

Ergebnisse Microaveraging

Ergebnislistenbewertung Precision Recall

100 Ergebnisse, erste 10 höher gewichtet 0,33 0,33

100 Ergebnisse, alle gleich gewichtet 0,31 0,31


Ergebnisse modifiziertes Microaveraging

Ergebnislistenbewertung Precisionmod Recallmod




In diesem Anwendungsfall sind Precision und Recall immer gleich groß. Dies

liegt daran, dass beim Ranking von Produktmerkmalen in jedem Falle alle

Produktmerkmale einer Klasse zugewiesen werden, was nicht bei allen

Klassifizierungsproblemen zwingend der Fall sein muss. Somit sind die False

Positives und False Negatives über alle Klassen betrachtet immer gleich hoch.

66

An den Ergebnissen lässt sich ablesen, dass die Werte für Precision und Recall

in der unmodifizierten Microaveragingversion mit 0,31 – 0,37 generell nicht sehr

hoch sind. Dennoch lässt sich eine leichte Tendenz zugunsten der Beschränkung

auf die zehn ersten Ergebnisse feststellen. Dies könnte darin begründet sein, das

sich in diesen Bereichen der Ergebnisliste von Bing fast ausschließlich relevante

Websites mit viel Textinhalt befinden.

Der Unterschied der ermittelten Precision/Recall-Werte zur modifizierten Version

von Microaveraging, lässt sich in Abbildung 30 sehr gut ablesen. Im Durchschnitt

sind die Ergebnisse in etwa doppelt so hoch wie in der normalen Version.

Angesichts der Tatsache, dass auch einfache Fehlbewertungen als True

Positives gewertet wurden, war dies durchaus zu erwarten. Letztlich sollte man

für eine objektivere Betrachtung des Systems den Mittelwert beider Messungen

bilden:

Mittelwert aus modifizierten und unmodifizierten Microaveraging

Ergebnislistenbewertung Precision/mod Recall/mod




Abbildung 30: Grafische Darstellung der Messungen

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

100 Ergebnisse, erste 10 höher gewichtet

100 Ergebnisse, alle gleich gewichtet

10 Ergebnisse, alle gleich gewichtet

Microaveraging

mod. Microaveraging

67

Die Tendenzen zwischen den einzelnen Methoden zur Ergebniswichtung bleiben

gleich. Die Beschränkung auf die die zehn ersten Suchmaschinenergebnisse

stellt sich dabei als beste Alternative heraus, während die beiden anderen

Methoden im Vergleich dazu leicht abfallen. Als weiterer Vorteil von Ansatz 3

kommt hinzu, dass die Beschränkung auf 10 Ergebnisse pro Suchanfrage

deutlich performanter ist, als die Ansätze mit 100 Suchergebnissen.

Deshalb wertet das fertige Rankingsystem nur die ersten 10 Suchergebnisse für

jede Suchanfrage aus.

6.3. Fazit

Die Ergebnisse in 6.1. und 6.2. haben die Leistungsfähigkeit und die Grenzen

des Systems deutlich gezeigt. Anhand der Ergebnisse des modifizierten

Microaveragings kann man zeigen, dass das Systems durchaus in der Lage ist,

die Tendenzen für die Relevanz von Produktmerkmalen abzuschätzen. Es gibt

mehrere Gründe, weshalb keine genauere Bestimmung möglich ist.

Ein Grund ist die Abhängigkeit von vorhandenen Daten, in diesem Fall der

Fedseeko Datenbank. Da man alle Produkte, Produktmerkmale und deren

Synonyme aus dieser Datenbank bezieht, ist man auf die Aussagekraft der

Begriffe angewiesen, wie sie in der Datenbank zu finden sind. Beim Aufbau der

Fedseeko Datenbasis wurde verständlicherweise die Einsatzmöglichkeit in einem

Rankingsystem nicht berücksichtigt, sodass die Daten eher in einer

zweckmäßigen, weniger jedoch in einer aussagekräftigen Form vorzufinden sind.

Somit kann es vorkommen, dass die Ergebnisse für einzelne Produktmerkmale

teilweise stark verfälscht werden. Ein Beispiel dazu findet man in der Tabelle am

Ende dieses Kapitels: Digitaler und optischer Zoom sind technisch zwei

unterschiedliche Funktionen, die auch von verschiedenartiger Bedeutung für den

Nutzer sind. Dennoch findet sich bei beiden Produktmerkmalen das einfache

Wort „Zoom“ als Synonym in der Datenbank. Dieses sehr allgemeine Wort sorgt

bei beiden Merkmalen für einen Großteil der Worttreffer. Obwohl digitaler Zoom

weniger wichtig ist, als optischer Zoom, so bekommt er aufgrund der vielen

Vorkommen des gemeinsamen Synonyms dennoch die Relevanzkategorie fünf

zugewiesen.

Ein weiterer Grund ist, dass die erstellten Goldstandards, anhand derer die

Bewertung des Rankingsystems vorgenommen wurde, lediglich den Versuch

darstellen, eine möglichst objektive und allgemeingültige Sicht auf die Relevanz

von Produktmerkmalen darzustellen. Aufgrund der enormen Anzahl vielfältiger

Meinungen und der wechselnden Bedeutung einzelner Produktmerkmale für die

unterschiedliche Einsatzzwecke eines Produktes, kann sicher kein Goldstandard

den absoluten Allgemeingültigkeitsanspruch stellen.

68

Des Weiteren wird jede Abbildung von Wortanzahlen eines Produktmerkmales

auf Relevanzklassen immer mit einer gewissen Unschärfe verbunden sein. So ist

beispielsweise die normalisierte Abbildung der einzelnen Merkmale mittels des

dualen Logarithmus nur eine möglicht effizient gewählte willkürliche

Abschätzung.

Zum Abschluss dieses Kapitels soll hier noch eine Gegenüberstellung zwischen

den Ergebnissen für die Produktmerkmale einer Digitalkamera und dem

dazugehörigen Goldstandard erfolgen. Aufgrund der großen Menge an

Produkteigenschaften, sind nicht alle vollständig abgebildet.

Rankingsystem Merkmal Goldstandard

5 Effektive Pixel 5

5 Digitaler Zoom 3

5 Optischer Zoom 5

4 Gewicht 4

4 Auflösung 3

3 LCD-Display 3

2 Speicherkapazität 4

2 Batterie/Akku 3

4 SD-Karte 3

2 Bildstabilisierung 4

3 Avi-Support 2

4 Jpeg-Support 2

1 MMC Plus 1

2 SDHC 3

2 Bildrate 3

3 Verschlusszeit 4

69

7. ZUSAMMENFASSUNG / AUSBLICK

Ziel dieser Arbeit war es, ein Ranking für Produktmerkmale in Onlineshops zu

erstellen. Produktmerkmale verschiedenster Produktkategorien sollten anhand

ihrer Relevanz für den Anwender bewertet werden. Dabei beschränkte man sich

auf die Produkte und Merkmale innerhalb des Fedseekosystems. In Kapitel 4

wurde ein allgemeines Konzept, inklusive mehrerer alternativer Teilsysteme,

erarbeitet. Der entwickelte Rankingalgorithmus besteht aus zwei Funktionen, die

auf der Wortanzahl eines Produktmerkmales in relevanten Internetdokumenten

und dem Goldstandard für die jeweilige Produktkategorie basieren. Kapitel 5

beschreibt kurz einige allgemeine Aspekte der Implementation.

Von besonderem Interesse ist Kapitel 6, da es einige Erkenntnisse bezüglich der

Frage bringt, ob man mittels der Wortanzahl eines Produktmerkmales und seiner

Synonyme eine Relevanzbeurteilung treffen kann. Diese Frage kann man nun

eingeschränkt mit “Ja” beantworten. Nach der Evaluierung mit dem

Microaveragingverfahren und seiner modifizierten Variante ist klar, dass das

Rankingverfahren in seinem jetzigen Zustand durchaus in der Lage ist,

Tendenzen zwischen den einzelnen Produktmerkmalen bezüglich ihrer Relevanz

zu erkennen. Einer genaueren Bestimmung ihrer Relevanzwerte stehen mehrere

Dinge im Wege, deren Gründe schon in Kapitel 6.3. näher erläutert wurden.

Verbesserungspotenzial liegt vor allem in der Ausgangsdatenbasis von

Fedseeko. Mit aussagekräftigeren Produktmerkmalen ließen sich die Ergebnisse

der Evaluierung höchstwahrscheinlich noch einmal deutlich steigern.

Des Weiteren hat sich gezeigt, dass die Aufteilung der Relevanzwerte in fünf

verschiedene Klassen durchaus eine akzeptable Abschätzung ist, auch wenn die

Grenzen zwischen den Relevanzwerten in der Realität natürlich fließend sind und

sich nicht ohne Weiteres so voneinander unterscheiden lassen. Auch innerhalb

einer einzelnen Kategorie gibt es wieder mehrere Relevanzstufen, doch für eine

so feine und genaue Unterscheidung besteht weder der Bedarf, noch die

praktische Möglichkeit, diese zu ermitteln.

Weiterhin besteht natürlich die Frage, wie man Goldstandards für diesen Zweck

möglichst effektiv und allgemeingültig erstellen kann. Diese spielen eine

essentielle Rolle bei der Bewertung der Rankingfunktion und wurden in der

Implementation und Konzeption des entwickelten Systems sogar in Form von

Relevanzklassenverteilungen als Eingabedaten verwendet. Dennoch ist ihre

Erstellung mit einigen Problemen verbunden (vgl. Kapitel 3.2. & 6.3.),

insbesondere was die Objektivität der konsultierten Quellen betrifft. Ein Ansatz

wären groß angelegte Umfragen zur Relevanz von Produktmerkmalen

verschiedenster Produktkategorien. Gerade mittels Tagging könnte eine große

und damit ansatzweise repräsentative Datenmenge erstellt werden.

70

Abschließend lässt sich sagen, dass das in dieser Arbeit entwickelte

Rankingsystem für den vorgesehenen Einsatzzweck anwendbar ist, da der

Rankingalgorithmus im Prinzip plausible Ergebnisse liefert und vor allem die

Relevanzverhältnisse der unterschiedlichen Produktmerkmale überwiegend

korrekt abbildet. Gerade bei der Anwendung in Online-Shops ist dies von

größerer Bedeutung, als die Ermittlung des genauen Relevanzwertes, da hier vor

allem die nutzerfreundliche Sortierung und Anordnung der Produktmerkmale in

den Angebotstexten im Vordergrund steht.

In zukünftigen Arbeiten zu diesem Thema sollten vor allem weitere Möglichkeiten

zur Goldstandarderstellung, sowieso zusätzliche Quellen und Verfahren für

alternative Rankingalgorithmen untersucht werden.

72

REFERENZEN / LITERATUR

Bing API Basics. (2011). Retrieved 25.05.2011 from

http://www.bing.com/developers/s/API%20Basics.pdf

Appelt, D. E. (1999). Introduction to Information Extraction Technology. IJCAI-

99. Artificial Intelligence Center 333 Ravenswood Ave. Menlo Park, CA.

Arasu, & Garcia-Molina. (2003). Extracting structured data from web pages.

SIGMOD 2003, June 9-12, 2003, San Diego, CA. Copyright 2003 ACM 1-58113-

634-X/03/06

Cunningham, H. (1997). Information Extraction – A User Guide. Research Memo

CS. Retrieved 12 08, 2010, from

http://home.mit.bme.hu/~dezsenyi/research/cikkek

/cunningham97information.pdf

eCl@ss e.V. (2010, 12 07). eCl@ss, der internationale Standard. Retrieved 12 07,

2010, from eCl@ss, der internationale Standard: http://www.eclass.de/

Fang, H., & Zhai, C. (2008). Probabilistic Models for Expert Finding. University of

Illinois at Urbana-Champaign. IIS-0347933 / IIS-0428472.

Hepp, M. (2008). GoodRelations: An Ontology for Describing Web Offers. From

A. Gangemi and J. Euzenat (Eds.): EKAW 2008, LNCS 5268, pp. 329–346, 2008.

© Springer-Verlag Berlin Heidelberg 2008

Hu, B., & Liu, M. (2004). Mining and Summarizing Customer Reviews. KDD’04,

August 22–25, 2004, Seattle, Washington, USA. Copyright 2004 ACM 1-58113-

888-1/04/0008.

Lin, D. (1998). Dependency-based evaluation of MINIPAR. Workshop on

Evaluation of Parsing Systems at ICLRE. University of Alberta Edmonton, Alberta,

Canada T6G 2H1.

Lübke, R. (2009). Ranking - Algorithmen, Anwendungen, Evaluation. TU

Dresden. Fakultät Informatik Professur für Rechnernetze.

Neumann, G. (2000). Informationsextraktion. Research Paper. Spektrum

Akademischer Verlag.

73

Pang, B. L. (2008). Opinion Mining and Sentiment Analysis. Foundations and

TrendsR_ in Information Retrieval Vol. 2, Nos. 1–2 (2008) 1–135 Copyright 2008

B. Pang and L. Lee DOI: 10.1561/1500000001.

Popescu, A.-M., & Etzioni, O. (2005). Extracting Product Features and Opinions

from Reviews. Department of Computer Science and Engineering University of

Washington Seattle, WA 98195-2350.

Qiu, G., Bing, L., Bu, J., & Chen, C. (2009). Expanding Domain Sentiment Lexicon

through Double Propagation. College of Computer Science Zhejiang University /

Department of Computer Science University of Illinois at Chicago.

Stoyanov, Veselin, & Cardie. (2008). Topic Identification for Fine-grained Opinion

Analysis. 22nd International Conference on Computational Linguistics (Coling

2008), pages 817–824 Manchester, August 2008.

Urbansky, D., Muthmann, K., & Katz, P. (2011). TUD Palladian Overview.

Department of Systems Engineering, Chair Computer Networks, IIR Group,

Germany.

Walther, M. (Juni 2011). Federated Product Information Retrieval and Semantic

Product Comparisons on the Web. Chair Computer Networks . TU Dresden.

Walther, M. (2008). Föderierte semantische Suche nach Produktinformationen.

Chair Computer Networks. TU Dresden.

Zhang, L., & Bing, L. (2010). Extracting and Ranking Product Features in Opinion

Documents. Coling 2010: Poster Volume, pages 1462–1470, Beijing, August 2010

Zhang, S. (2010). Extracting Product Features and Sentiments from Chinese

Customer Reviews. Proceedings of the Seventh conference on International

Language Resources and Evaluation (LREC'10). Fujitsu Research and

Development Center, Peking.

74

ABBILDUNGSVERZEICHNIS

Abbildung 1: Ausschnitt aus den Produktmerkmalen der Digitalkamera Samsung

ES70 bei amazon.de ........................................................................................... 8

Abbildung 2: Die fünf grundlegenden Schritte der Informationsextraktion nach

[Cun97] .............................................................................................................. 11

Abbildung 3: Sägezahnverlauf des Precision-Recall-Diagramms ....................... 15

Abbildung 4: Interpoliertes Precision-Recall-Diagramm ..................................... 16

Abbildung 5: Vereinfachtes eCl@ss Datenmodell (eCl10) ................................. 22

Abbildung 6: Beispiel eines Angebotes für einen Sony-Fernseher (Hep08) ....... 23

Abbildung 7: Geplante Funktionsweise von OPINE ........................................... 26

Abbildung 8: Indexbasierte Suchmaschine (Quelle: Jakob Voss) ....................... 27

Abbildung 9: Funktionsweise einer Meta-Suchmaschine (Quelle: Jakob Voss) .. 28

Abbildung 10: Architekturübersicht von Fedseeko Quelle: [Wal11] .................... 30

Abbildung 11: Erweiterte Facets-Anzeige bei Produktmerkmalen von

Digitalkameras ................................................................................................... 32

Abbildung 12: Verfügbare Produktkategorien in Fedseeko ................................ 39

Abbildung 13: Grobentwurf des Extraktionssystems .......................................... 40

Abbildung 14: Schema der autonomen Suchwörterermittlung ............................ 41

Abbildung 15: Produktnamen als Suchwörter .................................................... 42

Abbildung 16: Verknüpfung von Produktnamen und Suchbegriffen ................... 43

Abbildung 17: Prinzip der Extraktion der Rankingdaten ..................................... 44

Abbildung 18: Übersicht über gesamtes Rankingsystem ................................... 45

Abbildung 19: Beispielhafte Aufteilung der Relevanzklassen auf das Intervall [0,1]

bei Digitalkameras ............................................................................................. 48

Abbildung 20: Systemübersicht .......................................................................... 51

Abbildung 21: Ausschnitt aus der Fedseeko-Datenbank (Produktmerkmale) ..... 52

Abbildung 22: Teil der Bing-Antwort auf eine Suchanfrage ................................ 53

Abbildung 23: Teilgebiete des Palladian Toolkits ............................................... 54

Abbildung 24: Ausschnitt eines DOM-Knotenbaums .......................................... 54

Abbildung 25: Listing des RankURLDownloaders .............................................. 57

Abbildung 26: Goldstandardausschnitt Digitalkameras ...................................... 59

Abbildung 27: Listing aus dem CombinedRanker............................................... 59

Abbildung 28: Relevante Website für das Ranking ............................................ 62

Abbildung 29: Irrelevante Webseite für das Ranking .......................................... 62

Abbildung 30: Grafische Darstellung der Messungen ........................................ 66

75

Selbstständigkeitserklärung Hiermit erkläre ich, dass ich die vorliegende Belegarbeit zum Thema „Ranking

von Produktmerkmalen in Online-Shops“ vollkommen selbstständig verfasst und

keine anderen als die angegebenen Quellen und Hilfsmittel benutzt, sowie Zitate

kenntlich gemacht habe.

Dresden, den