information retrieval ir-grundlagen von suchmaschinen im Überblick björn gustavs
TRANSCRIPT
![Page 1: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/1.jpg)
Information Retrieval
IR-Grundlagen von Suchmaschinen im Überblick
Björn Gustavs
![Page 2: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/2.jpg)
Information Retrieval - Seminar Web Suchmaschinen 2
Was ist IR?
„Information Storage and Retrieval”Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können.
Für Suchmaschinen „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben
![Page 3: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/3.jpg)
Information Retrieval - Seminar Web Suchmaschinen 3
Motivation Einblick: Web Traversierung IR-Probleme
Methoden der Index-Erstellung Methoden des IR auf dem Index
Zusammenfassung
Inhalt / Ausblick
![Page 4: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/4.jpg)
Information Retrieval - Seminar Web Suchmaschinen 4
Informationsgehalt im Internet: Mai 2003 Anzahl der Seiten > 6 Milliarden verdoppelt sich alle 4-8 Monate rund 40% des Internets verändert sich
monatlich um dieses Potential zu nutzen gewünschte
Inhalte effizient & gezielt finden Textinformation rechnergestützt auswerten
Motivation
![Page 5: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/5.jpg)
Information Retrieval - Seminar Web Suchmaschinen 5
Dokumentensuche im Web
1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider,
knownbot) traversieren das Web pro Anfrage Nutzer gibt Suchbegriff an Roboter durchsucht systematisch das Web nach
Dokumenten Relevanzberechnung Rückgabe einer rang-sortieren Liste
Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich
![Page 6: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/6.jpg)
Information Retrieval - Seminar Web Suchmaschinen 6
2. vorbereiteter Index wird durchsucht Index ist ein durchsuchbares Archiv mit
Referenzen zu Dokumenten im Web Suche wird auf dem Index ausgeführt
Dokumentensuche im Web
![Page 7: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/7.jpg)
Information Retrieval - Seminar Web Suchmaschinen 7
Der Index (1)
Index ist eine Dokumentenrepräsentation Dokumente durch Inhaltsbeschreibung und
enthaltenen Termen repräsentiert Terme dienen zu Ermittlung der Relevanz bei
Suchanfragen Terme können automatisch oder von
Spezialisten erzeugt werden
![Page 8: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/8.jpg)
Information Retrieval - Seminar Web Suchmaschinen 8
Index-Erzeugung (1)
Seiten sammelnAnalysieren,AufbereitenIndex Programme (Robots, Crawler) suchen „alle“
Webseiten Ausgehend von einer Anfangsadresse werden alle URLs in
Tiefen- oder Breitensuche verfolgt. von Menge von Anfangsadressen aus- abhängig von der
Popularität der jeweiligen Seite Partitionierung des WWW- ausgehend von Internetnamen
oder Landesgrenzen - wird das WWW rekursiv durchsucht. Auslesen von Metaangaben (manuell erstellte
Beschreibungen) Textanalyse
Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit
![Page 9: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/9.jpg)
Information Retrieval - Seminar Web Suchmaschinen 9
Index-Erzeugung (3)-Qualität
Effektivität eines Indexing Systems wird bestimmt über: Indexing exhaustivity: Erfassungsgrad der
Dokumententhemen in den Index- exhaustive: alle Aspekte der Themen erfassen- nonexhaustive: weniger, aber die Kernthemen
Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden allgemeine/umfassende Terme viele nützliche & viele
unnütze Resultate genaue Terme weniger Resultate, evtl. auch verpasste
gute Ergebnisse
![Page 10: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/10.jpg)
Information Retrieval - Seminar Web Suchmaschinen 10
IR Qualität (1)
Genannte Parameter haben Auswirkung auf das Indexierungssystem:
Resultierende Retrieval Effiziens über 2 Parameter beschrieben: Recall (Vollständigkeit)
Precision (Trefferquote)
![Page 11: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/11.jpg)
Information Retrieval - Seminar Web Suchmaschinen 11
IR Qualität (2) - Recall
Recall (Vollständigkeit)Wieviele der relevanten Dokumente werden erfasst?
Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente
![Page 12: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/12.jpg)
Information Retrieval - Seminar Web Suchmaschinen 12
IR Qualität (3) - Precision
Precision:wieviele relevante Dokumente werden erfasst
Verhältnis der - Anzahl erfasster, relevanter Dokumentezur- Anzahl erfasster Dokumente
![Page 13: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/13.jpg)
Information Retrieval - Seminar Web Suchmaschinen 13
IR Qualität (2)
Optimal: hohe Recall & Precision Aber gehen jeweils auf Kosten des anderen Effektivität wird gemessen anhand verschiedenen
Precision, bei festen Recall-Werten Kompromiss:
Recall
Speed
Precision
![Page 14: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/14.jpg)
Information Retrieval - Seminar Web Suchmaschinen 14
Der Index (4)
Suchmaschinen nutzen „inverted index“ besteht aus
durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält # Vorkommen Verweis auf „ inverted list“ des Wortes
„ inverted list“ für jedes Wort im Index, enthält Verweise auf Dokumente Häufigkeit des Wortes im Dokument weitere Optimierungen, z.B. Position/Offset des Wortes im
Dokument
![Page 15: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/15.jpg)
Information Retrieval - Seminar Web Suchmaschinen 15
„Inverted Index“, Beispiel
Lexikon inverted index list
![Page 16: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/16.jpg)
Information Retrieval - Seminar Web Suchmaschinen 16
„Index Builder“
„Index Builder“Sortierung, 1. nach Term, dann nach DocID,…
![Page 17: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/17.jpg)
Information Retrieval - Seminar Web Suchmaschinen 17
Indexierungsmethoden
Automatische Indexierungsmethoden: Single Term Indexierung
Statistische Methoden Informationstheoretische Methoden Probabilistische Methoden
Mutli-Term / Phrasen – Indexierung Statistische Methoden Probabilistische Methoden Linguistische Methoden
![Page 18: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/18.jpg)
Information Retrieval - Seminar Web Suchmaschinen 18
Single Term Indexing (1)
Welche Wörter eines Dokumentes in den Index?
1. alle Worte herauslösen
2. unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…)
3. evtl. Rückführung auf Wortstamm
4. Häufigkeit im Dokument ermitteln
![Page 19: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/19.jpg)
Information Retrieval - Seminar Web Suchmaschinen 19
Single Term Indexing (2)
pro Dokument wird analysiert Menge der auftretenden Wörter deren Häufigkeiten
Ziel: hohes Recall Vorgehensweisen, Wörter zu gewichten:
Statistisch informations-theoretisch probabilistische
![Page 20: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/20.jpg)
Information Retrieval - Seminar Web Suchmaschinen 20
Single Term Indexing(3)-statistisch
Statistische Methode
z.B. basiert rein auf Termhäufigkeit
wij = tfij * log(N / dfj)
tfij – Term Frequency, des Terms j im Dokument i
dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten
![Page 21: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/21.jpg)
Information Retrieval - Seminar Web Suchmaschinen 21
Single Term Indexing (4)-inf.th.
Informationstheoretische Methode
basiert auf Aussage:„Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“
Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme
![Page 22: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/22.jpg)
Information Retrieval - Seminar Web Suchmaschinen 22
Single Term Indexing(5)-probal.
Probabilistische Methode basiert auf Relevanz-Wahrscheinlichkeit erfordert „Training“ für
Berechnungsgrundlage Benutzer bewerten Relevanz von Suchresultaten aus Trainingsergebnissen wird Termgewichtung
basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet
![Page 23: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/23.jpg)
Information Retrieval - Seminar Web Suchmaschinen 23
Multi-Term/Phrase Indexing (1)
„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang
Term trägt spezifischere Bedeutung soll Precision erhöhen Methoden zur Erzeugung von Phrasen für
Index: statistisch probabilistisch sprachtheoretisch
![Page 24: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/24.jpg)
Information Retrieval - Seminar Web Suchmaschinen 24
Multi Term Indexing (2) -statistisch
Statistische Methode
„Phrase“ besteht aus Kopf und Zusätzen Hier muss der Kopf in weiteren Dokumenten
auftretenund weiteren Komponenten im gleichen Satz
wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert
(dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig
![Page 25: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/25.jpg)
Information Retrieval - Seminar Web Suchmaschinen 25
Multi Term Indexing (3) –lingust.
Linguistische Methode
Einsatz von sprachlicher Analyse für Term- Zusammenhängen(Adjektive, Substantive, Verben)
verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge
Einbringen semantischer Faktoren in die Gruppierung
![Page 26: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/26.jpg)
Information Retrieval - Seminar Web Suchmaschinen 26
Multi Term Indexing (4) -probabil.
Probabilistische Methode
erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme
man müsste exponentielle Anzahl von Term-Kombinationen betrachten
daher kaum Anwendung
![Page 27: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/27.jpg)
Information Retrieval - Seminar Web Suchmaschinen 27
Information Retrieval
Rückblick auf Indexerzeugung Auffinden von Dokumenten im Netz Analyse des Inhaltes
Metainformationen Textinformationen (Inhalt) auswerten Kurzbeschreibung erstellen (Terme)
Single- vs. Multi-term Indexing
jetzt: RetrievalSuchmechanismen auf dem Index
![Page 28: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/28.jpg)
Information Retrieval - Seminar Web Suchmaschinen 28
Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten
bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback
4 Verfahren: Boolesche Verfahren Statistische Verfahren
Vektorraum Verfahren Probabilistisches Verfahren
Hybrid Verfahren
Information Retrieval Modelle
![Page 29: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/29.jpg)
Information Retrieval - Seminar Web Suchmaschinen 29
basiert auf Mengenlehre und boolescher Algebrabekannteste Verfahren, oft von IR Systemen genutzt
Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren
Term aus Query im Dokument enthalten? Dokument ist Treffer, wenn boolesche
Auswertung der Query wahr ist
Boolesches Modell (1)
![Page 30: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/30.jpg)
Information Retrieval - Seminar Web Suchmaschinen 30
Boolesches Modell (2)-Beispiel
DocID Term „A“ Term „B“ Term „C“ Term „D“
1 ٧ ٧
2 ٧ ٧
3 ٧ ٧
4 ٧
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
![Page 31: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/31.jpg)
Information Retrieval - Seminar Web Suchmaschinen 31
Boolesches Verfahren (3)
Vorteile: leicht implementierbar effizient in Anwendung (Computer & DB)
Nachteile: nicht triviale Queries schwierig zu formulieren „Ganz oder gar nicht“
keine Gewichtung keine Reihenfolge
![Page 32: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/32.jpg)
Information Retrieval - Seminar Web Suchmaschinen 32
Boolesches Verfahren,erweitert (3)
„Smart Boolean“ Anwender gibt sprachliche Frage ein, wird dann
automatisch in ein boolesches Konstrukt umgewandelt
Techniken, um Abfragen einzuschränken & zu erweitern
![Page 33: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/33.jpg)
Information Retrieval - Seminar Web Suchmaschinen 33
Boolesches Verfahren,erweitert (4)
Fuzzy-Mengen Modell Ziel: Boolesche Strenge aufweichen & Ranking Fuzzytheorie
auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist
Ergebnisstufen zwischen 0 und 1 Aufweichung des GoG
Stufe beschreibt, wie stark Term dem Query entspricht
![Page 34: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/34.jpg)
Information Retrieval - Seminar Web Suchmaschinen 34
Vektorraumverfahren (1)
Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet
Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst
Dimensionen sind die Terme des Dokumentenindexes
Vektoren enthalten Gewichte aller Terme Terme in Query können gewichtet werden
![Page 35: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/35.jpg)
Information Retrieval - Seminar Web Suchmaschinen 35
Vektorraumverfahren (2)
Dokument 1
QueryDokument 2
Term2
Dokument 3
Term3
Term1
Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert.Nähe zum Query-Vektor bestimmt Suchresultat &-Reihenfolge.
![Page 36: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/36.jpg)
Information Retrieval - Seminar Web Suchmaschinen 36
Vektorraumverfahren (3)
im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse
Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren Vergleich z.B. cosinus-basiert
![Page 37: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/37.jpg)
Information Retrieval - Seminar Web Suchmaschinen 37
Vektorraumverfahren (4)
Vorteile: Relevanzabstufungen möglich (durch
Termgewichtungen) Sortierung nach Ähnlichkeitsgrad möglich Rang
Nachteile: es wird vorausgesetzt, dass Therme
wechselseitig unabhängig sind
![Page 38: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/38.jpg)
Information Retrieval - Seminar Web Suchmaschinen 38
Hybrid-Modell (extended boolean)
Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung
Idee: Nutzer kann boolesche Anfrage stellen zusätzlicher Parameter steuert die Interpretation; wie
strikt AND,OR ausgewertet werden von 2 bis unendlich 2 keine Unterscheidung zwischen AND,OR unendlich binäres „Ranking“ (Treffer, nicht Treffer) beste Werte, empirische Untersuchungen: 2 <= p <= 5
![Page 39: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/39.jpg)
Information Retrieval - Seminar Web Suchmaschinen 39
Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist
Training erforderlich Berechnung stützt sich auf Parameter:
Wahrscheinlichkeit der Relevanz UND Irrelevanz eines Dokumentes auf die Query Kostenparameter. Verlust bei
Auffinden eines irrelevanten Dokumentes Nichtauffinden eines relevanten Dokumentes
Probabilistisches Verfahren (1)
![Page 40: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/40.jpg)
Information Retrieval - Seminar Web Suchmaschinen 40
Probabilistisches Verfahren (2)
Vorteile: Gefundene Dokumente werden nach
Wahrscheinlichkeit ihrer Relevanz sortiert
Nachteil: ist so gut, wie die Wahrscheinlichkeitsberechnung
eingepegelt ist (Training) Häufigkeit eines Terms im Dokument ist irrelevant
![Page 41: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/41.jpg)
Information Retrieval - Seminar Web Suchmaschinen 41
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet.
![Page 42: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/42.jpg)
Information Retrieval - Seminar Web Suchmaschinen 42
Relevanz der Ergebnisse
alle relevanten Dokumente gefunden? Ranking hilfreich?
Relevanz-Feedback vom Anwender gewünscht
Anwender bewertet Dokument des Suchergebnisses 2-Level: brauchbar – nicht brauchbar Multi-Level: Zwischenstufen & im Bezug zu
anderen Dokumenten (weniger relevant als…)
![Page 43: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/43.jpg)
Information Retrieval - Seminar Web Suchmaschinen 43
Relevanz-Feedback-Nutzung
1. Query anpassen
Gewichtungen der Query verändern (Termgewichte des Queryvektors)
Query Erweiterung (Hinzufügen von Termen) Query Splitting
![Page 44: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/44.jpg)
Information Retrieval - Seminar Web Suchmaschinen 44
Relevanz-Feedback-Nutzung (2)
2. Index verändern Index manipulieren (Gewichtungen im Index)
![Page 45: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/45.jpg)
Information Retrieval - Seminar Web Suchmaschinen 45
Relevanz-Feedback (4)
kein Suchdienst bietet heute Relevanz-Feedback Techniken!
Gefahren?
![Page 46: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/46.jpg)
Information Retrieval - Seminar Web Suchmaschinen 46
Zusammenfassung
Rückblick: versch. Methoden zur Bestimmung der Relevanz
von Query zu indexierten Dokumenten damit verbunden, Ranking-Verfahren Hilfe vom Benutzer wünschenswert
![Page 47: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/47.jpg)
Information Retrieval - Seminar Web Suchmaschinen 47
IR und das WWW
IR viele Einsatzfelder Besonderheiten im Web:
riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend)
oft nicht-statische Seiten (generierte Seiten, DB) Dynamik (verdoppelt sich alle 4-8 Monate)
tote Links Sprachenvielfalt Duplikate hohe Verlinkung (~8Links/Seite) Indexierungsaufwand Benutzerverhalten kennen (Geschwindigkeit,
Ergebnisseiten)
![Page 48: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/48.jpg)
Information Retrieval - Seminar Web Suchmaschinen 48
Noch Fragen ?
![Page 49: Information Retrieval IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs](https://reader035.vdokument.com/reader035/viewer/2022081514/55204d6649795902118bb5c9/html5/thumbnails/49.jpg)
Information Retrieval - Seminar Web Suchmaschinen 49
Literaturangaben
Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68
Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June 2000. pp 144-173.
IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF „Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000