Startseite
Information Retrieval:Methoden zur
Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm, WS 2005/06
Matthias Bracht, 10.01.2006(Betreuer: Guido Sautter)
Seminar „S2D2“, IPD Böhm
2
Matthias Bracht, 10.01.2006
Wozu Selektivitätsabschätzung?
• Beispiel:- 100 Dokumente- 100 enthalten „das“, 50 „auto“, 1 „luxuskarosse“
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
- Anfrage: „das AND auto AND luxuskarosse“
1
50
11 1
100
0
20
40
60
80
100
120
das, auto, luxuskarosse luxuskarosse, auto, das
Grö
ße d
es Z
wis
chen
erge
bnis
ses
Seminar „S2D2“, IPD Böhm
3
Matthias Bracht, 10.01.2006
Selektivität
• klar: 0 <= Sel(Anfrage) <= 1• Beispiel von vorheriger Folie:
Sel(„das“) = 100% Sel(„luxuskarosse“) = 1%
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Sel(Anfrage) =
#Dokumente, die für Anfrage relevant sind
#Dokumente insgesamt
Seminar „S2D2“, IPD Böhm
4
Matthias Bracht, 10.01.2006
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
5
Matthias Bracht, 10.01.2006
Selektivitätsabschätzung sinnvoll für:
• Approximation der Anzahl von Termvorkommen Bestimmung der Signifikanz der Terme auf vorheriger Folie „of“ und „the“ gar nicht
berücksichtigt!• Reihenfolge der Anfrageabarbeitung
vgl. Einstiegsbeispiel• Berechnung der Relevanzfunktion
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
6
Matthias Bracht, 10.01.2006
Verschiedene Methoden
• parametrische Methoden- bedingt sinnvoll, da bestimmte Art der Verteilung
angenommen wird
• Histogramme• Suffix Trees• Adaptive Sampling
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
7
Matthias Bracht, 10.01.2006
Histogramme (1)
• Klassischer Einsatz: numerische Wertebereiche• Beispiel: Altersstruktur von 100 Maserati-Besitzern,
equi-length-Histogramm
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
15
60
2014
0
10
20
30
40
50
60
70
16-25 26-35 36-45 46-55 56-65
Sel(Alter < 42) = ?Antwort: irgendwo zw. 0,06 und 0,66!
Seminar „S2D2“, IPD Böhm
8
Matthias Bracht, 10.01.2006
Histogramme (2)
• Verbesserung: equi-depth-Histogramme• fülle jeden Bucket in etwa gleichmäßig• noch weitere Verbesserung: Varianz-Optimierung
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
20 20 20 20 20
0
5
10
15
20
25
18-36 37-40 41-43 44-52 53-65
Sel(Alter < 42) = ?Antwort: irgendwo zw. 0,4 und 0,6!
Intervall 3mal kleiner
füge 20 Leute im Alter von 41-43 hinzu, was passiert?
Seminar „S2D2“, IPD Böhm
9
Matthias Bracht, 10.01.2006
Histogramme (3)
• Problem: nicht trivial auf Textkollektionen anwendbar
• lexikographische Verteilung erschwert sinnvolle Wahl der Bucketgrenzen
• möglicher Ausweg: ein Eimer pro Wort• Counts:
– Termhäufigkeit– in wie vielen Dokumenten kommt Term vor
(1mal, 2mal, 4mal usw.)
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
10
Matthias Bracht, 10.01.2006
Vor-/Nachteile
+ geringer Zugriffsaufwand+ geringer Speicheraufwand: nur Bucketgrenzen und
Counts
• equi-length: initialer und Update-Aufwand gering, dafür evtl. sehr ungenaue Abschätzungen
• equi-depth: genauere Abschätzungen möglich, aber schwieriger zu bauen (Wahl der Grenzen?) und zu pflegen (Buckets splitten, wenn zu voll?)
– Problem der sinnvollen Wahl der Bucketgrenzen– kaum Einsatzmöglichkeiten für Text Retrieval
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
11
Matthias Bracht, 10.01.2006
Suffix Trees
• Datenstrukturen, die alle Suffixe von Strings beinhalten
• Suffixe werden in Baum einsortiert, gemeinsame Präfixe zusammengefasst
• Beispiel: Suffix Tree für „mautautomat“, Suffixe:
– mautautomat– mautautomat– autautomat– utautomat– tautomat
...
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
at
autautomat
automat
mat
mautautomat
...
Sortieren...
Seminar „S2D2“, IPD Böhm
12
Matthias Bracht, 10.01.2006
omat
Suffix Tree für „mautautomat“Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
omat
utautomat
ma
t
a ut tomat
omat
automat
omat
automat
tutautomat
Einfügen von „automat“?
automat
automat
ut
Seminar „S2D2“, IPD Böhm
13
Matthias Bracht, 10.01.2006
Count-Suffix Tree
• jeder Knoten enthält zusätzlich Count c• Beispiel:
– 100 Terme: 49x Mazda, 48x Manta, 2x Maserati, 1x Maybach
• Problem: Speicher
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
ma
100
... ...
zda49
nta48
serati2
ybach1
Seminar „S2D2“, IPD Böhm
14
Matthias Bracht, 10.01.2006
serati2
ybach1
Pruned Count-Suffix Tree
• Lösung: Knoten mit c < s (s Schwellwert) werden entfernt
• Beispiel: s = 10
• neues Problem: Abschätzung der nicht enthaltenen Terme
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
ma
100
... ...
serati2
ybach1
zda49
nta48
Sel(„maserati“) = ?
Sel(„matchbox“) = ?
Seminar „S2D2“, IPD Böhm
15
Matthias Bracht, 10.01.2006
Anwendung: Wildcard-Suche
• Beispiel:– Dokument mit Termen „lkwmaut“ (40x),
„pkwmaut“ (30x), „mautsystem“ (20x), „mautautomat“ (10x), „maut“ (100x)
– „maut“-Knoten enthält direkt Anzahl der für die Anfrage relevanten Terme!
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
maut
200
... ...
system20
automat10
Sel(„*maut*“) = ?
Seminar „S2D2“, IPD Böhm
16
Matthias Bracht, 10.01.2006
Vor-/Nachteile
+ gut geeignet für Texte, insbesondere Wildcard-Anfragen
+ geringer Zugriffsaufwand– hoher initialer Aufwand, zusätzlicher Speicheraufwand– Genauigkeit für seltenere Terme schlecht– keine Inkrementalität! Beispiel: s = 10, füge
„maserati“ hinzu
• periodisch neu bauen?
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
ma
99
... ...
serati9
nta90
Seminar „S2D2“, IPD Böhm
17
Matthias Bracht, 10.01.2006
Adaptive Sampling
• Idee: Random Sampling „weitergedacht“ (zufällig Dokumente auswählen)
• fortfahren, bis bestimmte Schwellwerte erreicht– Anzahl der betrachteten Dokumente– Anzahl der Treffer der jeweiligen Anfrage
• „adaptive“: bestimmte Strategie zur Auswahl der folgenden Samples anwenden– z.B. in der „Nähe“ von Treffern weitersuchen
• Blocksampling: komplette Speicherseiten samplen• zusätzliche Abhängigkeiten beachten!
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
18
Matthias Bracht, 10.01.2006
Konfidenzbetrachtung
• Frage: Wieviel Sampling ist nötig, um akzeptablen Fehler zu erreichen?
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Figure 5 aus [CRN98]
Seminar „S2D2“, IPD Böhm
19
Matthias Bracht, 10.01.2006
Vor-/Nachteile
+ kein initialer Aufwand, keine Speicherung von Statistiken nötig (vgl. Histogramme, Suffix Trees)
+ Genauigkeit: Konfidenzbereiche können für jede Anfrage neu angegeben werden (keine fixe Bucketanzahl/kein Pruning-Schwellwert)
+ Inkrementalität gegeben+ Methode für beliebige Daten verwendbar
– hoher Zugriffsaufwand
• ggf. sinnvoll: Sampling als Vorstufe zum Aufbau von Histogrammen/Suffix Trees
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Seminar „S2D2“, IPD Böhm
20
Matthias Bracht, 10.01.2006
ZusammenfassungMotivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Histogramme Suffix Trees
Adapt. Sampling
Speicher-
aufwand
gering:nur
Bucketgrenzen und Counts
hoch: Werte, Zähler, Zeiger...
n/a
initialer Aufwand
linear, abh. von Genauigkeit
hoch n/a
Update-Aufwand
equi-length: gering, sonst ggf.
hoch
hoch (Pruning!)
n/a
Zugriffs-Aufwand
gering gering hoch
Genauig-keit
fix: abh. von Art, Bucketanzahl,
Varianz
fix: ungenau
für seltene Terme
variabel: abhängig von Sampling Rate
Daten v.a. numerisch v.a. textuell
beliebig
Seminar „S2D2“, IPD Böhm
21
Matthias Bracht, 10.01.2006
Abhängigkeiten/Korrelationen
• Beispiel:– Sel(„luxus“) = 1 / 10– Sel(„maybach“) = 1 / 100– bei Unabhängigkeit: Antwort 1 / 1000
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Sel(„luxus“ AND „maybach“) = ?
• Dokumente mit „maybach“ enthalten aber vermutlich auch „luxus“
• Sel(„luxus“ AND „maybach“) also eher bei 1 / 100
Erweiterung der Methoden, um Abhängigkeiten zu erfassen
Seminar „S2D2“, IPD Böhm
22
Matthias Bracht, 10.01.2006
Synonyme
• insbesondere Nachrichtentexte verwenden aus Stilgründen Synonyme
• Beispiel:– Dokumente mit „Michael Schumacher“, „der
deutsche Rennfahrer“, „Schumi“, „der Rekord-Formel-1-Weltmeister“...
Motivation
Histogramme
Suffix Trees
Adaptive Sampling
Fazit
Ausblick
Information Retrieval: Methoden zur Selektivitätsabschätzung
Anzahl der Vorkommen von „Schumacher“?
Erweiterung der Methoden, um Synonyme zu erfassen
nebenbei oben verwendet: Indizierung von Phrasen statt von einzelnen Termen
Seminar „S2D2“, IPD Böhm
23
Matthias Bracht, 10.01.2006
Schlussseite
Vielen Dankfür eure Aufmerksamkeit!
Information Retrieval: Methoden zur Selektivitätsabschätzung
[CRN98]: Chaudhuri, S., Motwani, R., Narasayya, V.; Random Sampling for Histogram Construction: How much is enough? In Proc. of ACM SIGMOD, Seattle, 1998.