PraxisteilSeminar „experimentelle Evaluierung in IR“
WS05/06Gruppe A
Experimental setup
• Collections: TREC-123, wt10g• Index: BM25 und TFIDF• Queries:
- Topics 51-100 aus trec123.topics
(für den ersten Teil)
- Topics 736083,... Aus wt10g.topics.1000
(100 aus 1000 Topics für den zweiten Teil)
Aufgabenstellung Experiment (1)
DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1
Experiment (2) DTF vs. DTF max. 10 DLs
c=0.5 vs. c=1 P0=1
Vorgehensweise• Indexierung
• Resource description
• Kostenberechnung
• Resource selection
Vorgehensweise• Indexierung
eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern
Vorgehensweise• Indexierung (cont.)• Show tables from exp_a like ‚ap88%‘;
| ap88_8c_text_stemen_bm25_dl || ap88_8c_text_stemen_bm25_docid || ap88_8c_text_stemen_bm25_expectation || ap88_8c_text_stemen_bm25_idb_rd || ap88_8c_text_stemen_bm25_rd || ap88_8c_text_stemen_bm25_tf || ap88_8c_text_stemen_bm25_tmp1 || ap88_8c_text_stemen_bm25_variance || ap88_8c_text_stemen_bm25_weight || ap88_8c_text_stemen_tfidf_df || ap88_8c_text_stemen_tfidf_dl || ap88_8c_text_stemen_tfidf_docid || ap88_8c_text_stemen_tfidf_expectation || ap88_8c_text_stemen_tfidf_idb_rd || ap88_8c_text_stemen_tfidf_maxTF || ap88_8c_text_stemen_tfidf_rd || ap88_8c_text_stemen_tfidf_tf || ap88_8c_text_stemen_tfidf_tmp1 || ap88_8c_text_stemen_tfidf_variance || ap88_8c_text_stemen_tfidf_weight |+-------------------------------------------------------------+
Vorgehensweise• Resource description
Vorgehensweise
• Resource selection
Vorgehensweise• Resource selection
ResourceSelection{
GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]}
ResourceSelection{
GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]}
...
Vorgehensweise
• Resource selection (Durchlaufen von 100 Topics):Relevanzurteile: (DTF5, bm25)
051 0 AP880212-0020 1 0.999999999999978 1
051 0 AP880212-0093 1 0.673631123919296 1
051 0 AP880212-0120 1 0.655220742817087 1
052 0 AP880212-0060 1 1.0 1
052 0 AP880212-0009 1 0.970960077124136 1
052 0 AP880212-0056 1 0.438141643714791 1
052 0 AP880212-0019 1 0.400958727204647 1
…
BM25 vs. TFIDF• BM25
- Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen,
die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind.
• TF-IDF
- TF: Term Frequency
- IDF: Inverse Document Frequency log(N/DF)
N: Gesamtzahl der Dokumente der Kollektion
DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt
BM25 vs. TFIDF (cont.)
• BM25
• TFIDF
)(
||log
)(5.15.0),(
),(:),(
tdf
DL
avgdl
ddldttf
tdtftdw
5.0log)(
5.0log
),(max
),(:),(
N
tdf
N
tdtf
tdtftdw
dt
Trec_eval (Bsp.)• Queryid (Num): 100• Total number of documents over all queries• Retrieved: 29157• Relevant: 48365• Rel_ret: 2030• Interpolated Recall - Precision Averages:• at 0.00 0.3369• at 0.10 0.0481• at 0.20 0.0120• at 0.30 0.0022• at 0.40 0.0000• at 0.50 0.0000• at 0.60 0.0000• at 0.70 0.0000• at 0.80 0.0000• at 0.90 0.0000• at 1.00 0.0000• Average precision (non-interpolated) for all rel docs(averaged over queries)• 0.0142• Precision:• At 5 docs: 0.1580• At 10 docs: 0.1460• At 15 docs: 0.1493• At 20 docs: 0.1525• At 30 docs: 0.1450• At 100 docs: 0.1095• At 200 docs: 0.0836• At 500 docs: 0.0406• At 1000 docs: 0.0203• R-Precision (precision after R (= num_rel for a query) docs retrieved):• Exact: 0.0480
Ergebnisse
DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on n
DTF
DTF5
DTF10
Evaluation: fixed number of selected DLs (BM25)
Evaluation: fixed number of selected DLs (BM25)
Precision DTF DTF5 DTF10
At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85%
At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08%
At 15 docs: 0,212 0,00% 0,1933 -8,82% 0,2213 4,39%
At 20 docs: 0,219 0,00% 0,18 -17,81% 0,205 -6,39%
At 30 docs: 0,212 0,00% 0,161 -24,06% 0,1873 -11,65%
At 100 docs: 0,144 0,00% 0,0838 -41,81% 0,1158 -19,58%
At 200 docs: 0,1065 0,00% 0,053 -50,23% 0,076 -28,64%
At 500 docs: 0,0498 0,00% 0,0234 -53,01% 0,0351 -29,52%
At 1000 docs: 0,0249 0,00% 0,0117 -53,01% 0,0175 -29,72%
Average Precision 0,02 0,00% 0,0103 -48,50% 0,014 -30,00%
R Precision 0,0575 0,00% 0,0284 -50,61% 0,0419 -27,13%
DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
Evaluation: fixed number of selected DLs (BM25)
-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%
1
2
3
4
5
6
7
8
9
DTF
DTF10
DTF5
DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on n
DTF
DTF5
DTF10
Evaluation: fixed number of selected DLs (TFIDF)
Precision DTF DTF5 DTF10
At 5 docs: 0,158 0,00% 0,168 6,33% 0,156 -1,27%
At 10 docs: 0,146 0,00% 0,142 -2,74% 0,155 6,16%
At 15 docs: 0,1493 0,00% 0,1313 -12,06% 0,146 -2,21%
At 20 docs: 0,1525 0,00% 0,121 -20,66% 0,136 -10,82%
At 30 docs: 0,145 0,00% 0,108 -25,52% 0,125 -13,79%
At 100 docs: 0,1095 0,00% 0,0622 -43,20% 0,0799 -27,03%
At 200 docs: 0,0836 0,00% 0,037 -55,74% 0,0527 -36,96%
At 500 docs: 0,0406 0,00% 0,0153 -62,32% 0,0216 -46,80%
At 1000 docs: 0,0203 0,00% 0,0077 -62,07% 0,0108 -46,80%
Average Precision 0,0142 0,00% 0,0063 -55,63% 0,0082 -42,25%
R Precision 0,048 0,00% 0,0189 -60,63% 0,028 -41,67%
Evaluation: fixed number of selected DLs (TFIDF)
-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%
1
2
3
4
5
6
7
8
9
DTF
DTF10
DTF5
Ergebnisse (BM25 vs. TFIDF)
Run
Number of retrieved relevant
documents
Average Precision
R Precision
BM25, DTF2489 out of
291760.0200 0.0575
TFIDF, DTF2030 out of
291570.0142 0.0480
BM25, DTF101754 out of
289390.0140 0.0419
TFIDF, DTF101081 out of
198840.0082 0.0280
BM25, DTF51172 out of
287690.0103 0.0284
TFIDF, DTF5767 out of
192180.0063 0.0189
Parameterauswahl
• Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen.
• Die Veränderung von c führt aber zur Änderung der Retrievalqualität.
Run
Number of retrieved relevant
documents
Average Precision
R Precision
TFIDF, DTF10
c = 0.5 1081 out of
198840.0082 0.0280
TFIDF, DTF10
c = 11434 out of
288710.0104 0.0348
Experiment Teil2
• Fast gleicher Code für Retrieval• Unterschiedliche Topics• Änderung von Operator
(plain statt stemen_bm25 oder stemen_tfidf)• Größere Kollektionsmenge
Probleme• (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic
Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die
ArrayIndexOutOfBoundsException aus.Lösung: Erst Indexierung, um die Datenbanken zu erzeugen.
• (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei.
Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt.
Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit
anderem Namen auswählen.
Probleme (cont.)
• (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert.Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt,
so dass Resource Description nicht richtig funktioniert hat.Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“
ersetzen
• (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert...Grund: Das hat irgendwie mit Speicher von Heap zu tun...Lösung: ?
Zusammenfassung• DTF:
- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs
- bessere Ergebnisse – ohne Beschränkung auf die
Anzahl der zu selektierenden DLs• Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse
geliefert werden.• Die Recall-Precision Funktion p0 hat keinen Einfluss auf die
Retrievalergebnisse.• Eine Erhöhung von der linearen mapping Funktion c führt
aber zur Verbesserung der Retrievalqualität.• Wie kann man die Ergebnisse noch verbessern?
-> Relevance Feedback, DTF-cori
Vielen Dank für die Aufmerksamkeit!