Download - Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

PraxisteilSeminar „experimentelle Evaluierung in IR“

WS05/06Gruppe A

Experimental setup

• Collections: TREC-123, wt10g• Index: BM25 und TFIDF• Queries:

- Topics 51-100 aus trec123.topics

(für den ersten Teil)

- Topics 736083,... Aus wt10g.topics.1000

(100 aus 1000 Topics für den zweiten Teil)

Aufgabenstellung Experiment (1)

DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1

Experiment (2) DTF vs. DTF max. 10 DLs

c=0.5 vs. c=1 P0=1

Vorgehensweise• Indexierung

• Resource description

• Kostenberechnung

• Resource selection

Vorgehensweise• Indexierung

eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Vorgehensweise• Indexierung (cont.)• Show tables from exp_a like ‚ap88%‘;

| ap88_8c_text_stemen_bm25_dl || ap88_8c_text_stemen_bm25_docid || ap88_8c_text_stemen_bm25_expectation || ap88_8c_text_stemen_bm25_idb_rd || ap88_8c_text_stemen_bm25_rd || ap88_8c_text_stemen_bm25_tf || ap88_8c_text_stemen_bm25_tmp1 || ap88_8c_text_stemen_bm25_variance || ap88_8c_text_stemen_bm25_weight || ap88_8c_text_stemen_tfidf_df || ap88_8c_text_stemen_tfidf_dl || ap88_8c_text_stemen_tfidf_docid || ap88_8c_text_stemen_tfidf_expectation || ap88_8c_text_stemen_tfidf_idb_rd || ap88_8c_text_stemen_tfidf_maxTF || ap88_8c_text_stemen_tfidf_rd || ap88_8c_text_stemen_tfidf_tf || ap88_8c_text_stemen_tfidf_tmp1 || ap88_8c_text_stemen_tfidf_variance || ap88_8c_text_stemen_tfidf_weight |+-------------------------------------------------------------+

Vorgehensweise• Resource description

Vorgehensweise

• Resource selection

Vorgehensweise• Resource selection

ResourceSelection{

GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]}

ResourceSelection{

GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]}

...

Vorgehensweise

• Resource selection (Durchlaufen von 100 Topics):Relevanzurteile: (DTF5, bm25)

051 0 AP880212-0020 1 0.999999999999978 1

051 0 AP880212-0093 1 0.673631123919296 1

051 0 AP880212-0120 1 0.655220742817087 1

052 0 AP880212-0060 1 1.0 1

052 0 AP880212-0009 1 0.970960077124136 1

052 0 AP880212-0056 1 0.438141643714791 1

052 0 AP880212-0019 1 0.400958727204647 1

…

BM25 vs. TFIDF• BM25

- Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen,

die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind.

• TF-IDF

- TF: Term Frequency

- IDF: Inverse Document Frequency log(N/DF)

N: Gesamtzahl der Dokumente der Kollektion

DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt

BM25 vs. TFIDF (cont.)

• BM25

• TFIDF

)(

||log

)(5.15.0),(

),(:),(

tdf

DL

avgdl

ddldttf

tdtftdw

5.0log)(

5.0log

),(max

),(:),(

N

tdf

N

tdtf

tdtftdw

dt

Trec_eval (Bsp.)• Queryid (Num): 100• Total number of documents over all queries• Retrieved: 29157• Relevant: 48365• Rel_ret: 2030• Interpolated Recall - Precision Averages:• at 0.00 0.3369• at 0.10 0.0481• at 0.20 0.0120• at 0.30 0.0022• at 0.40 0.0000• at 0.50 0.0000• at 0.60 0.0000• at 0.70 0.0000• at 0.80 0.0000• at 0.90 0.0000• at 1.00 0.0000• Average precision (non-interpolated) for all rel docs(averaged over queries)• 0.0142• Precision:• At 5 docs: 0.1580• At 10 docs: 0.1460• At 15 docs: 0.1493• At 20 docs: 0.1525• At 30 docs: 0.1450• At 100 docs: 0.1095• At 200 docs: 0.0836• At 500 docs: 0.0406• At 1000 docs: 0.0203• R-Precision (precision after R (= num_rel for a query) docs retrieved):• Exact: 0.0480

Ergebnisse

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Evaluation: fixed number of selected DLs (BM25)


Precision DTF DTF5 DTF10

At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85%

At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08%

At 15 docs: 0,212 0,00% 0,1933 -8,82% 0,2213 4,39%

At 20 docs: 0,219 0,00% 0,18 -17,81% 0,205 -6,39%

At 30 docs: 0,212 0,00% 0,161 -24,06% 0,1873 -11,65%

At 100 docs: 0,144 0,00% 0,0838 -41,81% 0,1158 -19,58%

At 200 docs: 0,1065 0,00% 0,053 -50,23% 0,076 -28,64%

At 500 docs: 0,0498 0,00% 0,0234 -53,01% 0,0351 -29,52%

At 1000 docs: 0,0249 0,00% 0,0117 -53,01% 0,0175 -29,72%

Average Precision 0,02 0,00% 0,0103 -48,50% 0,014 -30,00%

R Precision 0,0575 0,00% 0,0284 -50,61% 0,0419 -27,13%

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)


-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Evaluation: fixed number of selected DLs (TFIDF)

Precision DTF DTF5 DTF10

At 5 docs: 0,158 0,00% 0,168 6,33% 0,156 -1,27%

At 10 docs: 0,146 0,00% 0,142 -2,74% 0,155 6,16%

At 15 docs: 0,1493 0,00% 0,1313 -12,06% 0,146 -2,21%

At 20 docs: 0,1525 0,00% 0,121 -20,66% 0,136 -10,82%

At 30 docs: 0,145 0,00% 0,108 -25,52% 0,125 -13,79%

At 100 docs: 0,1095 0,00% 0,0622 -43,20% 0,0799 -27,03%

At 200 docs: 0,0836 0,00% 0,037 -55,74% 0,0527 -36,96%

At 500 docs: 0,0406 0,00% 0,0153 -62,32% 0,0216 -46,80%

At 1000 docs: 0,0203 0,00% 0,0077 -62,07% 0,0108 -46,80%

Average Precision 0,0142 0,00% 0,0063 -55,63% 0,0082 -42,25%

R Precision 0,048 0,00% 0,0189 -60,63% 0,028 -41,67%

Evaluation: fixed number of selected DLs (TFIDF)

-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

Ergebnisse (BM25 vs. TFIDF)

Run

Number of retrieved relevant

documents

Average Precision

R Precision

BM25, DTF2489 out of

291760.0200 0.0575

TFIDF, DTF2030 out of

291570.0142 0.0480


289390.0140 0.0419


198840.0082 0.0280


287690.0103 0.0284


192180.0063 0.0189

Parameterauswahl

• Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen.

• Die Veränderung von c führt aber zur Änderung der Retrievalqualität.

Run

Number of retrieved relevant

documents

Average Precision

R Precision

TFIDF, DTF10

c = 0.5 1081 out of

198840.0082 0.0280

TFIDF, DTF10

c = 11434 out of

288710.0104 0.0348

Experiment Teil2

• Fast gleicher Code für Retrieval• Unterschiedliche Topics• Änderung von Operator

(plain statt stemen_bm25 oder stemen_tfidf)• Größere Kollektionsmenge

Probleme• (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic

Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die

ArrayIndexOutOfBoundsException aus.Lösung: Erst Indexierung, um die Datenbanken zu erzeugen.

• (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei.

Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt.

Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit

anderem Namen auswählen.

Probleme (cont.)

• (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert.Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt,

so dass Resource Description nicht richtig funktioniert hat.Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“

ersetzen

• (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert...Grund: Das hat irgendwie mit Speicher von Heap zu tun...Lösung: ?

Zusammenfassung• DTF:

- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs

- bessere Ergebnisse – ohne Beschränkung auf die

Anzahl der zu selektierenden DLs• Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse

geliefert werden.• Die Recall-Precision Funktion p0 hat keinen Einfluss auf die

Retrievalergebnisse.• Eine Erhöhung von der linearen mapping Funktion c führt

aber zur Verbesserung der Retrievalqualität.• Wie kann man die Ergebnisse noch verbessern?

-> Relevance Feedback, DTF-cori

Vielen Dank für die Aufmerksamkeit!

Download - Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Top Related