![Page 1: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/1.jpg)
Die Übersetzung von “Diskursdialekten” für die Suche:
Das Mapping zwischen Fachsprachen und Indexierungssprachen
Vivien Petras
Vortrag im Berliner Bibliothekswissenschaftlichen
Kolloquium
21. November 2006
![Page 2: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/2.jpg)
Das Sprachproblem im Retrieval
Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten
werden?
![Page 3: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/3.jpg)
• Das Sprachproblem im Information Retrieval
• Dialekte und Kontext
• Der Search Term Recommender
• 3 Forschungsfragen
• Experimentelles Web Interface
Gliederung
![Page 4: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/4.jpg)
SucherAutor
IdeenraumIdeenraum
Frage Text
Such-anfrage
Treffer!
• Abgleich zwischen Autor und IR System Indexierung
• Abgleich zwischen Sucher und IR System Anfrageformulierung
Dokument
Information Retrieval = Eine Übung im Sprachabgleich
![Page 5: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/5.jpg)
Information Retrieval = Eine Übung im Sprachabgleich
Sucher
Such-anfrage Dokument
Treffer!
Information Retrieval
Eine “gute” Suchanfrage beschreibt sowohl:• die Frage des Suchers (Informationsbedarf) als auch• die relevanten Dokumente in Bezug auf die Anfrage
?
![Page 6: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/6.jpg)
Semiotik: Unendliche Semiose
Informationswissenschaft: Indexierungskonsistenz
Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend.
Das Sprachproblem
![Page 7: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/7.jpg)
Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern?
Sprachphilosophie (Wittgenstein)
Sprache wird eindeutiger in: • speziellen Kontexten und • Dialekten
Dialekte und Kontext
![Page 8: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/8.jpg)
Dialekte und Kontext
Lösungsansatz für die Suchwortauswahl:
• ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache)
• unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)
![Page 9: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/9.jpg)
Search Term Recommender = Hilfe zur Suchwortauswahl
Such-anfrage
Fach / Spezialisierung
Meinten Sie…
Fachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / Deskriptor
Dokumente
Fach / Spezialisierung
Fach / Spezialisierung
Fach / Spezialisierung
Fach / Spezialisierung Fach /
Spezialisierung
![Page 10: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/10.jpg)
Search Term Recommender
![Page 11: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/11.jpg)
• Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation)
• Automatische Klassifikation
• Terminologie Mapping (Crosskonkordanzen)
Search Term Recommender: Anwendungsgebiete
![Page 12: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/12.jpg)
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
![Page 13: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/13.jpg)
• Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik
• Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern
• Testkollektion:
Inspec
Dokumente 427.340Deskriptoren / Dokument 6,99Begriffe 60.601Inspec Deskriptoren 8.447
![Page 14: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/14.jpg)
• Medizin und Gesundheitswesen
• Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter
• Testkollektion:
Medline Ohsumed
Dokumente 168.463 MESH Schlagwörter / Dokument 3,11 Begriffe 39.762MESH Schlagwörter 12.140
![Page 15: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/15.jpg)
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
![Page 16: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/16.jpg)
• Domainterminologie (Fachsprache)
• Publikationsquelle
• Bibliometrische Analyse
• Analyse sozialer Netzwerke
• Fachklassifikation
Bestimmung von Dokumenten aus einem Fachbereich
![Page 17: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/17.jpg)
Inspec Testkollektion• oberste Kategorien in der Inspec Klassifikation• 3 Spezialisierungen: Physics, Electrical & Electronic
Engineering, Computers & Control
Ohsumed Testkollektion• Zeitschriften nach Fachgebiet geordnet (Medline
Journal Descriptors)• 33 Spezialisierungen:• z.B. Anesthesiology, Dentistry, Endocrinology,
Hematology, Nutrition, Radiology
Identifizierung eines Fachbereiches
![Page 18: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/18.jpg)
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
![Page 19: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/19.jpg)
Unterschiede in der Fachsprache (Überlappung von Begriffen)
Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)
Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte)
Unterschiede in der Sprache
![Page 20: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/20.jpg)
Inspec Fachsprachen (Überlappung der Begriffe)
20%
7%
13%
13%
4%
33%
13%
Physics
ElectricalEngineering
Computers
Analysierte Begriffe: 60.601
Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%
![Page 21: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/21.jpg)
Ohsumed Fachsprachen (Überlappung der Begriffe)
Analysierte Begriffe: 11.663
Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%
13%
29%
8%
19%
2%
21%
7%
CommunicableDiseases
GynecologyOrthopedics
![Page 22: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/22.jpg)
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
2. Sind Fachsprachen wirklich unterschiedlich?
3. Ist ein Fachsprachenfokus wirklich besser?
2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)
Search Term Recommender - Forschungsfragen
![Page 23: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/23.jpg)
• Vorschlagen von Deskriptoren für Dokumente
Testfall: Automatische Klassifikation
Titel
STRTitel
Deskriptor 1
Deskriptor 2
Anfrage
SpeziellerSTR für
Fachbereich
AllgemeinerSTR für gesamte
Datenbank
• Vergleich:
TitelDeskriptor 1
Deskriptor 2
TitelDeskriptor 1
Deskriptor 2
Wer schlägt bessere
Deskriptoren vor?
![Page 24: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/24.jpg)
Titel: “A search for clusters of protostars in Orion cloud cores”
Testfall: Automatische Klassifikation
Ursprüngliche Deskriptoren
Fachbereich Search Term Recommender
Allgemeiner Search Term Recommender
1. Infrared sources (astronomical)
2. Interstellar molecular clouds
3. Pre-main-sequence stars
4. Star associations
1. Clouds2. Clusters of galaxies3. Interstellar molecular
clouds4. Star clusters5. Pre-main-sequence
stars
1. Search problems2. Clouds3. Atomic clusters4. Clusters of
galaxies5. Interstellar
molecular clouds
Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote 2/4 = 0,5 1/4 = 0,25
Precision: Genauigkeit 2/5 = 0,4 1/5 = 0,20
![Page 25: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/25.jpg)
Inspec STR
Inspec specialties and general STRs
0,0
0,1
0,2
0,3
0,4
0,5
0,0 0,1 0,2 0,3 0,4 0,5Recall
Prec
ision
Individual Specialty STRs
General STR
Testdokumente: 42.735
Fachbereiche: 3
Erste 3 Vorschläge:
Recall: +13,6%
Precision: +11,2%
![Page 26: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/26.jpg)
Ohsumed STR
Ohsumed specialties and general STR
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7Recall
Prec
ision
Individual Specialty STRsGeneral STR
Erste 3 Vorschläge:
Recall: +26%
Precision: +25,6%
Testdokumente: 18.733
Fachbereiche: 33
![Page 27: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/27.jpg)
Inspechttp://metadata.sims.berkeley.edu/str/inspec/inspec.html
Ohsumedhttp://
metadata.sims.berkeley.edu/str/ohsumed/ohsumed.html
Experimentelle Web Interfaces
![Page 28: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/28.jpg)
1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?
– Inspec: Fachklassifikation– Ohsumed: Journal Fachbereich
2. Sind Fachsprachen wirklich unterschiedlich?– Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort
Überlappung 30%– Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort
Überlappung 30%
3. Macht ein Fachsprachenfokus die Suche effizienter?– Inspec Fachbereiche: 10% Verbesserung über allg. STR– Ohsumed Fachbereiche: 25% Verbesserung über allg. STR
Zusammenfassung
![Page 29: Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen](https://reader035.vdokument.com/reader035/viewer/2022070507/570491c31a28ab14218d9d6d/html5/thumbnails/29.jpg)
Verminderung des Sprachproblems im Retrieval
Search Term Recommender:
See also:
FIDDLES50% Discount!