Download - 10. März 2005, Magdeburg Leitreferat zur 29. Jahrestagung der Gesellschaft für Klassifikation
GESIS
Sacherschließung in Deutschland
Lösungsansätze für eine Welt der polyzentrischen Informationsversorgung
10. März 2005, MagdeburgLeitreferat zur 29. Jahrestagung der Gesellschaft für Klassifikation
Jürgen Krause
Informationszentrum Sozialwissenschaften, Bonn
Koblenz - Landau
2GESIS
Situation Bibliotheken: Formalerschließung
Formalerschließung und Austauschformate:• RAK-WB: Regeln für die alphabetische
Katalogisierung, wissenschaftliche Bibliotheken• MAB-Format: Maschinelles Austauschformat für
Bibliotheken
• MARC21-Austauschformat: Machine Readable Cataloging Records
• AACR2: Anglo - american Cataloguing rules
DDB –Projekt: Umstieg auf internationale Formate
• Fachdatenbanken wie SOLIS• WWW – Quellen wissenschaftliche Institutionen
etc. DDI, XML ….
¬ s. Krause/Niggemann/Schwänzl 2003 und DDB
3GESIS
Sacherschließung (Inhaltserschließung)
Bibliotheken:
Verbale und klassifikatorische Inhaltserschließung• Zerbst/Klein 1993: 81% erschließen sachlich• KNS 2003, S. 22: “ … durch den hohen Anteil an
Alt-daten … besitzt insgesamt aber dennoch nur der kleinere Teil der Datensätze … inhaltserschlie-ßende Elemente … verbale Erschließung …ca 12% im Südwestverbund und ca 46% im Bayrischen Bibliotheksverbund“.
Verbal: SWD (Schlagwortnormdatei)Klassifikatorisch: Regensburger Verbundkatalog (RVK),
Basisklassifikation (BK), …. Internat. Verbal: LCSH (Library of Congress Subj.
Head.)Klass. DDC (Dewey Dec. Class.), Library of
Congress Classification)
4GESIS
Fachdatenbanken, Web - Quellen
Fachdatenbanken:
• Fachthesauri wie die von SOLIS/FORIS, ZPID
• Fachklassifikationen
Web – Quellen:
• Beliebig, freie Terme
• Fachklassifikationen, DDC
International:
• Mehrsprachige Thesauri:
Z. B. Soz.wiss.: Deutsch – Englisch –Französisch – Russisch
• Unabhängige Entwickungen: z.B. CSA
5GESIS
Beispiel: „Etablierte“ Produktlinie IZ
SOLIS, FORISOnline bei STN, GBI + CD-WISO IIIGBI WISO-NET SOWI + Integration inBibliotheksverbund
FORIS Ausschnitt GESIS WWW-Angebot
SOFIDs ...
Internationale Datenbankangebote:Sociological Abstracts (CSA) ….
BibliothekskatalogeAG Verbundsysteme
6GESIS
Polyzentrischer, dezentraler Informationsraum
trans fer and c o o rd in a tio n
u s ers
Ap p licationarea n
h igh relevanceh igh quali tycontent analys is
M 6
M 4
less relevanceno ab s trac tsh igh quali ty ind exing
M 5low relevancewww-d ocum entssearch access by search engines
M 1
h igh relevanceh igh quali tycontent analys is
M 3only ti tless im p le au tom atic indexing
M 2h igh relevanceproba li lis tic autom atic indexing of fu ll text
decentralized/polycentric docum ent space
www-d ocum entsc .a. B y sc ientis ts
in fo r m at ions er vic ec en ter s
p u b l is h ers
s c ien t is ts
l ib ra r iesl ib rar yc ata lo gues
wwwelec tron icp ub l is h ing
7GESIS
81 76 80
40
60
80
100
Mehrfachnutzer Professoren Mittelbau
GESIS-Web-Befragung 2003: 97% würden das IZ wieder besuchen, 91% weiterempfehlen
TRI:M-Studie Mehrfachnutzer 1997, Befragung Soziologieprofessoren/innen 2001, Mittelbaubefragung 2003
AkzeptanzBinder / Stahl / jk
Kundenzufriedenheitsindex
8GESIS
Nutzung der Datenbanken FORIS & SOLIS
9GESIS
Nutzerbefragungen (BKP 2003, GESIS und IZ 1997 - 2003, IMAC 2002, ...)
Fachportale
Volltexte direkt
Fachcluster für interdisziplinäre Überschneidungsbereiche
Allgem. Internetsuchmaschinen unzureichend „kein Müll“
Nicht nur Literaturdatenbanken oder OPACS ALLES
Vom Arbeitsplatz,
hochintegriert
Im Einklang mit theoretisch-
analytischen Überlegungen
Informationswiss. + Information Retrieval
Neuere Nutzerbefragungen
10GESIS
Entwicklungsperspektive Fachportale
Hohe Erschließungsqualität + Langfristigkeit +
Verlässlichkeit der Inhalte
Je ein integrierendes Portal für die Fachwissen-schaften … (Inhalte national und international)
mit qualitativ hochwertigen Such- und Selektionsinstrumenten
alle wissenschaftsrelevante Informationen (Texte, Institutionen, Fakten, Medien ...)
eingebettet in Fachcluster und in ein übergeordnetes Wissenschaftsportal einschließlich genereller bibliothekarischer Zugang
11GESIS
Schlagwort Evaluationsforschung (SWD) findet:
USB Köln (SWD) 56 TrefferSOLIS (IZ Thesaurus) 0 Treffer
Suche in SOLIS hätte sein müssen: wissenschaftliche Begleitung
327 Treffer
müller / jk
Unvermeidlich verbleibende Heterogenität
Retrieval
Metadaten
Heterogenitäts- behandlung
Dokumente
12GESIS
Retrieval
Metadaten
Heterogenitätsbehandlung
• Crosskonkordanzen
• Quantitativ-statistische Verfahren
• Deduktive Verfahren
Dokumente
Algorithmische Metadatenermittlung
Transfermodule
13GESIS
Leistungsfähigkeit Heterogenitätskomponenten
Verbesserung Recall* Precision* Kosinus
IZ SWDCrosskonkordanz,
intellektuell+ 45,1% + 30,2% + 36,2%
SWD IZCrosskonkordanz,
intellektuell+ 41,0% + 44,2% + 42,5%
* = Term-Recall -, Term – Precision - Messungen auf der Basis Parallelcorpus USB mit etwa 16 000 Dokumenten
Dissertation Matthias Müller
14GESIS
Verbreitung Grundidee
„Strategie für die Standardisierung der Informations- und Kommunikationstechnik (ICT)“ (DIN Berlin, Sept. 2003)
„Standardisierung ist von der verbleibenden Heterogenität her zu denken. …“
DIN SICT-Papier: Deutsche Position
DFG-Positionspapier:
Aktuelle Anforderungen der wissenschaftlichen Informationsversorgung, Mai 2004
„… Raum für eine neue Sichtweise auf Konsistenzerhaltung und Interoperabilität zu schaffen: Die Standardisierung ist von der verbleibenden Heterogenität her zu denken.“
15GESIS
Schwerpunkt Entwicklung IZ
Sozialwiss.SOWIPORT
PädagogikPsychologie
Als Mehrwertdienst von
vascoda und von SOWIPORT
Stempfhuber / jk
E-SCIENCE Initiative BMBF
16GESIS
Suchmaske vascoda staatsfunktion
Beispiele 25. Mai 2004
17GESIS
Vascoda Ergebnisliste staatsfunktion
18GESIS
infoconnex Recherche: staatsfunktion
19GESIS
20GESIS
infoconnex Pädagogik Ergebnisliste staatsfunktion
21GESIS
infoconnex Ergebnis Staatsfunktion
22GESIS
Volltext
23GESIS
24GESIS
vascoda Recherche Jugendarbeitslosigkeit / Fachauswahl
25GESIS
vascoda Ergebnisliste Jugendarbeitslosigkeit
29GESIS
Google Jugendarbeitslosigkeit
30GESIS
31GESIS
Funktionsweise Heterogenitätsbehandlungm. müller
32GESIS
m. müller
Heterogenitätsbehandlung
33GESIS
Bilaterale Vagheitsbehandlung
Anfrage
V1:Vagheitsrelation zwischen Anfrage- und DB Termen
A B C
Dokument Term Mengen pro Datenbank
V3V2
V2/V3: Bilaterale Vagheitsbehandlung
34GESIS
Standard method: one step transformation
non-differentiated handling of vagueness
AB C
document term sets
Question
35GESIS
Retrieval
Metadaten
Heterogenitätsbehandlung
• Crosskonkordanzen
• Quantitativ-statistische Verfahren
• Deduktive Verfahren
Dokumente
Algorithmische Metadatenermittlung
Transfermodule
36GESIS
Mathematik – Physik: MSC and PACS
statistical:
PACS 62.30.+d Mechanical and elastic waves; vibrations (Mechanische und elastische Wellen, Schwingungslehre)
MSC 74S15 Boundary element methods (Randelementmethode)
intellectual:
PACS 62. Not connected
37GESIS
Example: semantic-pragmatic relation
Einfache Suche
Suchbegriff Dominanz(dominance)
Zahl der relevanten Treffer 16
G. Binder
38GESIS
Erweiterte Suche
Transferbegriffe Dominanz, Messen, Mongolei, Nichtregierungsorganisation, Flugzeug, Datenaustausch, Kommunikationsraum, Kommunikationstechnolo-gie, Medienpädagogik, Wüste
Zahl zusätzliche relev. Treffer
7
Anteil der zusätzlichen relev. Treffer an den zusätzl. Treffern
50%
G. Binder
Mitglieder des Vereins wom@n reisten zur UNO Frauenkonferenz nach Beijing. Auf der Fahrt durch die Mongolei und die Wüste ...
39GESIS
Statistical and Neural networks transformation
• Co-occurence-based similarity
• In ViBSoz: statistical crosswalk between two different thesauri (SWD as a universal thesaurus and SOLIS as a special thesaurus),
• in ELVIRA between a thesaurus for data and free text terms
• Transformation networks • USB Thesaurus to the IZ Thesaurus
• the USB Thesaurus or IZ Thesaurus to the IZ
LSI and Transformation network x Statistical methods
Fig. 3: Transformation network USB Thesaurus to IZ Thesaurus (Fig. 7-12 from Mandl 2000:206)
Recall
Precision
40GESIS
Parallel Corpora
document set 2document set 1
document
document
document
document
document
document
thesaurus orclassification:
a
b
c
d
thesaurus or classification:
x
a
y
z
know relation ofdocuments
derivedrelation ofterms
GESIS
Text fact integration: simple directed transfer in ELVIRA
Transformations
Texts?
Facts?
Formalization
InformationNeed
TexteTexteTexts
TexteTexteFacts
Text-Query
Fact-Query
Direct Links
IterativeSearch
IterativeSearch
42GESIS
Schalenmodell
43GESIS
Entwicklung (Ausschnitt)
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
SO
WIP
OR
T
Sy
ste
me
Mo
de
lleIn
ha
lte
DBClear
MORESS
Kompetenzzentrum Modellbildung, HeterogenitätStempfhuber / jk
Gru
nd
lag
en
CARMEN
Heterogenität Softwareergonomie Evaluation
Dissertation Heterogenität
Dissertation rough set theory
SE, Text–Fakt, Heterogenität
44GESIS
Ende
45GESIS
Treffer mit VB Gesch.