neue discovery-services im gbv touchpoint, lucene/solr... neue discovery-services im gbv touchpoint,...

Post on 07-Aug-2020

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

www.gbv.de

Neue Discovery-Services im GBV TouchPoint, Lucene/SOLR

Neue Entwicklungen im Bereich KatalogisierungGöttingen, 29. März 2011

Reiner DiedrichsVerbundzentrale des GBV (VZG)

Ausgangslage

• Verbundzentralen bieten eine Vielzahl von Datenbeständen zur Recherche an, z.B. im GBV• Verbundkatalog (GVK)• Online Contents (OLC, Aufsätze aus 25.000 Zs)• GVK+ = GVK + OLC• 48 Fachausschnitte aus OLC• Fach-OPACs mit und ohne OLC-Fachausschnitte• Verbundkatalog Öffentliche Bibliotheken (ÖVK)• GVK+ÖVK• Nationallizenzen: Gesamtsicht, 31 Einzelprodukte• Nationale Projekte: VD17, Ikar, BMS Online, IWF, …• Regionalkataloge• usw.

• Externe Datenbanken werden über Z39.50/SRU eingebunden, z.B. für die Verbundübergreifende Fernleihe

www.gbv.de 2

Ausgangslage: Datenbankauswahl

www.gbv.de 3

Ausgangslage: Datenbankauswahl

www.gbv.de 4

www.gbv.de 5

GBV Portal Verbundübergreifende Fernleihe

Ausgangslage: Technik CBS

• Überwiegend verbundsystem-spezifische Indexierung: Pica Search&Index PSI

alles muss ins CBS• Perfekt für bibliothekarische Suche, entspricht

aber nicht mehr modernen Suchtechnologien Facettierung, Wörterbücher, … z.B. liefert SOLR für „Digitale Bibliothek“ und „digitale Bibliotheken“ die gleiche Trefferzahl, GVK-Plus hingegen 5879 und 555 Treffer

• Nur Eingeschränkte Möglichkeiten der datenbankübergreifenden Indexierung (combined index, z.B. GÖVK)

• keine dynamische Kombination verschiedener Sichten

• bekannte Nachteile der Metasuche (Z39.50/SRU)

www.gbv.de 6

Lösungen

• Alles in einen Index!• Problemstellungen:

• Beschaffung und Normierung der Daten• Datenaktualisierungen• Jeder Anwender indexiert alles noch mal

• Lösung:• VZG stellt einen zentralen Index• VZG beschafft und normiert Daten• VZG aktualisiert Daten • Bibliothek indexiert nur den eigenen OPAC• Bibliothek wählt Teile des zentralen Index

www.gbv.de 7

Konzept im GBV

• Technik: Lucene/SOLROpen Sourceweltweite Communityunterstützt verteilte Indexsystemeübergreifendes Relevanzranking

• Format: Marc21unabhängig vom Verbundsystemkünftig Standard in DeutschlandFramework ist für SOLR vorhandenlokale, vom Verbundsysteme unabhängigeIndexierung

• Nutzbar durch verschiedene Portallösungen und Oberflächen, u.a. TouchPoint, Primo, VUFind

www.gbv.de 8

Konzept im GBV

• Portalsoftware: TouchPoint • keine Eigenentwicklung notwendig (wie bei VUFind)• „fast fertiges“ Produkt mit Administration• modularer Aufbau mit verschiedenen anpassbaren

Ebenen• LBS4-Ausleihschnittstelle• Personalisierungsfunktionen: Profile, SDI, etc.• Pica-Target für PSI-Datenbanken• günstiger Preis

• PlanungenStandardauslieferung für GBV Kontext(Pilotanwendung für UB Lüneburg ist aktiv)Lokaler + Kooperativer zentraler Index

www.gbv.de 9

Vorbereitungen

• Definition eines neutralen Schemas für TP anstelle des bisherigen MAB-basierten Schemas

• Anpassung bzw. Neuentwicklung aller Titelpräsentationen

• Standardindexierung für Marc21• Ergänzung des Standard-Marc21 um lokalspezi-

fische und indexrelevanter Kategorien, u.a.: - lokale Sacherschließung - Standortangaben - Holdings mehrerer Bibliotheken (für GVK) - spezifische URL-Kategorien:

- Volltext, Cover, Inhaltsverzeichnis, usw. - Filterkategorien

www.gbv.de 10

Vorbereitungen

• Beispiel: URL-Kategorien

www.gbv.de 11

Pica+ Unterfeld Marc21 Intern Beschreibung Anmerkungen #956 ** $1$y$3$i

#009P/05 $a[dg]y34B #856 „4 „ $u$y$3$i #200916.x Standard-URL Indikator 2 = Inhalt $3 (2) wenn vorhanden, sonst blank

#956 ** $9$y$3$i Casalini und Dandelon fallen raus

#956 ** $q$y$3$i Indikator 2 = Inhalt $3 (2) wenn vorhanden, sonst blank

#009Q $ayB3 #956 ** $q$y$3$i #200917.x Catalogue Enrichment In Abhängigkeit vom Inhalt $y oder ONIX-Code

#009P/03 $a[dg]y34B #856 „4 „ $u$y$3$i #200916.x Standard-URL Indikator 2 = Inhalt $3 (2) wenn vorhanden, sonst blank

#009P/09 $a[dg]y34B #200999.x Elektronische Referenz

#009P/01 $a #200991.x Digitalisat bei Druckausgaben

Indikator 2 = Inhalt $3 (2) wenn vorhanden, sonst blank

In der aktuellen Version können Sachverhalte, die in einer Kategorie stehen und durch ein zusätzliches Unterfeld unterschieden sind, für die Anzeige nicht getrennt werden

Vorbereitungen

• Verknüpfungen zwischen Titeldaten: - MBW und Aufsätze werden abgebildet - keine Serienverknüpfungen - weitere Verknüpfungen werden zurzeit geprüft

• keine Normdatenverknüpfungen - SWD: nur Ansetzung - GKD: nur Ansetzung - PND: Verweisungen als Synonym-Datei

• Teilsichten werden über „Produktsigel“ realisiert: - Nationallizenzen: ZDB-1-xxx - Datenbanken: GBV-OLC - Bibliotheken: GBV_ILN_xxx - Fachausschnitte: GBV_SSG_xxx - Sätze können zu mehreren Produkten gehören

www.gbv.de 12

Beispiel Marc Record

www.gbv.de 13

01270nam a2200373 i 4500001 010000062…

035 $a (DE-599)GBV010000062040 $a GyGoGBV $b ger $e rakwb041 0 $a ger084 $a 35.25 ; Spektrochemische Analyse $2 bcl100 1 $a Martin, Wolfgang.245 10 $a Einfuhrung in die moderne Flussigkeits-Chromatographie / $c Wolfgang Martin.260 $a Uberlingen : $b Perkin-Elmer, $c 1982.

300 $a 39 S.490 0 $a Angewandte Chromatographie ; $v 39

Ergänzungen für Fernleihe analog UNIMARC900 $a GBV $b UB Braunschweig <84> $d !CB! 25-F7-013 $d 0300-0638900$a GBV $b UB Rostock <28> $d !28/BB1-MAG! ZB 3995 (39) $x L $z LC…

Filter912 $a GBV_GVK912 $a GBV_ILN_15912 $a GBV_ILN_20912 $a GBV_ILN_62912 $a GBV_ILN_70912 $a SYSFLAG_1…

Exemplarangaben954 $a 15 $b 010000070 $c 01 $x 1996954 $a 20 $b 010000089 $z 84$003000638 $c 01 $f CB $d 25-F7-013 $d 0300-0638 $x 0084954 $a 62 $b 319897060 $c 01 $f 28/BB1-MAG $d ZB 3995 (39) $e b $x 0028954 $a 70 $b 1169194281 $z 89$134399129 $c 01 $d RN 1912(39) $e u $x 0089

Beispiel Touchpoint Internschema

www.gbv.de 14

100006: Bücher100200: <?xml version="1.0" ... Original Marc-XML-Record200000: /TouchPoint/gbv/images/buch01.gif200300: 010000062300000: 010000062300001.1: 01300002.1: UB Braunschweig <84>300003.1: 15300004.1: 1996300005.1: 010000070

300001.2: 01300002.2: UB Rostock <28>300003.2: 20300005.2: 010000089300007.2: 25-F7-013...100000: Einführung in die moderne Flüssigkeits-Chromatographie100001: Martin, Wolfgang100024: Überlingen100025: Perkin-Elmer100002: 1982203404: 39 S.203600.1: Angewandte Chromatographie204517.1: 35.25 ; Spektrochemische Analyse214526.1: 543.544 LC

Kooperativer Index: Inhalte

• GVK (34 Mio. Titel)

• ÖVK (6 Mio. Titel)

• Online Contents OLC (36 Mio. Aufsätze) Fachausschnitte OLC

• Nationallizenzen (20 Mio. Artikel, 0,4 Mio. E-Books)

• Bibliografien: BMS, WAO, u.w.• nationale Projekte: VD17, Ikar, u.w.

Insgesamt zurzeit 100.000.000 Titelsätze• Mit Verlagen wird zurzeit über die Bereitstel-

lung der Metadaten von lizenzpflichtigen Inhalten und die Einbindung von Verlags-APIs (Ebsco, SUMMON, WorldCat Local) verhandelt

www.gbv.de 15

Anwendungsszenarien 1: lokale Nutzung

www.gbv.de 16

LBS OPC4

Update

Sonstige lokale Daten

Lucene OPAC

Zentraler Index

GVK

OLC

usw

Update

Anwendungsszenarien 1: Verbundübergreifende Fernleihe

www.gbv.de 17

Lucene HeBis

Lucene GVK

Pica Target

Z39.50

Z39.50

Phase 1

Anwendungsszenarien 1: Verbundübergreifende Fernleihe

www.gbv.de 18

Verteilterkooperativer

HeBis

GVK

nationaler Nachweis

Aktueller Stand

• Vorbereitung Zentraler Index (3.ter Anlauf nach Problemen mit Zeichensätzen) - OLC ist fertig - Nationallizenzen sind fertig - GVK läuft - Parallel:

- TP-Oberfläche für GVK (P7-Nachfolge) - Verbundübergreifende Absprachen

• TouchPoint: - „Echttest“ in Lüneburg seit 1. März 2011 - Vergleichstest TP/Ebsco im April für UB Weimar - Weitere Anfragen liegen vor

www.gbv.de 19

Finden.nationallizenzen.de

www.gbv.de 20

DFG-Projekt: VUFind mit Lucene/SOLR

Zentraler Index: einfache VUFind Oberfläche (nur für Testzwecke)

www.gbv.de 21

Bsp.: OPAC + lokale Online Contents

22

Kombination von SOLR-Indices

www.gbv.de 23

Kombination von SOLR-Indices

www.gbv.de 24

TouchPoint Lüneburg

www.gbv.de 25

Anforderungen an die Daten

• Dublettenfrei bzw. prüfbar, d.h.• Strikte Anwendungen des Regelwerks

keine bibliotheksspezifischen oder regionale BesonderheitenMindeststandard für Kategorien (alle Personen, Sprache, …)

• In sich vollständige AufnahmenPrüfung ohne Zugriff auf verknüpfte Sätze

• Normierte Angaben: Quelle bei Aufsätzen, Auflagen, Verlage, etc.

• Identifikationsnummern

• Vollständig im Sinne im Sinne von „suchbar“• Vollständige Titel alles Suchbare steht im Titel• Keine unnötigen Verknüpfungen• Kodierte Angaben zur mehrsprachigen Expansion• Durchgehende mehrsprachige thematische

Erschließung

www.gbv.de 26

Fragen?

www.gbv.de 27

top related