was tun mit den ergebnissen der ocr?

14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. CB4 IMPACT Workshop, 4.3.2010 Ralf Stockmann SUB Göttingen / Abteilung Forschung und Entwicklung Was tun mit den Ergebnissen der OCR? Die Sicht der Endnutzer

Upload: ralf-stockmann

Post on 11-May-2015

1.012 views

Category:

Education


1 download

DESCRIPTION

Die Sicht der Nutzer von Volltexten. Vortrag auf dem IMPACT Workshop in München am 4.3.2010

TRANSCRIPT

Page 1: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

CB4 IMPACT Workshop, 4.3.2010Ralf Stockmann

SUB Göttingen / Abteilung Forschung und Entwicklung

Was tun mit den Ergebnissen der OCR?Die Sicht der Endnutzer

Page 2: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR in Göttingen Bestand: 8 Mio. Seiten Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) Jährlicher Zuwachs: 2 Mio. Seiten

Renderfarm beim GBV (16 Kerne) ABBY recognition server 160 Seiten pro Minute In Goobi Workflowsystem integriert Als Dienstleistung auf dem Markt angeboten

2

Page 3: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3

Endnutzer – wer ist das? Wissenschaftler Schüler/Studierende Laien

Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) Google (und andere Dienste)

Page 4: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

Wie sichtbar sind die Volltexte? Versteckt in Suchindex Versteckt, aber Image-Highlighting der Fundstelle

Volltext als Layer hinter dem Image (etwa in PDF gebunden) Volltext sichtbar über / neben dem Image Nur Volltext sichtbar Volltext als Download Volltext für Harvester verfügbar (TEI Datei in OAI)

Page 5: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5

In welchen Formaten? Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) Durch Wortkoordinaten platziert, aber kein

Dokumentenzusammenhang (bin ich Teil eines Satzes?) Text einer Seite

(eventuell mit Absätzen / Zeilenumbruch / Spalten) Dokumenttext über mehrere Seiten

– PDF– TEI (Text Encoding Initiative)– Semantische Auszeichnung

Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen

Page 6: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

Vier Gruppen der Nutzung Suche / Retrieval

– Bekannt und gezeigt Als Werkzeug zur Generierung händischer Metadaten Semantische / qualitative Analysen

– Themenkarrieren– Netzwerke (Personen)

Textarbeit– Virtuelle Forschungsumgebungen

Page 7: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

OCR als Produktionswerkzeug

Page 8: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Semantische Graphen über

Themen Personen Personenbeziehungen

8

Page 9: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Anwendungen Exploratives Browsing Relevanz von Metadaten für die Erschließungsqualität, oder: kann man durch

den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten? Experiment: Vergleich der semantischen Graphen zu

– Nur bibliographische Metadaten– Metadaten + Strukturdaten (Inhaltsverzeichnisse)– Nur Volltexte– Bibliographische Metadaten + Volltexte– Bibliographische Metadaten + Strukturdaten + Volltexte

– Ergebnisse auf dem Bibliothekartag in Leipzig

9

Page 10: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10

Goethe

Semantische / qualitative Analysen

Page 11: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11

GoetheSchiller

Page 12: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Virtuelle Forschungsumgebungen

12

TextGridLab

Page 13: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Empfehlungen Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren

Kunden ankommt auch fehlerhafte OCR Ergebnisse sind nützlich Explorative, semantische Verfahren werden viele

Textwissenschaften nachhaltig beeinflussen Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen

Nutzungen vorhersehen / anbieten Darum: Volltexte in möglichst vielen Formaten und an möglichst

vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...)

13

Page 14: Was tun mit den Ergebnissen der OCR?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Ausblick Ulrich Johannes Schneider in der SZ am 1.3.

– Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren?

14

Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung.