mühlberger digitalisierung impact workshop muc

23
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digitalisierung und elektronische Archivierung Universitäts- und Landesbibliothek Tirol

Upload: impact-centre-of-competence

Post on 14-Jun-2015

573 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis

Günter Mühlberger

Abteilung für Digitalisierung und elektronische Archivierung

Universitäts- und Landesbibliothek Tirol

Page 2: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR in Bibliotheken Schwieriges Kapitel Glas halbvoll oder halbleer? Fraktur EU Projekt METADATA ENGINE Digitalisierungszentren Göttingen und BSB Google

Page 3: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR und Digitalisierung OCR ändert alles! Workflow muss an allen Ecken und Enden angepasst werden

– Vorbereitung

– Imagebearbeitung

– Scannen

– Qualitätskontrolle

– Speicherung und Archivierung

– Korrektur

– Volltextsuche

– Webinterfaces

Page 4: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vorbereitung und Auswahl für das Scannen Für welche Art des Scannens entscheidet man sich?

– Gebundene Vorlage?

– Lose Blätter?

– Mikrofilm?

Welcher Scanner?– Overheadscanner

– Scanroboter?

– Mikrofilmscanner?

Inhouse oder Dienstleister?– Qualitätskontrolle?

– Deutschland oder Off-shore?

Page 5: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Gute und schlechte Bilder Sorgfalt ist alles! Allerdings:

– Scanroboter und Dokumentenscanner verringern die Anforderungen nach individueller Fähigkeit des Operators, trotzdem immer noch entscheidend

Gutes Bild:– Scharf, heller Hintergrund, deutliche Buchstaben, keine Wölbungen und

Verzerrungen, genügender Rand, Zeilen parallel bzw. senkrecht zum Bildrand, kein Durchscheinen von der Rückseite, keine Unterstreichungen etc. durch Benutzer

Beispiele

Page 6: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

Page 7: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

Page 8: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8

Page 9: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9

Page 10: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Bad print – broken characters

Page 11: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11

und wenn

Page 12: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12

Page 13: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Binarisierung

13

Page 14: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Layout analysis

14

Page 15: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15

Page 16: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

300 oder 400 ppi – bitonal oder 8/24 Bit? Rose Holley: Dlib Aufsatz 2009

– Grau scannen führt nicht zu besseren Ergebnissen

Einfache Experimente– Innsbrucker Zeitungsarchiv: bitonal und Farbe– Beispiel– Ergebnisse sind eindeutig bei Farbe besser– Sehr kleine Schrift: Wordvorlage: 4 Punkt Schrift– Ergebnisse

Schluss– Einfache Dokumente können mit 300 ppi und bitonal gescannt werden,

kein Qualitätsverlust gegeben– Schwierige Dokumente eher mit 400 ppi und 8 oder 24 Bit

Page 17: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Erkennungsgenauigkeit Glas halbvoll oder halbleer?

– Rose Holley <90% Wortgenauigkeit: Poor

– Google: Jedes Wort ist schon ein Vorteil gegenüber dem reinen Image

– Peinliche Fehler?

– Mündige Benutzer?

Buchstaben vs. Wortgenauigkeit– Wortgenauigkeit sagt mehr aus und ist wesentlich leichter zu erstellen:

Jedes Wort, das bei einer Volltextsuche korrekt gefunden wird, gilt als richtig erkannt

Page 18: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Beispiele aus der Praxis Grundlage: ABBYY Recognition Server 2

– Reichstagsprotokolle, 1925– Zedler, 1744– Coburger Zeitung, 1808– Judentum, 1803– Eckartshausen, 1792– Landesbauernkammer, 1921– Galvani, 1793– Hieber, 1722– Hofmann, 1875– Buschendorf, 1805– Schreiben, 1689– Lateinische Texte

Page 19: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Korrektur Bis vor kurzem als völlig absurd zurückgewiesen worden Aber:

– Crowd sourcing

– Neue Technologien

Crowd sourcing– Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche

Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000 Zeitungsseiten)

Neue Technologien– IBM: CONCERT Tool, LMU: PostCorrection Tool

– Erhöhung der Produktivität um mehrfachen Faktor

Page 20: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Weiterverarbeitung der OCR Ergebnisse Strukturerkennung

– Innsbrucker Zeitungsarchiv

– Functional Extension Parser Flexible und kontrollierte Regelerstellung für Strukturerkennung

Archivierung– Komplexität wird deutlich erhöht

– Output: TXT, PDF, ABBYY XML

– ALTO Format

– Wie Korrektur integrieren?

– Antrag auf Erweiterung des ALTO Formats

Page 21: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Anwendungen und Suchinterfaces Volltextsuche

– JSTOR, Google, Verlage

– Facetted Search (SOLR)

Indexierung durch Suchmaschinen– Site XML

Sichtbarkeit des OCR Textes– Benutzerschulung

– Unumgänglich, wenn korrigiert werden soll

Page 22: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Zusammenfassung OCR ist „Pflicht“

– Dokumente des 19. und 20. Jahrhunderts generell sehr brauchbare bis exzellente Ergebnisse

– Davor: deutliche Verbesserungen durch IMPACT zu erwarten

– Vorraussetzung ist sorgfältiges und genaues Scannen mit 400 ppi und in Farbe

– Testprojekt mit Zufallsstichprobe

Moderne Anwendungen integrieren– Sichtbarkeit des fehlerhaften Textes

– Korrekturmöglichkeit für den Benutzer

– Diverse Exportformate

– Site XML

– Facettierte Suche für Volltext

Page 23: Mühlberger Digitalisierung Impact Workshop MUC

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank für Ihre Aufmerksamkeit!