europeana newspapers german infoday - semantics
Post on 11-May-2015
139 Views
Preview:
TRANSCRIPT
Der Einsatz automatisierter
Verfahren zur vertieften
Erschließung historischer
Zeitungsbestände. Ein DFG-
Pilotprojekt der ULB Sachsen-
Anhalt
Europeana Newspapers ProjectInformation Day Berlin, 27. Februar 2014
Kay Heiligenhaus
semantics GmbH, Aachen
Einführung
Teilprojekt der
ULB Sachsen-Anhalt
Digitalisierung des Halleschen Tageblattes
∙Laufzeit von Mai 2013 bis April 2015
∙Digitalisierung von 117 Bänden
unterschiedlichen Formats (vom Original in
Farbe)
∙durch Strukturdaten inhaltlich erschlossen
∙durch Fraktur-OCR im Volltext erschlossen
∙persistent adressierbar bis auf Ausgabe-,
Artikel- und Seitenebene
Digitalisierung des Halleschen Tageblattes
Zeitraum Format Anzahl der
Bände
Anzahl der
Seiten
1799 - 1855 Oktav 68 74.280
1856 - 1864 Quart 9 13.611
1865 -1871 Folio 4° 8 11.586
1872 -1892 Folio 2° 32 42.922
Gesamt 117 142.399
TEIL I
Rahmenbedingungen
DFG-Positionspapier (2012): Digitalisierung
Ausschuss für Wissen-
schaftliche Bibliotheken und
Informationssysteme: Die
digitale Transformation weiter
gestalten – Der Beitrag der
Deutschen Forschungs-
gemeinschaft zu einer
innovativen Informations-
infrastruktur für die Forschung,
Bonn, 3. Juli 2012.
http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
DFG-Positionspapier (2012): Förderschwerpunkte
Zur weiteren Umsetzung der
digitalen Transformation analoger
Überlieferung wird sich der
Schwerpunkt der
Förderaktivitäten im Bereich
Digitalisierung nach und nach von
Drucken hin zu historischen
Zeitungen und unikalem
Material […] verschieben. (S. 10)
DFG-Positionspapier (2012): Pilotprojekt Zeitungen
Bei der […] Förderung von
Digitalisierungsmaßnahmen im
Bereich historischer Zeitungen
[…] wird es in erster Linie darum
gehen, im Rahmen von
Pilotphasen methodische,
organisatorische und
technische Rahmen-
bedingungen […] zu definieren.
(S. 10)
DFG-Positionspapier (2012): Automatisierung
Vor dem Hintergrund technischer
Weiterentwicklungen sollte […]
eruiert werden, wie
automatisierte Verfahren zur
vertieften Erschließung […]
Anwendung finden können. Dabei
soll auch die Entwicklung neuer
Methoden, zum Beispiel im Bereich
des Machine Learning, gefördert
werden. (S. 12)
TEIL II
Ziele des Projektes
Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945
o Zeitungen in der ZDB:
~ 50.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland:
~ 30.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland vor 1945:
~ 16.000 Titel.
http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
Ist-Stand: Manuelle Strukturdatenerfassung
Mengengerüst und Kosten: Minimal-Erschließung
o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,
~ 1 Mrd. Seiten)
o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8
Stunden/Tag, 250 Arbeitstage/Jahr)
o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro
Seite)
� Herausforderung: Reduktion der Erschließungskosten.
TEIL II
Lösungsansätze
Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
Lösungsoption I: Kernproblem ist die Erkennung vonFrakturschriften
Kosten der Lösungsoption I:
Einsatz von Abbyy Finereader
o ~ 10 Mio. EUR Lizenzkosten OCR
o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre
auf aktueller Server-Hardware)
o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung)
� ~ 17,25 Mio. EUR Gesamtkosten
(~ 50% Einsparung)
Lösungsoption II: Mustererkennung
Lösungsoption II: Musterwiederholungen beiperiodischen Werken
Lösungsoption II: Ermittlung eines Fingerprints
Lösungsoption II: Technische Parameter zurErmittlung des Fingerprints
o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen.
o Objektgröße
o Erosion/Dilation
o Position
o Objektanzahl(min/max)
o 11 Mio. Kombinationen(50 x 15 x 250 x 600)
o ~ 1 Seite/Sekunde pro Core
Einsatz in der Projekt-Praxis: AutomatischeSegmentierung eines Jahrgangs
Einsatz in der Projekt-Praxis: Qualitätssicherung dersegmentierten Jahrgänge
Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe
Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe II
Kosten der Lösungsoption II:
Einsatz von Mustererkennung
o ~ ? EUR Entwicklungs-/Lizenzkosten
o ~ ? EUR Verarbeitungskosten
o ~ 3,5 Mio. EUR Personalkosten (90%
Effizienzsteigerung)
� ~ ? Mio. EUR Gesamtkosten
(> 75% Einsparung)
TEIL IV
Ausblick
Ausblick I: Vertiefte Erschließung von Rubriken,
Artikeln, Einzelseiten
Ausblick II: Nutzung von OCR / Vertiefte
Volltextrecherche (im DFG-Viewer)
Ausblick III: Persistente Adressierung
von Artikeln
Ausblick III: Persistente Adressierung
von Einzelseiten
top related