die erstellung von handschriften-editionen mit transkribus · 2016-12-01 · truth”...
TRANSCRIPT
Die Erstellung von Handschriften-Editionen mit
TRANSKRIBUS
Barbara Denicolò
Universität Innsbruck
DEA (Digitalisierung u. Elektronische Archivierung)
Editionen heute
• Editionen als “Kerngeschäft” von Historikern undPhilologen
•Massendigitalisierung als neue Aufgabe von Bibliothekenund Archiven
•Der “digital turn” in den Geisteswissenschaften wirdebenfalls durch “digitale Editionen” eingeläutet• Patrick Sahle: “Digitale Editionsformen” (3 Bde.)• Catalogue of Scholarly Digital Editions: mehr als 300 digitale
Editionen• Magazin für digitale Editionswissenschaften (Erlangen, seit 2015)• Ride - A review journal for digital editions and resources (Köln,
seit 2014)
Konkrete Hürden
•Wie bearbeite ich diese Fülle an Material?
•Riesige Speichermengen
•Können mehrere Personen gleichzeitig arbeiten?
•Wie bringe ich ihre Arbeitsleistung zusammen?
•Welches Format, welche etablierten Codierungenverwenden (Nachhaltigkeit)?
•Wie umgehen mit Worttrennungen, Streichungen,Einfügungen, Marginalien?
•Was tun mit Abkürzungen?
Konkrete Hürden
•Wie kann ich sog. “Named Entities” (Namen vonPersonen, Völkern, geographischen Orten) undFachtermini markieren?
•Wie gehe ich mit unterschiedlichen Schreibweisenvon Eigennamen um? (Normalisierung)
•Wie präsentiere ich das Material? Digital odergedruckt?
•Gibt es eine Suchfunktion?
•…
Eine Lösung?
• Software • Forschungsplattform (Research Infrastructure)
Ausgangslage
• “Neural Networks are taking over.” (Ray Smith,Google)
Ausgangslage
•Archive beginnen damit, ihre Bestände zudigitalisieren.
• Viel Potenzial für Neuentdeckungen und neueForschungsfragen
Ausgangslage
• “Digital Humanities are (big) data driven.” (GünterMühlberger)
Ausgangslage
•Freiwillige aus der breiten Öffentlichkeit möchtensich an wissenschaftlichen Projekten und an derErhaltung von Kulturerbe beteiligen.
GEISTES-WISSEN-
SCHAFTLER
ARCHIVE - BIBLIOTHEKEN
COMPUTER-WISSEN-
SCHAFTLER&
FIRMEN
ÖFFENTLICHKEIT„EHRENAMTLICHE“
TRANS-KRIBUS
Stellen Images und Metadaten
bereit
DOKUMENTE IN DER CLOUD
Arbeiten mitden Dokumenten
ExportierenTEI, PDF, etc.
EXPERTEN & LAIEN
INTERFACES
Verbesserte Algorithmen &
Tools
Erhalten Referenz-daten
HTR, DIA KWS, NLP,
AWI, HPC …
Profitiert von erweiterten Suchmöglichkeiten
WEBSEITE
Arbeitet mit (Crowd-Sourcing)
Angereicherte Digitale Objekte
READ (2016-2019)
•Recognition and Enrichment of Archival Documents• EU-Call: Virtual Research Environments
• Universität Innsbruck (Koordination), 14 Partner, darunter Universitätenaus Valencia, Wien, Rostock, Leipzig, London, Lausanne, das Xerox European Research Centre und vier Archive
• Über 20 MoU Partner (National- und Unibibliotheken, Staatsarchive usw.)
• 8,2 Mill. EUR Förderung (Horizon 2020 e-infrastructure)
• Ziel• Forschungsinfrastruktur schaffen, die einerseits
Grundlagenforschung in den Computerwissenschaftenbefördert, andererseits für Archive, Bibliotheken, Geisteswissenschaftler und die Öffentlichkeit die Technologienutzbar macht.
Homepage http://read.transkribus.eu/
Transkribus
Der Wolpertinger
• Hybrides Wesen aus verschiedenen Tieren
• Mit vielen verschiedenen Fähigkeiten
• wandelbar
TRANSKRIBUS
=
Plattform + Programm
(expert client)
(Webinterface)
Das Programm
•Installieren
•Importieren (Dokumente)
•Transkribieren, Formatieren, Markieren
•Trainieren (automatische Texterkennung HTR)
•Exportieren (Verwertung, Weiternutzung)
1. Installieren
Registrierung und Download auf: https://transkribus.eu/Transkribus/
2. Importieren
Dokumente und Dateien in Transkribus
•Privat (geschützt)
• Lokal
•Remote (Zentralserver, Cloud)
•Uploadmöglichkeiten• HTTP• PDF• FTP• METS Link• Direkt aus Repositorien
2. Importieren
2. Importieren
2. Importieren
• Direkt aus Repositorien/Datenbanken (Archive, Bibthekenusw.)
=> mit nur EINEM KLICK!
• über Goobi Viewer by Intranda
• „Quellen- bzw. Datenshopping“
• Import unterschiedlicher Dokumente aus versch.Repositorien/Datenbanken in die persönliche Transkribus-Collection
• DFG-Viewer
• METS-Format
2. Importieren
Automatisierte Übernahme
3. Transkribieren
•Ziel = wissenschaftliche Transkription
• Zuverlässig, sicher, standardisiert und maschinell lesbar
•Trainingsdaten für die HTR-Software
• 30-50 Seiten (mit ausreichend Text)
Segmentieren
Segmentieren
Transkribieren
Formatieren
Markieren (Tagging)
4. Training
Fertig?
..schreiben Sie uns eine Mail!
Dann führen wir für Sie den Trainingsprozess durch, und Sie können Ihre weiteren Seiten automatisch transkribieren lassen. Sie müssen nur mehr korrigieren und taggen.
HTR-Funktion
HTR = Handwritten Textrecognition
Was tun?
…mit dem automatisch gelesenen Text?
• Fehlerraten ermitteln und vergleichen
• Text korrigieren, formatieren und markieren
• Volltextsuche durchführen
• Dritte zum Transkribieren und Mitarbeiten einladen(Crowdsourcing-Projekte)
Fehlerquote
Fehlerquote
• Character Error Rates:
• > 20% Korrektur dauert gleich lang wie händische Transkription, Personenmit Schwierigkeiten können aber profitieren.
• = 10% Korrektur schneller, erfahrene Personen transkribieren lieber selbst.
• < 10% Korrektur viel schneller, auch geübte LeserInnen ziehen das Korrigieren dem Transkribieren vor.
• Durschnittliche Fehlerquote bei 10% CER
• Unter experimentellen Bedingungen bereits deutlich niedrigere Wertemöglich
Beispiel
Hs 115, fol. 116v, Stadtarchiv Bozen HTR-Output aus den „Bozner Ratsprotokollen“ (1792)
Solle nach dem Vortrag des H:.
Referenten mit Beÿlegung
des von den erwähntnPartheÿn
eingestellten Erklärens dem
löbl. Kreisamt Bericht erstattet,
und der Ausweis über den wird neüer-
lichnNachtrag der rekticfizirten
Kriegssteuer pr179 f 1 XrtnRF
unter einem angeschlossen werden
welches am 19 tnd. M. hatlautkreisämtl.
quittungauch wirklich geschehen ist.
5. Exportieren (Nutzung)
•Durchsuchen
•Exportieren in versch. Formaten
•Vernetzen
•Digitale Editionen erstellen
Volltextsuche
•Suche beschränkt sich auf jene Collections, auf dieSie Zugriff haben
• => alle anderen sind geschützt.
•Facettierte Suche
•Verschiedene Suchoptionen: Tags, Namen, Orte,Unklare Stellen usw.
Volltextsuche
•Durchsuchen
•Exportieren in versch. Formaten
•Vernetzen
•Digitale Editionen erstellen
Volltextsuche
Volltextsuche
ExportierenMögliche Formate:• XML (PAGE)
• METS (Metadata Encoding and Transmission Standard –LoC)
• ALTO (Analyzed Layout and Text Object – LoC)
• DOCX
• TEI (Text Encoding Initiative)
• Excel
•…
Vernetzen
Teilen Sie Ihre Dokumente
mit Ihren KollegInnen, Arbeitsgruppen, Studierenden und freiwilligen MitarbeiterInnen…
Vernetzen
Digitale Editionen
Digitale Editionen
Jane Austen‘s Fiction Manuscripts
Korrespondenz A. W. Schlegel
Workflow – Dokumente für HTR vorbereiten
Transkribus-
Account
anlegen
Transkribus
herunterladen
Betreffende Dokumente in
Collection hochladen
Mind. 30 Seiten “ground
truth” Trainings-daten:
1. Segmentieren
2. Transkribieren
Das Transkribus-Team
ein HTR-Modell für die
eigenen Daten erstellen
lassen
Mit diesem Modell die
restlichen Seiten des
Dokuments
transkribieren lassen
HTR-Ergebnisse
korrigieren
Transkriptionen
exportieren (PDF, XML,
TEI, RTF etc.)
Praxisbeispiel
Crowdsourcingprojekt “Bozner Ratsprotokolletranskribiert“
•Zusammenarbeit mit dem Stadtarchiv Bozen (Bohisto)
•Freiwillige bearbeiten über Transkribus die Ratsprotokolle
• Training der HTR (READ)
•Digitale Datenbank im Sinne der Escher-Edition (Bohisto)
Coming soon…
•Table editor (Tabellen und Verzeichnisse)
•eLearning Interface
•Web-interface zur einfachen Transkription(crowd-sourcing)
•Text2Image matching tool
•ScanApp
Table Editor
eLearning Interface
Individuelles Übungs-/Lernmaterial
Selbstevaluierung durch Fehlerzählung (Statistik)
Web-Interface
Leicht zu bedienen, über eine Website zugänglich
Besonders geeignet für Crowdsourcing-Projekte
Line-by-line Transkription
Txt2img Tool
“Text to Image”-Tool:
Vorhandene Transkriptionen/Editionen(Print/digital) • für Training nutzen• in das Programm aufnehmen, mit Scan
verbinden und weiter bearbeiten.
ScanApp
Scannen/fotografieren viaSmartphone oder Tablet
Bilder gehen direkt in dieprivate Collection
Archive profitieren
Interesse…?
•Transkribus und alle weiteren Services sindkostenlos (Open Source/Access)
•Wir unterstützen Sie gerne bei der Erstellung von Testprojekten
•Und mit einem “Memorandum of Understanding” sind Sie mit im Boot.
•Kontaktieren Sie uns einfach!
Credits
Hubert Alisade Hilde Boe Laurant Bolli Max Bryan Elaine CharwatVincent Christlein Sebastian Colutto Hervé Déjean BarbaraDenicolo Markus Diem Felix Dietrich Reko Etelävuori Stefan FielBasilis Gatos Beat Gnädinger Tobias Grüning Vili HaukkovaaraGerhard Heyer Tobias Hodel Frederic Kaplan Maria Kallio IstvanKecskemeti Florian Kleber Roger Labahn Eva Lang Sören LaubeGundram Leifert Georgios Louloudis Philip Kahle Rory McNichollJean-Luc Meunier Johannes Michael Hannes Obermair MoisesPastor Nathanael Philipp Hannelore Putz George Retsinas VeronicaRomero Joan Andreu Sanchez Robert Sablatnig Christian SieberGiorgos Sfikas Philip Schofield Louise Seaward NikolaosStamatopolous Tobias Strauss Melissa Terras Alejandro HectorToselli Enrique Vidal Mauricio Villegas Max Weidemann WelfWustlich Herbert Wurster and many, many more!
Vielen Dank für Ihre Aufmerksamkeit!
•Für weitere Informationen
• http://read.transkribus.eu/
• http://transkribus.eu/
• http://transkribus.eu/wiki/
This project has received funding from the European Union’sHorizon 2020 research and innovation programme undergrant agreement No 674943.