Download - Fit für die digitale Bibliothek? (2007)
![Page 1: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/1.jpg)
Fit für die digitale Bibliothek?
Digitalisierungsprojekte zukunftssicher gestalten:Planung und Durchführung
Dipl. Sozw. Ralf StockmannNiedersächsische Staats- und Universitätsbibliothek Göttingen
![Page 2: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/2.jpg)
Fit – wofür?
• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer
![Page 3: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/3.jpg)
Das Göttinger Digitalisierungszentrum
• Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB)
• seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG)
• Nationales und Internationales Service- und Kompetenzzentrum
• Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich
• Standardisierungsaktivitäten• Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen
Seiten online bereitgestellt• Konzeption, Beratung und Durchführung von Projekten
(häufig kooperativ)• Zielsetzung: Masse UND Klasse
![Page 4: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/4.jpg)
Ablauf eines Digitalisierungsprojektes1. Zielsetzung
2. Auswahl des Materials
3. Benchmarking / Standards
4. Produktionsorganisation / Logistik
5. Arbeitsvorbereitungen (AV)
6. Digitalisierung
7. Qualitätskontrolle (QK)
8. Bildoptimierung / Verarbeitung
9. OCR / Volltextgenerierung
10. Metadatengenerierung
11. Präsentation / Verwertung
12. Zugang / Evaluation
13. (Langzeit) Archivierung
![Page 5: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/5.jpg)
Management Wheel
![Page 6: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/6.jpg)
Logistiksoftware
• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …
![Page 7: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/7.jpg)
Workflow Orchestrierung
![Page 8: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/8.jpg)
Bearbeitungsstand
![Page 9: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/9.jpg)
Controlling
![Page 10: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/10.jpg)
Laufzeiten
![Page 11: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/11.jpg)
Modulares Open Source Konzept
![Page 12: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/12.jpg)
5. Arbeitsvorbereitung
• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner
![Page 13: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/13.jpg)
6. Digitalisierung
• Scanumfang– Von Buchdeckel zu Buchdeckel– Alle Seiten– Titel + Inhalt– Einzelne Kapitel / Artikel
• Ziel– Auf lokalen Scanrechner– Auf zentralen Scanserver
• On the fly• Nach Digitalisierung• Im Batchbetrieb (über Nacht)
![Page 14: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/14.jpg)
7. Qualitätskontrolle
• Fehlende Seiten
• Doppelte Seiten
• Seitenreihenfolge
• Qualität
• Schmutz
• Werkzeug: Bildviewer (etwa: ACDSee)
• Rückgabe an Scanner / Feedback / selbst korrigieren
![Page 15: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/15.jpg)
8. ImagenachbearbeitungBildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de-speckle und speckle“
Original nach de-speckling nachspeckling
![Page 16: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/16.jpg)
![Page 17: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/17.jpg)
Volltexterfassung
• OCR – „schmutzig“ (unkorrigiert) • OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit
automatischem Fehlerabgleich– Ca.: 1€ pro 1.000 Zeichen
• Problematisch: Fraktur, Handschriften, Inkunablen, …– Warten! Die OCR kann jederzeit nachgeholt
werden…
![Page 18: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/18.jpg)
Finereader Lizenzen
![Page 19: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/19.jpg)
Ausgabevariationen Volltext
• Versteckt: nur für Retrieval– Highlighting der Treffer im Image (Wortkoordinaten benötigt)
• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)
• PDF:– Volltext hinter Image– Volltext vor Image (Auffüllung)
• Ausgabe Volltext– Ohne Formatierung– Mit Formatierung– Schmutzig / bereinigt– Zur Bewertung der Suchgenauigkeit– TEI Format: für Wissenschaftler direkt verwertbar
• Rechtliche Rahmenbedingungen (Subito-Urteil)
![Page 20: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/20.jpg)
![Page 21: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/21.jpg)
![Page 22: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/22.jpg)
![Page 23: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/23.jpg)
Das neue Nutzungsparadigma
Vergangenheit
Projektbezogene WebseitenInstitutionelle Repositorien
Gegenwart
PortaleVerteilte Suche
![Page 24: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/24.jpg)
Zukunft (sehr bald!)
• Dezentrale Web Services– Basierend auf
• Personalisierung• Soziale / Wissenschaftliche Communities• Semantische Netze • Grid Computing (Ende der Ressourcenknappheit)
– Bieten an:• Dynamische, personalisierte Dienste (privates Bücherregal, …)• Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von
Informationen• Collaborative Arbeitsumgebungen• Adressierung kleinster Informationseinheiten
• “Scientific Mashups”– Online / Offline wird verschwinden (ist!)– NASA Portal
![Page 25: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/25.jpg)
Konsequenzen
• Bedeutungswandel– Weniger:
• Eigner / Institution• Niederige Qualität• Abgeschottete “Black Box” Software mit “vanilla” features
– Mehr:• Metadaten• Volltext• Granularität• Hohe Auflösungen• Schnittstellen / Protokolle• Spezialisierte, gekapselte, kombinierbare Werkzeuge
• Beispiel: DFG-Viewer
![Page 26: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/26.jpg)
DFG Viewer (Alpha)
![Page 27: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/27.jpg)
Benötigte Schnittstellen
• OAI Harvesting
• Eines der definierten Metadaten-Profile– ZVDD– MuseumDAT– EAI
• Adressierbarkeit einzelner Images
• Sinnvoll aber freiwillig:– RSS-Feed (Neu hinzugekommene Werke, demnächst über
personalisierte Nutzersuchen)– Open URL– TEI
• Sehr klare Standardisierungstendenzen
![Page 28: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/28.jpg)
9. Metadaten
• Bibliographische Metadaten (Mindeststandard)– Verbindung mit dem Verbundkatalog (PICA/GBV)
und dem OPAC
• Technische Metadaten
• Datenbanken (z.B. Wörterbücher)
• Klassifizierungen (z.B. Dewey)
• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
![Page 29: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/29.jpg)
Warum Strukturdaten?
Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
![Page 30: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/30.jpg)
Strukturdaten Pro / Contra
• Pro– Bessere Bedienung
• Navigation im PDF• Digitales Inhaltsverzeichnis auf Webseite
– Exaktere Suche• Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext
unter)• Verlässlich
– Erweiterte Dienste• Download einzelner Kapitel als PDF• Zusammenbinden neuer „digitaler Bücher“ mit Print on
Demand
• Contra– Produktion zeitaufwändig (30-50 Minuten pro Band)– Teilweise subsumierbar durch OCR-Volltext
![Page 31: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/31.jpg)
Das METS Dokumentenmodell
• Logische Struktur– Monographie / Kapitel / Artikel etc.
• Physische Struktur– Seiten, Spalten
• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)
• Vorteile:– Alles in 1 Datei (XML)– Komplette Dokumentlogik ist „aus sich heraus“ verstehbar– Import/Export
• Nachteil: bisher aufwendige Implementierung
![Page 32: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/32.jpg)
Goobi METS Editor
![Page 33: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/33.jpg)
Integrierter Bildbetrachter
(AJAX)OCR integration
![Page 34: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/34.jpg)
10. Präsentation / Verwertung
• Online-Präsentation– Seitenweise in Browser– Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF)– Eigene Web-Applikation
• British Library• Open Content Aliance
• Offline Nutzung– Intranet (s.o.)– CD / DVD
• Images• Applikation
– FTP
![Page 35: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/35.jpg)
![Page 36: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/36.jpg)
Ausgabe im GDZ
• Rendering „on the fly“ – frei wählbarer Zoomfaktor
• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende
TIFFs• Digitales Inhaltsverzeichnis
![Page 37: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/37.jpg)
11. Zugang / Evaluation
• Gemeinfreies Material– Urheberrecht: vor 1900– Weltweit freier Zugang (open access)
• Geschütztes Material– Beispiel Digizeitschriften:– Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG
Wort)– Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur
Verfügung– Ausschüttung an Verlag und VG
• Technische Umsetzung– IP-Bereiche– Passwort / Nutzername– Konsortien– Backend-Verwaltung– Biling-Service
![Page 38: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/38.jpg)
Zugriffsstatistik
• Counter.org
• Unterteilung nach– Material– Nutzer
• Anonymisiert / personalisiert
• Auswertungsintervall
• Technische Umsetzung– Logfilenalyse (etwa: Apache Webserver)– Integriertes Nutzertracking (Session Cookies)
![Page 39: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/39.jpg)
Schnittstellen
• GDZ-Dokumentenserverserver (incl. OAI)
• OPAC der SUB Göttingen
• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)
• Verbundkataloge
• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)
• EROMM (Digitale Master)
• Deutsche Digitale Bibliothek (DDB)
• European Digital Library (EDL)– November 2008!
![Page 40: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/40.jpg)
Schnittstellen zu Diensten
• Geo-Tagging
• Wikipedia
• Social Bookmarking
• Verwertungsdienste– Print on Demand– OCR Correction on Demand– Digitization on Demand
• Es wird immer einfacher!– API (Application Programming Interface)
• Zentrales Diensteverzeichnis für Digitale Bibliotheken
![Page 41: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/41.jpg)
12. Langzeitarchivierung
• Über welchen Zeitraum reden wir?– 10 Jahre (CD-Rs)– 50 Jahre– 200 Jahre
• Drei Komponenten:– Physikalische Archivierung– Lesegeräte
• NASA
– Formate• PDF, .DOC
![Page 42: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/42.jpg)
JHOVEJSTOR/Harvard Object Validation
EnvironmentKonformitätsvalidierung für:
– AIFF, AIFF-C
– ASCII
– GIF 87a, 89a
– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1
– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2
– JPEG 2000 JP2, JPX
– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized
– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,
LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,
2.2, DNG
– UTF-8
– WAVE, BWF
– XML
http://hul.harvard.edu/jhove/
![Page 43: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/43.jpg)
Der Dornröschenschlaf der Bibliotheken
• Was haben wir in den letzten Jahren erfunden?– Retrodigitalisierung– Langzeitarchivierung
• Was hätten wir erfinden sollen?– eLearning– Google
• Google Maps– Del.icio.us– YouTube– Wikipedia– iPhone
![Page 44: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/44.jpg)
Abwägung
• Nicht das „Grundhandwerk“ vergessen/verlernen
• Zweite Schritt vor dem Ersten Schritt Problematik
• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
![Page 45: Fit für die digitale Bibliothek? (2007)](https://reader038.vdokument.com/reader038/viewer/2022103000/55506968b4c90524138b4644/html5/thumbnails/45.jpg)
Vielen Dank für Ihre Aufmerksamkeit!
Ralf Stockmann
Göttinger Digitalisierungszentrum
www.sub.uni-goettingen.de/GDZ