datenqualität im kontext der deutschen digitalen...

Post on 25-Aug-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Datenqualität im Kontext der Deutschen Digitalen Bibliothek

Session: Datenqualität und Standards

DDBforumBerlin, 04. Juni 2018

Francesca Schulzef.schulze@dnb.de

+49 (0) 69 1525-1763

2

Metadatenstandards sind Voraussetzung für einheitliche Erfassung und Austausch von strukturierten Kulturerbe-Daten

„… if we have standards, then‚ why isthe data so craped at the end?‘“ (Valentine Charles 2015)

4

• Zusammenführen von heterogenen Metadaten massenweise: > 24 Millionen Datensätze zu Kulturobjekten jeglicher Art

unterschiedlicher Herkunft: 369 Einrichtungen aus sechs Kultursparten (Archiv, Bibliothek, Denkmalpflege, Forschungseinrichtung, Mediathek, Museum)

• Metadaten sind … in verschiedenen Anwendungen entstanden

… für unterschiedliche Zielgruppen entstanden

… über verschiedene Workflows an DDB geliefert worden

• Metadatenstandards werden unterschiedlich angewendet Regelwerke: sparten-/domänenspezifisch, hausintern oder gar keine

Austauschformate: 7 Standardformate (Dublin Core, EAD, EDM, ESE, LIDO, MARCXML,

METS/MODS), plus diverse Anwendungsprofile und proprietäre Formate

Kontrollierte Vokabulare: anwendungsspezifisch vs. anwendungs-übergreifend, domänenspezifisch vs. domänenübergreifend, teils gar keine

Herausforderungen der DDB

5

• Allgemeine Kriterien menschen- und maschinenlesbar, vertrauenswürdig, sichtbar/auffindbar,

standardisiert, aussagekräftig, nachnutzbar, konsistent

vgl. Europeana Metadata Quality Task Force Report 2015

• Abhängig von Anforderungen seitens Anwendungen (lokal vs. domänenspezifisch vs. domänenübergreifend)

Nutzer (wissenschaftliche Nutzung vs. „Kulturtourist“)

Zeitfaktor (alt vs. neu)

• Metadaten im anwendungsübergreifenden Kontext Finden – Identifizieren – Explorieren/Navigieren – Zugreifen

vgl. bspw. User Tasks im IFLA Library Reference Model 2017, S. 15

Metadatenqualität

„What metadata quality is and what itmeans is therefore context-dependant.“(Valentine Charles 2015)

7

Explorieren?

„Wenn Sie an eine tolle Sammlung von Kulturerbe denken und Ihre erste Anlaufstelle ein Suchfeld ist, ist das einfach nur tragisch.“ (George Oates 2015)

8

Finden: Freitextsuche

“Should I look under violin or fiddle or both?” (Michael Buckland 2017, S. 92)

9

Finden: kontrollierte Vokabulare

von insgesamt 2.692 Ergebnissen bei Freitextsuche nach „violine“

Informationsverlust: Mangelnde Vollständigkeit durch fehlende Synonymkontrolle

10

Finden: kontrollierte Vokabulare

Informationsballast: Mangelnde Genauigkeit durch fehlende Homonymkontrolle

mit nur 13 Ergebnissen zu Fidel als Musikinstrument

11

Identifizieren: aussagekräftige Titel/Objektnamen

mangelnde Unterscheidbarkeit ähnlicher Objekte

12

Identifizieren: kontextunabhängige Beschreibung

https://www.deutsche-digitale-bibliothek.de/item/LR7HC4TWPMIK23OKRELA7P4YPE3IXSQ5

13

Navigieren: Normdaten

https://www.deutsche-digitale-bibliothek.de/entity/118584588

GND-URI

?

?

14

Rechte

Standort

?

Zugreifen

Direkter Link

https://www.deutsche-digitale-bibliothek.de/item/CFGRZE4FA6VLDQMBMJROO4IAOGLZXUYX

„As the data travels through different channels its quality deteriorates.”(Valentine Charles 2015)

16

Der „lange Weg“ der Metadaten

Erzeugung unterschiedliche

Erschließungspraktiken und Use Cases

Weitergabedurch den

Datengeber

Vorverarbeitungdurch Fachstellen/

Aggregatoren

Aufbereitung/Bearbeitungfür DDB und

andere Anwendungen

einrichtungs-/spartenspezifisch spartenübergreifend kontextabhängig

Erfassungs-/ Verbundsysteme

Internes Datenformat z.B. OAI-DC, EAD(DDB),

ESE, EDM, DDB-LIDO, METS/MODS-Profil,

MARCXML

DDB-LieferformatExportformat

z.B. CSV, XML, OAI-DC, EAD, EDM, ESE, LIDO, METS/MODS,

MARCXML

Export-schnittstellen

DDB-Metadatenformatz.B. EDM RDF/XML

DDB-View (Objektseite)

z.B. FTP, OAI-PMH

DDB-Systemkomponentenz.B. Mapping Library,

DDBDash

DigitalisierungErschließungRegelwerkeVokabulare

Analyse

Validierung

Mapping

Bereinigung

Anreicherung

D

D

B

A

P

I

Analyse

Validierung

Mapping

Bereinigung

Anreicherung

Werkzeugez.B. Data Preparation

Tool, MINT, OpenRefine

Nutzungin verschiedenen

Anwendungen

„All metadata is dirty, but you can do something about it“ (Seth van Hooland and Ruben Verborg 2014)

18

Buckland, Michael (2017): Information and Society. Cambridge, Massachusetts: The MIT Press.

Charles, Valentine (2015): We want better data quality: NOW!. Europeana Foundation. – URL: https://pro.europeana.eu/page/data-quality-etech15-roundtables.

Claire-Dangerfield, Marie; Karlshoven, Lisette (2013-2015): Report and Recommendations from the Task Force on Metadata Quality. Europeana. – URL: https://pro.europeana.eu/post/metadata-quality-task-force-report.

Pekel, Joris (2015): Finden ohne Suche: Ein Interview mit George Oates. – URL: https://www.deutsche-digitale-bibliothek.de/content/ueber-uns/aktuelles/finden-ohne-suche-ein-interview-mit-george-oates.

Riley, Jenn; Becker, Davin (2009-2010): Seeing Standards: A Visualization of the Metadata Universe. –URL: http://jennriley.com/metadatamap/.

Riva, Pat; Le Boeuf, Patrick; Zumer, Maja (August 2017): IFLA Library Reference Model. Hrsg. International Federation of Library Associations and Institutions. – URL: https://www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017_rev201712.pdf.

Van Hooland, Seth; Verborgh, Ruben (2014): Linked Data for Libraries, Archives and Museums. How toclean, link and publish your metadata. London: Facet Publishing.

Quellen

19

Vielen Dank!

Francesca Schulzef.schulze@deutsche-digitale-bibliothek.de

Twitter: https://twitter.com/ddbkultur

http://www.deutsche-digitale-bibliothek.de/

DDBpro: https://pro.deutsche-digitale-bibliothek.de/

Foliensatz: CC-BY 4.0. Das gilt nicht für einzelne Abbildungen.

http://creativecommons.org/licenses/by/4.0/

Facebook: https://twitter.com/ddbkultur

top related