Sasaki – Webtechcon 2011
Warum Metadaten? Ein Plädoyer und mehr …
Felix Sasaki DFKI / FH Potsdam [email protected]
1
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
2
Sasaki – Webtechcon 2011
Warum Metadaten?
3
Sasaki – Webtechcon 2011
Warum Metadaten? (1)
4
Nicht überall hineinschauen
müssen
Sasaki – Webtechcon 2011
Warum Metadaten? (2)
5
Nicht überall hineinschauen
können
...
Sasaki – Webtechcon 2011
Warum Metadaten? (3)
6
Prozesse steuern
Wo soll ich hin?
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
7
Sasaki – Webtechcon 2011
Bibliotheken: Ursprung von Metadaten
8
Sasaki – Webtechcon 2011
Bibliotheken: Ursprung von Metadaten
9
Sasaki – Webtechcon 2011
Bibliotheken: Ursprung von Metadaten
10
Sasaki – Webtechcon 2011
Metadaten: nicht überall hereinschauen können
11
?
Sasaki – Webtechcon 2011
Metadaten: Standardisierung hil_
12
Bibliotheks-‐klassifikabon
Sasaki – Webtechcon 2011
Standardisierung hil_?
13
Dewey Decimal Classificabon
Library of Congress Classificabon Nippon Decimal Classificabon
Chinese Library Classificabon
Universal Decimal Classificabon
Regensburger Verbundklassifikabon Basisklassifikabon
…
Sasaki – Webtechcon 2011
Man muss wissen wo(für)
14
Dewey Decimal Classificabon
Library of Congress Classificabon Nippon Decimal Classificabon
Chinese Library Classificabon
Universal Decimal Classificabon
Regensburger Verbundklassifikabon Basisklassifikabon
… Geeignet je nach Region, Sprache, wissenscha_lich vs. allgemein, Fachgebiet, ...
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
15
Sasaki – Webtechcon 2011
Metadaten im Web – überall!
16
Sasaki – Webtechcon 2011 17
Von hkp://www.w3.org/TR/webarch/
Sasaki – Webtechcon 2011 18
Idenbfikatoren
Von hkp://www.w3.org/TR/webarch/
Sasaki – Webtechcon 2011 19
Idenbfikatoren
HTTP Header
Von hkp://www.w3.org/TR/webarch/
Sasaki – Webtechcon 2011 20
Idenbfikatoren
HTTP Header
Doctype
Von hkp://www.w3.org/TR/webarch/
Sasaki – Webtechcon 2011 21
Idenbfikatoren
HTTP Header
Doctype
Im Inhalt
Von hkp://www.w3.org/TR/webarch/
Sasaki – Webtechcon 2011
Metadaten im Inhalt – für ausgewählte Zielgruppen
22
<span xml:lang="zh-‐CN">[雪 zh-‐CN]</span> <span xml:lang="ja">[ 雪 ja]</span> <span xml:lang="ko">[ 雪 ko]</span>
Sprachtags zur Glyphauswahl
Sasaki – Webtechcon 2011
Metadaten im Inhalt – für ausgewählte Zielgruppen
23
WAI-‐ARIA für Accessibility
Sasaki – Webtechcon 2011
Metadaten im Inhalt – für jeden das Passende
• Metadaten und CSS – was ist der Unterschied? • Keiner – nur (potenbell) unterschiedliche Zielgruppen
• Metadaten = „Styling für besondere Zwecke“
24
Sasaki – Webtechcon 2011
Metadaten für Webdeveloper – Warum: Bringt Nutzen
• Idenbfikatoren: Verlinke mich! • HTTP Header: Finde mich! • Doctype: Wähle die richbge Engine! • Sprachtags: Wähle passendes Layout! • WAI-‐ARIA: Mache mich zugänglich!
25
Sasaki – Webtechcon 2011
Zwischenfazit: Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten – Metadatenkonsumenten – Tools die beide unterstützen – Tolle (= besser als bisher) Anwendungen
26
Sasaki – Webtechcon 2011
Zwischenfazit: Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten – Metadatenkonsumenten – Tools die beide unterstützen – Tolle (= besser als bisher) Anwendungen
27
Triw zu für Dosenproduzenten, Bibliotheken und das Web ...
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
28
Sasaki – Webtechcon 2011
Metadaten und Web Search: zunächst ein trauriges Kapitel ...
29
Metadaten rausschmeißen
Volltext-‐index
Suchanfrage
Sasaki – Webtechcon 2011
Was wird rausgeschmissen
• Sprachinformabon ("xml:lang") • "meta" tags – keywords – subject – language, – copyright, – date, ...
30
Sasaki – Webtechcon 2011
Eine (Miss?)erfolgsstory: Webverzeichnisse
• = (Bibliotheks)katalog des Web – Beispiel „Open Directory Project“
• Kribk – Hierarchische Struktur – das (soziale) Netz ist ein Graph!
– Wem gehört das? – Wer trägt bei?
• Dieses Jahr geschlossen: „Google Directory“
31
Sasaki – Webtechcon 2011
Metadaten unverzichtbar: Mulbmedia
32
Sasaki – Webtechcon 2011
Mulbmedia: Ein Wald von Metadaten-‐Formaten
33
XMP
Dublin Core
ID3
EXIF
YouTube
CableLabs Flash
MP4
...
Sasaki – Webtechcon 2011
W3C „Ontology for Media Resources“: Mapping macht das Leben leichter
34
Sasaki – Webtechcon 2011
W3C „Ontology for Media Resources“: Mapping macht das Leben leichter
35
Mapping Definibon: hkp://www.w3.org/TR/mediaont-‐10/ API zur übergreifenden Abfrage: hkp://www.w3.org/TR/mediaont-‐api-‐1.0/
Sasaki – Webtechcon 2011
Web Search ohne Metadaten: Suche nach „Bank“
36
Sasaki – Webtechcon 2011
Zwischenfazit (Wdh.): Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten – Metadatenkonsumenten – Tools die beide unterstützen – Tolle (= besser als bisher) Anwendungen
37
Sasaki – Webtechcon 2011
Zwischenfazit (Wdh.): Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten: Webdeveloper, CMS (z.B. Drupal)
– Metadatenkonsumenten: Suchmaschinen – Tools die beide unterstützen: Rich Snippets Tesbng Tool
– Tolle (= besser als bisher) Anwendungen: Die „richbge“ Bank finden
38
Sasaki – Webtechcon 2011
schema.org
• Vokabular von Metadaten • Von Bing, Google, Yahoo! „verstanden“ • Kann das „Bank“ Problem lösen
39
Sasaki – Webtechcon 2011
schema.org
40
Sasaki – Webtechcon 2011
schema.org: häufige Typen • Creabve works: CreabveWork, Book, Movie, MusicRecording, Recipe, TVSeries ...
• Embedded non-‐text objects: AudioObject, ImageObject, VideoObject
• Event • Organizabon • Person • Place, LocalBusiness, Restaurant ... • Product, Offer, AggregateOffer • Review, AggregateRabng
41
Sasaki – Webtechcon 2011
schema.org
42
Ein Vokabular
Schreibweise RDFa
Schreibweise Microdata
Sasaki – Webtechcon 2011
schema.org
43
Ein Vokabular
Schreibweise RDFa
Schreibweise Microdata
Brücke zum Semanbc Web
Sasaki – Webtechcon 2011
schema.org
44
Ein Vokabular
Schreibweise RDFa
Schreibweise Microdata
Brücke zum Semanbc Web
Auf schema.org verwendet
Sasaki – Webtechcon 2011
schema.org
45
Ein Vokabular
Schreibweise RDFa
Schreibweise Microdata
Brücke zum Semanbc Web
Auf schema.org verwendet
entscheidend
Sasaki – Webtechcon 2011
schema.org: Vokabulare
46
Bike mit entscheiden!
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
47
Sasaki – Webtechcon 2011
Metadatenlücke in der maschinellen Übersetzung (vgl. wtc 2010)
• Eingabe aus www.postbank.de „Ob Postbank direkt, Online-‐Banking, Online-‐Brokerage oder myBHW. Die häufigsten Fragen zu unseren Transakbonssystemen finden Sie an dieser Stelle.“
• Ausgabe via online MT system “Whether Postbank direct, online banking, online brokerage or myBHW. Frequently asked quesbons about our transacbon systems can be found at this locabon.”
48
Sasaki – Webtechcon 2011
Metadatenlücke in der maschinellen Übersetzung (vgl. wtc 2010)
• Eingabe aus www.postbank.de „Ob Postbank direkt, Online-‐Banking, Online-‐Brokerage oder myBHW. Die häufigsten Fragen zu unseren Transakbonssystemen finden Sie an dieser Stelle.“
• Ausgabe via online MT system “Whether Postbank direct, online banking, online brokerage or myBHW. Frequently asked quesbons about our transacbon systems can be found at this locabon.”
Terminologie wurde fälschlicherweise übersetzt – warum?
49
Sasaki – Webtechcon 2011
Prozess: vom „Deep Web“ zum „Surface Web“
• Eingabe aus dem „Deep Web“: „Ob <term>Postbank direkt</term>, <term>Online-‐Banking</term>, <term>Online-‐Brokerage</term> …“
• Ausgabe im Web: „Ob <em>Postbank direkt</em>, <em>Online-‐Banking</em>, <em>Online-‐Brokerage</em> …“
Terminology (= metadata) …
… ist verloren im Web L
Publikabons-‐ prozess
50
Sasaki – Webtechcon 2011
Zukün_ige W3C Arbeitsgruppe „MLW-‐LT“: Metadatenlücken schließen • DFKI • Trinity College Dublin • Dublin City University • Moravia • Univ. of Econ. Prague • Microso_ • Enlaso
• Insbtut Jozef Stefan • University of Limerick • Cocomore • Linguaserve • VistaTEC • Lucy So_ware • Alchemy So_ware
51
W3C als Ort der Standardisierung
Sasaki – Webtechcon 2011
Zukün_ige W3C Arbeitsgruppe „MLW-‐LT“: Metadatenlücken schließen • DFKI • Trinity College Dublin • Dublin City University • Moravia • Univ. of Econ. Prague • Microso_ • Enlaso
• Insbtut Jozef Stefan • University of Limerick • Cocomore • Linguaserve • VistaTEC • Lucy So_ware • Alchemy So_ware
52
W3C als Ort der Standardisierung
Sasaki – Webtechcon 2011
Zwischenfazit (Wdh.): Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten – Metadatenkonsumenten – Tools die beide unterstützen – Tolle (= besser als bisher) Anwendungen
53
Sasaki – Webtechcon 2011
Zwischenfazit (Wdh.): Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten: Lokalisierungsfirmen, Webdeveloper, CMS Provider, ...
– Metadatenkonsumenten: MT Tools, Lokalisierungsfirmen
– Tools die beide unterstützen: Online MT Tools – Tolle (= besser als bisher) Anwendungen: Bessere Sprachtechnologie
54
Sasaki – Webtechcon 2011
Überblick
• Metadaten: Warum? • Geschichte • Metadaten im Web • Metadaten und Websearch • Metadaten und Sprachtechnologie • Fazit
55
Sasaki – Webtechcon 2011
Fazit = Zwischenfazit: Metadaten setzen sich durch
• Wenn es die richbge Mischung gibt – Metadatenproduzenten – Metadatenkonsumenten – Tools die beide unterstützen – Tolle (= besser als bisher) Anwendungen
56
Sasaki – Webtechcon 2011
Warum Metadaten? Ein Plädoyer und mehr …
Felix Sasaki DFKI / FH Potsdam [email protected]
57