it-zertifikat: advanced markup & metadata - handout xml

3
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners - 1/3 - IT-Zertifikat: Daten- und Metadatenstandards XML Ein kurzer Überblick XML ist eine Auszeichnungssprache, eine sog. „Markup-Sprache. Wie HTML, so verwendet auch XML Tags zur Auszeichnung von Elementen: <tagname>Information, die durch das Tag „tagname“ ausgezeichnet ist.</tagname> Exkurs „Tags“: Ein Tag ist durch spitze Klammern gekennzeichnet; unterschieden wird zwischen öffnenden Tags, z.B. <tagname> und schließenden Tags, z.B. </tagname>, charakterisiert durch den Schrägstrich („/“). Zu jedem öffnenden Tag muss ein schließendes Tag vorhanden sein. Leere Tags (<beispieltag> </beispieltag>) lassen sich abkürzen mit <beispieltag />. XML ist deutlich allgemeiner als HTML: XML ist eine Auszeichnungssprache, die dazu dient, beliebige Markupsprachen zu definieren. So lässt sich mit XML die Markupsprache HTML definieren (vgl. XHTML als XML-basierte Version von HTML). Mit Hilfe von XML ist es möglich, die Struktur, den Inhalt und die Darstellung eines Dokuments streng zu trennen und entsprechend dann auch unabhängig voneinander zu be- und verarbeiten. Während die Tags in HTML in erster Linie festlegen, in welcher Form Inhalte in einem entsprechenden Medium ausgegeben werden sollen, wird mit XML versucht, die Bedeutung von Daten so festzuhalten, dass nicht nur Menschen, sondern auch Maschinen damit etwas anfangen können. Das erlaubt zum einen eine Prüfung der Gültigkeit von Dokumenten, ist zugleich aber auch die Basis für erweiterte Formen der Gestaltung und der Verknüpfung von Dokumenten. 1 Übersicht über die Sprachfamilie XML 2 Ausgewählte XML-Anwendungen: XHTML WML SMIL SOAP Programmierschnittstellen: DOM SAX Co-Standards: XSL / XSLT XPath Xpointer Xlink Kern-Standards: XML-Infoset XML 1.0 Namensräume XML-Schema 1 Vonhoegen, H.: Einstieg in XML: Aktuelle Standards: XML Schema, XSL, XLink. Bonn: Galileo Computing, 2009. S. 30. 2 Vgl.: ebenda, S.33.

Upload: jan-wieners

Post on 17-Jul-2015

478 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: IT-Zertifikat: Advanced Markup & Metadata - Handout XML

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners

- 1/3 -

IT-Zertifikat: Daten- und Metadatenstandards

XML – Ein kurzer Überblick

XML ist eine Auszeichnungssprache, eine sog. „Markup“-Sprache. Wie HTML, so verwendet auch

XML Tags zur Auszeichnung von Elementen:

<tagname>Information, die durch das Tag „tagname“ ausgezeichnet

ist.</tagname>

Exkurs „Tags“: Ein Tag ist durch spitze Klammern gekennzeichnet; unterschieden wird zwischen

öffnenden Tags, z.B. <tagname> und schließenden Tags, z.B. </tagname>, charakterisiert durch den

Schrägstrich („/“). Zu jedem öffnenden Tag muss ein schließendes Tag vorhanden sein.

Leere Tags (<beispieltag> </beispieltag>) lassen sich abkürzen mit <beispieltag />.

XML ist deutlich allgemeiner als HTML: XML ist eine Auszeichnungssprache, die dazu dient,

beliebige Markupsprachen zu definieren. So lässt sich mit XML die Markupsprache HTML

definieren (vgl. XHTML als XML-basierte Version von HTML).

„Mit Hilfe von XML ist es möglich, die Struktur, den Inhalt und die Darstellung eines Dokuments

streng zu trennen und entsprechend dann auch unabhängig voneinander zu be- und verarbeiten.

Während die Tags in HTML in erster Linie festlegen, in welcher Form Inhalte in einem

entsprechenden Medium ausgegeben werden sollen, wird mit XML versucht, die Bedeutung von

Daten so festzuhalten, dass nicht nur Menschen, sondern auch Maschinen damit etwas anfangen

können. Das erlaubt zum einen eine Prüfung der Gültigkeit von Dokumenten, ist zugleich aber auch

die Basis für erweiterte Formen der Gestaltung und der Verknüpfung von Dokumenten.“1

Übersicht über die Sprachfamilie XML2

Ausgewählte XML-Anwendungen:

XHTML WML SMIL SOAP

Programmierschnittstellen:

DOM SAX

Co-Standards:

XSL / XSLT XPath Xpointer Xlink

Kern-Standards:

XML-Infoset XML 1.0 Namensräume XML-Schema

1 Vonhoegen, H.: Einstieg in XML: Aktuelle Standards: XML Schema, XSL, XLink. Bonn: Galileo Computing, 2009. S. 30. 2 Vgl.: ebenda, S.33.

Page 2: IT-Zertifikat: Advanced Markup & Metadata - Handout XML

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners

- 2/3 -

XML (eXtensible Markup Language) in 10 Punkten (http://www.w3.org/XML/1999/XML-in-10-points.html)

1. XML bietet eine Methode, um Daten zu strukturieren und mittels einer Textdatei abzubilden 2. XML ähnelt HTML ein wenig 3. XML wird von Maschinen gelesen, ist aber dem Menschen verständlich 4. XML umfasst eine ganze Familie von Technologien 5. XML ist wortreich 6. XML ist relativ neu, hat aber bedeutende Wurzeln 7. XML führt HTML nach XHTML 8. XML bietet die Möglichkeit, Modularität zu implementieren 9. XML bietet die Grundlage für RDF (Resource Description Framework) und das Semantic

Web 10. XML ist lizenzfrei, plattformunabhängig und wird breit unterstützt

(Grund)Aufbau eines XML-Dokumentes

XML-Deklaration: XML-Dokumente beginnen (üblicherweise) mit einer einleitenden XML-

Deklaration, die das Dokument als XML-Dokument kennzeichnet (xml), der Versionsnummer

(version=“1.0“) des verwendeten XML-Standards und der Angabe des Kodierungsformates zur

Festlegung der Zeichenkodierung (encoding=“utf-8“):

<?xml version=“1.0“ encoding=“utf-8“ ?>

Mit der vorangehenden Zeile wird die Übereinstimmung des XML-Dokumentes mit der (derzeit) gültigen

Spezifikation von XML deklariert.

Anforderungen an XML-Dokumente

XML-Dokumente müssen wohlgeformt (well-formed) sein, d.h. sie müssen den Regeln der XML-Syntax

genügen (Auszug aus den Syntax-Regeln):

Es existiert ein – und nur ein – Wurzelelement(!)

<emailadressen>

<adresse1>[email protected]</adresse1>

<adresse2>[email protected]</adresse2>

</emailadressen>

Jedes Element muss ein Start- und ein Endtag besitzen

<beispiel> Element mit Kindelementen

<element1>Irgendein Textinhalt</element1>

<element2></element2>

<element3/>

</beispiel>

Falsch:

<beispiel> Element

<element1> Text

</beispiel>

Page 3: IT-Zertifikat: Advanced Markup & Metadata - Handout XML

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners

- 3/3 -

Bitte beachten: Der Elementtypname im Start-Tag und im End-Tag müssen exakt übereinstimmen. Ungültig wäre folgender XML-Code:

<titel> Ein Titel </TITEL>

Elemente dürfen geschachtelt sein, sich aber nicht überlappen

<strong><em> Beispielinhalt </strong></em> Falsch

<strong><em> Beispielinhalt </em></strong> Richtig

Es muss genau ein Wurzelelement existieren:

<wurzelelement>

<element1>Irgendein Textinhalt</element1>

</wurzelemenent>

Attributwerte müssen in Anführungszeichen stehen:

<element1 attributwert=500>Textinhalt</element1> Falsch

<element1 attributwert=“500“>Textinhalt</element1> Richtig

<name vorname=“Francis“ vorname=“Scott“ nachname=“Fitzgerald“/> Falsch

<name vorname=“Francis Scott“ nachname=“Fitzgerald“/> Richtig

Regeln für die Namensgebung

Ein Elementname muss mit einem Buchstaben oder mit Unterstrich oder Doppelpunkt beginnen.

„xml“ darf nicht am Beginn eines Namens stehen.

Die Länge der Namen ist nicht begrenzt – kürzere Namen erhöhen jedoch mitunter die Lesbarkeit.

XML-Namen sind fallsensitiv. <Name> … </name> ist nicht zulässig. XML: wohlgeformt vs. gültig XML-Dokumente können gültig sein. Gültige (valide) Dokumente müssen strengeren Anforderungen bzgl.

Ihrer Struktur genügen. Diese Struktur kann entweder in einer DTD (Document Type Definition) oder in einer

XML Schema-Datei beschrieben werden.

XML-Schema ist eine XML-Anwendung und nutzt die bekannte XML-Syntax.

Elemente vs. Attribute

Mit Hilfe von Attributen lassen sich Zusatzinformationen zur Information repräsentieren, die das Element

enthält. Notiert werden Attribute im öffnenden Tag nach der folgenden Syntax:

<kontakt name=“Jan Wieners“ email=“[email protected]“ />

Häufig sind Elemente den Attributen vorzuziehen, da Attribute keine Schachtelung zulassen und der Inhalt

von Elementen über Programmierschnittstellen („API“s wie SAX / DOM) leichter zugänglich ist.

Kommentare

Kommentare lassen sich in XML über die Zeichenfolge „<!--„ bzw. „-->“ einbetten:

<!--

Dieser Text wird nicht angezeigt

-->