tei philosophische fakultät it-zertifikat datenstandards johanna bächer 09.01.09

Post on 05-Apr-2015

108 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

TEI

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIKonsortium

• „Text Encoding Initiative“ seit 1987 mit Teilnehmern aus Industrie, Bildungsinstitutionen u.v.m., inzwischen TEI-Konsortium

• TEI bezeichnet sowohl das Konsortium, als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten

• TEI P5 Guidelines veröffentlicht 2007

• TEI-Lite -> abgespeckte Version

• mehr unter www.tei-c.org

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIBenutzer

• Benutzer gleich Entwickler: Textwissenschaftler, z.B. Literaturwissenschaftler und Linguisten

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIZweck

• Unabhängig von Betriebssystemen und Anwendungssoftware elektronisch Texte zu kodieren

-> dauerhaftere elektronische Texteditionen

-> Loslösung von proprietären Systemen der Textspeicherung wie MS-Word und auf andere Ziele ausgelegte Standards wie HTML

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIZweck

• „Text als abstrakte Entität [ist das] Produkt und muss in einem portablen Format vorliegen, aus dem sich die möglichen Publikationsformen ohne großen Aufwand generieren lassen“

(http://computerphilologie.uni-muenchen.de/praxis/teiprax.html)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI und SGML

• TEI ist SGML-konform (genau wie HTML) -> verarbeitbar von jeder SGML Software

• TEI besteht wie alle SGML-konformen Systeme aus drei Teilen:

1. Die Deklaration mit Grundeinstellungen (TEI.DCL)

2. Die Document Typ Definition (TEI-DTD, die bei Tei aus mehreren Teilen besteht, die je nach Bedürfnis aktiviert oder deaktiviert werden können

3. Eine oder mehrere Dateiinstanzen, ausgezeichnet entsprechend den Regeln der DTD

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-Guidelines P5

• P1 erschien 1990

• P4 (2002) erste XML-Version der Guidelines

• P5 ist seit 2007 die neueste Version der Guidelines, Anpassung an XML wurde z.B. noch verstärkt, außerdem textinterne Verlinkung, Multimediakompatibilität und Schriftverarbetiung verbessert

• Möglichkeit der Übertragung von P4 zu P5

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIAufbau

• verschiedene Module mit Elementen

• beispielsweise Elemente für Dokumentenstruktur, Auszeichnung von Gedichten und Dramen, Markierung einzelner Zeilen und Seiten, Tabellen, textkritische Anmerkungen, Terminologien, Wörterbücher

-> Strukturelle Teile eines Textes

-> Typographische Elemente

-> andere Textfeatures (wie Orte von Illustrationen)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIAufbau

• Kern von Modulen enthält allgemeine Elemente wie <p/> für Absätze

• Kern kann erweitert werden um weitere Module -> differenzierte Auszeichnung von Textmerkmalen

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIGrundstruktur der Dokumente

• Jedes TEI-Dokument hat einen Kopf <TEIHEADER> und einen Textkörper <TEXT>

• Der Inhalt des Textelements kann vielfach gegliedert werden, bspw. durch <FRONT>, <BODY> und <BACK> für Bücher

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIEin Minimalheader sieht so aus:

<TEIHEADER>

<FILEDESC>

<TITLESTMT>

<TITLE>Titel des Werks: elektronische Edition</TITLE>

<AUTHOR>Autor des Werks</AUTHOR>

<RESPSTMT><RESP>erstellt von</RESP>

<NAME>Name des Editors</NAME>

</RESPSTMT>

</TITLESTMT>

<PUBLICATIONSTMT><PUBLISHER> Vertrieb des Textes durch XXX</PUBLISHER>

</PUBLICATIONSTMT>

<SOURCEDESC>

<BIBL>Bibliographische Angaben zur Vorlage</BIBL>

</SOURCEDESC>

</FILEDESC>

</TEIHEADER>

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIBeispiele für TEI-Elemente

• <P></P> Absatz

• <EMPH></EMPH> Betonung

• <NOTE></NOTE> „Fussnote“, Anmerkung

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEI„customizing“

• Das TEI Schema kann aufgrund seines Umfangs einfacher verwendet werden wenn man es „customized“

• Dazu wird das ODD und das Roma-Tool verwendet

• über das Internet wird in Roma customized und das Ergebnis als ODD-Datei abgespeichert

• TEI Lite ist beispielsweise so eine customization

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIODD - „One Document Does It All“

• Quellformat in Metasprache in dem die TEI geschrieben ist

• enthält Fragmente des Schemas, „prose documentation“ und „reference documentation“

• daraus können formale Schemata generiert werden wie DTD oder XML Schema, außerdem die TEI Guidelines

• ODD Spezifikation ist normalesTEI XML Dokument, das das tagdocs Modul verwendet

• mit ODD kann die P5 Version des TEI XML an die eigenen Bedürfnisse angepasst (“customized“) werden

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIRoma-Tool

• webbasierte Anwendung

• ein System von XSLT Stylesheets das ODD-Files manipuliert

• Erstellung P5 kompatibler Schemas und Dokumentationen wie DTD aus einem XML Dokument, das das TEI ODD Markup benutzt

- nötiges Programm um die in einem ODD Markups verwendenden TEI XML Dokument customized TEI in eine DTD oder ein anderes Schema zu kompilieren

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-DTD

• idealerweise so angebeben, dass mehrere Dokumente darauf zugreifen können:

<!DOCTYPE TEI.2 PUBLIC „-//TEI//TEI P3 //EN“>

• PUBLIC legt fest, dass die Zeichenkette „-//...“ die DTD identifiziert

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-DTD

• weiterhin muss in einer Datei namens „catalog“ die >Zuordnung von public identifiern und systemdateien geschehen, z.B.

PUBLIC „-//TEI//TEI P3 //EN“> „c:\tei\dtd\tei2.dtd“

• weil TEI mehrere DTD verwendet, muss zum Element DOCTYPE hinzugefügt werden, welche, z.B.

<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [

<!ENTITY % TEI.prose 'INCLUDE'>

<!ENTITY % TEI.textcrit 'INCLUDE'> ]>

• Diese Ergänzung der DOCTYPE-Angabe ist faktisch eine Ergänzung der DTD

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-Tag Sets

• zwei Klassen: Base Tag Sets und Additional Tag Sets, außerdem Core Tag Set (eh vorhanden, muss nicht ausgewählt werden)

• es kann nur ein Base Tag Set gewählt werden, aber beliebig viele Additional Tag Sets

• die Zusammensetzbarkeit der Tag Sets wurde als Pizza Concept bezeichnet das mit dem Pizza Chef geregelt wurde, heute Roma Tool

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-Tag Sets - Beispiele für Base Tag Sets

• TEI.prose -> Auszeichnung von Prosa

• TEI.verse -> ...von Lyrik

• TEI.drama -> ...von Dramen

• TEI.spoken -> ...von Transkriptionen gesprochener Sprache

• TEI.dictionaries -> ...von Wörterbüchern

• TEI.terminology -> ...von terminologischen Datenbanken

• TEI.mixed -> ...von Texten, die Tags aus mehreren der anderen Kategorien benötigen

• TEI.general -> wie mixed aber nur ein Base Tag set pro Korpuseinheit

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-Tag Sets - Beispiele für Additional Tag Sets

• TEI.linking -> Auszeichnungselemente, um Texte mit Hyperlinks zu verbinden und zu segmentieren

• TEI.textcrit -> ... für textkritischen Apparat

• TEI.transcr -> ... für Transkription von Primärquellen

• TEI.figures -> ... für Grafiken, Illsutrationen, Formeln

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI-Tag Sets - Beispiel

• Verstexte einschließlich einiger Handschriftenproduktionen und eines kritischen Apparats sollen ausgezeichnet und mittels Hyperlink miteinander verbunden werden:

<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [

<!ENTITY % TEI.verse 'INCLUDE'>

<!ENTITY % TEI.textcrit 'INCLUDE'>

<!ENTITY % TEI.transcr 'INCLUDE'>

<!ENTITY % TEI.linking 'INCLUDE'>

<!ENTITY % TEI.figures 'INCLUDE'>

<!ENTITY % isolat1 PUBLIC "ISO 8879-1986//ENTITIES Added Latin 1//EN">

%isolat1; ]>

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI Praxisanwendung...

1. Dokumentenanalyse

2. Digitalisierung

3. Textauszeichnung

4. Publikation

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI Praxisanwendung...

1. Dokumentenanalyse und Auswahl von Tag Sets

• Sichtung des Materials, theoretische Vorentscheidung

-> was ist der Verwendungszweck einer Edition?

-> welche Textmerkmale sollen durch Kodierung erfasst werden?

-> welche sollen dem Benutzer zugänglich sein? Wie?

(Bsp. Kapitel, direkte Rede bei Roman)

• kann unabhängig von TEI geschehen, aber auch mit Hilfe von TEI Handbüchern

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI Praxisanwendung...

2. Digitalisierung

Erstellen elektronischer Bilder, Textgewinnung durch manuelle Eingabe oder Texterkennung

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI Praxisanwendung...

3. Textauszeichnung

Versehen des gewonnen Textes mit den notwendigen Auszeichnungen, um die Elemente in TEI zu kodieren, die aufgrund der Dokumentenanalyse als bewahrenswert gelten

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEITEI Praxisanwendung...

4. Publikation

Anpassung an zur Publikation gewählte Medien (Browser, Buchdruck...)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEI• TEI ist ein defacto standard in „humanities

computing“ Projekten, vor allem zum Austausch von Texten zwischen verschiedenen Projekten und Archiven.

• Fragen?

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEIQuellen

• http://www.tei-c.org

• http://computerphilologie.uni-muenchen.de/praxis/teiprax.html

• http://de.wikipedia.org/wiki/Text_Encoding_Initiative

•http://en.wikipedia.org/wiki/ODD_(One_Document_Does_it_all)

• http://www.tei-c.org/Support/Learn/tutorials.xml

• http://www.tei-c.org/Talks/MITH/index.xml

(alle Internetquellen zuletzt eingesehen am 08.01.09 10:00 cet)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

top related