wolfenbüttel, 16.09.05 das projekt dwds: auf dem wege zu einem digitalen wörterbuch der deutschen...

108
Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken – Berlin-Brandenburgische Akademie der Wissenschaften www.dwds.de

Upload: karoline-schlottman

Post on 06-Apr-2015

116 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Wolfenbüttel, 16.09.05

Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache

des 20./21. Jahrhunderts

– Alexander Geyken –Berlin-Brandenburgische Akademie der Wissenschaften

www.dwds.de

Page 2: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Motivation

Page 3: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts.

Gründe (vgl. Hartmut Schmidt (1994,1995)):

- fehlende ‚balancierte‘ Textcorpora

- zu stark einzelwortbezogene Darstellung

- unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz

- Deutschland liegt hinter England und Frankreich zurück

Motivation

Page 4: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

- Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken

- Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer

- Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG-Projekts

Vorbereitungsphase

Page 5: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus]

DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus)

DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung

DWDS: Nutzung computerlexikographischer Methoden

Ziele des DWDS

Page 6: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Einschub – Warum Corpora …

Page 7: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Einschub – Warum Corpora …

Page 8: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Einschub – Warum Corpora …

Page 9: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Einschub – Warum Corpora …

Page 10: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

- Vorbereitungsphase (11/1997 - 02/2000)

- Erstellung der Textgrundlage (20. Jh.)(03/2000 - 06/2004 -> DFG-Projekt)

- Erstellung der Textgrundlage (17.-19. Jh.) -> DFG Projekt Deutsches Textarchiv

- Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002)

Projektphasen

Page 11: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

- Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten?

=> ‚breadth first‘-Strategie bei allen Projektetappen.

1. ‚Industrielle‘ Digitalisierung der Texte2. modulare Erstellung des Wörterbuchs 3. effiziente informatische Unterstützung des

Bearbeitungsprozesses: Textfiltermethoden

Vorgehensweise

Page 12: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

1. Einleitung

2. Das Projekt DWDS: Stand

2.1 Corpuserstellung

2.2 Webpräsenz

2.3 Anwendung Sprachbeobachtung

3. Ausblick: Schritte zu einem Digitalen Wörterbuch

Gliederung

Page 13: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

1. Textauswahl und Copyrightvereinbarung

2. Digitalisierung

3. XML-Konvertierung

4. Qualitätskontrolle

(2.1) Corpuserstellung: Vorgehensweise

Page 14: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

•Belletristik (27%)

•Journalistische Prosa (26%)

•Wissenschaftliche Fachtexte (21%)

•Gebrauchsliteratur (21%)

•Transkriptionen gesprochener Sprache (5%)

Ausgewogenheit der Textauswahl

Page 15: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Textauswahl wird vorgenommen von:

•Akademiemitgliedern der BBAW, Schriftstellern (Belletristik)

• Akademiemitgliedern (Wissenschaft und Journalistische Prosa)

• Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache)

Textauswahl

Page 16: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Literatur

Page 17: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Zeitungen

Page 18: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Wissenschaft

Page 19: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Werbung

Page 20: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Werbung

Page 21: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Flugblätter

Page 22: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Gebrauchsliteratur

Page 23: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Gebrauchsliteratur

Page 24: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

•Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926

•Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927

•Kafka, Franz, Der Process, [1925]

•Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921

•LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928

•Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926

•Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923

Beispiele: Belletristik – 20er Jahre

Page 25: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

•Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980

•Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988

•Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983

•Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983

•Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984

•Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983

•Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987

Beispiele: Belletristik – 80er Jahre

Page 26: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

26

RBB - Textquellen

Page 27: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

• Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags-gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein-Heyne-List-Econ, ZEIT, Zsolnay)

• Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser

Copyrightvereinbarungen

Page 28: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform

Einschränkungen:

• das Werk darf nicht rekonstruierbar sein

• nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75%

• kleine Belegkontexte: Je nach Vereinbarung:

Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter

• keine kommerzielle Nutzung

Copyrightvereinbarungen

Page 29: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

29

Kontextgröße Beispiel

Page 30: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Textgeber (60% des Kerncorpus):

Verlage (s. oben)

Bibliotheken (Staatsbibliothek Berlin)

Archive (Deutsches Rundfunkarchiv)

Textakquise (1)

Page 31: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Eigendigitalisierung (40%)

Manuelle Transkription von

-30.000 Zeitungsartikel (1900-1945),

-250 Monographien (Fraktur).

Transkription: Grepect GmbH (Peking)

Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin

Textakquise (2)

Page 32: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

1. Textauswahl und Copyrightvereinbarung

2. Digitalisierung

3. Qualitätskontrolle

4. Integrierter Workflow und Dokumentenmanagement-System

Corpuserstellung: Vorgehensweise

Page 33: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen

• Double oder Triple-keying

• Genauigkeiten von 99,95%.

OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen

Einschub: OCR oder Abtippen

Page 34: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Berliner Tageblatt vom 18.2.1902

Page 35: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Geclippter Artikel und Datenblatt

<a>Block, Paul</a><t>Das Drama von Springe</t><st>Ein Rückblick auf den Prozeß Falkenhagen</st> <pubdata>1902-02-18</pubdata><journal>Berliner Tageblatt</journal><page>1-2</page>

Page 36: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Text nach Abtippen in China: XML „light“

<a>Block, Paul</a><t><b>Das Drama von Springe.</b></t><st><b>Ein Rückblick auf den Prozeß Falkenhagen.</b></st><p><b>Hannover,</b> 17. Februar.</p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-<lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle<lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu<lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen<lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber<lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-<lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-<lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle<lbr/> 

[...]

<PB NS=2>neugierig nach ihr hin. </p>[...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p>

Page 37: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Konvertierung nach TEI: (1) Die Metadaten

<teiHeader><fileDesc><publicationStmt><publisher id="DWDS-Corpus-Publisher">BBAW - AG Digitales Wörterbuch</publisher><availability n=„OR3S" status="restricted"></availability></publicationStmt><sourceDesc><biblFull><titleStmt><title level="a" type="main">Das Drama von Springe.</title><title level="a" type="sub">Ein Rückblick auf den Prozeß Falkenhagen.</title><author>Block, Paul</author></titleStmt><publicationStmt><publisher id="Rechtsinhaber">Rudolf Mosse</publisher><pubPlace>Berlin</pubPlace><date>19020218</date></publicationStmt><seriesStmt><title level="j">Berliner Tageblatt</title><idno type="Seite">1</idno></seriesStmt></biblFull></sourceDesc></fileDesc>...<profileDesc><textClass><keywords><term n="1">Zeitung</term>

</keywords></textClass></profileDesc></teiHeader>

Page 38: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Konvertierung nach TEI: (2) Der Text

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- <lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle <lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu <lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen <lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber <lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- <lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- <lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <lbr/><PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Page 39: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Problemfälle der OCR/Abtippen – Beispiel 1

Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle

Bedingter Trennstrich oder Bindestrich?

Page 40: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Worttrennungen am Zeilenende

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

Page 41: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

=> Bedingter Trennstrich: Wortbestandteile werden zusammengezogen

Worttrennungen am Zeilenende

Page 42: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

=> Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt

Worttrennungen am Zeilenende

Page 43: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Problemfälle der OCR/Abtippen – Beispiel 2

Sondern ist Weingutsbesitzer und Wein-und Kognakhändler. Seine Kognakmarke ...

Bedingter Trennstrich oder Bindestrich?

=> Lemma: Weinhändler und nicht Weinund!

Page 44: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

Worttrennungen am Zeilenende

Page 45: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

=> Wortbestandteile bleiben erhalten

Worttrennungen am Zeilenende

Page 46: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

=> Wortbestandteile bleiben erhalten=> Zeilenumbruch wird durch 'Leerzeichen' ersetzt

Worttrennungen am Zeilenende

Page 47: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Unbekannte Wörter werden identifiziert und annotiert:

Linguistische Annotierung

<w n="6" c="w.art">die</w>

<w n="7" state="unknown" errC="001">tödtliche</w>

<w n="8" nb="sg" g="f" s=„artef" c="noun">Schlinge</w>

Page 48: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die tödtliche Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Ergebnis nach der linguistischen Aufbereitung

Page 49: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die <w errC=„001" state=„unknown"> tödtliche </w> Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Ergebnis nach der linguistischen Aufbereitung

=> Annotierung unbekannter Wörter

Page 50: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Problemfälle OCR/Abtippen

Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam „per Kopf“ zu erkennen 

-Preis#geh#krön#teen (statt Preisgekrönten)-Weit|geh#hände (statt Weitgehende)-Hoch#bedeut#hände (statt Hochbedeutende)-Zeit#raub#hände (statt Zeitraubende)

-Zeichen#orient#hirt (statt zeichenorientiert)-Lebens#orient#hirte (statt Lebensorientierte)

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Page 51: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

1. Textauswahl

2. Digitalisierung

3. Qualitätskontrolle

4. Integrierter Workflow und Dokumentenmanagement-System

Corpuserstellung: Vorgehensweise

Page 52: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Nach der linguistischen Analyse verbleiben mehrere 100.000 Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter)

Qualitätskontrolle

Page 53: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Digitalisierungsfehler (saben statt sahen)

Namen bzw. Ableitungen:

Geographie: Abessinien, japanesisch

Familiennamen: Moltke, vossische

Veraltete Abkürzungen und Akronyme (lebh . Beif. rechts u. im Zentr.)

Historische Rechtschreibung (diktirt, That)

lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig)

Prüffälle: Klassifizierung einer Stichprobe

Page 54: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

54

Ergebnis: DWDS-Corpus

Kerncorpus: Größe: 100 Millionen Textwörter

- ausgewogen - rechtlich abgesichert - XML/TEI Format- linguistisch voranalysiert

Ergänzungscorpus: Größe: 1 Milliarde Textwörter

Page 55: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Lemmatisierung: Ärzte, Arztes -> Arzt

Disambiguierung von Wortarten:

(1) Er tritt vor die Tür vs. das kommt vor

PräpositionVerbpartikel

(2) Der Strauß Blumen vs. Richard Strauß

NomenEigenname

Automatische Analyse durch einen Part-of-Speech Tagger (s. www.dwds.de)

Automatische linguistische Analyse

Page 56: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Exkurs: Corpora und Größe

Corpus Textwörter verschiedene Wörter

Dürrenmatt (Verdacht) 33.888 6.201

Brown (US, 1969) 1 Million 50.406

Limas (D, 1973) 1 Million 98.138

British Nat. Corp. (1993) 100 Mio. 659.270

DWDS-Kerncorpus (2003) 100 Mio. 2,1 Millionen

DWDS-Ergänzungscorpus (2003)

1 Mrd. ?

Page 57: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

British National Corpus (100 Mio): hinreichend groß?

Unbekannt ist:

• Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]?

• Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition]

Experiment

Page 58: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Vokabularentwicklung-Kerncorpus(L)

0

0,5

1

1,5

2

2,5

0 50 100

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

Page 59: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Vokabularentwicklung-Kerncorpus(L)

0

0,5

1

1,5

2

2,5

0 50 100

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

BNC

Page 60: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Vokabularentwicklung-DWDS (1 Mrd)

8,98

0123456789

10

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

Page 61: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Vokabularentwicklung-DWDS (1 Mrd)

0123456789

10

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n (

in

Mio

)

8,9 Mio

Kerncorp.

Page 62: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

62

Aufarbeitung des Corpus

Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper

Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. www.dwds.de)

Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus.

Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.

Page 63: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

63

AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden.

Umgekehrt würden falsche Zerlegungen zu einem „falschen Alarm“ führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen:

• Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden.

• Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)

Page 64: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

WDG und Corpusy = 5039,6 ln(x)

50000

55000

60000

65000

70000

75000

80000

85000

90000

95000

0 1.000 2.000 3.000 4.000 5.000 6.000 7.000

Corpusgröße (in Mio Textwörtern)

WD

G-S

tic

hw

ört

er

Page 65: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Corpus und Deutsche Städte (IFAG)y = 393,33 ln(x)

0

1.000

2.000

3.000

4.000

5.000

6.000

7.000

0 1000 2000 3000 4000 5000

Corpusgröße (in Mio Textwörtern)

dt.

Stä

dte

u.

Gem

ein

den

Page 66: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

66

(2.2) Webpräsenz – www.dwds.de

Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, 1961-1977)

Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005)

Wortinformationssystem:

- WDG und Corpus

- Automatisch generierte Informationen:

• Synonyme, Ober- und Unterbegriffe

• Kollokationen

Page 67: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

67

Maske - Wortinformation

Page 68: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

68

WDG-Artikel

Page 69: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

69

Quellenverzeichnis

Page 70: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

70

Stichwörter von Thälmann

Page 71: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

71

Stichwort: Schlotbaron

Page 72: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

72

Wortinfo – Syn etc.

Page 73: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

73

Corpus,1

Page 74: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

74

Corpus,2

Page 75: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

75

Corpus,3

Page 76: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

76

Corpus,4

Page 77: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

77

Kollok , 1

Page 78: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

78

Kollok, 2

Page 79: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

i. Verknüpfung Beleg – Wörterbuch

ii. Vernetzung Wörterbuch mit anderen on-line Angeboten

iii. Verknüpfung Beleg – Bild – Volltext

Weitere Web-Anwendungen

Page 80: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

• ZEIT-online Wörterbuchportal

• dict.leo.org (größtes deutsch-englisches on-line Wörterbuch)

• uni-deutsch (BMBF, DAAD)

etwa 40.000 Seitenaufrufe (p.i.) täglich

ii) on-line Plattform - Vernetzung

Page 81: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –
Page 82: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –
Page 83: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

92

(C) Fortlaufende Sprachbeobachtung

„Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen“, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort „Ceranfeld“ Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen.” (Süddeutsche Zeitung, 2.7.2002)

Page 84: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Möglichkeiten (Beispiele):

a) empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften)

b) empirische Ermittlung der Entwicklung von Anglizismen

c) Korrektiv für Wörterbücher

d) Erweiterung von Wörterbüchern

(C) Fortlaufende Sprachbeobachtung

Page 85: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Beispiel 1: WDG

Corpus: sternhagelbesoffen (0 Corpusbelege)

sternhagelvoll (40)

Beispiel 2: Grimm Neubearbeitung (1998)

Corpus: Angstkauf (0)

Angstkäufe (17)

Page 86: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Beispiel 3: Duden (10-Bände, 2001)

Stichwort: Selbst

Wörterbuch: 244 Einträge

Selbstabholer ... Selbstbedienung ...

Selbsterfahrung ... Selbstzweifel

Corpus: 7884 verschiedene Wörter

Page 87: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Nicht im Duden, aber im Corpus sehr häufig:Selbstverpflichtung (2139 Mal)

Selbstmordattentäter (801)

Selbstregierung (727)

Selbstregulierung (450)

Selbstbeschreibung (380)

Selbstbefragung (312)

...

Selbstauskunft (185)

Selbstmordanschlag (171)

...

Selbstbedienungsmentalität (143)

Selbstbau (105)

Selbstbeschäftigung (105)

Selbstgänger (91)

Selbstnutzung (81)

Selbstinteresse (80)

Selbstähnlichkeit (77)

Selbstlernen (30)

Page 88: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Im Duden, aber nicht im Corpus:- Selbstabholerin

- Selbstanzeigerin

- Selbstbucherin

- Selbstentlader

- Selbsterzeugerin

- Selbstinserent

Selbstladevorrichtung

Selbstverstand

Selbststellerin

Selbstverlegerin

Selbstverpflegerin

Page 89: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Vokabularentwicklung-Selbstkomposita

10.871

0

2

4

6

8

10

12

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

An

zah

l Se

lbst

%

Page 90: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –
Page 91: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung 08.11.1997, S. 13

Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden.Datum: 1997-11-08Seite: unknownTextsorte: Zeitung Feuilleton

Page 92: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Beispiel 4: rückläufige Wörterbücher

Mater (1967): etwa 100 verschiedene Substantive mit -kasten

Farbkasten ... Baukasten, Steinbaukasten

DWDS-Corpus: 1500 verschiedene Substantive mit –kasten

insgesamt 177 Substantive auf -baukasten

Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10)

... Begriffsbaukasten

Page 93: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

„Stolpe greift zielsicher in den Begriffsbaukasten.“

Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]

Page 94: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Beispiel 5: Zeitliche Veränderungen

NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm)

nachhaltig<Adj.>: 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft (Duden 2001)

Page 95: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

1. Wörterbücher: nachhaltig ohne Wertung

Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung

ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung

Page 96: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

2. Was ist alles nachhaltig?

1900-1909: Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5)

1910-1919: Weise, Druck, Abgabedruck, Genuß, Stärkung, ... (10)

1920-1929: Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6)

1930-1939: Bedeutung, Unterstützung, Abhilfemaßnahmen ... (5)

1940-1949: Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung .. (12)

1950-1959: Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung ... (16)

1960-1969: Anstrengungen, Abbau, Impuls, Versuch ... (16)

1970-1979: Verkehrsstunden, Aufwertung, Anerkennung ... (20)

1980-1989: Abfuhr, Akzeptanzschub ... (72)

1990-1999: Entwicklung, Tourismus, Politik, Zukunft ... (> 100)

Page 97: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

nachhaltige Sprachbeobachtung?

Page 98: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

107

Sprachbeobachtung mit Computerlinguistik

Institut für deutsche Sprache

Projekt Deutscher Wortschatz – Uni Leipzig

Lothar Lemnitzer (www.wortwarte.de)

DWDS: Prototyp: ZEIT-Wörter der Woche

Page 99: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

108

Wörter der Woche - ZEIT

Page 100: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

109

ZEIT-Woewo – 2

Page 101: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

110

3. Schritte zu einem Digitalen Wörterbuch

Vorzüge des elektronischen Mediums:

unbegrenzter Platz (für die Darstellung der Stichwörter)

Gewichtung entsprechend des Vorkommens in Texten

Belege können beliebig sortiert, ein- und ausgeblendet werden

Das Wörterbuch kann „modular“ erarbeitet werden

Page 102: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

• DWDS-Kerncorpus mit Suchmaschine

• Wörterbuch der deutschen Gegenwartssprache (1977)

- 6 Bände, 5000 Seiten, ca. 130.000 Stichwörter

Basis des Digitalen Wörterbuchs

Page 103: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

„Modular“: Statt Corpus + Wörterbuch ...

Page 104: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

... ein System von Wörterbüchern

Page 105: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

... und einer Texterschliessungskomponente

Page 106: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

... mit Wörterbuchmodulen als Kooperationen

Page 107: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

• in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts

- Thema: Kollokationen im Wörterbuch

Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben, ...

„Modul“ Kollokationen

Page 108: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Zusammenfassung

1. DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage.

2. DWDS – Texterschließung ist vielseitig nutzbar:

- Linguistische Suchmaschine

- Lemmatisierung, Wortartenzuordnung

3. Kooperation zur Erarbeitung weiterer Wörterbuchmodule

4. Gewinnung weiterer Textgeber