wolfenbüttel, 16.09.05 das projekt dwds: auf dem wege zu einem digitalen wörterbuch der deutschen...

Post on 06-Apr-2015

116 Views

Category:

Documents

7 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Wolfenbüttel, 16.09.05

Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache

des 20./21. Jahrhunderts

– Alexander Geyken –Berlin-Brandenburgische Akademie der Wissenschaften

www.dwds.de

Motivation

Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts.

Gründe (vgl. Hartmut Schmidt (1994,1995)):

- fehlende ‚balancierte‘ Textcorpora

- zu stark einzelwortbezogene Darstellung

- unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz

- Deutschland liegt hinter England und Frankreich zurück

Motivation

- Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken

- Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer

- Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG-Projekts

Vorbereitungsphase

DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus]

DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus)

DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung

DWDS: Nutzung computerlexikographischer Methoden

Ziele des DWDS

Einschub – Warum Corpora …

Einschub – Warum Corpora …

Einschub – Warum Corpora …

Einschub – Warum Corpora …

- Vorbereitungsphase (11/1997 - 02/2000)

- Erstellung der Textgrundlage (20. Jh.)(03/2000 - 06/2004 -> DFG-Projekt)

- Erstellung der Textgrundlage (17.-19. Jh.) -> DFG Projekt Deutsches Textarchiv

- Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002)

Projektphasen

- Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten?

=> ‚breadth first‘-Strategie bei allen Projektetappen.

1. ‚Industrielle‘ Digitalisierung der Texte2. modulare Erstellung des Wörterbuchs 3. effiziente informatische Unterstützung des

Bearbeitungsprozesses: Textfiltermethoden

Vorgehensweise

1. Einleitung

2. Das Projekt DWDS: Stand

2.1 Corpuserstellung

2.2 Webpräsenz

2.3 Anwendung Sprachbeobachtung

3. Ausblick: Schritte zu einem Digitalen Wörterbuch

Gliederung

1. Textauswahl und Copyrightvereinbarung

2. Digitalisierung

3. XML-Konvertierung

4. Qualitätskontrolle

(2.1) Corpuserstellung: Vorgehensweise

•Belletristik (27%)

•Journalistische Prosa (26%)

•Wissenschaftliche Fachtexte (21%)

•Gebrauchsliteratur (21%)

•Transkriptionen gesprochener Sprache (5%)

Ausgewogenheit der Textauswahl

Textauswahl wird vorgenommen von:

•Akademiemitgliedern der BBAW, Schriftstellern (Belletristik)

• Akademiemitgliedern (Wissenschaft und Journalistische Prosa)

• Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache)

Textauswahl

Literatur

Zeitungen

Wissenschaft

Werbung

Werbung

Flugblätter

Gebrauchsliteratur

Gebrauchsliteratur

•Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926

•Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927

•Kafka, Franz, Der Process, [1925]

•Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921

•LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928

•Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926

•Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923

Beispiele: Belletristik – 20er Jahre

•Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980

•Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988

•Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983

•Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983

•Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984

•Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983

•Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987

Beispiele: Belletristik – 80er Jahre

26

RBB - Textquellen

• Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags-gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein-Heyne-List-Econ, ZEIT, Zsolnay)

• Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser

Copyrightvereinbarungen

DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform

Einschränkungen:

• das Werk darf nicht rekonstruierbar sein

• nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75%

• kleine Belegkontexte: Je nach Vereinbarung:

Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter

• keine kommerzielle Nutzung

Copyrightvereinbarungen

29

Kontextgröße Beispiel

Textgeber (60% des Kerncorpus):

Verlage (s. oben)

Bibliotheken (Staatsbibliothek Berlin)

Archive (Deutsches Rundfunkarchiv)

Textakquise (1)

Eigendigitalisierung (40%)

Manuelle Transkription von

-30.000 Zeitungsartikel (1900-1945),

-250 Monographien (Fraktur).

Transkription: Grepect GmbH (Peking)

Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin

Textakquise (2)

1. Textauswahl und Copyrightvereinbarung

2. Digitalisierung

3. Qualitätskontrolle

4. Integrierter Workflow und Dokumentenmanagement-System

Corpuserstellung: Vorgehensweise

Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen

• Double oder Triple-keying

• Genauigkeiten von 99,95%.

OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen

Einschub: OCR oder Abtippen

Berliner Tageblatt vom 18.2.1902

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Geclippter Artikel und Datenblatt

<a>Block, Paul</a><t>Das Drama von Springe</t><st>Ein Rückblick auf den Prozeß Falkenhagen</st> <pubdata>1902-02-18</pubdata><journal>Berliner Tageblatt</journal><page>1-2</page>

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Text nach Abtippen in China: XML „light“

<a>Block, Paul</a><t><b>Das Drama von Springe.</b></t><st><b>Ein Rückblick auf den Prozeß Falkenhagen.</b></st><p><b>Hannover,</b> 17. Februar.</p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-<lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle<lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu<lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen<lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber<lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-<lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-<lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle<lbr/> 

[...]

<PB NS=2>neugierig nach ihr hin. </p>[...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p>

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Konvertierung nach TEI: (1) Die Metadaten

<teiHeader><fileDesc><publicationStmt><publisher id="DWDS-Corpus-Publisher">BBAW - AG Digitales Wörterbuch</publisher><availability n=„OR3S" status="restricted"></availability></publicationStmt><sourceDesc><biblFull><titleStmt><title level="a" type="main">Das Drama von Springe.</title><title level="a" type="sub">Ein Rückblick auf den Prozeß Falkenhagen.</title><author>Block, Paul</author></titleStmt><publicationStmt><publisher id="Rechtsinhaber">Rudolf Mosse</publisher><pubPlace>Berlin</pubPlace><date>19020218</date></publicationStmt><seriesStmt><title level="j">Berliner Tageblatt</title><idno type="Seite">1</idno></seriesStmt></biblFull></sourceDesc></fileDesc>...<profileDesc><textClass><keywords><term n="1">Zeitung</term>

</keywords></textClass></profileDesc></teiHeader>

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Konvertierung nach TEI: (2) Der Text

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- <lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle <lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu <lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen <lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber <lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- <lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- <lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <lbr/><PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Problemfälle der OCR/Abtippen – Beispiel 1

Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle

Bedingter Trennstrich oder Bindestrich?

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Worttrennungen am Zeilenende

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

=> Bedingter Trennstrich: Wortbestandteile werden zusammengezogen

Worttrennungen am Zeilenende

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>

Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">

Trauerspiel</w>

=> Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt

Worttrennungen am Zeilenende

Clipping  

Abtippen / OCR 

KonvertierungXML/TEI

LinguistischeAnnotierung

Problemfälle der OCR/Abtippen – Beispiel 2

Sondern ist Weingutsbesitzer und Wein-und Kognakhändler. Seine Kognakmarke ...

Bedingter Trennstrich oder Bindestrich?

=> Lemma: Weinhändler und nicht Weinund!

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

Worttrennungen am Zeilenende

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

=> Wortbestandteile bleiben erhalten

Worttrennungen am Zeilenende

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>

Linguistische Annotierung:<w state="unknown" errC="001">

Weinund</w>

=> Wortbestandteile bleiben erhalten=> Zeilenumbruch wird durch 'Leerzeichen' ersetzt

Worttrennungen am Zeilenende

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Unbekannte Wörter werden identifiziert und annotiert:

Linguistische Annotierung

<w n="6" c="w.art">die</w>

<w n="7" state="unknown" errC="001">tödtliche</w>

<w n="8" nb="sg" g="f" s=„artef" c="noun">Schlinge</w>

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die tödtliche Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Ergebnis nach der linguistischen Aufbereitung

<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die <w errC=„001" state=„unknown"> tödtliche </w> Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

Ergebnis nach der linguistischen Aufbereitung

=> Annotierung unbekannter Wörter

Problemfälle OCR/Abtippen

Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam „per Kopf“ zu erkennen 

-Preis#geh#krön#teen (statt Preisgekrönten)-Weit|geh#hände (statt Weitgehende)-Hoch#bedeut#hände (statt Hochbedeutende)-Zeit#raub#hände (statt Zeitraubende)

-Zeichen#orient#hirt (statt zeichenorientiert)-Lebens#orient#hirte (statt Lebensorientierte)

Clipping  

Abtippen / OCR 

Konvertierung XML/TEI

Linguistische Annotierung

1. Textauswahl

2. Digitalisierung

3. Qualitätskontrolle

4. Integrierter Workflow und Dokumentenmanagement-System

Corpuserstellung: Vorgehensweise

Nach der linguistischen Analyse verbleiben mehrere 100.000 Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter)

Qualitätskontrolle

Digitalisierungsfehler (saben statt sahen)

Namen bzw. Ableitungen:

Geographie: Abessinien, japanesisch

Familiennamen: Moltke, vossische

Veraltete Abkürzungen und Akronyme (lebh . Beif. rechts u. im Zentr.)

Historische Rechtschreibung (diktirt, That)

lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig)

Prüffälle: Klassifizierung einer Stichprobe

54

Ergebnis: DWDS-Corpus

Kerncorpus: Größe: 100 Millionen Textwörter

- ausgewogen - rechtlich abgesichert - XML/TEI Format- linguistisch voranalysiert

Ergänzungscorpus: Größe: 1 Milliarde Textwörter

Lemmatisierung: Ärzte, Arztes -> Arzt

Disambiguierung von Wortarten:

(1) Er tritt vor die Tür vs. das kommt vor

PräpositionVerbpartikel

(2) Der Strauß Blumen vs. Richard Strauß

NomenEigenname

Automatische Analyse durch einen Part-of-Speech Tagger (s. www.dwds.de)

Automatische linguistische Analyse

Exkurs: Corpora und Größe

Corpus Textwörter verschiedene Wörter

Dürrenmatt (Verdacht) 33.888 6.201

Brown (US, 1969) 1 Million 50.406

Limas (D, 1973) 1 Million 98.138

British Nat. Corp. (1993) 100 Mio. 659.270

DWDS-Kerncorpus (2003) 100 Mio. 2,1 Millionen

DWDS-Ergänzungscorpus (2003)

1 Mrd. ?

British National Corpus (100 Mio): hinreichend groß?

Unbekannt ist:

• Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]?

• Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition]

Experiment

Vokabularentwicklung-Kerncorpus(L)

0

0,5

1

1,5

2

2,5

0 50 100

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

Vokabularentwicklung-Kerncorpus(L)

0

0,5

1

1,5

2

2,5

0 50 100

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

BNC

Vokabularentwicklung-DWDS (1 Mrd)

8,98

0123456789

10

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n

(in

Mio

)

Vokabularentwicklung-DWDS (1 Mrd)

0123456789

10

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

vers

chie

de

ne

Wo

rtfo

rme

n (

in

Mio

)

8,9 Mio

Kerncorp.

62

Aufarbeitung des Corpus

Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper

Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. www.dwds.de)

Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus.

Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.

63

AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden.

Umgekehrt würden falsche Zerlegungen zu einem „falschen Alarm“ führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen:

• Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden.

• Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)

WDG und Corpusy = 5039,6 ln(x)

50000

55000

60000

65000

70000

75000

80000

85000

90000

95000

0 1.000 2.000 3.000 4.000 5.000 6.000 7.000

Corpusgröße (in Mio Textwörtern)

WD

G-S

tic

hw

ört

er

Corpus und Deutsche Städte (IFAG)y = 393,33 ln(x)

0

1.000

2.000

3.000

4.000

5.000

6.000

7.000

0 1000 2000 3000 4000 5000

Corpusgröße (in Mio Textwörtern)

dt.

Stä

dte

u.

Gem

ein

den

66

(2.2) Webpräsenz – www.dwds.de

Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, 1961-1977)

Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005)

Wortinformationssystem:

- WDG und Corpus

- Automatisch generierte Informationen:

• Synonyme, Ober- und Unterbegriffe

• Kollokationen

67

Maske - Wortinformation

68

WDG-Artikel

69

Quellenverzeichnis

70

Stichwörter von Thälmann

71

Stichwort: Schlotbaron

72

Wortinfo – Syn etc.

73

Corpus,1

74

Corpus,2

75

Corpus,3

76

Corpus,4

77

Kollok , 1

78

Kollok, 2

i. Verknüpfung Beleg – Wörterbuch

ii. Vernetzung Wörterbuch mit anderen on-line Angeboten

iii. Verknüpfung Beleg – Bild – Volltext

Weitere Web-Anwendungen

• ZEIT-online Wörterbuchportal

• dict.leo.org (größtes deutsch-englisches on-line Wörterbuch)

• uni-deutsch (BMBF, DAAD)

etwa 40.000 Seitenaufrufe (p.i.) täglich

ii) on-line Plattform - Vernetzung

92

(C) Fortlaufende Sprachbeobachtung

„Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen“, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort „Ceranfeld“ Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen.” (Süddeutsche Zeitung, 2.7.2002)

Möglichkeiten (Beispiele):

a) empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften)

b) empirische Ermittlung der Entwicklung von Anglizismen

c) Korrektiv für Wörterbücher

d) Erweiterung von Wörterbüchern

(C) Fortlaufende Sprachbeobachtung

Beispiel 1: WDG

Corpus: sternhagelbesoffen (0 Corpusbelege)

sternhagelvoll (40)

Beispiel 2: Grimm Neubearbeitung (1998)

Corpus: Angstkauf (0)

Angstkäufe (17)

Beispiel 3: Duden (10-Bände, 2001)

Stichwort: Selbst

Wörterbuch: 244 Einträge

Selbstabholer ... Selbstbedienung ...

Selbsterfahrung ... Selbstzweifel

Corpus: 7884 verschiedene Wörter

Nicht im Duden, aber im Corpus sehr häufig:Selbstverpflichtung (2139 Mal)

Selbstmordattentäter (801)

Selbstregierung (727)

Selbstregulierung (450)

Selbstbeschreibung (380)

Selbstbefragung (312)

...

Selbstauskunft (185)

Selbstmordanschlag (171)

...

Selbstbedienungsmentalität (143)

Selbstbau (105)

Selbstbeschäftigung (105)

Selbstgänger (91)

Selbstnutzung (81)

Selbstinteresse (80)

Selbstähnlichkeit (77)

Selbstlernen (30)

Im Duden, aber nicht im Corpus:- Selbstabholerin

- Selbstanzeigerin

- Selbstbucherin

- Selbstentlader

- Selbsterzeugerin

- Selbstinserent

Selbstladevorrichtung

Selbstverstand

Selbststellerin

Selbstverlegerin

Selbstverpflegerin

Vokabularentwicklung-Selbstkomposita

10.871

0

2

4

6

8

10

12

0 200 400 600 800 1000 1200

laufende Textwörter (in Mio)

An

zah

l Se

lbst

%

Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung 08.11.1997, S. 13

Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden.Datum: 1997-11-08Seite: unknownTextsorte: Zeitung Feuilleton

Beispiel 4: rückläufige Wörterbücher

Mater (1967): etwa 100 verschiedene Substantive mit -kasten

Farbkasten ... Baukasten, Steinbaukasten

DWDS-Corpus: 1500 verschiedene Substantive mit –kasten

insgesamt 177 Substantive auf -baukasten

Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10)

... Begriffsbaukasten

„Stolpe greift zielsicher in den Begriffsbaukasten.“

Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]

Beispiel 5: Zeitliche Veränderungen

NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm)

nachhaltig<Adj.>: 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft (Duden 2001)

1. Wörterbücher: nachhaltig ohne Wertung

Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung

ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung

2. Was ist alles nachhaltig?

1900-1909: Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5)

1910-1919: Weise, Druck, Abgabedruck, Genuß, Stärkung, ... (10)

1920-1929: Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6)

1930-1939: Bedeutung, Unterstützung, Abhilfemaßnahmen ... (5)

1940-1949: Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung .. (12)

1950-1959: Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung ... (16)

1960-1969: Anstrengungen, Abbau, Impuls, Versuch ... (16)

1970-1979: Verkehrsstunden, Aufwertung, Anerkennung ... (20)

1980-1989: Abfuhr, Akzeptanzschub ... (72)

1990-1999: Entwicklung, Tourismus, Politik, Zukunft ... (> 100)

nachhaltige Sprachbeobachtung?

107

Sprachbeobachtung mit Computerlinguistik

Institut für deutsche Sprache

Projekt Deutscher Wortschatz – Uni Leipzig

Lothar Lemnitzer (www.wortwarte.de)

DWDS: Prototyp: ZEIT-Wörter der Woche

108

Wörter der Woche - ZEIT

109

ZEIT-Woewo – 2

110

3. Schritte zu einem Digitalen Wörterbuch

Vorzüge des elektronischen Mediums:

unbegrenzter Platz (für die Darstellung der Stichwörter)

Gewichtung entsprechend des Vorkommens in Texten

Belege können beliebig sortiert, ein- und ausgeblendet werden

Das Wörterbuch kann „modular“ erarbeitet werden

• DWDS-Kerncorpus mit Suchmaschine

• Wörterbuch der deutschen Gegenwartssprache (1977)

- 6 Bände, 5000 Seiten, ca. 130.000 Stichwörter

Basis des Digitalen Wörterbuchs

„Modular“: Statt Corpus + Wörterbuch ...

... ein System von Wörterbüchern

... und einer Texterschliessungskomponente

... mit Wörterbuchmodulen als Kooperationen

• in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts

- Thema: Kollokationen im Wörterbuch

Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben, ...

„Modul“ Kollokationen

Zusammenfassung

1. DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage.

2. DWDS – Texterschließung ist vielseitig nutzbar:

- Linguistische Suchmaschine

- Lemmatisierung, Wortartenzuordnung

3. Kooperation zur Erarbeitung weiterer Wörterbuchmodule

4. Gewinnung weiterer Textgeber

top related