linguistische...
TRANSCRIPT
Institut für Informatik
Linguistische Informatik
Gerhard Heyer
Universität Leipzig [email protected]
Morphologie
2 Prof. Dr. G. Heyer Modul Linguistische Informatik
1) Klassifikation lern + bar + keit
2) Auflösung von Mehrdeutigkeiten Spiegel-ei, Spiegelei
Stau-becken, Staub-ecken
3) Behandlung von Allomorphen und anderen
Unregelmäßigkeiten
spreche-sprichst-sprach-gesprochen ...
schön-schöner, gut-besser
Probleme der Morphologie
Morphologie
3 Prof. Dr. G. Heyer Modul Linguistische Informatik
Morphem: kleinste bedeutungstragende Einheit
freie Morpheme
z.B. Buch
gebundene Morpheme
z.B.
vor (Präposition, Präfix)
er (Proform, Pl )
Normalisierung
insb.:
Präfixe (z.B. vor)
Suffixe (z.B. +er)
Fugenelemente (z.B. -s-, -en-)
Morpheme
Morphologie
4 Prof. Dr. G. Heyer Modul Linguistische Informatik
1) Flektion
2) Derivation
3) Komposition
Wortarten
offene
(produktiv)
geschlossene
(nicht produktiv)
Verben Nomina Adjektive Artikel Präpositionen Konjunktionen
3 Bereiche
Morphologie
5 Prof. Dr. G. Heyer Modul Linguistische Informatik
Nomina: Deklination
Sekundärkategorien
Kasus (Nom, Gen, Dat, Akk, ...)
Genus (..., fem, neutr.)
Numerus (sg, pl, ...)
Flektionstabelle
Kasus
sg pl
Numerus
Nominativ Haus Häus+er
Dativ Haus+? Häuser
Akkusativ Haus Häuser
Genitiv Haus+es Häus+er
Haus
Häus
(Ablaute)
Nomina
Morphologie
6 Prof. Dr. G. Heyer Modul Linguistische Informatik
Sekundärkategorien
Person (1., 2., 3.)
Tempus (Präs., Prät., ...)
Numerus (sg, pl)
Modus (Indikativ, Konjunktiv, Imperativ, ...)
Aspekt (Abgeschlossenheit, ...)
wichtig für
• Kongruenz
• Rektion (Übereinstimmung im Kasus)
Verben
Morphologie
7 Prof. Dr. G. Heyer Modul Linguistische Informatik
allgemeine Form eines Wortes
(Präfix* (Stamm Suffix? Fugenelement?)+ Suffix*)+
Derivation und Komposition
Lösbarkeitsprobleme
Lösbarkeitsproblem -e
(Flexiv)
Lösbarkeit
(Sekundär-Stamm)
Problem
(Primär-Stamm)
Llösbar
(Sekundär-Stamm
- keit
(Derivativ)
lös-
(Primär-Stamm)
-bar
(Derivativ)
-s
(Fuge)
Morphologie
8 Prof. Dr. G. Heyer Modul Linguistische Informatik
N A V
N
A
V
Derivation und Komposition
Jeder Stamm einer der Grundkategorien N, A oder V kann
durch Derivation in eine abgeleitete Wortform der
Kategorie N, A, bzw. V überführt werden.
Stämme gleicher
Grundkategorie können
zu einer abgeleiteten
Wortform gleicher
Kategorie komponiert
werden.
Morphologie
9 Prof. Dr. G. Heyer Modul Linguistische Informatik
Verb 6.000 156.000 (Faktor 26) A-Formen 4.000 72.000 (Faktor 18) Nomen 20.000 80.000 (Faktor 4) Alle 30.000 308.000
Kategorie Grundform Flektionsformen
N + N Haus + Schuh
Schuh + Haus N! Möglichkeiten?
N + N + N Gäste + Haus + Schuh
Verhältnis Grundform - Flektionsformen
Morphologie
10 Prof. Dr. G. Heyer Modul Linguistische Informatik
SINGULAR PLURAL
Wort Dat Akk Gen FTS
Ort (E)S 1
Verhältnis SES 2
Knabe N N N 3
Mensch EN EN EN 4
Zeitung 5
Buchstabe N N NS 6
Interessante N N 7
Herz EN ENS 8
Ferien 0
Wort NAG Dat FTP
Garten 1
Auto S S 2
Muskel N N 3
Zeitung EN EN 4
Arbeiterin NEN NEN 5
Segel N 6
Tag E EN 7
Verhältnis SE SEN 8
Leib ER ERN 9
Fossil IEN IEN 10
Eisen 0 Erklärungen
FTS = Flexionstyp Singular
FTP = Flexionstyp Plural
NAG = Nominativ/ Genitiv / Akkusativ
DAT = Dativ
Der Nominativ Singular ist stets durch das Null-Morphem () charakterisiert. Bei den Pluralflexionstypen 1, 6, 7, 9 kann Umlaut (vgl. Gärten, Äpfel, Drähte, Wälder) auftreten.
Schott-Flexive (Schott 1978)
Morphologie
11 Prof. Dr. G. Heyer Modul Linguistische Informatik
SINGULAR: PLURAL: Flexive Flexionstyp Flexiv Flexionstyp * 1, 2, 5, 7, 8 * 1, 6 s, es 1 s 2 * ses 2 n 3, 6 n 3, 6, 7 en 4, 7 en 4, 8 * nen 5 * ns 6 e 7 * ens 8 * se 8 * sen 8 er 9 ern 9
ein 10
Bei den mit * bezeichneten Flexiven erübrigt sich nach bisherigen Beobach-tungen eine Prüfung auf Richtigkeit der Reduktion, weil in diesen Fällen keine Fehlerreduktionen auftreten können. Die Effizienz des Reduktionsalgorithmus wird dadurch erhöht, der Ausdruck wesentlich vereinfacht.
Flexionslisten
Morphologie
12 Prof. Dr. G. Heyer Modul Linguistische Informatik
Wort FTS FTP UC WC
Buch 1 9 1 0
Pass 1 7 1 1
Ferien 0 1 0 0
Eisen 1 0 0 0
Thema 1 11 0 0
Themata 11 1 0 0
Kodierungsschema für Wörterbucheinträge
Morphologie
13 Prof. Dr. G. Heyer Modul Linguistische Informatik
1) Vollformenlexikon
Codierung aller Wortformen
+
morphologische Information (z.B. Num, Pers, Tempus, ...)
2) Regelbasierte Ableitung aller Wortformen aus Stammform
Implementierung Flektionsmorphologie
Morphologie
14 Prof. Dr. G. Heyer Modul Linguistische Informatik
(„schlafen“ (N {f aus}{f ein} Vh) schlafen)
• Allomorphe
(„schlaf“ (N {f aus}{f ein} V15h schlafen)
(„schlaef“ (N {f aus}{f ein} V2 schlafen)
(„schlief“ (N {f aus}{f ein} V34 schlafen)
• Wortformen
(schlaf (s1{f aus}{f ein}v) schlafen_pk1)
(schlaefst (s2{f aus}{f ein}v) schlafen_p)
(schlaeft (s3{f aus}{f ein}v) schlafen_p)
(schlafen (p13{f aus}{f ein}v) schlafen_pk1)
(schlaft (p2{f aus}{f ein}v) schlafen_p)
(schlief (s13{f aus}{f ein}v) schlafen_i)
(schliefst (s2{f aus}{f ein}v) schlafen_i)
Beispiel für einen Lexikoneintrag (R. Hausser)
Morphologie
15 Prof. Dr. G. Heyer Modul Linguistische Informatik
1 ..... s ..... 2 ..... c ..... 3 ..... h ..... ..... l ..... w a ä f g f t e e t
Suchtiefe = maximale Wortlänge!
Buchstabenbaum bzw. trie
Morphologie
16 Prof. Dr. G. Heyer Modul Linguistische Informatik
Hintergrund: Transformationsgrammatik
1. Ebene: Lexikon
2. Ebene: Oberfläche
Vermittlung durch morphologische Transformationen
Probleme der Allomorphe und morphologischen Unregelmäßigkeiten
z.B. "move" + "ed" "moveed" ist falsch,
weil richtig "moved“
Regelbasierter Ansatz: 2 Ebenen (Koskeniemmi)
Morphologie
17 Prof. Dr. G. Heyer Modul Linguistische Informatik
LEXICAL FORM move + ed
m o v e + e d LEXICAL TAPE
SURFACE
TAPE
m o v e d
SURFACE FORM moved
m : m
e :
Idee: Verbindung der zwei Ebenen durch Automaten
Morphologie
18 Prof. Dr. G. Heyer Modul Linguistische Informatik
Eingabeband : Lexikon
. . .
Steuereinheit
. . .
Ausgabeband : Oberfläche
Transduktor-Modell
Morphologie
19 Prof. Dr. G. Heyer Modul Linguistische Informatik
A = (I, 0, Q, , 0, F)
RA = I* x 0*
1
3 4
2
e : e
e : e
v : v
e : Ø
+ : Ø
1 2 1 - -
2 2 - - 3
3 2 - 4 -
4 - 1 - -
v : v e : e + : Ø e :Ø
v : v
v : v
Endlicher Automat
Morphologie
20 Prof. Dr. G. Heyer Modul Linguistische Informatik
< rule > : : = < symbol – pair >
< operator >
< left-context > __ < right-context >
< operator >:: =
Lexikonrealisierung
Lexikonbedingung
Äquivalenz
Beispiele: e : v : v __ + :
+ : e {{c | s ( h )} | s | y:i } – s
try + s
t r i e s
Regelnotation
Morphologie
21 Prof. Dr. G. Heyer Modul Linguistische Informatik
Grewendorf, Hamm, Sternefeld, Sprachliches Wissen, Kapitel V
(Morphologie), Suhrkamp stw 695: Frankfurt/M 1993
Gerda Schott, Automatische Deflexion unter Verwendung eines
Minimalwörterbuchs, in: Sprache und Datenverarbeitung 2, 1978,
62-77
Kimmo Koskenniemmi, A General two-level computational model for
word-form recognition and production, in: COLING ´84, S. 178-
181, Stanford 1984
Roland Hausser, Grundlagen der Computerlinguistik, Springer:
Berlin 1998
Weiterführende Literatur