komplexität menschlicher sprachen

1

Komplexität menschlicher Sprachen

Karin Haenelt

19.6.2010

Komplexität menschlicher Sprachen und Bestimmung der Komplexität

Menschliche Sprachen haben vermutlich die Komplexitätschwach-kontextsensitiver Sprachen

Bestimmung der Komplexität korrekter Beweis (Shieber 1985): Schnitt einer beobachteten

Konstruktion (cross-serial dependency) mir einer regulären Sprache ergibt eine schwach-kontextsensitive Sprache

fehlerhafte Argumente: schließen von der Beobachtung einer nicht-regulären

Konstruktion auf die Komplexität der umfassenden Sprache

vermischen Komplexität der Sprache und Komplexität der Maschine zur Erkennung bestimmter Konstruktionen

2© Karin Haenelt, Komplexität menschlicher Sprachen 19.6.2010

Mohri/Sproat 2006

Beweis von Shieber 1985:Schweizerdeutsch ist schwach-kontextsensitiv

Basis: beobachtetes Phänomen: überkreuzende Abhängigkeit (cross-serial dependency)

3

x1 x2 x3 y1 y2 y3

John said that we the children-acc let Hans-dat help the house paint

Jan säit das mer d’chind em Hans es huus lönd hälfe aastriiche

© Karin Haenelt, Komplexität menschlicher Sprachen 19.6.2010


Form der überkreuzenden Abhängigkeit:v1 noun1

m noun2n v2 verb1

m verb2n v3

noun{1,2}: Nomina, verb{1,2}: korrespondierende Verben, vi weitere Ausdrücke

Homomorphismus v{1,2,3} → w bzw. x bzw. y noun{1,2} → a bzw. b verb{1,2} → c bzw. d

Intersektion mit der regulären Sprache wa*b*xc*d*y ergibt schwach-kontextsensitive Sprache wambnxcmdny


Mohri/Sproat 2006


kontextfreie Sprachen sind abgeschlossen unter Homomorphismus und unter Schnittbildung mit regulären Sprachen

daher kann die Ausgangssprache der Schnittbildung keine strikt-kontextfreie Sprache gewesen sein

Shiebers Beweis beruht nicht auf Annahmen über die syntaktische Struktur

der Konstruktion sondern auf der Betrachtung der Sprache als Menge von

Ketten (zur Unterscheidung: eine Kette kann durch verschiedene Grammatiken verschiedene Strukturierungen erhalten)


Mohri/Sproat 2006

Voraussetzungen der Argumentation:Länge der Sätze oder Wörter sei unbegrenzt

alle Beweise einer höheren Komplexität als regulärer Sprachen gelten nicht, wenn die Phänomene nicht als unbegrenzt angenommen werden können.

keines der genannten Argumente ist interessant, wenn man die Länge der Sätze (oder Wörter) als begrenzt durch eine große Zahl N annimmt

viele beobachteten Konstrukte sind nur dann nicht-regulär, wenn die Folge der Wörter oder Sätze als unbegrenzt angenommen wird

so auch Chomsky 1957 der endliche Automat zur Beschreibung der Sprache kann

allerdings sehr groß werden

6

Mohri/Sproat 2006


Fehlerhafte ArgumentationEine Schwalbe mache einen Sommer

Fehlerhafte Argumentation Man entdeckt eine spezielle Konstruktion K einer Sprache L,

die eine Sprache L′ L erzeugt, die an einer wohl-⊆definierten Position P‘ in der Chomsky-Hierarchie liegt.

Hieraus folgert man, dass L an Position P ≥ P′ liegt. Sei beispielsweise L‘ kontextsensitiv, so sei L mindestens kontextsensitiv.

reguläre Sprachen können nicht-reguläre Konstrukte enthalten jede Sprache L‘ über einem Alphabet Σ ist eine Teilmenge der

Sprache L = Σ*. Die Entdeckung einer Subsprache L‘ ⊆ L – egal wie komplex -

besagt nichts über die Komplexität von L

7

Mohri/Sproat 2006


… Beispiel

L = {apbq : p, q ∈ ℕ } ist eine reguläre Sprache Ein Automat, der L erkennt, erkennt auch

L1 = {anbn : n }∈ ℕ L2 = {wwR: w ∈ Σ*}

8

Mohri/Sproat 2006


Fehlerhafte ArgumentationSprache (Menge von Zeichenfolgen) – Struktur einer Konstruktion

versäumt zu unterscheiden: Komplexität der Sprache und Komplexität der Maschine zur

Erkennung bestimmter Konstruktionen Sprache und Struktur

9

Mohri/Sproat 2006


Beispiele fehlerhafter Argumentationen

Chomsky (1957): English is not a finite state language. (Korrekte Terminologie: regular language) Large classes of context-free languages such as some of those used in

Chomsky’s argument have been proved to be representable by weighted finite automata (Cortes & Mohri 2000).

Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural language processing... . Every computational linguistics graduate student knows, from the first textbook that introduces the Chomsky hierarchy, that English has constructs, such as center embedding, that cannot be described by any finite-state grammar.

(Arnold 2000) .Natural Languages are not Finite State (‘regular’). There is no FSA (hence type 3 grammar) that can generate anbn. Natural Languages are infinite, and have constructions like anbn, i.e. ‘nested dependencies’...

10

Mohri/Sproat 2006


Modellierung der Struktur menschlicher Sprachen

Morphologie Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen einige Fälle können durch geringe spezielle Erweiterungen

endlicher Automaten effizienter behandelt werden Syntax

Für die endliche "Kernsprache" der tatsächlich vorkommenden akzeptablen Sätze des Deutschen (und anderer Sprachen) kann man annehmen, dass eine nicht-triviale Beschreibung als Typ-3-Sprache möglich ist

Der menschliche Analysator bewältigt nur bestimmte Schachtelungstiefen (für begrenzte Schachtelungstiefen reicht Typ-3)

11

Kunze 2001: 143f© Karin Haenelt, Komplexität menschlicher Sprachen 19.6.2010

Modellierung der Struktur menschlicher Sprachen

Bei Fortsetzung der „Kernsprache“ ins Unendliche tritt ein „Komplexitätsschub“ bei Zentraleinbettungen auf

Bedingungen nicht mit Typ-3 Grammatik darstellbar Anzahl der Nomina und Verben muss übereinstimmen gewisse Merkmale, die eine Kongruenz sichern, müssen

übereinstimmen Unendliche Einbettungen kommen in der Praxis nicht vor

12

the regulation

defines

which the commission

had formulated

which the Council

had elected

...

Kunze 2001: 143ff© Karin Haenelt, Komplexität menschlicher Sprachen 19.6.2010

…

Trend in der Folge von Chomsky 1957: Suche nach immer komplexeren Konstruktionen

Motiv eher Konstruktion neuer formaler Theorien als Sammlung und Beobachtung von Sprachdaten


Effektivität und Effizienz

Effektivität eine Struktur mit einer Typ-3-Grammatik beschreiben zu

können, bedeutet nicht, dass man sie auf diese Weise effektiv beschreiben kann

beispielsweise kann eine einzige kontextsensitive Regel einer großen Menge kontextfreier Regeln entsprechen

Effizienz endliche Automaten haben eine viel bessere Laufzeit – O(n)-

als Automaten mit zusätzlichen Speichern – O(nx)

14

Kunze 2001: 143ff© Karin Haenelt, Komplexität menschlicher Sprachen 19.6.2010

Literatur

Arnold, Doug (2000) LG511 Computational Linguistics I: Parsing and Generation. University of Essex. URL:

http://courses.essex.ac.uk/lg/LG511/1-Formal/index 7.html. Chomsky, Noam (1957) Syntactic Structures. The Hague: Mouton. Cortes, Corinna & Mehryar Mohri (2000) Context-Free Recognition with

Weighted Automata. Grammars 3: 2–3. Hobbs, Jerry R., Douglas Appelt, John Bear, David Israel, Megumi Kameyama,

Mark Stickel & Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text. In Emmanuel Roche & Yves Schabes (eds.) Finite-State Language Processing, pp. 383–406. Language, Speech, and Communication. Cambridge, MA: The MIT Press.


Literatur

Jürgen Kunze (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin.

Mehryar Mohri und Richard Sproat (2006)On a Common Fallacy in Computational Linguistics. In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki (Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th Birthday. pages 432-439. SKY Journal of Linguistics, Volume 19, 2006.

Shieber, Stuart. 1985. Evidence against the context-freeness of natural language. Linguistics and Philosophy 8: 333–343.


http://www.cs.nyu.edu/~mohri/postscript/fall.pdf






komplexität menschlicher sprachen

Documents