HS 2016 Einfuumlhrung in die Computerlinguistik I
Simon Clematidesimonclematidecluzhch
Hinweis Dieses Skript umfasst nur den Stoff der von Simon Clematide unterrichtet wurde Dieses Lauftext-skript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezuumlglich Layout und Formulie-rungen nicht fuumlr Fliesstext optimiert
Version von 4 November 2016PDF-Skript httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdfOLAT-Seite httpslmsuzhchurlRepositoryEntry16112484562
Universitaumlt ZuumlrichInstitut fuumlr ComputerlinguistikBinzmuumlhlestr 148050 Zuumlrich
1
Inhaltsverzeichnis
1 Organisatorisches 511 Organisatorisches 5
111 Leistungsnachweis 6112 Lernen und Lehren 6
12 Kontrollfragen 7
2 Tokenisierung 821 Tokenisierer 8
211 Grundproblem 8212 Kodierung 9213 Programme 11
22 XML 1423 Tokenisierung 16
231 Problem 16232 Punktdisambiguierung 17233 Normalisierung 18234 NER 19
24 Multilingualitaumlt 1925 Vertiefung 21
3 Linguistisches Propaumldeutikum I 2331 Wort 23
311 Token 24312 Wortform 24313 synt Wort 24314 Lexem 25
32 Wortarten 26321 5 Hauptwortarten 26322 UD 27323 STTSPTTS 30
33 Merkmale 31331 Genus 32332 Zahl 33333 Kasus 33334 Modus 33335 Zeit 34336 Person 34337 Grad 34338 Flexion 34
1
34 Proben 35341 Ersetzen 35342 Einsetzen 36
35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39
36 Vertiefung 39
4 Linguistisches Propaumldeutikum II 4141 Proben 42
411 Weglassen 42412 Verschieben 43413 Umformen 43
42 Satz 44421 Satzglieder 44422 Koumlpfe 44
43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52
44 Ambiguitaumlt 5345 Vertiefung 53
5 Endliche Automaten 5451 Formale Sprachen 55
511 Mengen 55512 Zeichen 55513 Sprachen 56
52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61
53 Transduktoren 64
6 Flache Satzverarbeitung 6661 Tagging 66
611 Probleme 68612 Fallstudie TnT-Tagger 70
62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75
63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78
64 Vertiefung 78
2
65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81
3
Abbildungsverzeichnis
21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21
31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32
41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52
51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63
61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83
4
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Inhaltsverzeichnis
1 Organisatorisches 511 Organisatorisches 5
111 Leistungsnachweis 6112 Lernen und Lehren 6
12 Kontrollfragen 7
2 Tokenisierung 821 Tokenisierer 8
211 Grundproblem 8212 Kodierung 9213 Programme 11
22 XML 1423 Tokenisierung 16
231 Problem 16232 Punktdisambiguierung 17233 Normalisierung 18234 NER 19
24 Multilingualitaumlt 1925 Vertiefung 21
3 Linguistisches Propaumldeutikum I 2331 Wort 23
311 Token 24312 Wortform 24313 synt Wort 24314 Lexem 25
32 Wortarten 26321 5 Hauptwortarten 26322 UD 27323 STTSPTTS 30
33 Merkmale 31331 Genus 32332 Zahl 33333 Kasus 33334 Modus 33335 Zeit 34336 Person 34337 Grad 34338 Flexion 34
1
34 Proben 35341 Ersetzen 35342 Einsetzen 36
35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39
36 Vertiefung 39
4 Linguistisches Propaumldeutikum II 4141 Proben 42
411 Weglassen 42412 Verschieben 43413 Umformen 43
42 Satz 44421 Satzglieder 44422 Koumlpfe 44
43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52
44 Ambiguitaumlt 5345 Vertiefung 53
5 Endliche Automaten 5451 Formale Sprachen 55
511 Mengen 55512 Zeichen 55513 Sprachen 56
52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61
53 Transduktoren 64
6 Flache Satzverarbeitung 6661 Tagging 66
611 Probleme 68612 Fallstudie TnT-Tagger 70
62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75
63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78
64 Vertiefung 78
2
65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81
3
Abbildungsverzeichnis
21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21
31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32
41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52
51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63
61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83
4
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
34 Proben 35341 Ersetzen 35342 Einsetzen 36
35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39
36 Vertiefung 39
4 Linguistisches Propaumldeutikum II 4141 Proben 42
411 Weglassen 42412 Verschieben 43413 Umformen 43
42 Satz 44421 Satzglieder 44422 Koumlpfe 44
43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52
44 Ambiguitaumlt 5345 Vertiefung 53
5 Endliche Automaten 5451 Formale Sprachen 55
511 Mengen 55512 Zeichen 55513 Sprachen 56
52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61
53 Transduktoren 64
6 Flache Satzverarbeitung 6661 Tagging 66
611 Probleme 68612 Fallstudie TnT-Tagger 70
62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75
63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78
64 Vertiefung 78
2
65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81
3
Abbildungsverzeichnis
21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21
31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32
41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52
51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63
61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83
4
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81
3
Abbildungsverzeichnis
21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21
31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32
41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52
51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63
61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83
4
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Abbildungsverzeichnis
21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21
31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32
41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52
51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63
61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83
4
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Kapitel 1
Organisatorisches
11 OrganisatorischesInhalt der Vorlesung ECL I
bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik
bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)
bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird
bull Keine Programmiersprachenkenntnisse vorausgesetzt
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1
bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo
bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar
bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2
Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung
1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml
5
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
111 Leistungsnachweis
6 obligatorische schriftliche Uumlbungen (SU)
Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote
Punktzahl pro UumlbungBestanden 1 Punkt
Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Uumlbungen
bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
bull Loumlsungsabgabe spaumltestens mittwochs 18h
bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe
bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT
bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02
bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)
Schriftliche Pruumlfung
bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h
bull Dauer 90 Minuten
bull Stoff Skript Uumlbungen Pflichtlektuumlren
112 Lernen und Lehren
E-Learning und Uumlbungen
CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)
Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h
Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)
6
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Anforderungen und Ruumlckmeldungen
bull Nutzen Sie die Uumlbungsstunden
bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)
bull Wenden Sie sich an die Uumlbungsverantwortlichen
bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie
Hochrechnung zum Workload fuumlr 6 ECTS-Punkte
ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)
ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)
[Universitaumltsrat 2004]
bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung
2times 15times 2h = 60h
bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung
180hminus 60h15 = 8h
12 KontrollfragenKontrollfragen
bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren
bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird
bull Wieso sollten Sie die Uumlbungsstunde besuchen
bull Welche Hauptthemen werden in dieser Vorlesung besprochen
7
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Kapitel 2
Tokenisierung Automatische Satz-und Wortsegmentierung
Lernziele
bull Kenntnis uumlber die Kodierung sprachlicher Zeichen
bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung
bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur
bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung
bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)
bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken
21 Tokenisierer
211 Grundproblem
Woumlrter aus linguistischer Sicht
Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind
Was ist ein Wort
1 ZB nahm sie am Text Mining Workshop teil
2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite
3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
8
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht Welt der Bytes
$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
212 Zeichenkodierung
Was ist ein Zeichen auf dem Computer
bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)
bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001
bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49
bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)
bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte
Binaumlres und Hexadezimales Stellensystem
1 Byte als binaumlre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt
9
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kaumlstchen = 1 Byte
Die 128 ASCII-Kodes
Die 128rsquo172 Unicode-Kodes
Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml
GRINNING FACE
bull Kode 128512 (Hexadezimal 1F600)
bull UTF-8 Byte-Repraumlsentation F0 9F 98 80
bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert
10
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Was ist ein Zeichen auf dem Computer UTF-8-Format
bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden
bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen
bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen
bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)
bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann
bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen
Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich
$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen
213 Programme
Grundproblem Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind
Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein
11
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
bull Konsumieren der Zeichenfolge (Eingabe)
bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)
bull Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)
$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja
$ cat ger-abbrevDrusw
$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz
Ja
Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben
Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten
Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex
12
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulaumlren Ausdruumlcken
bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben
bull Einfach anpassbar auf die Textsorte
bull Fuumlr uumlberschaubare Textmengen empfohlen
bull Vorteil Machen dieselben Fehler konsequent
bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung
Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])
1 Rohtext
This is an example There are two sentences
2 XML-Input fuumlr Tokenisierer (Vortokenisierung)
ltdocumentgtlttextgt
ltpgtThis is an example There are two sentences
ltpgtlttextgt
ltdocumentgt
3 XML-Tokenisat
ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt
13
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt
Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert
Verschachtelung im XML-Stil
ltdocumentgtlttextgt
ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example
ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences
Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags
22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation
bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs
bull httpstubeswitchchvideos60fc01f1
XML (eXtensible Markup Language)
Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann
14
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
XML in der Texttechnologie
bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)
bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten
bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt
bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)
bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt
bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt
bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt
bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt
Zeichenreferenzen und Entity-Referenzen
Entitaumlten und Referenzen
bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden
bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal
bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38
Newline amp9Σ ampx3a3
15
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-
23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen
231 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt
bull Wort-Zeichen [a-zA-Z0-9]
bull Einzel-Zeichen [)(rsquo$-]
bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]
ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim
bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr
bull Bindestriche semble-t-il rarr semble + -t-il
bull Punkte SAC
bull Masseinheiten 30 rarr 30 + 28 rarr 28 +
bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
bull Umgang mit Markup (HTML-Tags Formatierungszeichen)
bull Erkennung der ldquonormalenrdquo Tokengrenzen
bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)
bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)
bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)
bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)
16
232 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben
Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert
Verschmelzung
bull It was due Friday by 5 pm Saturday would be too late
bull Ich kenne die USA Frankreich kenne ich nicht
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls
bull das Token in einer Abkuumlrzungsliste steht
bull nach dem Token eines der Zeichen aus [a-z] folgt
bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht
bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt
Nach [Grefenstette und Tapanainen 1994]
LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen
Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN
1 Wie viele Zeichen umfasst TOKEN
2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale
3 Wie oft kommt TOKEN ohne Punkt vor
4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor
5 Wie oft kommt NEXTTOKEN kleingeschrieben vor
17
Satzsegmentierung mit maschinellen Lernverfahren
bull Fuumlr grosse Textmengen empfohlen
bull Nachteil Unsystematische Fehler koumlnnen auftreten
Statistisches System PUNKT ([Kiss und Strunk 2006])
bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten
bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt
iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte
233 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen
Normalisierung bei Suchmaschinen und anderen Anwendungen
bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich
bull 4897 4-8-97 4897 8497
bull 19000 19rsquo000 19 000 19000
bull Louisa Luise Louise Luisa
bull doesnrsquot does not
Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)
bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt
bull Hollaumlndisch chocola-tje rarr chocolaatje
Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen
18
Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung
Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens
615 5 Ruumlckbau in neue Tokens
Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus
Ruumlckgaumlngig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens
Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch
234 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen
Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen
Kanonische Formen und Entity Linking
bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo
bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo
Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo Time Expression Recognition (TIMEX task)
24 MultilingualitaumltMultilinguale Dokumente und Systeme
Herausforderung Multilingualitaumlt
bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess
19
Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular
Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML
bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig
bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut
bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet
bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut
Ansatz von [Cavnar und Trenkle 1994]
20
1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten
2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)
3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil
4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm
5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand
N-Gramm-Profile und Profilabstand
Quelle [Cavnar und Trenkle 1994]
Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]
25 VertiefungZum Thema ldquoTokenisierungrdquo
bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28
bull Pflichtlektuumlre [Carstensen et al 2009 341]
bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]
Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)
bull httpwwwcluzhchclabregex
Zum Thema ldquoXMLrdquo
21
bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1
bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]
Zusammenfassung
bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen
bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen
bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen
bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung
bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar
bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen
bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden
Kontrollfragen
bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention
bull Welche Probleme stellen sich bei der Tokenisierung
bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung
bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten
bull Was versteht man unter NER
bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle
22
Kapitel 3
Linguistisches Propaumldeutikum I
Lernziele
bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen
bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg
bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch
bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte
bull Kenntnis und Anwendung linguistischer Proben
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten
bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung
31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs
Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind
Praumlzisierungsversuche des Wort-Begriffs
bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit
bull Morphologisch Grundeinheit welche flektierbar ist
bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist
bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes
23
Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach
Antworten 4 5 6 9 __
311 Token
Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9
Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann
312 Wortform
Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes
Identische Wortformen mit unterschiedlicher Bedeutung
bull Die Fliege war tot
bull Er trug eine samtene Fliege
bull Fliege nicht so schnell
313 Syntaktisches Wort
Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6
Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst
Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural
24
314 Lexem
Antwort 5 Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5
Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden
Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in DeutschenLatein aus
Antwort 4 Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4
Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert
Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln
Stufen der Abstraktion Vom Text zum Lexemverband
bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)
bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)
bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen
bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden
bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird
25
32 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det
321 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
26
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
322 UD
Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish
ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo
Universal Part-of-Speech Tagset (Version 2) UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher )
Baumbanken sind fuumlr 51 Sprachen verfuumlgbar
27
Abbildung 32 Deutsche UD-Baumbank
UD V13 fuumlr Deutsch
NDurchsuchen
bull Suche nach Wort spaumlter
bull Nach Wort+Wortart spaumlterampADV
UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml
Mehrdeutigkeiten Unklarheiten Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form
Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml
28
bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
bull Vollautomatisch Schnell billig fehlerbehaftet
bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml
N CoNLL-Format Spaltenformat fuumlr Annotationen3
bull Vertikalisierter Text
bull 1 Token pro Zeile
bull Saumltze mit Leerzeile getrennt
bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation
bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet
Bedeutung relevanter Spalten
1 Tokennummer (1-basierte Zaumlhlung) pro Satz
2 Wortform (Token)
3 Lemma
4 Grobe Wortklasse (coarse-grained part-of-speech tag)
5 Feine Wortklasse (fine-grained part-of-speech tag)
6 Morphosyntaktische Merkmale
7 Syntaktischer Kopf als Tokennummer
8 Dependenztyp
CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo
Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token
3httpuniversaldependenciesorgformathtml
29
Abbildung 33 CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
323 Feine Tagsets
Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis
bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags
bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert
bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch
bull Alternativen Muumlnsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig
bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)
ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel
bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo
30
Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts
Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken
33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden
Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
bull Konjugation von Verben
bull Deklination von Nomen Adjektiven Artikeln und Pronomen
bull Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion Sind steigerbare Adverbien ein Widerspruch im System
Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet
31
Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts
Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn
331 Genus
Das Genus (UD Gender) Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien
Tabelle 31 Uumlbersicht Genera
BemerkungDer Plural von Genus lautet Genera
Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind
Deutsch
32
Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur
AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas
332 Numerus
Der Numerus (UD Number) Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner
Tabelle 32 Uumlbersicht Numeri
BemerkungDer Plural von Numerus lautet Numeri
Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt
333 Kasus
Der Kasus (UD Case) FallUD-Kategorie Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 33 Uumlbersicht Kasus
BemerkungDer Plural von Kasus lautet Kasus
334 Modus
Der Modus (engl mode mood UD Mood) Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh
Tabelle 34 Uumlbersicht Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi
33
335 Tempus
Das Tempus (UD Tense) grammatische Zeit Zeitform
Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging
Tabelle 35 Uumlbersicht Tempora
BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten
336 Person
Die Person (UD Person)
Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht
Tabelle 36 Uumlbersicht Personen
BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt
337 Grad
Der Grad (UD Degree) Steigerung Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste
Tabelle 37 Uumlbersicht Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt
338 Adjektiv-Flexion
Die Adjektiv-Flexion (engl adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven
Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet
34
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse
Tabelle 38 Uumlbersicht Adjektiv-Flexion
Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _
34 Linguistische ProbenLinguistische Testverfahren
Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen
341 Ersatzprobe
Ersatzprobe
Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben
35
Beispiel 343 (Bestimmung des Kasus)
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen
Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)
bull Das ist das Angebot das uns uumlberzeugt hat
bull Dieses ist das Angebot welches uns uumlberzeugt hat
bull Welches ist das Angebot dieses uns uumlberzeugt hat
bull Das ist dieses Angebot welches uns uumlberzeugt hat
Probleme der Interpretation
bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes
bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig
342 Einsetzprobe
Einsetzprobe
Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert
Beispiel 345 (Bestimmung der Wortart)
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive
35 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie Wortstruktur und Wortbildung
bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e
36
bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit
bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system
351 LemmatisierungMorphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen
Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma
Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo
Analysen von GERTWOL5
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Probleme morphologischer Analysen Mehrdeutigkeit
eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2
Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol
37
bull ldquoeinerdquo als
bull ldquoMuumlllerrdquo als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus
Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter
Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM
ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat
Lieblingsbeerelieb~lingsbeere S FEM SG NOM
Erdbeereerdbeere S FEM SG NOM
Fingerbeerenfingerbeere S FEM PL NOM
UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung
38
Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas
Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent
352 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT
bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem
bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6
bull Die Website universaldependenciesorg hat einige Dokumentation
Zusammenfassung
bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte
bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6httpwwwdsuzhchstudien-cd
39
Kontrollfragen
bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo
bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2
bull Worin besteht Morphologieanalyse und -generierung
bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller
bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt
bull Was ist der Unterschied zwischen Lemma und Lexem
40
Kapitel 4
Linguistisches Propaumldeutikum II
Lernziele
bull Anwendung der klassischen syntaktischen Proben
bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf
bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen
bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen
bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Dependenz
41
Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden
(NGoogles SyntaxNet)
41 Syntaktische ProbenKonstituentenproben
Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt
Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web
411 Weglassprobe
Weglassprobe
Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten
Bestimmung eines Satzglieds
1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam
FrageWarum nicht Variante 4
42
412 Verschiebeprobe
Verschiebeprobe
Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen
Bestimmung von Satzgliedern
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen bereite ich die Sitzung mit dem Chef vor
3 Ich bereite die Sitzung mit dem Chef morgen vor
Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb
Verschiebeprobe
Unzulaumlssiges Verschieben
1 Die Sitzung mit dem Chef bereite ich morgen vor
2 Morgen ich bereite die Sitzung mit dem Chef vor
3 Die Sitzung bereite ich morgen mit dem Chef vor
413 Umformungsproben
Umformungsprobe
Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut
Funktion von Nebensaumltzen
1 Es wuumlrde mich freuen wenn du mitkaumlmest
2 Dein Mitkommen wuumlrde mich freuen
Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo
Infinitivumformung zur Subjekterkennung
1 Die Laumlrche ist ein Nadelbaum
2 ein Nadelbaum sein die Laumlrche
43
Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]
42 SatzSatz
Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist
Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten
421 Satzglieder
Moderne Satzgliedlehre
422 Koumlpfe (oder Kerne) von Konstituenten
Syntaktische Koumlpfe (engl head) Kern (engl kernel)
Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar
Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)
1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]
2 Sie rennt [mit dem Mobile hantierend] zum Kiosk
3 Es wird [viel zu oft] telefoniert
44
4 [Die Frau die zum Kiosk rannte ] war aufgeregt
5 Sie fuumlhlte sich [wie in einem schlechten Film]
6 Aber sie war auch [in einem ziemlich schlechten Film]
43 Syntaxanalyse
431 Konstituenz
Konstituenten und Konstituenz
Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist
Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten
Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten
Konstituenten in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Praumlzedenz auf Wortebene
Praumlzedenz zwischen Tochterkonstituenten
Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente
Konstituententypen
Typen von Konstituenten in TIGERNEGRA
1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen
45
2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern
3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern
4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern
5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern
6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern
7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo
Annotation von Relativsaumltzen
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen
Komplexe Konstituenz in der Penn-Treebank
Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white
Syntaxbaum aus der Vogelperspektive
In
IN
other
JJ
words
NNS
like
IN
automation
NN
machines
NNS
designed
VBN
-NONE-
to
TO
work
VB
in
IN
tandem
NN
they
PRP
shared
VBD
the
DT
same
JJ
programming
NN
a
DT
mutual
JJ
understanding
NN
not
RB
only
RB
of
IN
English
NNP
words
NNS
but
CC
of
IN
the
DT
four
CD
stresses
NNS
pitches
NNS
and
CC
junctures
NNS
that
WP
T
-NONE-
can
MD
change
VB
their
PRP$
meaning
NN
from
IN
black
NN
to
TO
white
NN
NP
PP
NP NP NP
PP
VP
VP
SBJ
S
VP
NP
PP
NP NP NP CONJP NP
PP
NP WHNP NP NP NP
PP
NP
PP
PP
VP
VP
SBJ
S
SBAR
NP
PP
PP
NP
NP
VP
SBJ
S
T
46
Quelle TIGERSearch-Demo-Korpora
Maximale Verschachtelungstiefe
432 Dependenz bzw syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten
Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen
HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt
Syntaktische Funktionen in der TIGERSearch-Darstellung
$$amp
($)((+-
0
1123+
($)($45(306
789
lt
$5((==($)(9
14gt0600
++
2-(==($)(
06
A+
amp5=0
++
+9(==($)(
0
$B1C
D
ED
F45G0
1123+
($)($45(306
4
$$AB
(==($)
HI)G=90
++
2-(==($)(
85J4J0
113CK
(
E(
+ + + +
+$
Llt L Llt
+$
A M
N M
L+$
A 1$ M
1$
AL
Llt
Llt
O P Q R S T U V W PO PP PQ
SOO SOP
SOQ SO
SOR SOS
SOT
L
Syntaktische Funktion
Konstituenten
Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung
Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente
Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken
Einige Satzglieder mit TIGER-Funktion
bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein
47
Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)
bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)
bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)
bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)
bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator
bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb
Baumbankkonversion Von Konstituenz zu Dependenz
Automatische Konversion (NTIGER2Dep)
Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)
433 UD-DE-Modell
Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen
48
UniversalAnnotaon
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
Generelle Philosophie des Universal-Dependency-Modells
bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig
bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV
bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum
bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden
bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der
bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)
bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens
Inhaltswoumlrter VERB und NOUN
Hinweisebull Spitze des Pfeils Abhaumlngiges Element
bull Startknoten des Pfeils Kopf
bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen
bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird
Das UD-Innenleben von Nominalphrasen
Hinweisebull Was ist der NP-Kopf
bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll
49
Komplexe Verb- und Adjektivphrasen
Hinweise
bull Hilfs- und Modalverben haumlngen vom Vollverb ab
bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich
Kopulakonstruktion und Gleichsetzungsnominativ
Fragen
bull Wovon haumlngt das Subjekt ab
bull NSuche nach ist im Suchwerkzeug
bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft
Interpunktion
Hinweise
bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt
50
Verschachtelte Saumltze
Hinweise
bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab
bull Wann aclrelcl und wann advcl
Koordination
Koordination Koumlpfe und Abhaumlngigkeitsrichtung
Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht
Koordination von Konstituenten aus NEGRA-Korpus
bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]
bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]
bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]
2 Fragen mit mehreren moumlglichen Antworten
bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt
bull In welche Richtung werden koordinierte Elemente verknuumlpft
Koordination in der NUD
Frage
bull Welche Antworten gibt die UD
51
Manuelle Syntax-Annotation mit WebAnno
bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)
bull Click-und-Drag-Interface mit der Maus
bull Automatische Generierung des korrekten CoNLL-Datenformats
bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml
Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml
Aufgabe Annotation von Relativsatz
Der Hund den die Katze anfauchte knurrte leise
NP
S
NP
S
Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Wie sieht eine UD-Annotation von diesem Satz aus
434 Suche
NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken
Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-
Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens
2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)
KOPF gt NICHTKOPF
NICHTKOPF lt KOPF
Analog zur Pfeilrichtung in der BRAT-Visualisierung
52
Grundlegende syntaktische Suchrezepte
bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging
bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging
bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde
bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld
bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor
bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _
bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist
44 AmbiguitaumltZusammenfassung
bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen
bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden
bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab
bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])
45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]
bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre
bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren
bull Quiz Die Form der Satzglieder
bull Quiz Satzglieder und Proben
bull Linguistik-CD
53
Kapitel 5
Endliche Automaten
Lernziele
bull Einstieg in die Formalisierung von Sprache
bull Was sind Zeichenketten formalmathematisch
bull Was ist eine formale Sprache
bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation
bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten
bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie
bull Wann ist ein endlicher Automat deterministisch und wann nicht
bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten
54
51 Formale Sprachen
511 Mengen
A Quick Review of Set Theory
A set is a collection of objects
A B
D E
We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E
There is no significant order in a set so A D B E is the same set as E A D B etc
Quelle B04
Cardinality of Sets
The Empty Set
A Finite Set
An Infinite Set eg The Set of all Positive Integers
Norway Denmark Sweden
Quelle B04
512 Zeichen
Das Alphabet (Sigma) Menge von Zeichen
55
Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert
Zeichen des EnglischenΣEnglisch = a b c x y z
Zeichen der binaumlren ZahlenΣbin = 0 1
Zeichenketten (strings)
Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ
Zeichenketten uumlber englischen Symbolen ΣEnglisch
a we muntjac talk walk krwrk
Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0
Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast
bin = ε 0 1 00 01 10 11 001
513 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory
A Language is just a Set of Words
bull We use the terms ldquowordrdquo and ldquostringrdquo interchangeably
bull A Language can be empty have finite cardinality or be infinite in size
bull You can union intersect and subtract languages just like any other sets
56
Quelle B04
Union of Languages (Sets)
dog cat rat elephant mouse
Language 1 Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2 Quelle B04
Formale Sprachen als Teilmenge von Sigma Stern
L sube Σlowast
Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast
Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes
Englische Woumlrterwalk talk work sube a b zlowast
Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt
Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit
Formales Modell Wirklichkeit
Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme
57
Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der
Wirklichkeit zu repraumlsentieren
Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language
0 or denotes the empty string
Abbildung 51 Sprache mit 3 WoumlrternZeichenketten
Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk
Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage
Beispiel fuumlr Deterministischen Endlichen Automaten
talk isin work talk walk
bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile
52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)
Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand
58
Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert
Nicht-Deterministische Endliche Automaten (NEA)
Abbildung 52 Deterministischer EA
Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg
Nicht-Determinismus IIEs gibt mindestens eine ε-Kante
Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln
Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus
1 einer endlichen Menge Zustaumlnde Φ
2 einem endlichen Eingabealphabet Σ
3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ
59
4 einem Startzustand S isin Φ
5 einer Menge von Endzustaumlnden F sube Φ
Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)
δ Φtimes (Σ cup ε)rarr weierp(Φ)
521 Konkatenation
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenkettenu bull v = uv
lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo
Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V
lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo
Concatenation of Languages
work talk walk
Root Language
0 ing ed s
Suffix Language
work working worked works talk talking talked talks walk walking walked walks
The concatenation of the Suffix language after the Root language
0 or ε denotes the empty string
60
Quelle B04
Concatenation of Languages II
work talk walk
Root Language
0 ing ed s
Suffix Language
rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks
The concatenation of the Prefix language Root language and the Suffix language
Prefix Language
re out 0
outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks
work working worked works talk talking talked talks walk walking walked walks
Quelle B04
Languages and Networks
w a l k
o r
t
NetworkLanguage 2 NetworkLanguage 3
s
o r The concatenation of Networks 1 2 and 3 in that order
w a l k t
a
a s
ed
i n g
0
s
ed
i n
0s
g o
r
NetworkLanguage 1
s
u t
e
0
o
r s
t
e
0 u
Quelle B04
522 Regulaumlre Ausdruumlcke
Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)
Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann
61
bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo
bull Die Mengen a1a2an sind regulaumlr RA a oder b
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))
bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)
bull Ist L regulaumlr dann auch LlowastRA (A)
Wie kann man Optionalitaumlt ausdruumlcken
Graphischer Algorithmus Konversion von RA zu NEA
JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten
Algorithmus
1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde
2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten
3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander
4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen
Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten
Epsilon
Symbol a
Konkatenation (ab)
Alternative (a|b)
62
encodes
a
LANGUAGE RELATION
compiles intoa
REGULAR EXPRESSIONa
FINITE-STATE NETWORKde
notes
Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])
Wiederholung (a)
Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert
63
53 Transduktoren
Linguistic Transducer Machines
mesas
Generator
ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas
m e s a +Noun +Fem +Pl
m e s a 0 0 s
mesa+Noun+Fem+Pl
Analyzer
ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas
Quelle B04
Gute Eigenschaften von endlichen Automaten und Transduktoren
bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen
bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde
bull Beispiel NRumantsch Grischun
bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren
Zusammenfassung
bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben
bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen
bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den
bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt
bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden
64
Vertiefung
bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)
bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo
bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo
bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial
65
Kapitel 6
Flache Satzverarbeitung
Lernziele
bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets
bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung
bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen
bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells
bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger
bull Kenntnis uumlber partielle syntaktische Analyse
bull Kenntnis uumlber flache und verschachtelte Chunks
Welches mehrdeutige Wort hat dieses Profil
UPOS-Tag Vorkommen1
1021ADP 848ADV 61
PROPN 14ADJ 1
61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT
N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token
66
Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)
bull eineDET Kuh Lemma ldquoeinrdquo
bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)
bull lead Verb lid (fuumlhren) Nomen led (Blei)
bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe
Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren
Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to
be present tense 3rd person singular
Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch
Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist
Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]
bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)
bull Effizient Der Tagger arbeitet schnell
bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)
bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den
bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden
Was fehlt
67
611 Probleme des Taggings
Wortformen mit mehreren moumlglichen Tags
MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token
Tag-Ambiguitaumlt im Englischen
Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]
Haumlufigkeiten im Brown-Korpus
bill NN 2351
promised VBD 34~~VBN 10~~JJ 2
back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2
Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token
die~~ART 2351~~PRELS 448~~PDS 4
Mehrheit~~NN 40
bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0
Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen
bull Unterscheidung zwischen offenen und geschlossenen Wortarten
bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)
68
Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]
Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)
bull 98 aller Woumlrter mit Endung -able sind Adjektive
bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname
Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe
oo
n
e
g
n
d
senuel
l
cv
y ta
o
mtsiii
o
i
ies (NNS09 VBZ01)ons (NNS095 VBZ005)
ed (VBN04 JJ03 VBD03)
le (NN025 JJ045 NP02 VB01)
ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)
ty (NN045 JJ035 NP02)
son (NP08 NN01 JJ01)
man (NP08 NN02)ton (NP09 NN005 JJ005)
ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)
ous (JJ096 NN004)
old (JJ098 NN002)
Quelle [Schmid 1995]
Wortformen mit mehreren moumlglichen Tags Kontext
69
Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6
Vorkommen von ldquobackrdquo im Brown-Korpus
ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung
Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen
Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet
bull die moumlglichen Tags von wn aus Tagger-Lexikon
bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens
Context
3
3
Kontextmodell des Trigrammtaggers TnT [Brants 2000]
612 Fallstudie TnT-Tagger
Supervisiertes Maschinelles Lernen
70
Quelle [Raschka 2015 11]
ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt
Fallstudie TnT-Tagger trainieren und evaluieren
Testkorpustestttstesttxt
Trainingskorpustrainingtts
Getaggtes Korpus
Aufteilen des Korpus
Taggingtnt
Trainingtnt-para
Parameter-Dateien
traininglextraining123
Evaluations-korpus
evaltts
Evaluationtnt-diff
Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]
1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts
2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden
$ head --lines 278081 ud-de-v13tts gt trainingtts
3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden
$ tail --lines 30900 ud-de-v13tts gt testtts
71
4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus
$ tnt-para trainingtts
5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut
$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts
6 Man erstelle das Evaluationskorpus
$ cut -f 1 testtts gt evaltxt
7 Man tagge das Evaluationskorpus mit dem Trainingsmodell
$ tnt training evaltxt gt evaltts
8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus
$ tnt-diff testtts evaltts
62 EvaluationEvaluation
Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode
Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt
Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird
Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind
Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden
Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)
Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat
72
Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein
621 Zweck
Zweck von Evaluationen
SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert
SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist
622 Accuracy
POS-Tagger-Evaluation Genauigkeit
Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens
accuracy = N minus EN
Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit
Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus
Tagt Freqt Tagf Freqf Ant Erel Eabs
NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010
Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]
Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler
73
5-fache Kreuzvalidierung visuell
Figure 8-2 K-fold cross-validation
Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point
You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order
gtgtgt import randomgtgtgt randomshuffle(f)
If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold
gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k
Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on
Problems That Can Affect Evaluation | 179
Quelle [Pustejovsky und Stubbs 2013 179]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))
accuracy =sumi=10
i=1 accuracyi
10
Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen
623 Lernkurven
624 Recall
Recall (Ausbeute Abdeckung Vollstaumlndigkeit)
Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems
R = At
Nt
Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600
800 = 75
74
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp())+-01$+-0-2)00-))304
56)77
8010
904010
6+789lt
6-=7gt8lt
6+7gtlt
6-=7gt8lt
6+7lt
6-=79lt
2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J
-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J
)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)
Qampamp)(ampI0(EI(K3amp)-++5
8
9
gt
R9 9 S gt9 8 RR gtS
$-++5NF=J
TM5ltU+B+ampE+
TM5T00I-0L
SSR
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
6)6lt$$)amp$+)=$gt=((+
Q-M-44amp-0C
5-66ampK1F3()ampKVWWJ
6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(
Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp
)-)amp3)T)C
$5-66ampK1F(0amp+KampKVWWJ
6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+
U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+
TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+
+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt
QZ]T F6-+JgtRlt gt8lt [RSlt
Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants
625 Precision
Precision (Genauigkeit Praumlzision)
Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems
P = At
A
Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600
1000 = 60
626 F-Measure
F-Measure (F-Mass)
Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems
F = 2times P timesRP +R
75
$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5
$amp()
67-18-)amp+8(+5)9amp0amp4amp-
6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F
2++$G-+AH-11))Iamp8+-1
J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+
$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5
amp+)-5)amp-0)ampA+
$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()
$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5
+amp(-012344)425amp123)3627892(+lt
=+$$
gt)(5)
))(5)
D+QRSTU
D-EQVWTRU
D+QVXTRU
D-EQVRTRU
D+QWTYU
D-EQSVTMU
6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F
-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F
M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)
ampamp)(amp80(98(B3amp)-++5T
Y X M YM XM MM YMM YMXM
WM
RM
SM
VM
MM
$-++5OCEMMMF
gt75TU[+A+amp9+
gt75Tgt008-0N
PWTP PTP WTM MTR YTM ST PT TVXMTS
C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075
06+075 = 666
63 Chunk ParsingPartielle syntaktische Analyse
Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt
Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN
bull NC Ein NC (Nominalchunk) besteht
bull -gt besteht aus
bull ART aus einem Wort der Wortart ART (Artikel)
bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)
76
Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid
631 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]
Motivationen
bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung
bull Effizienz Teilstrukturen lassen sich effizienter berechnen
bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse
bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden
632 IOB-Chunk
Flache Chunks im IOB-Format
Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist
bull B-K Anfang einer Chunk-Konstituente K
bull I-K Fortsetzung der Chunk-Konstituente K
77
bull 0 Nicht zugeordnet (wird auch chink genannt)
We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP
633 Verschachtelte Chunks
Verschachtelte Chunks
Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich
Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)
[PX [APPR fuumlr][NX [ARTIND eine]
[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]
Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC
64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo
bull Pflichtlektuumlre [Carstensen et al 2009 342-3]
bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking
bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative
bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4
78
ZusammenfassungZusammenfassung
bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung
bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets
bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input
Kontrollfragen
bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen
bull Was unterscheidet Recall und Precision von Accuracy
bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging
bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte
bull Was ist der Vorteil der IOB-Notation fuumlr Chunks
65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele
bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative
bull Kenntnis uumlber Fehlertypen und ihre Gefahr
bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung
651 TrueFalse PositivesNegatives
Evaluation von binaumlren Klassifikatoren
TruthPositive Negative
Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)
Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 63
True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo
79
FP Fehlertyp I Test ist positiv wo er nicht sollte
FN Fehlertyp II Test ist negativ wo er nicht sollte
652 Fehlerparadoxe
Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet
Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter
Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet
Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter
653 Unterschiede von Evaluationsmassen
Dualitaumlt von Precision und Recall
TruthPos Neg
Test Pos TP FPNeg FN TN
R = TP
TP + FN
Tabelle 64 Recall
Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision
F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig
80
TruthPos Neg
Test Pos TP FPNeg FN TN
P = TP
TP + FP
Tabelle 65 Precision
TruthPos Neg
Test Pos TP FPNeg FN TN
F = 2times TP2times TP + FP + FN
Tabelle 66 F1-Measure
TruthPos Neg
Test Pos TP FPNeg FN TN
Accuracy = TP + TN
TP + TN + FP + FN
Tabelle 67 Accuracy
654 Mitteln von Recall und Precision
F-Measure Harmonisches vs arithmetisches Mittel
655 Vertiefung
bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]
81
Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]
82
Abbildung 68 M = P +R2 Arithmetisches Mittel
83
Literaturverzeichnis
[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235
[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications
[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University
[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231
[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl
[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen
[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf
[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt
[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf
[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl
[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov
[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl
84
[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf
[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf
[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830
[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485
[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM
[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011
[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl
[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York
[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096
[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA
[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning
[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf
[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin
[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml
85
[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098
[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps
[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd
[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf
[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf
[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf
[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean
[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574
86
Index
10-fache Kreuzvalidierung 74
Adjektiv-Flexion 34Alphabet 56
Eingabealphabet 59
DEA 59Dependenz 47
Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72
F-Measure 75
Genus 32Grad 34
IOB-Chunks 77
Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44
Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25
Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39
Named Entity Regonition 19NER 19
Numerus 33 34
partielle syntaktische 76Person 34Precision 75Probe linguistisch 35
Qualitaumlt einer Evaluation 72
Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72
Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47
Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24
Umformungsprobe 43
Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43
Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24
XML-Standard 14
Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59
87
- Organisatorisches
-
- Organisatorisches
-
- Leistungsnachweis
- Lernen und Lehren
-
- Kontrollfragen
-
- Tokenisierung
-
- Tokenisierer
-
- Grundproblem
- Kodierung
- Programme
-
- XML
- Tokenisierung
-
- Problem
- Punktdisambiguierung
- Normalisierung
- NER
-
- Multilingualitaumlt
- Vertiefung
-
- Linguistisches Propaumldeutikum I
-
- Wort
-
- Token
- Wortform
- synt Wort
- Lexem
-
- Wortarten
-
- 5 Hauptwortarten
- UD
- STTSPTTS
-
- Merkmale
-
- Genus
- Zahl
- Kasus
- Modus
- Zeit
- Person
- Grad
- Flexion
-
- Proben
-
- Ersetzen
- Einsetzen
-
- Morphologie
-
- LemmatisierungMorphologieanalyse
- Morphologiegenerierung
-
- Vertiefung
-
- Linguistisches Propaumldeutikum II
-
- Proben
-
- Weglassen
- Verschieben
- Umformen
-
- Satz
-
- Satzglieder
- Koumlpfe
-
- Syntaxanalyse
-
- Konstituenz
- Dependenz
- UD-DE
- Suche
-
- Ambiguitaumlt
- Vertiefung
-
- Endliche Automaten
-
- Formale Sprachen
-
- Mengen
- Zeichen
- Sprachen
-
- EA und regulaumlre Sprachen
-
- Konkatenation
- Regulaumlre Ausdruumlcke
-
- Transduktoren
-
- Flache Satzverarbeitung
-
- Tagging
-
- Probleme
- Fallstudie TnT-Tagger
-
- Evaluation
-
- Zweck
- Accuracy
- Lernkurven
- Recall
- Precision
- F-Measure
-
- Chunking
-
- Abney
- IOB-Chunk
- Verschachtelte Chunks
-
- Vertiefung
- Exkurs Evaluation binaumlrer Klassifikatoren
-
- TPFPFNTN
- Fehlerparadoxe
- Unterschiede
- Mittelwerte
- Vertiefung
-