chancen und probleme der nutzung von korpora, …g91254/dspin-workshop-lehre/... · eigenem...
Post on 18-Sep-2018
213 Views
Preview:
TRANSCRIPT
Chancen und Probleme der Nutzung vonKorpora, Taggern und anderen Sprachressourcen
in sprachwissenschaftlichen Seminaren
— ein Erfahrungsbericht —
Heike ZinsmeisterD-Spin Workshop “Sprachressourcen in der Lehre”
BBAW, Berlin18. Januar 2011
18.01.2011 1
Leitfrage:
Welche Themen und Sprachressourcensind für Sprachwissenschaftler in der
Lehre relevant?
18.01.2011 2
Subjektiver Hintergrund (1)
• Lehrgebiete, in denen ich Sprachressourceneinsetze– Sprachwissenschaft
• Bsp: Diskursmodelle (Textlinguistik)
– Korpuslinguistik
• Bsp. Korpuslinguistische Methoden fürLinguisten
– Computerlinguistik
• Bsp. Maschinelle Übersetzung
18.01.2011 3
Subjektiver Hintergrund (2)
• Querschnitt der von mir eingesetzten Ressourcen– Anreicherung
• Treetagger, Lopar• XLE (Grammatikentwicklung, Transfer, Parser, Online)• EXMARaLDA, MMAX2, CLaRK, Annotate, Salto, RST-
Tool, ...– Recherche
• DWDS, COSMAS, CQP• TigerSearch, Tgrep, Linguist‘s Search Engine
– Korpora etc.• Texte des Projekt Gutenberg, Penn Treebank, TüBa-D/Z,
TIGER-Korpus, DWDS-Korpora, IDS-Korpora,...• WordNet, FrameNet, Salsa, ...
(für Referenzen siehe die letzten Folien)
18.01.2011 4
Zwei Lehr-/Lernzieltypen
• Methodenkompetenz• Bsp.: Einsatz von Tools und Datenressourcen zur
Annotation / Suche / Analyse
Praktisches Wissen um die Nutzung von Toolsund Ressourcen
• Verstehen einer linguistischen Fragestellung• Bsp. Anaphorische und Koreferenzbezüge
Tool/Ressource als Mittel zum Zweck
18.01.2011 5
Einsatzszenarien
• “Auf der Bühne”– Studierende nutzen die Tools und Ressourcen selbst– im Seminar / in Übungen / Projekten / Abschlussarbeiten
• “Hinter den Kulissen”– Lehrende verwenden Tools und Ressourcen zur Erstellung
von Unterrichtsmaterialien• Beispiele, Übungen, Abbildungen
(vgl. Aston 2000 zum Einsatz vonKorpora im Fremdsprachenunterricht)
• “Schatten”– Tools werden auf Folien etc. im Unterrichtsvortrag
vorgestellt (evtl. einschließlich Demos im Unterricht?)
18.01.2011 6
Nutzungsszenarien in der Lehre
Aufgabenstellung
Tool auch Online-schnittstellen
Korpus
Abfrage-ergebnis
Eingabe-daten
Manipu-lierteDaten
Tool
Interpretation / Nutzung
18.01.2011 7
Szenarium I
Aufgabenstellung
Tool
Korpus
Abfrage-ergebnis
Interpretation / Nutzung
18.01.2011 8
Beispiel: GermaNet
• http://www.sfs.uni-tuebingen.de/GermaNet/• Lexikalisch-semantische Ressource für das Deutsche• nach dem Vorbild des englischen WordNet
http://wordnetweb.princeton.edu/perl/webwn
(http://arbuckle.sfs.uni-tuebingen.de/GermaNet/Nouns.html#Relations)
18.01.2011 9
WordNet
(http://wordnetweb.princeton.edu)
18.01.2011 10
GermaNet in der Lehre
• Seit 2008 nicht mehr kostenpflichtig fürForschung und Lehre
• Tools– APIs (Java, Perl)
– GermaNet Explorer, GermaNet Pathfinder(Cramer & Fintheimer 2008, Fintheimer & Cramer 2008)
• Neu: Online-abfragbar über Canoo.nethttp://www.canoo.net
18.01.2011 11
Szenarium II
Aufgabenstellung
Eingabe-daten
Manipu-lierteDaten
Tool
Interpretation / Nutzung
18.01.2011 12
Beispiel: Linguistik & Annotation
• Lesarten des Pronomens ‘es’
• Annotierte Daten als potenzielleTrainingsdaten für einen Klassifikator– Präprozessierung für Koreferenzauflösung
– Koreferenzauflösung ist wichtig für
• Informationsextraktion
• Automatische Zusammenfassung
• Maschinelle Übersetzung
• etc.
18.01.2011 13
Annotation: Lesarten von ‘es’
Nominale Anapher
(1) Das Baby liegt in der Wiege. Es schläft ruhig.
Abstrakte Anapher
(2) Die Benzinpreise steigen wieder und das gefällt mir nicht.
Korrelat
(3) Es ist gut, dass Peter kommen konnte.
Wetterverben / Prädikative der Zeit, des Orts, etc.
(4) ... weil es regnete / ... weil es schon drei Uhr war.
Vorfeld-Es
(5) Es wurde bis zum Morgen getanzt.
(adaptiert von Boyd et al. 2005, Naumann 2006)
18.01.2011 14
Annotationsrichtlinien
Entscheidungsbaum linguistischer Tests:Referiert ‘es’ auf einen Referenten, der an anderer Stelle im Text
erwähnt wird? Test: nämlich-Paraphrase
ja = referenzielles Pronomen nein = Expletiv
Ist das Antezedens Fungiert es als Platzhalterdes Pronomens als für ein satzwertigesNP realisiert? Argument (einschließlichTest: NP-Kriterien nicht-finite Phrasen)?
Test: Ersetzung; Satz-ja nein Kriterien Nominale Abstrakte ja neinAnapher Anapher
Korrelat Rest
18.01.2011 15
Annotationstool: MMAX2
(cf. Müller & Strube 2006)
18.01.2011 16
Rahmenkriterien für dieses Szenario (1)
• Ort– Online
• Auslastung / Geschwindigkeit– Pool
• Kenntnis der Hardware / des ‘Handlings’– Heim
• private Rechner / zu Hause / Hilfestellung
• Ausstattung– Vielfalt von Plattformen– Einbindung bestehender Programme
• Positiv von Seiten des Programmierung• Problematisch im “Heim”-Einsatz (evtl. im Pool)
18.01.2011 17
• Zeit– Sitzung / Übungsstunde / Hausaufgabe /
seminarbegleitendes Projekt / abschließendes Projekt
• Dokumentation
• Kodierung
• Eingabe- / Ausgaberepräsentationen
• Visualisierung der Such- / Manipulationsergebnisse
• Evaluierung– quantitativ: Übereinstimmung abstrahiert vom Zufall
– qualitativ: Konfusionsmatrix
Rahmenkriterien für dieses Szenario (2)
18.01.2011 18
Relevante Ressourcen: Sprachwissenschaft
• Daten– (Annotierte) Korpora– lexikalische Ressourcen
• Tools– Online-Schnittstelle– zur Analyse der Daten– zur Aufbereitung der Daten
• Expertise– Tagsets– Anfragesprachesprache– Bedienung der Tools
18.01.2011 19
Leitfrage:
Sprachressourcen in Curricula?
18.01.2011 20
Universität Konstanz: BA Sprachwissenschaft
• Modul 4: Weiterführende Gebiete der Linguistik (Ling220)
• Ling 231 Computerlinguistik• Dieses Seminar führt Grundideen aus der
Computerlinguistik ein und erklärt, wie allgemeinerhältliche Applikationen (z.B. Spracherkennung,POS-Tagging, Maschinelle Übersetzung,Grammar/Spell Checking, Suchfunktionen inWebbrowsern, Text Summarization) funktionierenund wie sie noch verbessert werden könnten.– Ling 232 Maschinelle Übersetzung– Ling 251 Neue Entwicklungen, sonstige Anwendungen
Nutzung vonOnline-Ressourcen
18.01.2011 21
MA Allgemeine Sprachwissenschaft (1)
• Modul-Einheit: Ling 381 Methodenlehre– Wahlpflichtveranstaltung
• In diesem Seminar werden verschiedene Methodenvorgestellt, wie linguistische Daten direkt vonSprechern zu gewinnen und korrekt zu analysierensind, namentlich von Sprechern weniger gutbeschriebener Sprachen (Fragebogenerhebung,Feldforschung). Für typische Anwendungsgebietestatistischer Verfahren in der Sprachwissenschaft,z.B. im Bereich der Phonetik, der Psycho- oderNeurolinguistik oder corpusbasierter Studienwerden grundlegende und weit verbreitete Verfahrenund Methoden vermittelt.
18.01.2011 22
MA Allgemeine Sprachwissenschaft (2)
• Modul 3: Sprachverarbeitung (Ling 330-340)– Ling 331 Computerlinguistik– Ling 341 Psycholinguistik– Ling 343 Neurolinguistik
• Die Studierenden wählen zwei Schwerpunkte aus denBereichen der Computerlinguistik, der Psycholinguistik oderder Neurolinguistik. Es werden vertiefte Kenntnisse deraktuellen Forschungsfragen und -methoden vermittelt. Indiesem Seminar werden aktuelle und klassische Themen derComputerlinguistik vertieft behandelt. Zu ausgewählten Themenwerden Überblicksartikel gelesen und es werden dazuImplementierungen diskutiert. Typische Themen sind Parsing,Generierung, Computationelle Semantik, Ontologien,Repräsentationsmöglichkeiten, Text Mining, InformationExtraction und Text Summarization.
18.01.2011 23
MA Speech and Language Processing
• Modul 2: Maschinelle Sprachverarbeitung (Ling331)– Zweiter Modulteil: Menschliche Sprachverarbeitung
• Aktuelle und klassische Themen der Computer-linguistik werden vertief behandelt. Zuausgewählten Themen werden Überblicksartikelgelesen und es werden dazu Implementierungendiskutiert. Typische Themen sind Parsing,Generierung, Computationelle Semantik, Ontologien,Repräsentationsmöglichkeiten, Text Mining,Information Extraction, Text Summarization.
18.01.2011 24
MA Speech and Language Processing
• Modul 3: Sprachverarbeitung– Ling 332 Regelbasierte Maschinelle
Sprachverarbeitung
– Ling 333 Corpuslinguistik• Programmieren mit Perl oder Python. Arbeiten
mit Corpora, Errechnen von Informationen zuden Corpora und Extraktion von Informationenaus den Corpora mittels eigenständiggeschriebener Programme.
18.01.2011 25
Leitfrage:
Welche Ressourcen werden bevorzugtund gern praktisch eingesetzt?
18.01.2011 26
Auswahlkriterien
• Eigenschaften– Handhabbarkeit
• unmittelbar: Seminarstunde– Wiederanwendbarkeit
• mittelfristig: relevant fürs Studium (z.B.Abschlussarbeit)
– Übertragbarkeit• langfristig: berufsrelevante Kompetenz
• Beispiele:– STTS (Schiller et al. 1999); TreeTagger (Schmid 1994)
18.01.2011 27
Auswahlkriterien (2)
• Online-Zugang– Ist die Prozedur transparent?
• „Download and run / use“– Kennt man die Entwickler persönlich?
– Verwendet man es in der eigenen Forschung?Wurde es in anderen, lokalen Projektenverwendet? („Stallgeruch")
18.01.2011 28
Leitfrage:
Verbesserung und Erleichterung desdidaktischen Einsatzes von
Sprachressourcen
18.01.2011 29
Rahmenbedingungen
(Wiederholung:)• Lehrende: Motivation, eigenes Know-how, Zugriff auf
Expertenwissen• Studierende: Motivation (kurzfristig, langfristig),
eigenes Know-how, Zugriff auf Expertenwissen• Technisches Umfeld
– Plattform, Datenformat, Tool– Poolrechner / begrenzter Zugriff / eigene Arbeiten später an
eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac)
• Räumliches Umfeld• Zeitliches Umfeld
18.01.2011 30
Wünsche: Übersicht
• Zentraler Überblick– Katalog von Sprachressourcen– Zentrale Infostelle
• Anleitung / Hilfestellung– Dokumentation– Fortbildungen– Expertenrat (Hotline, „Network of Expterise“)
• Motivation– Sammlung von Forschungsfragen– Aufzeigen von Anwendungsgebieten
18.01.2011 31
Wünsche: Dokumentation (1)
• Online zugänglich– ggfs. als Wiki
• Handbuch für ein Werkzeug– Erklärender Text– FAQs– Beispiel
• Input- / Outputdatenformat (auch als vollständige Datei)• konkreter Aufruf• ggf. mit Screenshots
• Wissenschaftliche Artikel• Hauptreferenz
18.01.2011 32
Wünsche: Dokumentation (2)
Annotationsrichtlinien als Dokumentation einerannotierten Korpusressource
• Definitionen– Klassifikationen– Etiketten / Labels– ‘Markables’
• Linguistische Tests– operationalisierte Kriterien, um ein Markable mit einer bestimmten
Etikette zu versehen
• Beispiele– unkontroverse Fälle– problematische Fälle
• Diskussionen• Fallentscheidungen
18.01.2011 33
Wünsche: Tools
• Nutzungsoptionen– Onlinenutzung / Download
• Konvertierungsprogramme für– das Eingabeformat
• Bsp.: ein-Wort-pro-Zeile– die Eingabekodierung
• Bsp.: in utf-8
• Werkzeug / Anleitung zur Interpretation derOutputdaten
• Webformular zur Bewertung von Annotationsqualität– Inter-Annotatoren-Übereinstimmung– Konfusionsmatrizen
18.01.2011 34
Referenzen: Annotation
• Annotate– Plaehn, Oliver und Thorsten Brants. 2000. Annotate - An Efficient Interactive
Annotation Tool. In 6th Applied Natural Language Processing Conference (ANLP '00),Seattle, Washington, USA.
– http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.html
• CLaRK– http://www.bultreebank.org/clark/index.html
• EXMARaLDA– Schmidt, Thomas. 2004. EXMARaLDA - ein Modellierungs- und
Visualisierungsverfahren für die computergestützte Transkription gesprochenerSprache. In: Buchberger, E. (Hrsg.): Proceedings of Konvens 2004, Schriftenreihe derÖsterreichischen Gesellschaft für Artificial Intelligence 5, Wien.
– http://www.exmaralda.org/
• LoPar– Schmid, Helmut. 2000. LoPar: Design and Implementation. Arbeitspapiere des
Sonderforschungsbereiches 340, No. 149, IMS Stuttgart.– http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/LoPar.html
• MMAX2– Müller, Christoph und Michael Strube. 2006. Multi-Level Annotation of Linguistic Data
with MMAX2. In: Sabine Braun, Kurt Kohn, Joybrato Mukherjee (Hrsg.): CorpusTechnology and Language Pedagogy. New Resources, New Tools, New Methods.Frankfurt: Peter Lang, 197-214. (English Corpus Linguistics, Vol.3).
– http://mmax2.sourceforge.net/
18.01.2011 35
Referenzen: Annotation
• RST-Tool– O'Donnell, Michael. 2000. RST-Tool 2.4 – A Markup Tool for Rhetorical Structure
Theory. Proceedings of the International Natural Language Generation Conference(INLG'2000), Mitzpe Ramon, Israel. 253–256.
– http://www.wagsoft.com/RSTTool
• Salto– Burchardt, Aljoscha, Katrin Erk, Anette Frank, Andrea Kowalski und Sebastian Padó.
2006. SALTO – A Versatile Multi-Level Annotation Tool. In Proceedings of LREC-2006, Genua, Italien.
– http://www.coli.uni-saarland.de/projects/salsa/page.php?id=software
• TreeTagger– Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging using Decision Trees. In
Proceedings of the 1st International Conference on New Methods in LanguageProcessing.
– http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
• XLE (Xerox Linguistic Environment)– http://www2.parc.com/isl/groups/nltt/xle/– xle web interface: http://decentius.aksis.uib.no/logon/xle.xml
18.01.2011 36
Referenzen: Suche
• DWDS– Korpussuchtool des Projekts Digitales Wörterbuch der Deutschen Sprache
http://www.dwds.de/
• COSMAS– Korpussuchtool des Instituts für Deutsche Sprache http://www.ids-
mannheim.de/cosmas2/
• CQP– Corpus Query Processor der IMS Open Corpus Workbench
http://cwb.sourceforge.net/index.php
• TigerSearch– http://www.wolfganglezius.de/doku.php?id=cl:tigersearch
• Tgrep2– http://tedlab.mit.edu/~dr/Tgrep2/
• Linguist‘s Search Engine– http://lse.umiacs.umd.edu/ (wird nicht länger unterstützt)
18.01.2011 37
Referenzen: Korpora etc.
• Texte des Projekt Gutenberg:http://www.gutenberg.org/wiki/Main_Page
• Penn Treebank: http://www.cis.upenn.edu/~treebank/• TüBa-D/Z: http://www.sfs.uni-tuebingen.de/tuebadz.shtml• TIGER-Korpus http://www.ims.uni-stuttgart.de/projekte/TIGER/• DWDS-Korpora: http://www.dwds.de/• IDS-Korpora: http://www.ids-mannheim.de/kl/corpora.html• WordNet: http://wordnet.princeton.edu/• GermaNet http://www.sfs.uni-tuebingen.de/GermaNet/• FrameNet: http://framenet.icsi.berkeley.edu/• Salsa: http://www.coli.uni-
saarland.de/projects/salsa/page.php?id=index
18.01.2011 38
Weitere Referenzen
• Aston, Guy. 2000. Learning English with the British National Corpus. In:M.P. Battaner & C. López (Hrsg.) VI jornada de corpus lingüístics.Barcelona: Institut universitari de lingüística aplicada, UniversitatPompeu Fabra. 15-40.
• Cramer, Irene und Marc Finthammer. 2008. Tools for ExploringGermaNet in the Context of CL-Teaching. In: Storrer, A., Geyken, A.,Siebert, A. und K.-M- Würzner (Hrgs.): Text Resources and LexicalKnowledge. Selected Papers from the 9th Conference on NaturalLanguage Processing (KONVENS 2008). Berlin/New York: Mouton deGruyter, 195-208.
• Finthammer, Marc und Irene Cramer. 2008. Exploring and Navigating:Tools for GermaNet. In: Proceedings of the 6th InternationalConference on Language Resources and Evaluation (LREC 2008).Marrakech, Marokko, Mai 2008. Paris: ELRA.
top related