vertretene ressourcen und tools - sfs.uni-tuebingen.de · bayerisches archiv für sprachsignale...
TRANSCRIPT
Vertretene Ressourcen und Tools
Bayerisches Archiv für Sprachsignale (BAS)
Institut für Phonetik und Sprachverarbeitung (IPS)
LMU München
Christoph Draxler
BAS – Vertreter
• Arbeitsgruppe: • Sprachdatenbanken
• Interessengebiet: • Webtechnologien für den Aufbau und
die Nutzung von Sprachdatenbanken
BAS - Ressourcen
• VOYS, ALC, Ph@ttSessionz, PhonLab, SmartWeb, etc.
• Anwendungsnahe Sprachdatensammlungen
BAS - Tools
• SpeechRecorder: skriptbasierte Sprachaufnahme
• WikiSpeech: webbasierte Sprachkorpus-Erstellung
• MAUS: automatische Segmentation • Txt2lex: Graphem- zu Phonemkonverter • Emu: Segmentation und statistische
Auswertung • (Praat, PostgreSQL, Java Web Start, R,
uvam.)
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Berlin
Lothar Lemnitzer
BBAW -Vertreter
• Arbeitsgruppe: • Digitales Wörterbuch der Deutschen
Sprache • Interessengebiet:
• Standards für (elektronische) lexikalische Ressourcen
BBAW - Ressourcen
• Lexikalisch: • WDG/DWDS-WB • Etymologisches Wörterbuch
• Korpora: • Kernkorpus 20/21. Jh. (Schriftsprache) • DTA (Schriftsprache 1650-1900) • div. Spezialkorpora
BBAW - Tools
• Ressourcenverwaltung: • DDC-Suchmaschine
• Metadatensammlung: • Fedora für die Distribution
Goethe Universität Frankfurt Abteilung für geisteswissenschaftliche Informatik
Rüdiger Gleim
Goethe Universität – Vertreter
• Arbeitsgruppe: • Abteilung für geisteswissenschaftliche
Fachinformatik • Interessengebiet:
• Computerlinguistik • Texttechnologie
Goethe Universität – Ressourcen
• Historische Korpora • Gegenwartssprachliche Korpora • Lexika • Bilddatenbanken • Annotation multimodaler Ressourcen
Goethe Universität – Tools
• eHumanities Desktop
Institut für Deutsche Sprache TextGrid (u.a. AG Digitale Bibliothek) Korpuslinguistik, Computerlinguistik,
Germanistik
Andreas Witt
Statische Ressourcen (Auswahl)
• Deutsches Referenzkorpus (DeReKo) • Archiv Gesprochenes Deutsch (AGD) • elexiko • Grammatisches Informationssystem
(GRAMMIS) • mit TextGrid: Die Digitale Bibliothek (im
Aufbau)
Werkzeuge
• Corpus Search, Management and Analysis System (COSMAS II)
• Gesprächsanalytisches Informationssystem (GAIS)
• Online-Wortschatz-Informationssystem Deutsch (OWID)
SFB-732, Incremental specification in context Institut für Maschinelle Sprachverarbeitung (IMS) Universität Stuttgart
Ulrich Heid
IMS - Vertreter
• Arbeitsgruppe Nachhaltigkeit von Ressourcen: • Prof. Dr. Hinrich Schütze (Vorsitz) • Prof. Dr. Klaus von Heusinger (Linguistik) • Dr. Antje Schweitzer (Phonetik) • Jun.-Prof. Dr. Sebastian Pado (Psycholing.
Experimente)
• Interessengebiete (Heid): • Korpusannotation • Lexikographie • Korpuswerkzeuge
Phonetik-Projekte des SFB • 2 Radionachrichtenkorpora (1.5 bzw. 6h)
• Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)
• prosodische Annotation (GToBI, ESPS Format), manuell
• Informationsstatus-Annotation (TiGer-XML/SALTO), manuell
• 3 Unit Selection Korpora fü ̈r Sprachsynthese (1.5, 2.5, 3h) • Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)
• prosodische Annotation (GToBI, ESPS Format), manuell
• daraus abgeleitete Evaluationsdaten fü ̈r Phone Acquisition
• Werkzeuge
• Multiple description toolbox, implementiert in Matlab, nutzbar z.B. zur Analyse u. Resynthese von Sprachsignale
• Classification toolbox, Matlab-Implementierung verschiedener Klassifikationsalgorithmen
• Deutsche OpenSource-Module für die Festival–Sprachsynthese
Projekte zur symbolischen Analyse von Text
• SDeWaC: dependenzgeparster Ausschnitt aus DeWaC (Baroni/Kilgariff 2006), 880 M Wörter
• Bitext: geparstes EuroParl, DE/ EN
• Kollokationsdaten V + NObj , V + PP aus DE Korpora, mit morphosyntaktischen Präferenzen (Datenbank)
• Datenbank französischer Psych-Verben, Modellierung in OWL, OWL-Modellierung ontologischer und lexikalischer Beschreibungen
• Morphologische und semantische Analyse von ung-Nominalisierungen deutscher be-Verben (excel-Tabellen)
Verschiedene Formate
Unterschiedliche Größe, unterschiedlicher Detailliertheitsgrad
Fragebogen: Stimuli und Akzeptabilitätsurteile
• Stellung von Adjektiven in FR, IT, ES, RO (.doc)
• Kasusmarkierung und -alternation im Mongolischen (excel, SPSS)
• Fokus in DE und HU (SPSS) • Muttersprachliche Qualitätsurteile für
Generierungsalternativen (DE) (plain text)
• Experimente zu Nominalisierungen
Tools: Symbolische und statistische Verarbeitung – eigene Entwicklungen • Syntaktische Analyse und unterspezifizierte
flache Semantikkonstruktion (DE)
• BitPar parser (EN, DE)
• Clustering software (PAC): EM-Training + MDL
• RF-Tagger (DE, CZ): Feinkörniges POS-Tagging, auch für Sprachen mit reichhaltiger Morphologie
• Datenbank zur Verwaltung von Korpora, Metadaten, Analysen, Werkzeugzuständen usw.
Für jede Ressource
• Name der Ressource, Kontaktperson im SFB-732
• Datum der letzten Änderung • Sprache(n) • Ausgabeformat(e) • Dokumentation: publizierte Artikel,
Web-Seiten • Physikalische Speicherung der
Daten (Ort im SFB-Netz) • Nutzungsrechte und -möglichkeiten
Max Planck Institut für Psycholinguistik (MPI) Nijmegen
Jacquelijn Ringersma Andreas Koenig
MPI - Vertreter
• Working group: • Archive for Linguistic Resources
• Fields of interest: • LMF • ISOcat • Metadata • PID
MPI - LMF
• Lexical Markup Framework:
Model for standardized framework for the construction of lexicons
• Goals:
• Common model for electronic lexical resources
• Manage and exchange data between resources
• Enable merging of electronic resources
LMF
MPI - ISOcat
• ISO 12620:2009 • Terminology and language resources • Specification of data categories and
management of a Data Category Registry for language resources
• Data category • A data category is an elementary
descriptor in a linguistic structure or an annotation scheme (specification of a given data field).
MPI - ISOcat
• Model consists of 3 main parts: • Administrative part: Administration and
identification • Descriptive part: Documentation in
various working languages • Linguistic part: Conceptual domain(s)
for various object languages
MPI – ISOcat
Data Category Registry: ISOcat • A free service: anyone can access it or
register as an expert and create/share his/her own data categories. • Data categories can be submitted to the
standardization process, in which case they are assigned to a Thematic Domain Group which judges it.
• At regular intervals, snapshots of the standardized subset of the DCR will be submitted to ISO.
www.isocat.org
MPI - PID
• Persistent identifiers allow to reference resource parts
• Every object in the archive catalogue has a proper (archive wide) unique identifier.
• This id should be as persistent as the archive
• The same resource can have a different id in different archive catalogues
http://www.pidconsortium.eu/ http://www.handle.net/
MPI - PID
• We are using handles as PIDs: h2p://hdl.handle.net/1839/00-‐0000-‐0000-‐0009-‐2951-‐C
• There is also an internal nodeid to reference resources: h2p://corpus1.mpi.nl/ds/imdi_browser/?openpath=MPI600401%23
SFB Bielefeld 673: Alignment in Communication
Peter Menke
SFB Bielefeld - Vertreter
• Projekt X1 „MulRmodale Alignmentkorpora“, SFB 673 „Alignment in CommunicaRon“
• Interessen: MulRmodalität, UnifikaRon heterogener Daten, (halb-‐)automaRsche AnnotaRon und Datengewinnung
• Universität Bielefeld
SFB Bielefeld - Ressourcen
Ressourcen: Verschiedene Korpora im SFB, zumeist (noch) unveröffentlicht
SAGA-‐Korpus (=“Speech And Gesture Alignment“)
Weitere Korpora mit Sprache, Blickbewegungen, Handgesten, Kopfgesten, Mimik, Handlungen/AkRonen, Speicherabbildern und mentalen RepräsentaRonen künstlicher Agenten
SFB Bielefeld - Tools
• Selbst hergestelltes Tool: Ariadne Corpus Management System (auf der Grundlage des eHumaniRes Desktop) zur Verwaltung, Unifizierung und Analyse heterogener mulRmodaler Korpora
• Weiterhin verwendet: Elan, Praat
SFB 538 ‚Mehrsprachigkeit‘ (+ Hamburger Zentrum für Sprachkorpora)
Teilprojekt Z2 „Computergestützte Erfassungs- und Analysemethoden multilingualer Daten“
Universität Hamburg Thomas Schmidt (+ Kai Wörner, Timm
Lehmberg, Hanna Hedeland, Kristin Bührig)
SFB Hamburg – Ressourcen (Auswahl)
• Longitudinale Studien zum bilingualen kindlichen Spracherwerb in verschiedenen Sprachkombinationen
• Studien zu Language Attrition bei bilingualen Sprechern in verschiedenen Sprachkombinationen
• Korpora zum Konsekutiv- / Simultandolmetschen
• Korpora zu mehrsprachiger Kommmunikation
• Parallelkorpora / Comparable Corpora
• Historische Korpora zu Sprachen in Kontaktsituationen
• (nicht am SFB, aber mit EXMARaLDA) Dialektkorpora, monolinguale Korpora zu speziellen Gesprächstypen (Arzt-Patienten-Kommunikation, Unterrichtskommunikation), monolinguale Referenzkorpora gesprochener Sprache, geschriebene, multiebenen-annotierte Lernerkorpora
SFB Hamburg - Tools
• Werkzeuge (selbst hergestellt) zur
• Ressourcenerstellung: EXMARaLDA Partitur-Editor (und FOLKER), verschiedene Annotationswerkzeuge
• Ressourcenverwaltung/Metadatensammlung: EXMARaLDA Corpus-Manager
• Ressourcenanalyse: EXAKT
SFB 632 Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text Humboldt-Universität zu Berlin (KorpuslinguisRk) /Universität Potsdam (ComputerlinguisRk) InformaRonsstruktur, Projekt D1 (linguisRsche DB)� Christian Chiarcos Julia Ritz Amir Zeldes
• Mehrebenenkorpora • Diskursphänomene • InformaRonsstruktur • Lernerkorpora • historische Korpora • Formatmodellierung
Interessengebiete
SFB Berlin/Potsdam – Ressourcen (Auswahl)
• Namen: Korpora des SFB 632, PCC, Falko
• Typen: Mehrebenenkorpora (Syntax, Koref…), InformaRonsstruktur, historische Korpora, Lernerkorpora
SFB Berlin/Potsdam - Tools
• Werkzeuge (selbst hergestellt oder hauptsächlich verwendet) zur
• Ressourcenerstellung – EXMARaLDA, TIGER, MMAX2, etc.
• Ressourcenverwaltung – PAULA, Pepper, ANNIS2, OLiA Ontologien