vertretene ressourcen und tools - sfs.uni-tuebingen.de · bayerisches archiv für sprachsignale...

Vertretene Ressourcen und Tools

Bayerisches Archiv für Sprachsignale (BAS)

Institut für Phonetik und Sprachverarbeitung (IPS)

LMU München

Christoph Draxler

BAS – Vertreter

•  Arbeitsgruppe: •  Sprachdatenbanken

•  Interessengebiet: •  Webtechnologien für den Aufbau und

die Nutzung von Sprachdatenbanken

BAS - Ressourcen

•  VOYS, ALC, Ph@ttSessionz, PhonLab, SmartWeb, etc.

•  Anwendungsnahe Sprachdatensammlungen

BAS - Tools

•  SpeechRecorder: skriptbasierte Sprachaufnahme

•  WikiSpeech: webbasierte Sprachkorpus-Erstellung

•  MAUS: automatische Segmentation •  Txt2lex: Graphem- zu Phonemkonverter •  Emu: Segmentation und statistische

Auswertung •  (Praat, PostgreSQL, Java Web Start, R,

uvam.)

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Berlin

Lothar Lemnitzer

BBAW -Vertreter

•  Arbeitsgruppe: •  Digitales Wörterbuch der Deutschen

Sprache •  Interessengebiet:

•  Standards für (elektronische) lexikalische Ressourcen

BBAW - Ressourcen

•  Lexikalisch: •  WDG/DWDS-WB •  Etymologisches Wörterbuch

•  Korpora: •  Kernkorpus 20/21. Jh. (Schriftsprache) •  DTA (Schriftsprache 1650-1900) •  div. Spezialkorpora

BBAW - Tools

•  Ressourcenverwaltung: •  DDC-Suchmaschine

•  Metadatensammlung: •  Fedora für die Distribution

Goethe Universität Frankfurt Abteilung für geisteswissenschaftliche Informatik

Rüdiger Gleim

Goethe Universität – Vertreter

•  Arbeitsgruppe: •  Abteilung für geisteswissenschaftliche

Fachinformatik •  Interessengebiet:

•  Computerlinguistik •  Texttechnologie

Goethe Universität – Ressourcen

•  Historische Korpora •  Gegenwartssprachliche Korpora •  Lexika •  Bilddatenbanken •  Annotation multimodaler Ressourcen

Goethe Universität – Tools

•  eHumanities Desktop

Institut für Deutsche Sprache TextGrid (u.a. AG Digitale Bibliothek) Korpuslinguistik, Computerlinguistik,

Germanistik

Andreas Witt

Statische Ressourcen (Auswahl)

•  Deutsches Referenzkorpus (DeReKo) •  Archiv Gesprochenes Deutsch (AGD) •  elexiko •  Grammatisches Informationssystem

(GRAMMIS) •  mit TextGrid: Die Digitale Bibliothek (im

Aufbau)

Werkzeuge

•  Corpus Search, Management and Analysis System (COSMAS II)

•  Gesprächsanalytisches Informationssystem (GAIS)

•  Online-Wortschatz-Informationssystem Deutsch (OWID)

SFB-732, Incremental specification in context Institut für Maschinelle Sprachverarbeitung (IMS) Universität Stuttgart

Ulrich Heid

IMS - Vertreter

•  Arbeitsgruppe Nachhaltigkeit von Ressourcen: •  Prof. Dr. Hinrich Schütze (Vorsitz) •  Prof. Dr. Klaus von Heusinger (Linguistik) •  Dr. Antje Schweitzer (Phonetik) •  Jun.-Prof. Dr. Sebastian Pado (Psycholing.

Experimente)

•  Interessengebiete (Heid): •  Korpusannotation •  Lexikographie •  Korpuswerkzeuge

Phonetik-Projekte des SFB •  2 Radionachrichtenkorpora (1.5 bzw. 6h)

•  Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)

•  prosodische Annotation (GToBI, ESPS Format), manuell

•  Informationsstatus-Annotation (TiGer-XML/SALTO), manuell

•  3 Unit Selection Korpora fü ̈r Sprachsynthese (1.5, 2.5, 3h) •  Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)

•  prosodische Annotation (GToBI, ESPS Format), manuell

•  daraus abgeleitete Evaluationsdaten fü ̈r Phone Acquisition

•  Werkzeuge

•  Multiple description toolbox, implementiert in Matlab, nutzbar z.B. zur Analyse u. Resynthese von Sprachsignale

•  Classification toolbox, Matlab-Implementierung verschiedener Klassifikationsalgorithmen

•  Deutsche OpenSource-Module für die Festival–Sprachsynthese

Projekte zur symbolischen Analyse von Text

•  SDeWaC: dependenzgeparster Ausschnitt aus DeWaC (Baroni/Kilgariff 2006), 880 M Wörter

•  Bitext: geparstes EuroParl, DE/ EN

•  Kollokationsdaten V + NObj , V + PP aus DE Korpora, mit morphosyntaktischen Präferenzen (Datenbank)

•  Datenbank französischer Psych-Verben, Modellierung in OWL, OWL-Modellierung ontologischer und lexikalischer Beschreibungen

•  Morphologische und semantische Analyse von ung-Nominalisierungen deutscher be-Verben (excel-Tabellen)

  Verschiedene Formate

  Unterschiedliche Größe, unterschiedlicher Detailliertheitsgrad

Fragebogen: Stimuli und Akzeptabilitätsurteile

•  Stellung von Adjektiven in FR, IT, ES, RO (.doc)

•  Kasusmarkierung und -alternation im Mongolischen (excel, SPSS)

•  Fokus in DE und HU (SPSS) •  Muttersprachliche Qualitätsurteile für

Generierungsalternativen (DE) (plain text)

•  Experimente zu Nominalisierungen

Tools: Symbolische und statistische Verarbeitung – eigene Entwicklungen •  Syntaktische Analyse und unterspezifizierte

flache Semantikkonstruktion (DE)

•  BitPar parser (EN, DE)

•  Clustering software (PAC): EM-Training + MDL

•  RF-Tagger (DE, CZ): Feinkörniges POS-Tagging, auch für Sprachen mit reichhaltiger Morphologie

•  Datenbank zur Verwaltung von Korpora, Metadaten, Analysen, Werkzeugzuständen usw.

Für jede Ressource

•  Name der Ressource, Kontaktperson im SFB-732

•  Datum der letzten Änderung •  Sprache(n) •  Ausgabeformat(e) •  Dokumentation: publizierte Artikel,

Web-Seiten •  Physikalische Speicherung der

Daten (Ort im SFB-Netz) •  Nutzungsrechte und -möglichkeiten

Max Planck Institut für Psycholinguistik (MPI) Nijmegen

Jacquelijn Ringersma Andreas Koenig

MPI - Vertreter

•  Working group: •  Archive for Linguistic Resources

•  Fields of interest: •  LMF •  ISOcat •  Metadata •  PID

MPI - LMF

•  Lexical Markup Framework:

Model for standardized framework for the construction of lexicons

•  Goals:

•  Common model for electronic lexical resources

•  Manage and exchange data between resources

•  Enable merging of electronic resources

MPI - ISOcat

•  ISO 12620:2009 •  Terminology and language resources •  Specification of data categories and

management of a Data Category Registry for language resources

•  Data category •  A data category is an elementary

descriptor in a linguistic structure or an annotation scheme (specification of a given data field).

MPI - ISOcat

•  Model consists of 3 main parts: •  Administrative part: Administration and

identification •  Descriptive part: Documentation in

various working languages •  Linguistic part: Conceptual domain(s)

for various object languages

MPI – ISOcat

Data Category Registry: ISOcat •  A free service: anyone can access it or

register as an expert and create/share his/her own data categories. •  Data categories can be submitted to the

standardization process, in which case they are assigned to a Thematic Domain Group which judges it.

•  At regular intervals, snapshots of the standardized subset of the DCR will be submitted to ISO.

www.isocat.org

MPI - PID

•  Persistent identifiers allow to reference resource parts

•  Every object in the archive catalogue has a proper (archive wide) unique identifier.

•  This id should be as persistent as the archive

•  The same resource can have a different id in different archive catalogues

http://www.pidconsortium.eu/ http://www.handle.net/

MPI - PID

•  We are using handles as PIDs: h2p://hdl.handle.net/1839/00-‐0000-‐0000-‐0009-‐2951-‐C

•  There is also an internal nodeid to reference resources: h2p://corpus1.mpi.nl/ds/imdi_browser/?openpath=MPI600401%23

SFB Bielefeld 673: Alignment in Communication

Peter Menke

SFB Bielefeld - Vertreter

•  Projekt X1 „MulRmodale Alignmentkorpora“, SFB 673 „Alignment in CommunicaRon“

•  Interessen: MulRmodalität, UnifikaRon heterogener Daten, (halb-‐)automaRsche AnnotaRon und Datengewinnung

•  Universität Bielefeld

SFB Bielefeld - Ressourcen

  Ressourcen: Verschiedene Korpora im SFB, zumeist (noch) unveröffentlicht

  SAGA-‐Korpus (=“Speech And Gesture Alignment“)

  Weitere Korpora mit Sprache, Blickbewegungen, Handgesten, Kopfgesten, Mimik, Handlungen/AkRonen, Speicherabbildern und mentalen RepräsentaRonen künstlicher Agenten

SFB Bielefeld - Tools

•  Selbst hergestelltes Tool: Ariadne Corpus Management System (auf der Grundlage des eHumaniRes Desktop) zur Verwaltung, Unifizierung und Analyse heterogener mulRmodaler Korpora

•  Weiterhin verwendet: Elan, Praat

SFB 538 ‚Mehrsprachigkeit‘ (+ Hamburger Zentrum für Sprachkorpora)

Teilprojekt Z2 „Computergestützte Erfassungs- und Analysemethoden multilingualer Daten“

Universität Hamburg Thomas Schmidt (+ Kai Wörner, Timm

Lehmberg, Hanna Hedeland, Kristin Bührig)

SFB Hamburg – Ressourcen (Auswahl)

•  Longitudinale Studien zum bilingualen kindlichen Spracherwerb in verschiedenen Sprachkombinationen

•  Studien zu Language Attrition bei bilingualen Sprechern in verschiedenen Sprachkombinationen

•  Korpora zum Konsekutiv- / Simultandolmetschen

•  Korpora zu mehrsprachiger Kommmunikation

•  Parallelkorpora / Comparable Corpora

•  Historische Korpora zu Sprachen in Kontaktsituationen

•  (nicht am SFB, aber mit EXMARaLDA) Dialektkorpora, monolinguale Korpora zu speziellen Gesprächstypen (Arzt-Patienten-Kommunikation, Unterrichtskommunikation), monolinguale Referenzkorpora gesprochener Sprache, geschriebene, multiebenen-annotierte Lernerkorpora

SFB Hamburg - Tools

•  Werkzeuge (selbst hergestellt) zur

•  Ressourcenerstellung: EXMARaLDA Partitur-Editor (und FOLKER), verschiedene Annotationswerkzeuge

•  Ressourcenverwaltung/Metadatensammlung: EXMARaLDA Corpus-Manager

•  Ressourcenanalyse: EXAKT

SFB 632 Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text Humboldt-Universität zu Berlin (KorpuslinguisRk) /Universität Potsdam (ComputerlinguisRk) InformaRonsstruktur, Projekt D1 (linguisRsche DB)� Christian Chiarcos Julia Ritz Amir Zeldes

•  Mehrebenenkorpora •  Diskursphänomene •  InformaRonsstruktur •  Lernerkorpora •  historische Korpora •  Formatmodellierung

Interessengebiete

SFB Berlin/Potsdam – Ressourcen (Auswahl)

•  Namen: Korpora des SFB 632, PCC, Falko

•  Typen: Mehrebenenkorpora (Syntax, Koref…), InformaRonsstruktur, historische Korpora, Lernerkorpora

SFB Berlin/Potsdam - Tools

•  Werkzeuge (selbst hergestellt oder hauptsächlich verwendet) zur

•  Ressourcenerstellung – EXMARaLDA, TIGER, MMAX2, etc.

•  Ressourcenverwaltung – PAULA, Pepper, ANNIS2, OLiA Ontologien

vertretene ressourcen und tools - sfs.uni-tuebingen.de · bayerisches archiv für sprachsignale...

Documents