Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche

EhrenvortragTechnische Univesität Darmstadt

Wolfgang Wahlster

Fachrichtung Informatik Universität des Saarlandes &

Deutsches Forschungszentrum für Künstliche Intelligenz GmbHStuhlsatzenhausweg 3, Geb. 43.1

66123 SaarbrückenTel.: (0681) 302-5252/4162

Fax: (0681) 302-5341E-mail: wahlster@dfki.de

WWW: http://www.dfki.de/~wahlster

Disambiguierung durch Wissensfusion:

Grundprinzipien der Sprachtechnologie

Darmstadt, 08. November 2001

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen Problem der kombinatorischen Explosion der Lesarten durch

Propagierung von Alternativen über alle Verarbeitungsebenen

Durch die Unsicherheit bei der Spracherkennung entstehen Wörter-gitter mit alternativen Hypothesen, welche die Flut von Lesarten

noch weiter erhöhen

Phonetischme:r

Orthographischübersetzen

Mehrdeutigkeiten

SemantischEin - Alle

MorphologischStaubecken

Syntaktischmit dem Teleskop

PragmatischEs zieht.

LexikalischMaus

Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation

(A) Einen Computer benutzen alle Informatikstudenten.

(1) x (computer (x) y (informatik-student (y) benutzt (y,x)))

(2) y (informatik-student (y) x (computer (x) benutzt (x,y)))

Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung)

(3) {x: computer, y: informatik-student} (benutzt (y,x))

(B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1)

(C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2)

Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation

Vermeidung einer kombinatorischen Explosion der Lesart

Kompakte Repräsentation ohne Auswertung aller Disjunktionen

Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben

Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich

{x: computer, y: informatik-student} (benutzt (y,x))

y (ki-student (informatik-student (x))

{x: computer, y: ki-student} (benutzt (y,x))

Symbolische und Subsymbolische Fusion von Eingabemodalitäten

Sprach-erkennung

Gestik-erkennung

Prosodie-erkennung

Mimik-erkennung

Lippen-lesen

SubsymbolischeFusion

- Neuronale Netze- Hidden Markov

Modell

SymbolischeFusion

- Unifikation überHypothesengittern

- Bayessche Netze

Referenzauflösung und Disambiguierung

Bedeutungsrepräsentation

Wechselseitige Disambiguierung durch Multiple EingabemodalitätenDie kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen

Spracherkennung + Lippenlesen

höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate

Spracherkennung + Gestikerkennung (XTRA, SmartKom)

referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung

Spracherkennung + Mimikerkennung (SmartKom)

Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

Fusion von Sprach- und Mimikerkennung in SmartKomModifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus)

(1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF-Programm.

(2) Benutzer: Echt toll.

(3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders.

(2’) Benutzer: Echt toll.

(3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

Disambiguierung durch Selektions-restriktionen und Weltwissen

Vater zu einem Service-Roboter im Cyber-Restaurant:

(1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau.

(A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau)

Weltwissen: Apfelschorle, Weinschorle Getränk

Tochter, Frau Mensch

Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk)

(B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)

Fusion und Allokation multipler Modalitäten in SmartKom

Welche Spielfilme laufen den

heute abend im Fernsehen?

Kombination von Sprache und Gestik in SmartKom

Ich zeige ihnen eine Übersicht

über die Filme, die heute abend im

Fernsehen laufen.

Da ist nichts für mich dabei.

Dann möchte ich doch lieber insKino gehen.

Hier sehen sieeine Übersicht

über das Programmder Heidelberger Kinos.

Den würde ichgerne sehen.

Wo kommt der?

Auf der Karte sinddie Kinos markiert, in denen der Film „Einekleine Weihnachts-geschichte“ läuft.

Multimodale Ein- und Ausgabe in SmartKom

Da würd‘ ichgern

reservieren.

EineReservierungist in diesem

Kino nichtmöglich.

Dann ein anderes Kino.

Das da vielleicht.

Auf der Übersicht sehen sie die Anfangs-

zeiten des Films „Eine kleine

Weihnachtsgeschichte“im Kino „Schloß“.

Da würd‘ ichgern

reservieren.

Zeigen siemir wo

sie sitzenwollen.

Ich hätte gern zwei

Plätze hier.Ist das so richtig? Richtig.

Ich habe die gewünschte

Reservierung für Sie durchgeführt.

Ihre Reservierungs-nummer ist 635.

Sie können die Karten bis

spätestens eine halbe Stunde vor

Vorstellungsbeginn an der Kinokasse

abholen.

Gut. Das war‘s.

Dankeschön.Tschüss.

AufWiedersehen

Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung

Akustische

Sprachanalyse

Wortlisten

Grammatik

Wortbe-

deutungen

Gesprächs-Kontext

Wissen über das Gesprächs-

thema

Was hatder Sprecher

gesagt?100

Alternativen

Was hatder Sprecher

gemeint?10

Alternativen

Was willder Sprecher?

Eindeutiges Verstehenim Gesprächs-

zusammenhang

Red

uktio

n vo

n U

nsic

herh

eit

Sprachanalyse

Spracherkennung

Gesprochene Eingabe

Sprachanalyse

Sprach-

ver-

stehen

Handlungsplanungfür Roboter

Künstliche Intelligenz

Ideengeschichte planbasierter Ansätze der Dialogführung

Graphische Akte

Semiotik /Kommunikationstheorie

Gestische/Mimische

AkteSemiotik /

Kommunikationstheorie

PlanbasierteMensch-Maschine

DialogeComputerlinguistik /

Künstliche Intelligenz

Planbasierte Methoden derMultimodalen Dialogführung

Computerlinguistik / Künstliche Intelligenz

Sprechakttheorie

Sprachphilosophie /Linguistik

Plangenerierung und Planerkennung als duale Prozesse

Planungsalgorithmen

Gegeben:

Gesucht:

Anfangsspezifikation Zielspezifikation

Folge von Aktionen, um von Anfang zu Ziel zu gelangen

Wie kann ich mein Kommunikationsziel erreichen?

Planerkennungsalgorithmen

Gegeben:

Gesucht:

Anfangssituation Folge beobachteter

Aktionen

Zielspezifikation

Welches Kommunikationsziel verfolgt mein Dialogpartner?

Operator-basierte Methoden Deduktive Methoden Graph-basierte Methoden

System

Eingabe-kanäle

Ausgabe-kanäle

Speicherung

FestplatteCD-ROM

MEDIUM (Physikalischer Informationsträger)

MODALITÄT(Menschliche Sinne)

Sprache Graphik Gestik

CODE (Symbolsysteme)

Mimik

Code, Medium und Modalität

Visuell

Taktil

Akustisch

Haptisch

Benutzer

GestenBilder/

Graphiken

SemantischeRepräsentations-

sprache

Bild-beschreibungs-

sprache

Gesten-beschreibungs-

sprache

OntologienDBMS/KBMS/WWW

GraphischesBildverstehen

Graphik-generierung

GenerationGesten-analyse

Gesten-generierungParsing

Modalitätsspezifische Repräsentations-sprachen als Zwischenstufe zur Medienfusion

SprachlicheÄußerungen

Wissensrepräsentations-sprache

Inferenzkomponente

Benutzer-Modellbasierte

Schnittstellengenerierung

Dialogmanagement

Medienkoordination

Analyse multimodaler Eingaben

Generierung multimodaler Ausgaben

Adaptive Interaktion

Kooperativer Dialog

Layout und Disambiguierung

Interaktion mit gemischter Initiative

KI-Methoden für Intelligente Benutzerschnittstellen

Wissensrepräsentation

Plangenerierung u.-erkennung

Zeitliches/RäumlichesSchließen

KI

Sprachverstehen

Gestikverstehen

Bildverstehen

Sprachgenerierung

Graphikgenerierung

Gestikgenerierung

Benutzermodellierung

Diskursmodellierung

Constraint-Verarbeitung

Agenten-Modelling

Schnittstellen

Benutzer

Information,

Anwendungen,

Kommunikations-partner

Eingabevor-verarbeitung

Ausgabe-realisierung

Medienfusion

MultimodaleInteraktion

Kontext-abhängige

Aktionsplanung

Diskurs-modellierung

Präsentations-design

Intentions-erkennung

MediaAnalysis

Design

Modalitäts-spezifische

Analysatoren

MultimodalesMedien-design

Sprache

Graphik

Gestik/ Mimik

Biometrie

Sprache

Graphik

Gestik

AnimierterPräsentation

s-agent

Repräsentation und Inferenz

Benutzer-modell

Diskurs-modell

Domänen-modell

Aufgaben-modell

Medien-modell

An

wen

du

ng

ssch

nit

tste

lle m

it

An

wen

du

ng

smo

del

l

Grobarchitektur von SmartKom

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger

Benutzer: Ich möchte nach Heidelberg fahren.

Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren?

Benutzer: Die schnellste.

Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.

SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger

Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten.

User: Ich möchte mehr Information über diese Kirche.

Smartakus: Hier siehst die Webseite über die Peterskirche.

User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche.

Smartakus: Auf dieser Karte habe ich den Weg markiert.

Vom Sprachdialog zum Multimodalen Dialog

SmartKom

UMTS-Mobilgerät der dritten Generation

Sprache, Graphik, Gestik

Verbmobil

Klassische Mobiltelephoni

e

Reine Sprache

Multomodale Kommunikation mit Unterhaltungselektronik

Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten?

Smartakus: CNN und NTV zeigen gearde Nachrichten.

User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf.

Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.

Beispiel: Zugriff auf digitale Programmführer

neutral

Videobasierte Mimikerkennung auf der Basis von Eigenfaces

ärgerlich

ärgerlichneutral

Sprecherunabhängie Emotionserkennung

Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991)

1

2

3

4

Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von ‘untere‘ bezogen auf Leserichtung der Bildschirmseite

1

2

3

4

Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von ‘untere‘ bezogen auf Position des Zeigers

Fokusierende Geste zur Disambiguierung derSpracheingabe (Wahlster 1991)

„Warum soll ich das ‚A‘ löschen?“

B A 2

A

C

E

1

3

X

Y

Z

Parasprachliche Deixis in XTRA (Wahlster 1991)

Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen:- Bleistiftspitze- Zeigefinger- Kombination aus Zeigefinger und Mittelfinger

(realisiert durch verschiedene Formen und Größen der Maus)

Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrererRegionen bei großflächigem Zeigemedium)

Auswertung von pars-pro-toto Deixis

Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werdensollen

Vereinfachungen:

Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum

Verzicht auf die Analyse von- hinweisenden Kopfbewegungen- der Blickrichtung als Zeigehandlung- nicht-taktilen Zeigehandlungen

Synergetische Integration von Sprach- und GestikeingabeVorteile:

Für den Sender:

ökonomische Referentenspezifikation

- Die Beschreibung wird kürzer und darf unterspezifiziert sein.

Für den Empfänger:

schnelle Referentenidentifikation

- Orientierung in die gezeigte Richtung und Sprachverarbeitung

erfolgen gleichzeitig.

Sprach- und Gestikeingabe disambiguieren sich wechselseitig.

Nachteile:

Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse).

Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen

führen.

Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al. 1986)

Geplanterreferentieller

Akt

Gestenanalyse

TACTILUS

Ja Nein

Minimale Ambiguitätder Geste?

Antizipationsrückkopplung bei derGestengenerierung

Realisierung der Geste

Geplante Geste

Rückkopplungs-schleife

Gestengenerierung

ZORA

Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991)

Eingabe mit einer Hand:

Fokusierungsakt: z.B. Stift hinlegen, so daß er auf Region zeigt

Referenzakt: z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt

Eingabe mit zwei Händen (simultanes Zeigen):

Fokusierungsakt: z.B. Zeigefinger einer Hand markiert eine Region

Referenzakt: z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region

Sprach-erkennung

Gesten-erkennung

MultimodalerChart Parser

Unifikations-basierte

MultimodaleGrammatik

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

Sprach-analyse

Gesten-analyse

Anwendungsschnittstelle

“Platziere das hier!”

Gesten-analyse

[object1]:selection

area:type:content

int(10,12):time

sturespatial_ge:cat

[object2]:selection

area:type:content

int(14,15):time

sturespatial_ge:cat

Sprach-analyse

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10,13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

Typisierte Merkmalstrukturen fürSprachrepräsentation und Gestikeingabe

nach nicht mehr als 5 Sekunden

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

“Platziere das hier!”

Multimodaler

Subkategorisierungsrahmen

Spezifikation der erwarteten

Gesten

Zeitliche Constraints über

den Gesten

,

end:rest[4],5)]],[follow([5:sconstraint[3]:selection

area:type:content

[5]:timesturespatial_ge:cat

:first

:rest

[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint

[2]:selectionarea:type:content

[4]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[2]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

[object1]:selectionarea:type:content

int(10,12):time

sturespatial_ge:cat

[object2]:selectionarea:type:content

int(14,15):time

sturespatial_ge:cat

“Platziere das hier!”

end:rest,5)]int(10,12)],[follow([5:sconstraint

[3]:selectionarea:type:content

[5]:timesturespatial_ge:cat

:first

:mmsubcat

[3]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

[object2]:selectionarea:type:content

int(14,15):time

sturespatial_ge:cat

“Platziere das hier!”

[object2]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

int(10,13):timemandsubcat_com:cat

“Platziere das hier!”

“platziere” “das” “hier”

Sprachanalyse

[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionlocation:type:content

int(10,11):timeyes:deictic

deictic_np:cat

[1,2]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionentity:type:content

int(10,11):timeyes:deictic

deictic_np:cat

end:rest[2]:content

np:cat:first:rest

[1]:contentnp:cat:first

:subcat

location:type[2]:locationentity:type[1]:object

move:type:content

no:deicticv:cat “platziere” “das” “hier”

[1,2]:chart[3],5)}(9,10),follow(int[3])nt(9,10),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionentity:type:content

int(9,10):timeyes:deictic

deictic_np:cat

“das”

[object1]:selectionarea:type:content

int(9,11):time

sturespatial_ge:cat

[1,2]:chart:mmsubcat

[object1]:selectionentity:type:content

no:deicticnp:cat

MultimodalerChart Parser

[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i

[3]:time[2]:selection

area:type:content

sturespatial_ge:cat

:mmsubcat

[2]:selectionlocation:type:content

int(10,11):timeyes:deictic

deictic_np:cat

“hier”

[object2]:selectionarea:type:content

int(12,13):time

sturespatial_ge:cat

Multimodaler Chart Parser

[2,3]:chart:mmsubcat

[object2]:selectionlocation:type:content

no:deicticnp:cat

[2,3]:chart:mmsubcat

[object1]:selectionentity:type:content

no:deicticnp:cat

end:rest[2]:content

np:cat:first:rest

[1]:contentnp:cat:first

:subcat

location:type[2]:locationentity:type[1]:object

move:type:content

no:deicticv:cat “platziere”

“das” “hier”

[2,3]:chart:mmsubcat

[object2]:selectionlocation:type:content

no:deicticnp:cat

[object2]:selectionlocation:type:location

[object1]:selectionentity:type:object

move:type

:content

no:deicticv:cat

Sprachanalyse

“Platziere das und das hier!”

“PLATZIERE” “DAS” “DAS”“UND” “HIER”

“DAS UND DAS”

Anwendungsschnittstelle

+ + +

“Diese vier!”

Using Context and World Knowledgefor Semantic Transfer

All other dialog translation systems translate word-by-wordor sentence-by-sentence.

1Nehmen wir dieses Hotel, ja. Let us take this hotel.

Ich reserviere einen Platz. I will reserve a room.

2Machen wir das Abendessen dort. Let us have dinner there.

Ich reserviere einen Platz. I will reserve a table.

3 Gehen wir ins Theater. Let us go to the theater.

Ich möchte Plätze reservieren. I would like to reserve seats.

Example: Platz room / table / seat

Von der Eingabeschallwelle zur Ausgabeschallwelle

Schallwelle

MöglichePhoneme

MöglicheWörter

MöglicheSätze

Spracherkennung

MöglicheSätze

GramatischeStruktur

Wort-bedeutungen

Satz-bedeutungen

Sprachanalyse

Satz-bedeutungen

Diskursbedeutung in

Quellsprache

Wortwahl inZielsprache

Sprachverstehenund Übersetzung

Diskursbedeutung in Zielsprache

Wörter in Zielsprache

Satzgenerierung

Sprachsynthese

Satzmelodie

Generierung undSynthese

Audiodaten

Worthypothesen-graph mit prosodischer

Annotation

VITsUnterspezifizierte

Diskurs-repräsentation

Kommando-erkenner

Spracherkennerfür Spontansprache

Kanal- und Sprecheradaption

Prosodie-analyse

StatistischerParser

Dialogakt-erkennung

Chunk Parser

HPSGParser

SemantischeKonstruktion

Robuste Dialog-semantik

SemantischerTransfer

Generierung

Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden

ehrenvortrag technische univesität darmstadt wolfgang wahlster fachrichtung informatik universität...

Documents

forschungszentrum für umweltpolitik …...ihne...

fachschule sozialwesen: fachrichtung sozialpädagogik

perspektiven der informatik ringvorlesung ws 2002/2003...

abschlussprüfung im gartenbau, fachrichtung...

f~=== forschungszentrum jÜuch gmbh¼l_3308_noack.pdf ·...

aktuelles aus der fachrichtung 2014

studienordnung für die erste fachrichtung sozialpädagogik

von suchmaschinen zu antwortmaschinen · von suchmaschinen...

herstellung von zementklinker verfahrensbeschreibung und...

gridka december 2004 forschungszentrum karlsruhe in der...

kstoffverfmausbv 2012 verfahrensmechanikerin für...

emergente softwaresysteme: adaptive systeme der...

der zweijährigen fachschule fachrichtung -...

mit eidgenössischem fähigkeitszeugnis (efz) fachrichtung...

wolfgang wahlster der weg zum sprachverstehenden computer...

kommentiertes vorlesungsverzeichnis · kommentiertes...

technische universität dresden - fachrichtung chemie ......

fachschule für technik fachrichtung werkstofftechnik ·...

anästhesietechnische/r altenpflegehelfer/in...

name vorname note studiengang (hauptfach) fachrichtung...