ehrenvortrag technische univesität darmstadt wolfgang wahlster fachrichtung informatik universität...
Post on 05-Apr-2015
105 Views
Preview:
TRANSCRIPT
EhrenvortragTechnische Univesität Darmstadt
Wolfgang Wahlster
Fachrichtung Informatik Universität des Saarlandes &
Deutsches Forschungszentrum für Künstliche Intelligenz GmbHStuhlsatzenhausweg 3, Geb. 43.1
66123 SaarbrückenTel.: (0681) 302-5252/4162
Fax: (0681) 302-5341E-mail: wahlster@dfki.de
WWW: http://www.dfki.de/~wahlster
Disambiguierung durch Wissensfusion:
Grundprinzipien der Sprachtechnologie
Darmstadt, 08. November 2001
© W. Wahlster, DFKI
Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen Problem der kombinatorischen Explosion der Lesarten durch
Propagierung von Alternativen über alle Verarbeitungsebenen
Durch die Unsicherheit bei der Spracherkennung entstehen Wörter-gitter mit alternativen Hypothesen, welche die Flut von Lesarten
noch weiter erhöhen
Phonetischme:r
Orthographischübersetzen
Mehrdeutigkeiten
SemantischEin - Alle
MorphologischStaubecken
Syntaktischmit dem Teleskop
PragmatischEs zieht.
LexikalischMaus
© W. Wahlster, DFKI
Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation
(A) Einen Computer benutzen alle Informatikstudenten.
(1) x (computer (x) y (informatik-student (y) benutzt (y,x)))
(2) y (informatik-student (y) x (computer (x) benutzt (x,y)))
Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung)
(3) {x: computer, y: informatik-student} (benutzt (y,x))
(B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1)
(C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2)
© W. Wahlster, DFKI
Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation
Vermeidung einer kombinatorischen Explosion der Lesart
Kompakte Repräsentation ohne Auswertung aller Disjunktionen
Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben
Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich
{x: computer, y: informatik-student} (benutzt (y,x))
y (ki-student (informatik-student (x))
{x: computer, y: ki-student} (benutzt (y,x))
© W. Wahlster, DFKI
Symbolische und Subsymbolische Fusion von Eingabemodalitäten
Sprach-erkennung
Gestik-erkennung
Prosodie-erkennung
Mimik-erkennung
Lippen-lesen
SubsymbolischeFusion
- Neuronale Netze- Hidden Markov
Modell
SymbolischeFusion
- Unifikation überHypothesengittern
- Bayessche Netze
Referenzauflösung und Disambiguierung
Bedeutungsrepräsentation
© W. Wahlster, DFKI
Wechselseitige Disambiguierung durch Multiple EingabemodalitätenDie kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen
Spracherkennung + Lippenlesen
höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate
Spracherkennung + Gestikerkennung (XTRA, SmartKom)
referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung
Spracherkennung + Mimikerkennung (SmartKom)
Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung
© W. Wahlster, DFKI
Fusion von Sprach- und Mimikerkennung in SmartKomModifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus)
(1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF-Programm.
(2) Benutzer: Echt toll.
(3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders.
(2’) Benutzer: Echt toll.
(3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?
© W. Wahlster, DFKI
Disambiguierung durch Selektions-restriktionen und Weltwissen
Vater zu einem Service-Roboter im Cyber-Restaurant:
(1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau.
(A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau)
Weltwissen: Apfelschorle, Weinschorle Getränk
Tochter, Frau Mensch
Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk)
(B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in SmartKom
© W. Wahlster, DFKI
© W. Wahlster, DFKI
© W. Wahlster, DFKI
Welche Spielfilme laufen den
heute abend im Fernsehen?
Kombination von Sprache und Gestik in SmartKom
Ich zeige ihnen eine Übersicht
über die Filme, die heute abend im
Fernsehen laufen.
Da ist nichts für mich dabei.
Dann möchte ich doch lieber insKino gehen.
Hier sehen sieeine Übersicht
über das Programmder Heidelberger Kinos.
Den würde ichgerne sehen.
Wo kommt der?
Auf der Karte sinddie Kinos markiert, in denen der Film „Einekleine Weihnachts-geschichte“ läuft.
© W. Wahlster, DFKI
Multimodale Ein- und Ausgabe in SmartKom
Da würd‘ ichgern
reservieren.
EineReservierungist in diesem
Kino nichtmöglich.
Dann ein anderes Kino.
Das da vielleicht.
Auf der Übersicht sehen sie die Anfangs-
zeiten des Films „Eine kleine
Weihnachtsgeschichte“im Kino „Schloß“.
Da würd‘ ichgern
reservieren.
Zeigen siemir wo
sie sitzenwollen.
Ich hätte gern zwei
Plätze hier.Ist das so richtig? Richtig.
Ich habe die gewünschte
Reservierung für Sie durchgeführt.
Ihre Reservierungs-nummer ist 635.
Sie können die Karten bis
spätestens eine halbe Stunde vor
Vorstellungsbeginn an der Kinokasse
abholen.
Gut. Das war‘s.
Dankeschön.Tschüss.
AufWiedersehen
© W. Wahlster, DFKI
Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung
Akustische
Sprachanalyse
Wortlisten
Grammatik
Wortbe-
deutungen
Gesprächs-Kontext
Wissen über das Gesprächs-
thema
Was hatder Sprecher
gesagt?100
Alternativen
Was hatder Sprecher
gemeint?10
Alternativen
Was willder Sprecher?
Eindeutiges Verstehenim Gesprächs-
zusammenhang
Red
uktio
n vo
n U
nsic
herh
eit
Sprachanalyse
Spracherkennung
Gesprochene Eingabe
Sprachanalyse
Sprach-
ver-
stehen
© W. Wahlster, DFKI
Handlungsplanungfür Roboter
Künstliche Intelligenz
Ideengeschichte planbasierter Ansätze der Dialogführung
Graphische Akte
Semiotik /Kommunikationstheorie
Gestische/Mimische
AkteSemiotik /
Kommunikationstheorie
PlanbasierteMensch-Maschine
DialogeComputerlinguistik /
Künstliche Intelligenz
Planbasierte Methoden derMultimodalen Dialogführung
Computerlinguistik / Künstliche Intelligenz
Sprechakttheorie
Sprachphilosophie /Linguistik
© W. Wahlster, DFKI
Plangenerierung und Planerkennung als duale Prozesse
Planungsalgorithmen
Gegeben:
Gesucht:
Anfangsspezifikation Zielspezifikation
Folge von Aktionen, um von Anfang zu Ziel zu gelangen
Wie kann ich mein Kommunikationsziel erreichen?
Planerkennungsalgorithmen
Gegeben:
Gesucht:
Anfangssituation Folge beobachteter
Aktionen
Zielspezifikation
Welches Kommunikationsziel verfolgt mein Dialogpartner?
Operator-basierte Methoden Deduktive Methoden Graph-basierte Methoden
© W. Wahlster, DFKI
System
Eingabe-kanäle
Ausgabe-kanäle
Speicherung
FestplatteCD-ROM
MEDIUM (Physikalischer Informationsträger)
MODALITÄT(Menschliche Sinne)
Sprache Graphik Gestik
CODE (Symbolsysteme)
Mimik
Code, Medium und Modalität
Visuell
Taktil
Akustisch
Haptisch
Benutzer
© W. Wahlster, DFKI
GestenBilder/
Graphiken
SemantischeRepräsentations-
sprache
Bild-beschreibungs-
sprache
Gesten-beschreibungs-
sprache
OntologienDBMS/KBMS/WWW
GraphischesBildverstehen
Graphik-generierung
GenerationGesten-analyse
Gesten-generierungParsing
Modalitätsspezifische Repräsentations-sprachen als Zwischenstufe zur Medienfusion
SprachlicheÄußerungen
Wissensrepräsentations-sprache
Inferenzkomponente
© W. Wahlster, DFKI
Benutzer-Modellbasierte
Schnittstellengenerierung
Dialogmanagement
Medienkoordination
Analyse multimodaler Eingaben
Generierung multimodaler Ausgaben
Adaptive Interaktion
Kooperativer Dialog
Layout und Disambiguierung
Interaktion mit gemischter Initiative
KI-Methoden für Intelligente Benutzerschnittstellen
Wissensrepräsentation
Plangenerierung u.-erkennung
Zeitliches/RäumlichesSchließen
KI
Sprachverstehen
Gestikverstehen
Bildverstehen
Sprachgenerierung
Graphikgenerierung
Gestikgenerierung
Benutzermodellierung
Diskursmodellierung
Constraint-Verarbeitung
Agenten-Modelling
Schnittstellen
© W. Wahlster, DFKI
Benutzer
Information,
Anwendungen,
Kommunikations-partner
Eingabevor-verarbeitung
Ausgabe-realisierung
Medienfusion
MultimodaleInteraktion
Kontext-abhängige
Aktionsplanung
Diskurs-modellierung
Präsentations-design
Intentions-erkennung
MediaAnalysis
Design
Modalitäts-spezifische
Analysatoren
MultimodalesMedien-design
Sprache
Graphik
Gestik/ Mimik
Biometrie
Sprache
Graphik
Gestik
AnimierterPräsentation
s-agent
Repräsentation und Inferenz
Benutzer-modell
Diskurs-modell
Domänen-modell
Aufgaben-modell
Medien-modell
An
wen
du
ng
ssch
nit
tste
lle m
it
An
wen
du
ng
smo
del
l
Grobarchitektur von SmartKom
© W. Wahlster, DFKI
Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger
Benutzer: Ich möchte nach Heidelberg fahren.
Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren?
Benutzer: Die schnellste.
Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.
SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien
© W. Wahlster, DFKI
Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger
Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten.
User: Ich möchte mehr Information über diese Kirche.
Smartakus: Hier siehst die Webseite über die Peterskirche.
User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche.
Smartakus: Auf dieser Karte habe ich den Weg markiert.
© W. Wahlster, DFKI
Vom Sprachdialog zum Multimodalen Dialog
SmartKom
UMTS-Mobilgerät der dritten Generation
Sprache, Graphik, Gestik
Verbmobil
Klassische Mobiltelephoni
e
Reine Sprache
© W. Wahlster, DFKI
Multomodale Kommunikation mit Unterhaltungselektronik
Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten?
Smartakus: CNN und NTV zeigen gearde Nachrichten.
User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf.
Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.
Beispiel: Zugriff auf digitale Programmführer
© W. Wahlster, DFKI
neutral
Videobasierte Mimikerkennung auf der Basis von Eigenfaces
ärgerlich
© W. Wahlster, DFKI
ärgerlichneutral
Sprecherunabhängie Emotionserkennung
© W. Wahlster, DFKI
Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991)
1
2
3
4
Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von ‘untere‘ bezogen auf Leserichtung der Bildschirmseite
1
2
3
4
Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von ‘untere‘ bezogen auf Position des Zeigers
© W. Wahlster, DFKI
Fokusierende Geste zur Disambiguierung derSpracheingabe (Wahlster 1991)
„Warum soll ich das ‚A‘ löschen?“
B A 2
A
A
C
E
1
3
X
Y
Z
© W. Wahlster, DFKI
Parasprachliche Deixis in XTRA (Wahlster 1991)
Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen:- Bleistiftspitze- Zeigefinger- Kombination aus Zeigefinger und Mittelfinger
(realisiert durch verschiedene Formen und Größen der Maus)
Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrererRegionen bei großflächigem Zeigemedium)
Auswertung von pars-pro-toto Deixis
Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werdensollen
Vereinfachungen:
Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum
Verzicht auf die Analyse von- hinweisenden Kopfbewegungen- der Blickrichtung als Zeigehandlung- nicht-taktilen Zeigehandlungen
© W. Wahlster, DFKI
Synergetische Integration von Sprach- und GestikeingabeVorteile:
Für den Sender:
ökonomische Referentenspezifikation
- Die Beschreibung wird kürzer und darf unterspezifiziert sein.
Für den Empfänger:
schnelle Referentenidentifikation
- Orientierung in die gezeigte Richtung und Sprachverarbeitung
erfolgen gleichzeitig.
Sprach- und Gestikeingabe disambiguieren sich wechselseitig.
Nachteile:
Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse).
Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen
führen.
© W. Wahlster, DFKI
Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al. 1986)
© W. Wahlster, DFKI
Geplanterreferentieller
Akt
Gestenanalyse
TACTILUS
Ja Nein
Minimale Ambiguitätder Geste?
Antizipationsrückkopplung bei derGestengenerierung
Realisierung der Geste
Geplante Geste
Rückkopplungs-schleife
Gestengenerierung
ZORA
© W. Wahlster, DFKI
Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991)
Eingabe mit einer Hand:
Fokusierungsakt: z.B. Stift hinlegen, so daß er auf Region zeigt
Referenzakt: z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt
Eingabe mit zwei Händen (simultanes Zeigen):
Fokusierungsakt: z.B. Zeigefinger einer Hand markiert eine Region
Referenzakt: z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region
© W. Wahlster, DFKI
Sprach-erkennung
Gesten-erkennung
MultimodalerChart Parser
Unifikations-basierte
MultimodaleGrammatik
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
Sprach-analyse
Gesten-analyse
Anwendungsschnittstelle
© W. Wahlster, DFKI
“Platziere das hier!”
Gesten-analyse
[object1]:selection
area:type:content
int(10,12):time
sturespatial_ge:cat
[object2]:selection
area:type:content
int(14,15):time
sturespatial_ge:cat
Sprach-analyse
end:rest[4],5)]],[follow([5:sconstraint[3]:selection
area:type:content
[5]:timesturespatial_ge:cat
:first
:rest
[4],5)](10,13),follow(int[4])nt(10,13),[overlap(i:sconstraint
[2]:selectionarea:type:content
[4]:timesturespatial_ge:cat
:first
:mmsubcat
[3]:selectionlocation:type:location
[2]:selectionentity:type:object
move:type
:content
int(10,13):timemandsubcat_com:cat
Typisierte Merkmalstrukturen fürSprachrepräsentation und Gestikeingabe
nach nicht mehr als 5 Sekunden
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
© W. Wahlster, DFKI
end:rest[4],5)]],[follow([5:sconstraint[3]:selection
area:type:content
[5]:timesturespatial_ge:cat
:first
:rest
[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint
[2]:selectionarea:type:content
[4]:timesturespatial_ge:cat
:first
:mmsubcat
[3]:selectionlocation:type:location
[2]:selectionentity:type:object
move:type
:content
int(10,13):timemandsubcat_com:cat
“Platziere das hier!”
Multimodaler
Subkategorisierungsrahmen
Spezifikation der erwarteten
Gesten
Zeitliche Constraints über
den Gesten
,
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
© W. Wahlster, DFKI
end:rest[4],5)]],[follow([5:sconstraint[3]:selection
area:type:content
[5]:timesturespatial_ge:cat
:first
:rest
[4],5)](10.13),follow(int[4])nt(10,13),[overlap(i:sconstraint
[2]:selectionarea:type:content
[4]:timesturespatial_ge:cat
:first
:mmsubcat
[3]:selectionlocation:type:location
[2]:selectionentity:type:object
move:type
:content
int(10,13):timemandsubcat_com:cat
[object1]:selectionarea:type:content
int(10,12):time
sturespatial_ge:cat
[object2]:selectionarea:type:content
int(14,15):time
sturespatial_ge:cat
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”
© W. Wahlster, DFKI
end:rest,5)]int(10,12)],[follow([5:sconstraint
[3]:selectionarea:type:content
[5]:timesturespatial_ge:cat
:first
:mmsubcat
[3]:selectionlocation:type:location
[object1]:selectionentity:type:object
move:type
:content
int(10,13):timemandsubcat_com:cat
[object2]:selectionarea:type:content
int(14,15):time
sturespatial_ge:cat
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”
© W. Wahlster, DFKI
[object2]:selectionlocation:type:location
[object1]:selectionentity:type:object
move:type
:content
int(10,13):timemandsubcat_com:cat
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”
© W. Wahlster, DFKI
Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)
“platziere” “das” “hier”
Sprachanalyse
[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i
[3]:time[2]:selection
area:type:content
sturespatial_ge:cat
:mmsubcat
[2]:selectionlocation:type:content
int(10,11):timeyes:deictic
deictic_np:cat
[1,2]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i
[3]:time[2]:selection
area:type:content
sturespatial_ge:cat
:mmsubcat
[2]:selectionentity:type:content
int(10,11):timeyes:deictic
deictic_np:cat
end:rest[2]:content
np:cat:first:rest
[1]:contentnp:cat:first
:subcat
location:type[2]:locationentity:type[1]:object
move:type:content
no:deicticv:cat “platziere” “das” “hier”
© W. Wahlster, DFKI
[1,2]:chart[3],5)}(9,10),follow(int[3])nt(9,10),{overlap(i
[3]:time[2]:selection
area:type:content
sturespatial_ge:cat
:mmsubcat
[2]:selectionentity:type:content
int(9,10):timeyes:deictic
deictic_np:cat
“das”
[object1]:selectionarea:type:content
int(9,11):time
sturespatial_ge:cat
[1,2]:chart:mmsubcat
[object1]:selectionentity:type:content
no:deicticnp:cat
MultimodalerChart Parser
Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)
© W. Wahlster, DFKI
[2,3]:chart[3],5)}(10,11),follow(int[3])nt(10,11),{overlap(i
[3]:time[2]:selection
area:type:content
sturespatial_ge:cat
:mmsubcat
[2]:selectionlocation:type:content
int(10,11):timeyes:deictic
deictic_np:cat
“hier”
[object2]:selectionarea:type:content
int(12,13):time
sturespatial_ge:cat
Multimodaler Chart Parser
[2,3]:chart:mmsubcat
[object2]:selectionlocation:type:content
no:deicticnp:cat
Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)
© W. Wahlster, DFKI
[2,3]:chart:mmsubcat
[object1]:selectionentity:type:content
no:deicticnp:cat
end:rest[2]:content
np:cat:first:rest
[1]:contentnp:cat:first
:subcat
location:type[2]:locationentity:type[1]:object
move:type:content
no:deicticv:cat “platziere”
“das” “hier”
[2,3]:chart:mmsubcat
[object2]:selectionlocation:type:content
no:deicticnp:cat
[object2]:selectionlocation:type:location
[object1]:selectionentity:type:object
move:type
:content
no:deicticv:cat
Sprachanalyse
Verzahnte Analysearchitektur(MVPQ, © Johnston 2000, AT&T)
© W. Wahlster, DFKI
Konjunktion (MVPQ, © Johnston 2000, AT&T)
“Platziere das und das hier!”
“PLATZIERE” “DAS” “DAS”“UND” “HIER”
“DAS UND DAS”
Anwendungsschnittstelle
+ + +
© W. Wahlster, DFKI
Deiktische Numerale(MVPQ, © Johnston 2000, AT&T)
“Diese vier!”
© W. Wahlster, DFKI
Using Context and World Knowledgefor Semantic Transfer
All other dialog translation systems translate word-by-wordor sentence-by-sentence.
1Nehmen wir dieses Hotel, ja. Let us take this hotel.
Ich reserviere einen Platz. I will reserve a room.
2Machen wir das Abendessen dort. Let us have dinner there.
Ich reserviere einen Platz. I will reserve a table.
3 Gehen wir ins Theater. Let us go to the theater.
Ich möchte Plätze reservieren. I would like to reserve seats.
Example: Platz room / table / seat
© W. Wahlster, DFKI
Von der Eingabeschallwelle zur Ausgabeschallwelle
Schallwelle
MöglichePhoneme
MöglicheWörter
MöglicheSätze
Spracherkennung
MöglicheSätze
GramatischeStruktur
Wort-bedeutungen
Satz-bedeutungen
Sprachanalyse
Satz-bedeutungen
Diskursbedeutung in
Quellsprache
Wortwahl inZielsprache
Sprachverstehenund Übersetzung
Diskursbedeutung in Zielsprache
Wörter in Zielsprache
Satzgenerierung
Sprachsynthese
Satzmelodie
Generierung undSynthese
© W. Wahlster, DFKI
Audiodaten
Worthypothesen-graph mit prosodischer
Annotation
VITsUnterspezifizierte
Diskurs-repräsentation
Kommando-erkenner
Spracherkennerfür Spontansprache
Kanal- und Sprecheradaption
Prosodie-analyse
StatistischerParser
Dialogakt-erkennung
Chunk Parser
HPSGParser
SemantischeKonstruktion
Robuste Dialog-semantik
SemantischerTransfer
Generierung
Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden
top related