automatische spracherkennung fr 4.7 allgemeine linguistik institut für phonetik, uds (ipus)...

40
Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Upload: hamprecht-stoeckle

Post on 05-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Automatische Spracherkennung

FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS)

Foundations in Language Science and TechnologyWS 2007-8

Page 2: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

• Variation in der Wortrealisierung– phonologisch– phonetisch

• Modellierung des akustischen Signals• Hidden-Markov-Modellierung

Überblick

Page 3: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Spracherkennung: Anwendungen

• Registrierung/Sicherheitssysteme (Banken usw.)• Auskunftsysteme (Fahrplan DB)• Hands-free telefonieren• Gesprochene Eingabe, z.B für Navigations-systeme• Hilfsmittel für Behinderte• Diktiersysteme, z.B. NaturallySpeaking (Dragon/

Scansoft), ViaVoice (IBM), FreeSpeech (Philips)

Page 4: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Ziel eines ASR-SystemsErkennung einer Äußerung anhand von:

Die Variabilität im Signal wirkt sich sowohl auf die Signalmodellierung als auch auf das Lexikon aus.

• Signal

• Lexikon

• Sprachmodell

Worterkennung

Page 5: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Phonologische Prozesse können dazu führen, daß Wörter nicht immer gleich realisiert werden:

Variation in der Wortrealisierung

• Lauttilgung

• Epenthese

• Assimilation

Page 6: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Lauttilgung (deletion)Ein Laut, der in der sog. “kanonischen Form” (Lexikonform) vorhanden ist, wird nicht realisiert.

Variation in der Wortrealisierung

• Einst stritten sich der Nordwind und ......

• Fährst du mit dem Bus?

Page 7: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Epenthese

Ein Laut, der in der sog. “kanonischen Form” nicht vorhanden ist, wird eingefügt.

Variation in der Wortrealisierung

• im Fahrstuhl: eins ( oder [])

• Pils - Pilz• Gans - Ganz

Page 8: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Wortrealisierung

Page 9: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Assimilation (Angleichung)Die (phonologische) Identität eines Lautes ändert sich unter Einfluß des Kontexts (auch prosodisch bedingt).

Variation in der Wortrealisierung

• unmöglich, einbauen• aber nicht: umtaufen, umdrehen

Page 10: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Die durch phonologische Prozesse (Lauttilgung, Epenthese und Assimilation) bedingte Variation kann durch Aussprachevarianten im Lexikon erfasst werden.

Variation in der Wortrealisierung

Page 11: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Das Lexikon und das Sprachmodell, das festlegt, welche Wörter aufeinander folgen können (zusammen: “top-down” Verarbeitung), sorgen dafür, daß Ambiguitäten in der Signalverar-beitung (“bottom-up” Verarbeitung) aufgelöst werden, oder besser: vorgebeugt werden, denn nur Lautsequenzen, die eine mögliche Reihenfolge von Lexikoneinträgen darstellen, können von einem ASR-System erkannt werden.

“Top-down” versus “bottom-up”

Page 12: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Ambiguitäten in der Signalverarbeitung entstehen durch phonetische Variation, die durch die Koartikulation zwischen Lauten bedingt ist:

Variation in der Lautrealisierung

• ein Laut eine akustische Identität

• Überlagerung von artikulatorischen Gesten

• Artikulatorische Übergänge

Page 13: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

ein Laut eine Identität

Beispiel: /h/ kann in unterschiedlichen Kontexten unterschiedlich realisiert werden. Man könnte /h/ als eine stimmlose Realisie-rung der Kontextvokale betrachten.

(Spektrogramme “ihi”, “aha”, “uhu”: verschiedene Realisierungen des /h/)

Page 14: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

i: h i: a: a: hh u: u:[]] ][[

Page 15: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

Überlagerung von artikulatorischen Gesten

Beispiel: Die artikulatorische Geste für den Vokal /Y/ wird durch die Geste für die benachbarten Frikativen über-lagert.

(Spektrogramm“Dezimalsystem”: keine klare Abgrenzung der Laute)

Page 16: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

d e t0 s i m a: l z Yd0 s t0 t e: m[ ](

Page 17: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

Artikulatorische Übergänge

Beispiel: An den Grenzen des Vokals hängt die Realisierung stark von der Artikulation der benachbarten Laute ab.

(Spektrogramm “aba”, “ada”, “aga”: Variation innerhalb der Laute)

Page 18: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

a: a:a:a:a:a:b0 d g[ ] [ [] ]d0 g0b

Page 19: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Variation in der Lautrealisierung

Menschliche Hörer haben mit der im Signal vorhandenen Variation normalerweise keine Probleme.

Für den Computer ist sie aber eine Herausforde-rung, den die Variation in der Lautrealisierung muß in den akustischen Modellen erfasst werden. Dazu werden statistische Verfahren (meistens hidden Markov Modellierung) verwendet.

Page 20: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Markov-Modellierung

• Markov-Modelle bestehen aus Zuständen ("states"), die durch Übergänge miteinander verbunden sind.

• Wenn sich der Automat in einem bestimmten Zustand befindet, emittiert es ein Symbol (z.B. eine akustische Vektor).

• Die Übergänge zwischen den Zuständen sind mit Wahrscheinlichkeiten versehen.

• Spielen wir erstmal ein einfaches Beispiel durch, in dem die Zustände Behälter mit farbigen Bällen darstellen.

stochastischeModellierung

Page 21: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

MMs: Einfaches Beispiel

• Man fängt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter.

• Da nimmt man einen schwarzen Ball aus dem Behälter.

S E1 0.4 0.30.5

0.6 0.5 0.7

1 2 3

Page 22: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

MMs: Einfaches Beispiel

• Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen roten Ball aus dem Behälter oder man geht noch mal zum 1. Behälter und nimmt wieder einen schwarzen Ball.

• So weiter, bis man in Zustand E landet und eine Reihe von gefärbten Bällen hat.

S E1 0.4 0.30.5

0.6 0.5 0.7

1 2 3

Page 23: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Hidden Markov Modellierung

• Hidden-Markov-Modelle (HMMs) unterscheiden sich darin von Markov-Modellen, dass die Emissionen nicht unbedingt einem bestimmten Zustand zuzuordnen sind.

• In unserem Beispiel wäre dies der Fall, wenn in allen drei Behältern rote, schwarze und gelbe Bälle wären

Page 24: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Hidden Markov Modellierung

• Dabei kann das Verhältnis der farbigen Bällen in den Behältern unterschiedlich sein, so dass die Farbemissionen in den drei Zuständen unterschiedliche Wahrscheinlichkeiten haben.

Page 25: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Einfaches Beispiel

• Man fängt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter.

• Da nimmt man einen Ball aus dem Behälter, der jetzt aber schwarz, rot oder gelb sein kann.

S E1 0.4 0.30.5

0.6 0.5 0.7

1 2 3

Page 26: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Einfaches Beispiel

• Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen Ball aus dem Behälter oder man geht noch mal zum 1. Behälter und nimmt da noch mal einen Ball.

• So weiter, bis man in Zustand E landet und eine Reihe von gefärbten Bällen hat.

S E1 0.4 0.30.5

0.6 0.5 0.7

1 2 3

Page 27: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: verborgene Zustände

• Wenn jetzt eine Reihe von farbigen Bällen vorliegt, kann man nicht mehr eindeutig erkennen, in welchem Zustand (aus welchem Behälter) man die einzelnen Bälle genommen hat. Die Zustände sind „verborgen“, deswegen Hidden-Markov-Modellierung.

1 1 1 1 1 2 2 2 2 3 3 31 1 1 2 2 2 2 2 3 3 3 3usw.

Page 28: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Spracherkennung

• Reihe von farbigen Bällen = akustische Frames mit Parametervektoren.

• Die Aufgabe für den Spracherkenner ist es, für eine vorliegende Äußerung zu erkennen, welche Abfolge von Zuständen die Frames am wahrscheinlichsten emittiert hat. Das wird durch die Transitions- und Emissionswahrscheinlichkeiten bestimmt.

Page 29: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Übergange

• In der Spracherkennung werden links-rechts-Modelle verwendet (wie vorher gezeichnet), weil die akustischen Ereignisse in der Zeit geordnet sind. So werden Vokale z.B. oft betrachtet als eine Sequenz von Anfangs-transition, „steady state“ und Endtransition.

• Wenn ein Modell für Pausen trainiert wird, werden meist Übergange von jedem Zustand zu jedem anderen erlaubt, da es keinen vorgegebenen Ablauf von akustischen Ereignissen gibt (ergodisch).

Page 30: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Emissionen

Emissionen können beschrieben werden mit:• Vektorcodebook: Eine feste Anzahl von

quantisierten akustischen Vektoren werden verwendet. Sie werden durch Beobachtungs-wahrscheinlichkeiten bestimmten Zuständen zugeordnet.

• Gauss'sche Verteilungen: Die Variation in der akustischen Realisierung in einem Zustand wird mittels einer Normalverteilung beschrieben.

Page 31: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: komplexere Modelle

Es werden auch komplexere Modelle benutzt :• parallele Zustände und „multiple mixtures“ können

Variationen in der Lautrealisierung (Sprecher, Dialekt, Kontext, usw.) besser beschreiben.

• Gauss'sche Mixturen: die systematische Variation in der akustischen Realisierung von einem Zustand wird mittels mehrerer Normalverteilungen beschrieben.

Page 32: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Datenarmut?

• Generalisierte Triphone beschreiben einen Laut in unterschiedlichen Kontexten, wobei die Kontexten gruppiert sind (z.B. nach Artikulationsstelle oder „data-driven“ nach akustischen Eigenschaften).

• So werden die Anforderungen an der Größe des Trainingkorpus reduziert.

Page 33: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Spracherkennung

• Es kann mehrere Abfolgen von Zuständen geben, die das vom gleichen Signal (Framefolge) folgen können. Die Zustandfolge mit der höchsten Wahrscheinlichkeit wird gesucht (dazu wird der sog. Viterbi-Algorithmus verwendet).

• Dies gilt für alle HMMs: Die Zustandsequenz, die die höchste Wahrscheinlichkeit hat, wird erkannt.

Page 34: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Lexikon & Sprachmodell

• Mit HMM kann man heutzutage kontinuierliche Spracherkennung durchführen. Dazu braucht man, außer akustischen (Hidden-Markov-) Modellen, auch ein Lexikon und ein Sprachmodell.

• Im Lexikon werden alle Wörter (oder Morpheme) aufgelistet, die das System erkennen soll.

• Im Sprachmodell werden alle mögliche Kombi-nationen von Einträgen im Lexikon festgelegt.

Page 35: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Lexikon

• Die Einträge im Lexikon bestehen meist aus einem orthographischen Wort und seiner Realisierung als Folge von HMMs für Laute.

• Um Variationen in der Aussprache von Wörtern besser zu bewältigen, werden manchmal im Lexikon auch Aussprachevarianten geschrieben, in denen Reduktionen, Einfügungen und Assimilationen berücksichtigt werden.

• Sie sorgen dafür, daß der Abstand zwischen akustischer Realisierung und Eintrag geringer sind.

Page 36: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Lexikon

• Dafür wird auch der Abstand zwischen den Lexikoneinträgen geringer, was wieder zu Verwechslungen führen kann. Deswegen werden oft nur die häufigsten Aussprachevarianten, z.B. für Funktionswörter, berücksichtigt, um die Erkennung zu verbessern.

Page 37: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Sprachmodell

• Das Sprachmodell kann entweder als Regelsystem (linguistische Grammatik) oder als probabilistisches System implementiert werden.

• Regelsysteme haben den Vorteil, das sie zu einem besseren Verständnis der linguistischen Eigenschaften von Äußerungen führen (genau so wie kenntnisbasierte Lauterkennung zu einem besseren Verständnis der phonetischen Eigenschaften von Lauten führen kann).

Page 38: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

HMMs: Sprachmodell

• Probabilistische Systeme modellieren dagegen realisierte Äußerungen. Sie berechnen Wahrscheinlichkeiten für die Übergänge zwischen Lexikoneinträge. Sie sind weniger generalisierend, brauchen dafür große Datenmengen als Trainingsmaterial.Angenommen, dass die Testbedingungen gut mit den Trainingsdaten übereinstimmen (Textsorte, lexikalische Domäne, usw.) beschreiben sie aber sehr genau das beobachtete Sprecherverhalten.

Page 39: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Literaturangaben:

• Van Alphen, P. und D. van Bergem (1989). „Markov models and their application in speech recognition,“ Proceedings Institute of Phonetic Sciences, University of Amsterdam 13, 1-26.

• Holmes, J. (1988). Speech Synthesis and Recognition (Kap. 8). Wokingham (Berks.): Van Nostrand Reinhold, 129-152.

• Holmes, J. (1991). Spracherkennung und Sprachsynthese (Kap. 8). München: Oldenburg.

Page 40: Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8

Literaturangaben:

• Cox, S. (1988). „Hidden Markov models for automatic speech recognition: theory and application,“ Br. Telecom techn. Journal 6(2), 105-115.

• Lee, K.-F. (1989). „Hidden Markov modelling: past, present, future,“ Proc. Eurospeech 1989, vol. 1, 148-155.