10. natürliche sprache in biologie und medizin
DESCRIPTION
10. Natürliche Sprache in Biologie und Medizin. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Ebenen der Sprachtechnologie. I. „ Speech “ Erkennung gesprochener Sprache ( speech recognition ) Erzeugung gesprochener Sprache ( speech synthesis ) II. „ Content “ - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/1.jpg)
10. Natürliche Sprache in Biologie und Medizin
Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz
![Page 2: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/2.jpg)
Ebenen der SprachtechnologieI. „Speech“
Erkennung gesprochener Sprache (speech recognition)Erzeugung gesprochener Sprache (speech synthesis)
II. „Content“TextretrievalText MiningTextgenerierungTextzusammenfassungInformationsextraktion Maschinelle Übersetzung
![Page 3: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/3.jpg)
Information Retrieval
Sucher-gebnisse
Kollektion von Dokumenten(Dokumentationseinheiten)
Anfrage (Query) ?
![Page 4: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/4.jpg)
PersonOutPersonInPositionOrganizationTimeOutTimeIn
Template
Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach
Pressenotiz
PersonOut Dr. Hermann WirthPersonIn Sabine KlingerPosition LeiterOrganization Musikhochschule MTimeOut HeuteTimeIn
PersonOut Christian MeindlPersonIn Annelie HäfnerPosition MusikdirektorOrganization Musikhochschule MTimeOutTimeIn
Informationsextraktion
![Page 5: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/5.jpg)
Maschinelle Übersetzung
![Page 6: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/6.jpg)
Question Answering
![Page 7: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/7.jpg)
Grundbegriffe der Linguistik
• Semiotik• Phonetik, Phonologie• Morphologie• Syntax• Grammatik• Semantik• Pragmatik• Textlinguistik• Lexikographie• Terminologie
![Page 8: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/8.jpg)
Ebenen der Linguistik • Morphologie:
– be + end + en, In + fekt + ion, In + fekt + ion + en• Syntax:
– Eine schwere Infektion beendete die Schwangerschaft vs.– Eine Infektion schwere die Schwangerschaft beendete.
• Semantik:– Es wurde eine Entbindung per Kaiserschnitt vorgenommen– Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen
• Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene
befindet sich in gutem Allgemeinzustand– Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat
wurde bisher nicht abgestoßen.
![Page 9: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/9.jpg)
Medizinische Anwendungen von Sprachtechnologien
• Unterstützung der Befunderstellung durch Spracherkennungssysteme
• Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen
• Zusammenfassung von Krankengeschichten• Automatische Wissensaquisition aus medizinischen Freitexten• Automatisierte Verordungen• Multilinguale Erzeugung von Patienteninformation• Automatische Kodierung / Klassifikation von Diagnosen und
Prozeduren
![Page 10: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/10.jpg)
Semiotik... Lehre von den Zeichen• Ein Zeichen ist Stellvertreter für etwas Bezeichnetes• Alles sinnlich wahrnehmbare kann Zeichen sein• Alles beliebige kann als Zeichen fungieren• Sprachwissenschaft: Zeichensystem „Sprache“ •
![Page 11: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/11.jpg)
Das semiotische Dreieck
Symbol, Wort,Code, Bezeichner
Objekt,InstanzReferent
Begriff, Gedanke, Inhalt, Konzept
"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.
Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln
![Page 12: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/12.jpg)
Sprachliche Zeichen
• Laute• Phoneme• Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut• Komplexe Wörter Magen-schleim-haut• Phrasen das ödematös aufgelockerte Stroma• Sätze Es finden sich vereinzelt Lymphfollikel.• Texte
Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhautvom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrtbasophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.
![Page 13: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/13.jpg)
Linguistische Betrachtungsweisen
• Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination
• Semantik: Bedeutung einfacher und komplexer Zeichenformen
• Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen
![Page 14: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/14.jpg)
Grammatik
• Lehre vom – Wort (Morphologie, Morphosyntax) – Satz (Syntax)– Laut (Phonologie)– Text (Textgrammatik)
• Formale Seite sprachlicher Ausdrücke:– System minimaler Einheiten mit Regeln zur Generierung
komplexerer Einheiten– Berührung zur Theorie der formalen Sprachen
![Page 15: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/15.jpg)
Sprachliche Zeichen
• Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten
LautePhoneme Morpheme
Wörter(einfach / komplex)
Phrasen TexteSätze
Morphem-bedeutung
Wort-bedeutung
Phrasen -bedeutung
Textbedeutung
Satz-bedeutung
![Page 16: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/16.jpg)
Grammatik: Morphologie, Übung
• Morphologie = Lehre vom Wort• Was ist ein Wort ?• Beispiel:
• Übung: Wie viele Wörter hat dieser Satz ?
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.
![Page 17: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/17.jpg)
Token, Type, Lexem• Token: Einzelne Vorkommen eines Zeichens (Wortes)
• Type: Einzelne Muster eines Zeichens (Wortes)
• Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter)
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 5 6
7 8 9 10 11
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 5 6
6 4 5 3 7
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 3 6
6 4 3 3 6
![Page 18: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/18.jpg)
Morphosyntax• Morphemarten: Stamm, Präfix, Suffix• Bildungsregeln „wohlgeformter“ (well-formed)
Wörter:Beispiele: – Kein Wort kann mit einem Suffix beginnen– Keine zwei Beugungssuffixe hintereinander– Kein Wort kann nur aus Affixen bestehen
• Beugungsregeln z.B. past part
went gone
pres
go
![Page 19: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/19.jpg)
Morphologische Besonderheiten der Bio/Medizinsprache (I)
• Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen
• Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal
• Zwei Wortbildungsschemata:1. Deutsch: Orthographische Anpassung
lateinischer Morpheme caka; ceze; cizi; coko; cuku;
es gelten deutsche Wortbildungsregelnwenige hybride Pluralbildungen (-itis , -itiden, -zera)
2. Lateinisch:Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen
![Page 20: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/20.jpg)
Morphologische Besonderheiten der Medizinsprache (II)
• Eponyme (Eigennamen) werden oft wie Wortstämme behandeltParkinsonismus
• Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient)
• Abkürzungen (in der geschriebenen Sprache):meist Wortstämmechron., persist., Herzinsuff.,
• Ad-hoc KompositabildunglymphoplasmazellulärBecherzellbesatz
![Page 21: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/21.jpg)
Wortbildungsphänomene in der Molekularbiologie
![Page 22: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/22.jpg)
Syntax• Lehre vom Satz
– Regeln zur Bildung „well-formed“ Wordgruppen– Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)
Worttypen: POS („Part of Speech“)• Komponenten:
– Lexikon, Syntax:– Regeln der Kombination elementarer Ausdrücke zu
komplexen Ausdrücke• Ähnlichkeit zu formalen Sprachen (z.B.
Programmiersprachen)
![Page 23: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/23.jpg)
Syntax: Konstituentenstruktur• Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort
bis zum Satz– np: Nominalphrase „Hans“, „der Arzt“– vp: Verbalphrase „verlegt“, „verlegt Hans“– pp: Präpositionalphrase „auf die Intensivstation“
• Einfachstbeispiel:Regelns-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np.
Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf].
Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...
![Page 24: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/24.jpg)
Beispiel: Strukturbaum
det n np n
np
v det
np
Der Arzt Hansauf Intensivstationverlegt die
np
pp
vp
vp
vp
s
![Page 25: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/25.jpg)
Parser
pn nv detWir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas
p det n
npnp
pp
np vp
vp
vp
s
pn nv det p det n
npnp
pp
np vp
vp
s
np
Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen
Lesarten entsprechen)
Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad
![Page 26: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/26.jpg)
Semantik
![Page 27: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/27.jpg)
Symbol, Wort,Code, Bezeichner
Objekt,InstanzReferent
Begriff, Gedanke, Inhalt, Konzept
"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.
Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln
![Page 28: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/28.jpg)
Begriffsinhalt / Begriffsumfang
Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke
Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens
Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit
Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung
![Page 29: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/29.jpg)
Aufgaben von Semantik
• Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ?
• Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ?
• Semantik der Arbitrarität oder lexikalische Semantik:definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B.
Stethoskop
![Page 30: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/30.jpg)
Bedeutung
• Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile
• Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Naturdurch die Lappen gehen
• Synonymie: Bauchspeicheldrüse = Pankreas• Mehrdeutigkeit:
– Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit– Syntaktische Ambiguität:
Ich sehe das Kind mit dem Fernglas
![Page 31: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/31.jpg)
Merkmalssemantik• Theorie vom Begriff
(Aristoteles: genus proximum et differentia specifica)• Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in
Bedeutungseinheiten zerlegen• Ähnlichkeit zu formalen Ontologien
• Defizit: viele Begriffe lassen sich so nicht definieren
weiblich erwachsen menschlich
Mann - + +
Frau + + +
Mädchen + - +
Weibchen + 0 -
![Page 32: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/32.jpg)
Modelltheoretische Semantik
• Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik)
• Wahrheit von Aussagen in möglichen Welten (Modellen)Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn
• arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x)Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik)
• Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !
![Page 33: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/33.jpg)
Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem
Datenbasismedizinischer Freitexte
T1
T2
...
Tn
SyntaktischeRepräsentation
InhaltlicheRepräsentation
........
.......
...............
.....
........
......................
........
.......
...............
.....
........
......................
?
![Page 34: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/34.jpg)
Das
Partikelspec:
einer
Colonschleimhaut
mit
ödematösen
Zotten
genatt:
spec: ppatt:
pobj:
adj:
zeigtsubject:
Dependenzgrammatik
• Kanten repräsentieren syntaktische Rollen• Begriffe:
– syntaktischer Kopf– syntaktischer Modifier
![Page 35: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/35.jpg)
Show.5
show-patientParticle.1
Colon-Mucosa.2anatomical-fragment-of
has-phenomenonEdema.3
has-anatomical-partVillus.4
Ontologische Repräsentation
![Page 36: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/36.jpg)
Das
Partikelspec:
einer
Colonschleimhaut
mit
ödematösen
Zotten
genatt:
spec: ppattr:
pobj:
adj:
SyntaktischeEbene
Edema.3
Villus.4
zeigtsubject:
Particle.1
OntologischeEbene
Show.5
Colon-Mucosa.2
![Page 37: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/37.jpg)
Dasspec:
einer
ödematösen
spec:
adj:
SyntaktischeEbene
Colon-Mucosa.2
Edema.3
Villus.4
zeigtPartikel
mitZotten
ppatt:
pobj:
Colonschleimhautgenatt:
subj:
Show.5Particle.1
OntologischeEbene
![Page 38: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/38.jpg)
Von der Semantik zur Pragmatik
• Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutetPatient mit karzinomverdächtigem Befund der linken Lunge
• Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet.„Ihr Befund ist positiv“
• Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“„Es zieht“„Tupfer!“ „Kompresse!“
• Pragmatik untersucht den kommunikativen Austausch
![Page 39: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/39.jpg)
Pragmatik
• Sprechakttheorie:– Konstative Sätze (Behauptungen)– Performative Sätze (Aktionen)
1. Äußerung „Der Hund ist bissig“ (Grammatik, Syntax)
2. Proposition bissig(Hund) = True (Semantik)
3. Warnung oder Empfehlung4. Hörer entfernt sich oder Hörer kauft den Hund• Indirekte Sprechakte
„Können Sie mir sagen, wie spät es ist ?“
![Page 40: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/40.jpg)
Kontext
• Lokaler Kontext„Der Bruch wurde eingegipst“
• Sprachlicher Kontext:„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese
• Intentionaler Kontext„es ist kalt“ (Fenster schließen !)
• Situativer Kontext„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)
![Page 41: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/41.jpg)
Generisches Textverstehenssystem
Lexicon GrammarSemanticRule Base
DomainOntology
# 150,000# 1,000,000
# 10,000# 10,000
# 150,000# 1,000,000
end + edPastTense
ended
infection pregnancy
a severe the
EndingPregnancyInfection
severe
E-patientE-agent
I-degree
P-patient
IF ... Pregnancy & inf.THEN ... mortal danger
* The baby survived
MotherBaby
Pregnancy
P-co-patient
MorphologicalProcessor
SyntacticProcessor(Parser/
Generator)
SemanticInterpreter
InferenceEngine
![Page 42: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/42.jpg)
Generisches Textverstehenssystem• Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis
nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen)
• Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren.
• In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen
![Page 43: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/43.jpg)
Text-Mining statt Textverstehen
• Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab:– exponentielle Komplexität der wissensintensiven
Verfahren– „Knowledge acquisition bottleneck“– Verfügbarkeit riesiger Textmengen (WWW)– Skalierbarkeit („shallow“ methods)
![Page 44: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/44.jpg)
Standardtools und - ressourcen
• Tagger• Chunker / partielle Parser• Namenserkenner• …• Textkorpora
– annotiert (POS, Chunks, Nes, Semantik)– nicht annotiert
![Page 45: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/45.jpg)
Beispiel: Tagging
45
A severe infection ended the pregnancy .
DET NOUN VERBADJ DET NOUN ST
![Page 46: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/46.jpg)
Tag Set (Penn treebank)
Tag Description Examples
. sentence terminator . ! ?
DT determiner all an many such that the them these this
JJ adjective, numeral first oiled separable battery-powered
NN common noun cabbage thermostat investment
PRP personal pronoun herself him it me one oneself theirs they
IN preposition among out within behind into next
VB verb (base form) ask assess assign begin break bring
VBD verb (past tense) asked assessed assigned began broke
WP WH-pronoun that what which who whom
![Page 47: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/47.jpg)
Statistisches HMM – Tagging (I)
• Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags
– P1(Tagi | Tagi-1 ... Tagi-n)
• Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P2(Tokeni | Tagi)
• die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN
![Page 48: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/48.jpg)
Statistisches HMM – Tagging (I)
• State transition probabilities (trigrams):– P1(DET | COMMA NOUN) = 0.0007
– P1(PREL | COMMA NOUN) = 0.01
• State emission probabilities:– P2( die | DET) = 0.7
– P2( die | PREL) = 0.2
• Compute probabilistic evidence for the tag being– DET: P1 • P2 = 0.00049
– PREL: P1 • P2 = 0.002
• die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN
![Page 49: 10. Natürliche Sprache in Biologie und Medizin](https://reader034.vdokument.com/reader034/viewer/2022050802/56816589550346895dd84aca/html5/thumbnails/49.jpg)
Statistische Methoden erfordern Trainingsdaten