(Onto)WordNet
„The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet“
A. Gangemi, R. Navigli, P. Velardi
Vortrag: Frank Loebe
2
Überblick
• WordNet– Ziele & Umfeld– Entwicklung & Aufbau– Anwendungen
• WordNet & Ontologie• OntoWordNet
– Ziele & Annahmen– Verknüpfung von Synsets– (Semi)automatische Axiomatisierung
• Kritik & Zusammenfassung
3
WordNet: Ziele und Umfeld
• definiert als „lexikalische Datenbank“
• Ziele– Wortsuche nach konzeptionellen statt alphabetischen Kriterien– Großversuch für relationale Semantik von Wörtern
(im Gegensatz zu kompositionalen Ansätzen)
• Ergebnis ist vergleichbar einer Kombination aus Wörterbuch und Thesaurus
• Aufbau von Hand durch Lexikographen• Beginn 1985
4
WordNet: Aufbau
• Hauptbestandteile– Synsets Bsp.: { motor vehicle, automotive vehicle }– konzeptuelle und lexikalische Relationen Bsp.:
Hypernymie
• ergänzt durch– Bemerkungen
Bsp.: „a self-propelled wheeled vehicle that does not run on rails“
• Beschränkung auf Wörter der 4 offenen Wortklassen(Substantive, Adjektive, Verben, Adverben)
• Statistiken (WordNet 1.5) 91.600 Synsets, 75.400 Bemerkungen– 18% mehrdeutige Wörter, aber Häufigkeit ca. 83%
5
Ähnliche Worte
Meronyme
Hypernyme
Hyponyme
Beispiel: motor vehicle
motor vehicle(used very rare, polysemy count 1)
self-propelled vehicle
self-propelled vehicle
vehicle container
entity
car
bloodmobile
truck go-kart
engineairbrake
brake systemchassis
6
WordNet Anwendungen
• Semantische Annotation von Texten mit Synsets• Kombination taxonomischen Wissens mit
probabilistischen Modellen• Information Retrieval• Konzeptuelle Modellierung
(COLOR-X: OO-System mit WordNet-Anbindung)• Wissensverarbeitung mit WordNet-basierten
Inferenzregeln
7
WordNet & Ontologie: Verbindungen
• Viele Gemeinsamkeiten zwischen Semantik in der Linguistik und Ontologie
• Konzeptuelle Relationen– Hypernymie / Hyponymie = Generalisierung / Spezialisierung– Meronymie / Holonymie = Teil-von- / hat-Teil-Beziehung
• Lexikalische Relationen– Antonymie: Wörter mit gegensätzlicher Bedeutung
Bsp.: Sieg und Niederlage, groß und klein– Synonymie: Wörter mit gleicher Bedeutung– Homonymie: Gleichklingende Wörter unterschiedlicher
Bedeutung
– Polysemie: Wörter mit mehreren BedeutungenBsp.: „big“ tritt in 15 Synsets auf
8
WordNet & Ontologie: Top-Level
Entity
Organism
Animal
Person
Plant
Object
Artifact
Natural Object Body
Substance Food
Abstraction
Attribute
Quantity
Relation Communication
Time
Psychol. Feature
Cognition
Feeling
Motivation
Nat. Phenomenon Process
Activity
Event
Group
Location
Possession
Shape
State
9
WordNet & Ontologie: Probleme
• WordNet [Fellbaum, 1998]1) keine Ausnahmen Bsp.: Pinguine fliegen nicht.
2) Subtypen von Hyponymie Bsp.: is-a-kind-of, is-used-as-a-kind-of
3) keine Unterscheidung von Eigennamen und KonzeptenBsp.: Bach und songwriter auf gleicher
Ebene
4) keine „generischen“ Konzepte Bsp.: chair vs. furniture
5) weitere semantische Relationen sind nötig
• DOLCE/OntoClean [Gangemi et al. 2003c]1) Probleme 2), 3) von oben
2) keine Trennung von Objekt- und Metaebene Bsp.: Relation
3) versteckte Polysemie Bsp.: law als Dokument bzw. Regel
4) heterogene Generalitätsebenen Bsp.: car und blood-mobile
10
OntoWordNet: Ziel & Commitments
• Ziel: Umwandlung von WordNet in eine formale Spezifikation
• Commitments:– logisch: Synsets Typen, formale Semantik für lexikalische
Relationen– ontologisch: Trennung in Konzepte, Relationen, Individuen– kontextuell: Modularisierung nach Domänen, partiell
geordnet– semiotisch: textorientierte Angabe von Präferenzen,
Frequenzen, etc.
• Fokus in [Gangemi et al. 2003a]:ontologische Commitments
11
OntoWordNet: Annahmen
(A1) Hyperonymy beschreibt Synset-Subsumtion.
(A2) Synsets sind Äquivalenzklassen von Bedeutungen.
(A3) Bemerkungen als Axiomatisierungen.
(A4) Bemerkungen sind konsistent mit Synsets.
(A5) Assoziationen entsprechen konzeptuellen Relationen.
(A6D) Extensionale Abgeschlossenheit von DOLCE.
(A7D) Taxonomien unterhalb „manueller Verknüpfungen“ sind ontologisch konsistent.
12
OntoWordNet: Algorithmus
• Wortart-Markierung und Entfernen irrelevanter Wörter• Disambiguierung der Wörter in den Synsets• Extraktion von Assoziationen• (semi-)automatische Interpretation der Assoziationen
• Bsp.:– driver „the operator of a motor vehicle“– operator „an agent that operates some apparatus or machine“– motor vehicle
„a self-propelled wheeled vehicle that does not run on rails“
– Disambiguierung von operator– driver – motor vehicle Assoziation Agentive Co-Participation
13
Disambiguierungsalgorithmus (I)
• Greedy Algorithmus mit Heuristiken
• Input:– S (Synset)– P (Terme aus der Bemerkung von S sowie den Bemerkungen
der direkten Hypernyme von S)
• Output:– D (Menge disambiguierter Synsets)
• Anfangsschritt:– D=S– Umordnung der eindeutigen Terme von P nach D
14
Disambiguierungsalgorithmus (II)
• Iterationsschritt:– Pfadheuristik: Pfadmustersuche zwischen S´ und S´´
• Bsp. Hypernymy/Meronymy-Ketten: S´ @,# S´´
– Contextheuristik: (nur wenn keine Pfade gefunden)• gemeinsames semantisches Auftreten
– auf Grundlage von 3 Korpora der Computerlinguistik– Disambiguierung erkannt, wenn mind. 2 Korporaergebnisse
übereinstimmen
• gemeinsame Domänenkennzeichen von Synsets
– Umordnung der disambiguierten Terme von P nach D
15
Beispiellauf
• Disambiguierung von „retrospective“• Bemerkung:
„an exhibition of a representative selection of an artist´s life work“
• Hypernym: „art exhibition“• Bemerkung:
„an exhibition of art objects (paintings or statues)“
16
Beispiel: Ausgangssituation
• D enthält nur das „Ziel“-Synset• P enthält alle Wörter aus Bemerkungen zu D und „art
exhibition“
retrospective
work
objectexhibition
life
statue artist
selectionrepresentative
painting
art
D P
17
Beispiel: Anfangsschritt
• Algorithmus:– Umordnen der eindeutigen Wörter nach P
(erkennbar in WordNet)
retrospective
work
objectexhibition
life
statue artist
selectionrepresentative
painting
art
D P
Eindeutige Wörter
statue artist
18
Beispiel: Iterationen I & II
• Algorithmus:– Pfadheuristik: Ausnutzung konzeptueller Links in WordNet– falls Pfade existieren, umordnen; sonst Kontextheuristik
retrospective
work
objectexhibition
life
selectionrepresentative
painting
art
D P
statue artist
3 Hypernymie-Pfade:retrospective 2 exhibitionstatue 3 artstatue 6 object
1 Hyponymie-Pfad:art 2 painting
objectexhibition art
painting
19
Beispiel: Iteration III
• Algorithmus:– Kontextheuristik: Ausnutzung gemeinsamen Auftretens in
Standardkorpora der Computerlinguistik
retrospective
work
life
selectionrepresentative
D P
statue artist (artist, life) ist bestimmtim LDC Corpus
objectexhibition art
painting
life
20
Ergebnis zu „retrospective“
„an exhibition of a representative selection of an artist´s life work“
21
Experimentelle Ergebnisse I
0% 20% 40% 60% 80% 100%
Tourismus
Tourismus:Präzision
Generisch
Generisch:Präzision
nicht disambiguiert falsch disambiguiert korrekt disambiguiert
22
Experimentelle Ergebnisse II
• geringe Ergebnisrate, hohe Genauigkeit
• höhere Genauigkeit bei Ergebnissen als die „wähle-die-erste-Variante“-Heuristik
• weitere Analysen:– Substantive mit höherer Rate und Genauigkeit, da Substantive
umfassender kommentiert– Verben problematisch in WordNet Einbeziehung von
FRAMENET geplant
23
Interpretation von Assoziationen I
• Motivation– semantische Fundierung der gefundenen Assoziationen
• Anforderungen– eine definierte Menge konzeptueller Relationen zwecks
Wiederverwendbarkeit– formale Semantik– ausreichender Grad an Allgemeinheit und Flexibilität
• Mittel zur Lösung– DOLCE bzw. DOLCE-Lite+
• Axiomatisierung reduziert auf Ausdrucksfähigkeit von Beschreibungslogiken
• Erweiterungen generischer und domänenspezifischer Art
24
Interpretation von Assoziationen II
• Ansatz:Assoziation zwischen (car, engine) kann übersetzt werden zu
x.Car(x) y. Engine(y) Component(x, y)
• Idee:– nutze Position von „car“ und „engine“ in WordNet
(spezifischste Hypernyme, die zu DOLCE gehören)– inferiere spezifischste Relation zwischen diesen Hypernymen
• benötigt:– Partition der Relationsdomänen– technische Vorarbeiten (Zuordnung DOLCE-WordNet, ...)
25
Interpretation von Assoziationen III
• Partition der Relationsdomänen(Ausschnitt)
• Ergebnis: Generisch 85,21% korrekte AxiomeTourismus 89,80% korrekte Axiome
Object Event Quality
Object – Participant_In (Inherence of)
Event Participant Temporal Mereotopological Association
(Inherence of)
Quality – – (Inherence of)
Region Quality Region of – (Inherence of)
26
Kritik
• Ansatz: semi-automatisch ist manuell vorzuziehen
• Grundannahmen richtig?– Bemerkungen sind für „Leser“ gedacht, die das Konzept bereits
kennen. Hoher Unvollständigkeitsgrad.– Wie realistisch ist es, dass die Bemerkungen den Synsets und
ihren Relationen entsprechen?
• Axiom-Generierung zu naiv?– Ergebnisse positiv, aber wie findet man die wenigen falschen?– bestimmte Probleme durch Autoren anerkannt und beschrieben
27
Zusammenfassung
• Linguistik und Ontologie ergänzen einander– Untersuchung verwandter Beziehungen und Probleme
z.B. Hyper/Hyponymie, Meronymie– WordNet ist eine interessante Ressource für beide Gebiete
• (semi-)automatisches Verfahren zur Formalisierung von WordNet– konkreter Nutzen für Top-Level-Ontologien gezeigt– Ergebnisse sprechen für Weiterverfolgung automatischer
Techniken
28
Literatur
(Fellbaum 1998)Fellbaum, C. (ed) 1998. WordNet: An Electronic Lexical Database. Language, Speech and Communication Series. Cambridge (Mass.): MIT Press.
(Gangemi et al. 2003a)Gangemi, A., Navigli, R., Velardi, P. 2003. The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet. In: Proceedings of the International Conference on Ontologies, Databases and Applications of Semantics (ODBASE 2003), Nov 3-7, Catania, Italy. S. 820-838. Lecture Notes in Computer Science, Bd. 2888.
(Gangemi et al. 2003b)Gangemi, A., Navigli, R., Velardi, P. 2003. Axiomatizing WordNet Glosses in the OntoWordNet Project. [noch nicht erschienen] In: Workshop on Human Language Technology for the Semantic Web and Web Services, 2nd International Semantic Web Conference (ISWC2003). 20-23 Oct, Sanibel Island, Florida. Vorabdruck verfügbar unter: http://www.loa-cnr.it/Publications.html.
(Gangemi et al. 2003c)Gangemi, A., Guarino N., Masolo C., Oltramari, A. 2003. Sweetening WordNet with DOLCE. AI Magazine 24(3):13-24.
(WordNet)http://www.cogsci.princeton.edu/~wn/