suggested upper merged ontology
Post on 25-Jan-2015
62 Views
Preview:
DESCRIPTION
TRANSCRIPT
1
Seminararbeit
Suggested Upper Merged Ontology Computer Linguistik
vorgelegt von
25.04.2013
2
Inhaltsverzeichnis
1 Einleitung 3
1.1 Themengrundlage 5
1.2 Problem- und Zielstellung 7
1.3 Aufbau der Arbeit 8
2. Suggested Upper Merged Ontology 8
2.1 Was ist eine SUMO 8
2.2 Ontologietypen 9
2.3 Geschichte der SUMO 11
2.4 Aufbau von SUMO 12
2.5 SUO KIF 17
2.6 SUMO und ihre Verwendung in der Computer Linguistik 19
3. Zusammenfassung 20
Literaturverzeichnis 21
Abbildungsnachweis 21
3
1. Einleitung
Ontologie gehört zu einem Schwerpunkt der Studie in den philosophischen Disziplinen
seit geraumen Zeiten. Generell gesehen aus der Sicht der Philosophie bezieht sich der Begriff
Ontologie auf die Frage "welche Arten von Dingen existieren?". Im Gegensatz dazu beschäftigt
sich man in der Informatik mit der Frage "Welche Dinge sollten erfasst und dargestellt werden?".
Die Forschung der Beiden Fragen ergibt einen breiten Raum für die Analyse eines Universums,
seine Darstellung in eine abstrakte Form und die Entwicklung von Organisationen und Systemen
innerhalb des Universums.
Die philosophische Betrachtung der Ontologie gibt eine Beschreibung der wesentlichen
Eigenschaften und Beziehungen aller Wesen im Universum. Wie oben bereits erwähnt wird
derzeit dieser Begriff der Ontologie erweitert sowie spezialisiert und wird heutzutage in den
Bereichen der Informatik und künstlichen Intelligenz nachgegangen. Dementsprechend werden
in unseren Zeiten in dem Bereich der Informatik unter dem Begriff von Ontologie mehrere
Ontologien verstanden. Aus der Sicht der Informatik und künstlichen Intelligenz bezieht sich
eine Ontologie nur auf die Besonderheiten des Wissens über Entitäten und ihre Beziehungen und
Interaktionen in einem begrenzten Universum. Als Ergebnis ist eine Reihe von begrenzten
Universum-Ontologien im letzten Jahrzehnt erstellt worden, beispielsweise gehören dazu eine
chemische Ontologie in dem Chemie-Bereich, TOVE und unternehmerische Ontologien für
Unternehmens-Modellierung, die REA-Ontologie im Bereich Rechnungswesen,
organisatorisches Wissen-Ontologie in der Kenntnisse-Management-Bereich, die Ontologie der
Luftplanung im Verteidigungsbereich und die GALEN-Ontologie in der medizinischen
Informatik-Bereich.
In letzter Zeit kommt man jedoch immer häufiger zu einer Erkenntnis, dass die
Anwendung von ontologischen Prinzipien und Konzepten nicht nur auf die traditionellen
Bereiche des Wissens beschränkt werden müssen, sondern erfolgreich in verschiedenen
Bereichen innerhalb der breiteren Felder von Informationssystemen verwendet und weiter
entwickelt werden können. Dies hat zu dem Begriff „ontology-driven information systems“
(ODIS) geführt. ODIS ist ein Konzept, das in Vorstufen der Entwicklung neue Wege des
Denkens über Ontologien und Informationssysteme in Verbindung mit einander eröffnete und
sowohl die strukturellen als auch die zeitlichen Dimensionen der Informationssysteme deckt.
In der strukturellen Dimension können ontologische Mechanismen für die
Strukturierung, Speicherung und den Zugriff auf ein Gattungsinformationssystem verwendet
werden, einschließlich der Datenbank-Schemata, Benutzer-Interface-Objekte und
Anwendungsprogramme, die in eine funktionierende Informationssysteme integriert werden
können. Im Gegensatz zu den etablierten Paradigmen der Datenmodellierung sind die
4
strukturellen Grundlagen der Ontologie-Systeme noch am Anfang ihrer Entwicklung: hier
herrscht ein wachsender Bedarf an einer einheitlichen Theorie der strukturellen Darstellungen
von Ontologien. Einige der wichtigsten Fragestellungen in dieser Dimension sind: Welche
gegenständlichen Formalismen für Ontologien benötigt werden? Wie diese von den
traditionellen relationalen, Prädikat- und Objekt-basierten Formalismen unterschieden werden
können? Können Algebra und Kalküle für spezifische Ontologierepräsentationsformalismen
entwickelt werden? Wie können Ontologien effiziente Rahmenbedingungen für System-Design
ergeben? Daneben gibt es eine Reihe von anderen wichtigen Fragen in diese Dimension.1
In der zeitlichen Dimension können Ontologien die Entwicklung neuer IT-Systeme
anleiten, indem diese Analysten und Designern bei der Wahl angemessene Verfahren,
Algorithmen, Regeln und Software-Komponenten je nach ihren Bedürfnissen helfen. Es wurde
auch vor kurzem vorgeschlagen, dass Ontologien und Systeme im Wesentlichen
Wissensartefakte auf verschiedenen Ebenen der Abstraktionswissen sind und aus diesem Grund
Systeme aus einem begrenzten Universum der Ontologien durch Spezialisierung und
Kombination erzeugt werden können.
Es scheint auch, dass die Schwellenländer Paradigmen wie Web Services und Semantik
Web wird die groß angelegte Entwicklung, Bereitstellung und Nutzung von Ontologien und
Ontologie-driven Informationssystemen ermöglichen. Einige der wichtigsten Fragestellungen
dieser Dimension sind: Wie können sowohl die statischen und dynamischen Elementen des
Universums in einer Ontologie erfasst werden? Kann Ontologien werden korrekt und
vollständig? Kann Ontologien verifiziert und validiert werden? Was sind die Beziehungen
zwischen Ontologien und der Systeme Entwicklungs-Lebenszyklus? Welche Theorien von
Ontologien für ontologische System-Integration, Interoperabilität von Ontologien und Wissen
Entdeckung durch Ontologie Bergbau benötigt? Kann Ontologien in Organisation Design
verwendet werden, die neben ihrer bekannten Anwendungen im Anlagenbau? Und es gibt
zahlreiche andere Fragen.
Das primäre Ziel dieser Arbeit ist ein gemeinsames Bewusstsein in der Forschung zu
den führenden und aufstrebenden Entwicklungen in Ontologien zu mobilisieren und vor allem
die Auseinandersetzung von Suggested Upper Merged Ontology (SUMO) zu geben,
anschließend das enorme Potenzial der SUMO für verschiedene Probleme in verschiedenen
Lebens- sowie Betätigungsbereiche aufzudecken.2
1 Vgl. Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer applications, S 5-21 2 Vgl. Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and applications in information systems, S 3-21
5
1.1 Themengrundlage
In unserer Gesellschaft wächst ständig die Rolle der Informationsverarbeitung sowie –
austausch. Gleichzeitig nimmt ihr Schwierigkeitsgrad zu. Daher stoßen die beiden Prozesse
täglich auf immer größere Schwierigkeiten. Vor diesem Hintergrund stellt sich auch der Bedarf
an der Vernetzung von Informationen und Daten. Wenn beispielsweise eine Institution die von
einer anderen Institution abweichenden Darstellungsformen benutzt, wird das zur Erschwerung
von Informationsaustausch zwischen diesen beiden Institution führen. Das bringt zur
Überlegungen über die Abbildung realer Objekte, die im Bereich der Semiotik (eine Studie über
Zeichen) untersucht werden. In diesem Zusammenhang wurde von Odgen und Richardson das
sogenannte semiotische Dreieck herausgearbeitet, das der Beziehung zwischen einer Darstellung,
dem realen Objekt und damit verbundenen Erwartungen schematisch erklärt.
Abb.1.1.1 Das semiotische Dreieck
Auf der Abbildung wird in Form vom Symbol das Konzept von der Darstellung
aufgeführt. Symbole in einer Darstellungsform befinden sich in einer Beziehung zu Referenten,
die Objekte aus der realen Welt sind. Unter Erwartungen wird bezeichnet, was der Betrachter
hinsichtlich Objekte und Symbole erwartet. Erwartungen gehen normalerweise aus der
Erfahrung von Betrachtern an den Gebrauch eines Begriffs hervor. Auf der Abbildung werden
Erwartungen unter „THOUGHT OF REFERENCE“ geschildert. Im Bereich der Informatik wird
dies durch das Wort „das Konzept“ ersetzt. Mithilfe dieses Begriffs werden Objektsklassen und
ihre Eigenschaften beschrieben. Die Aufgabe der Ontologie in dem Bereich der Informatik ist
generell gesehen, die Verbindung zwischen Symbolen in der informationstechnischen
Darstellungsform und Erwartungen für bestimmte Objekte zu formalisieren.
Ontologie untersucht Konzepte und wie die reale Welt durch Konzepte beschrieben
wird. Diese Fragestellung wird oft unter Universalienproblem bezeichnet. Hier wird der Begriff
von Universalien eingeführt, der allgemeine Eigenschaften von verschiedenen Objekten
6
bedeutet. Universalien stellen kein Objekt dar, sondern liefern eine universale Beschreibung, für
die Objekte als Beispiele sind. Trotzdem scheint die Existenz von diesen Universalien in der
realen Welt nicht eindeutig zu sein. Darum wird in der Informatik unter Universalien eher eine
Menge von Objekten bezeichnet, z.B. die Universalien „Pflanze“ ist durch eine Menge von allen
Objekten charakterisiert, für die die Behauptung „…ist Pflanze“ wahr ist. In der Informatik
werden Universalien auch mit dem Begriff Objektmenge ersetzt. In Sonderfällen könnte
Universalien auch als Objekte sowie Referenten betrachtet sein. Das heißt, dass Symbole als
konkrete Objekte, Objektmenge sowie abstrakte Definitionen betrachtet werden können.
Ferner geht die Ontologie der Frage „Welche Arten von Objekten existieren in der
realen Welt“ nach. Hier wird der Begriff von Entität verwendet, unter dem man die größte
Betrachtung von konkreten und abstrakten Objekten versteht. Das bedeutet, dass die Ontologie
beschäftigt sich mit der Frage, was Objekte voreinander unterscheidet und was Objekte
gemeinsames haben. Dies hängt eng mit der Erwartung des Betrachters von der Darstellung
eines Objektes. Im Rahmen von Informationsverarbeitung stellt sich die Frage der
Unterscheidung als eine der wichtigsten Fragestellungen. Anschließend wird die Frage der
Kategoriensystems aufgeworfen. Nach ihren Eigenschaften lassen sich Objekte in verschiedene
Klassen zu organisieren. Und umgekehrt, wenn ein Objekt zu einer Kategorie gehört, kann man
einige Eigenschaften dieses Objekts erschließen. Hier sollte auch bemerkt werden, dass
Unterkategorien Eigenschaften automatisch ihrer oberen Kategorie besitzen. Zu Grunde von
Kategoriensystems liegt das Prinzip: wenn gekennzeichnete Eigenschaften eines bestimmten
Objektes verwendet werden, um es von anderen Objekten zu unterscheiden. Zusammenfassend
gibt es zwei Wege eine Kategorie zu beschreiben. Der Erste wird durch die Menge von der
entsprechenden Kategorie zugehörten Objekten charakterisiert (extensionale Beschreibung). Der
Zweite wird durch die Bestimmung der gemeinsamen für alle Objekte der entsprechenden
Kategorie Eigenschaften ausgeführt (intensionale Beschreibung). Beiden Beschreibungen haben
ihre Vor- und Nachteile und werden ausgehend von dem betrachteten Fall ausgewählt. In
Informatik wird für die Unterscheidung der Objekte in der Regel das Prinzip von Ockhams
Rasiermesser angewendet. Dieses Prinzip besteht im Wesentlichen darin, dass nicht alle, sondern
nur unerlässliche Unterscheidungen verwendet werden sollen. Über die Notwendigkeit einer
Unterscheidung wird in jedem Fall unter Berücksichtigung von der konkreten Aufgabenstellung
entschieden.
Zusammengefasst es gibt eine Reihe von Elementen der Struktur von
Wissensrepräsentation, die in der Theorie von Otologien unbedingt angeführt werden sollen.
Dazu gehören Konzepte die Entitäten der Welt repräsentieren (hier unterscheidet man Klassen-
und Individuenkonzepte); Instanzen, die Wissen über Einzelheiten liefern; Attribute, die
7
Eigenschaften der Entitäten angeben; Relationen, die Beziehungen der Dinge darstellen; Regeln,
die Beziehungen zwischen Sachverhalten zeigen; Domäne - ein Bereich, auf den
Wissensrepräsentation beschränkt ist.
Ontologie als ein Konzept des formal repräsentierten Wissens basiert auf einer
Konzeption über Objekte, Konzepte und andere Entitäten, deren Existenz in einigen Bereichen
von Interesse angenommen wird, und Relationen, die sie zusammenhalten (Genesereth &
Nilsson, 1987). Eine Konzeptualisierung stellt sich als eine abstrakte, vereinfachte Betrachtung
der Welt, die man für einen bestimmten Zweck darstellt. Eine Ontologie ist eine explizite
Spezifikation einer Konzeptualisierung. Im Zusammenhang von der Computerlinguistik eine
Ontologie eines Programms könnte durch dargestellte Begriffe beschrieben werden. In einer
solchen Ontologie verbinden Begriffe die Namen der Entitäten (z.B. Klassen, Relationen,
Funktionen oder andere Objekte) mit dem von Menschen lesbaren Text, der die Bedeutung von
Namen und formale Axiome beschreibt und die richtige Interpretation und Verwendung von
diesen Begriffen berücksichtigt.
1.2 Problem- und Zielstellung
Vielleicht ist eine der Folgen des World Wide Web ist die Idee, dass alle Wissen der
Welt für jeder Einzelne zugänglich sein müssen. Obwohl dies offensichtlich derzeit nicht der
Fall ist, hat es neue Anforderungen an die Informatik und unter anderen an die
Computerlinguistik gestellt. Um das in die Realität umzusetzen, wird den Austausch von Wissen
zwischen alle Teilnehmer (nicht nur Menschen, sondern auch Anwendungen) erfordert. Das
führt seinerseits, dass alle Teilnehmer über ein gemeinsames Vokabular verfügen müssen. Das
heißt, es sollte einen Konsens über die Bedeutung der Dinge geben und alle Teilnehmer des
Informationsaustauschs sollten den teilen. Vor diesem Hintergrund wird in der Informatik das
Konzept von Ontologien entwickelt oder genauer gesagt von der klassischen Philosophie
übernommen. Die könnten als eine der Lösungen zur Darstellung dieses gemeinsamen
Verständnisses angesehen werden.
Die Entwicklung einer Ontologie erfordert Kompromisse unter den Kriterien (wie
Klarheit, Zusammenhang, Erweiterungsmöglichkeit usw.). Beispielsweise, wenn die Interesse
der Klarheit berücksichtigt werden, sollen die Definitionen die möglichen Interpretationen der
Begriffe beschränken. Die Entscheidung, welche Kompromisse getroffen werden sollen, hängt
von erhältlichem Wissen und erwarteten für eine bestimmte Domäne Anwendungen an.3
Die Zielsetzung dieser Verfassung fasst eine Reihe der Fragestellungen um:
• Was ist eine Ontologie, Upper Ontologie sowie Suggested Upper Merged Ontologie.
3 Vgl. Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge Sharing
8
• In welchen Fällen Ontologien verwendet werden können.
• Welche Upper Ontologien gibt es heutzutage.
Zusammengefasst ist diese Arbeit darauf gezielt, eine klare Auffassung von der
auftretenden Erscheinung in der Computerlinguistik wie Ontologie und in erster Linie Suggested
Upper Merged Ontologie sowie ihre Beschaffenheit und Verwendungsmöglichkeiten zu
vermitteln.
1.3 Aufbau der Arbeit
Diese Verfassung in drei Hauptteile unterteilt. Dies sind ein Einleitungsteil, wo die
Grundlagen von dem Konzept Ontologie angegeben wird, dessen Ziel ist, eine ausreichende
theoretische Basis zu liefern, um genügende Kenntnisse für den zweite Hauptteil zu sammeln.
Der Schwerpunkt des zweiten Teils liegt bei der Auseinandersetzung der Suggested Upper
Merged Ontology. Dabei werden auch andere Upper Ontologien betrachtet. Der letzte dritte Teil
ist eine Zusammenfassung der ganzen Arbeit. Die ersten zwei Hauptteile werden nach der
Gleichartigkeit des Inhalts weiter unterteilt.
2. Suggested Upper Merged Ontology
2.1 Was ist eine SUMO
Die SUMO, die Abkürzung von Suggested Upper Merged Ontology, ist eine Ontologie,
deren Entwicklung auf die Idee basierte, dass menschliche Sprache sinnvoll als eine formale
Ontologie verwendet werden kann, um mithilfe von IT-Technologien menschliche Ausdrücke zu
verstehen. Die SUMO ist eine formale Ontologie in erster Ordnung von logischer Sprache, die
rund 1000 Begriffe und mehrere tausend formale Aussagen zu diesen Begriffen (am Anfang
ihrer Entwicklung, 2001) umfasste4. Darüber hinaus verbinden sich anhand des im 2003
entwickelten Indexes 66.000 Substantiven, 12.000 Verben und 18.000 Adjektiven von WordNet
mit Begriffen der SUMO. WordNet könnte im Wesentlichen als ein elektronisches Wörterbuch
beschrieben werden, wo Synonymen gruppiert und „synsets“ genannt werden.
SUMO ist eine formale Ontologie, das aber sollte nicht einfach als eine Sammlung von
Begriffen und Definitionen betrachtet werden, sondern als eine völlig axiomatisierte Ontologie,
die mit Definitionen für Begriffen in Logik erster Ordnung vorgesehen ist. Obwohl Begriffe der
SUMO zunächst als englischen Labels erstellt wurden, haben sie keinen innewohnenden
linguistisch abhängigen Inhalt. Die Labels sind einfach bequeme Eselsbrücke für Menschen,
ähnlich mit den Namen von Variablen in prozeduralen Software-Code. Jeder Begriffsname
könnte mit einem eindeutigen bedeutungslosen Code ersetzt werden und trotzdem seine
4 http://www.ontologyportal.org/
9
Bedeutung behalten, da die Bedeutung eines Begriffs ausschließlich durch seine formalen
Axiome gegeben wird.5
SUMO könnte als Ontologie der beiden Einzelheiten sowie Universalien beschrieben.
Sie hat eine Hierarchie von Eigenschaften sowie Klassen. Dies ist ein sehr wichtiges Merkmal
für die praktische IT-Technik, weil es ermöglicht, gemeinsame Merkmale wie Transitivität für
eine Reihe von Eigenschaften anzuwenden, mit einem Axiom, das einmal geschrieben und von
diesen Eigenschaften geerbt wird, anstatt neu spezifisch für jede einzelne Eigenschaft zu
schreiben.6
2.2 Ontologietypen
Die zunehmende Notwendigkeit, dass Menschen-und Software-Agenten Wissen präzis
und effizient abrufen und miteinander austauschen müssen, hat dazu geführt, dass Ontologien,
Web Services und die Kombination von beiden, z.B. Semantic Web Services, immer mehr für
den Austausch von Wissen benutzt werden. In diesem Zusammenhang werden Upper Ontologien
schnell zu einer Schlüsseltechnologie für die Integration von heterogenem Wissen aus
unterschiedlichen Quellen. Upper Ontologien können als Brücken betrachtet werden, die
ermöglichen, intelligente Software-Agenten heterogene Ontologien in einer automatischen
Weise auszurichten.
Heutzutage gibt es sechs der bekanntesten Upper Ontologien, nämlich BFO, Cyc,
DOLCE, GFO, Sowa´s Ontologie und selbstverständlich SUMO.
BFO (Basic Formal Ontology) wurde in 1998 von B. Smith und P. Grenon (die
Universität Saarland) entwickelt. BFO besteht in zwei Sub-Ontologien: SNAP - Eine Reihe von
Schnappschuss-Ontologien, die mit einem Zeit-Index versehen ist, und SPAN - ein einziges
Videoscope-Ontologie. SNAP ist eine Bestandsliste von allen Entitäten, die an einem Zeitpunkt
existieren, während SPAN ist eine Bestandsaufnahme aller Prozesse, die durch die Zeit
verlaufen. Die beiden Arten von Ontologie (SNAP und SPAN) dienen als Grundlagen für eine
Reihe von Sub-Ontologien, jede von denen als Fenster in einem bestimmten Teil der Realität auf
einer bestimmten Ebene der Granularität betrachtet werden kann. BFO enthält eine Top-
Verbindungsklasse ("Entität"), 18 SNAP-Klassen und 17 SPAN Klassen für insgesamt 36
Klassen. BFO hat keine Verbindung zu WordNet und ist kostenlos verfügbar. BFO hat seine
Anwendung in dem biomedizinischen Bereich gefunden und ist derzeit für den Aufbau einer
Ontologie der klinischen gnomischen Studien für Krebs verwendet.
Die Cyc Knowledge Base (KB) ist eine formalisierte Darstellung von Tatsachen,
Faustregeln und Heuristik für die Argumentierung über die Objekte und Ereignisse des Alltags.
5 Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, S 427-435 6 Vgl. Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, 103-107
10
Die KB besteht aus Begriffen und Behauptungen, die diese Begriffe beziehen. Diese
Behauptungen sind sowohl einfache Behauptungen als auch Regeln. Die Cyc KB wird in
Tausenden von "Mikrotheorien" unterteilt, die auf einen bestimmten Bereich des Wissens, ein
bestimmtes Detaillierungsniveau, einen bestimmten Zeitabstand usw. konzentrieren. Der Cyc-
Projekt wurde 1984 von D. Leant als Leitprojekt in der Mikroelektronik- und
Datentechniktechnology Corporation (MCC) gegründet. Die Cyc KB enthält mehr als 300.000
Begriffen und fast 3.000.000 Behauptungen (Fakten und Regeln), mit mehr als 15.000
Relationen. Cyc ist in den Bereichen der Verarbeitung natürlicher Sprache verwendet worden,
insbesondere für die Aufgaben der Mehrdeutigkeit von Begriffen, Fragenbeantwortung, der
Risikobewertung und der Darstellung von auf den Terrorismus bezogenen Kenntnissen. Die
letzte Version von Cyc enthält Links zwischen Cyc Konzepte und etwa 12.000 WordNet
Synsets.
DOLCE (a Descriptive Ontology for Linguistic and cognitive Engineering) ist das erste
Modul der WonderWeb Foundational Ontologies Library (2002-2004). DOLCE hat eine klare
kognitive Basis in dem Sinne, dass DOLCE auf Erfassung der ontologischen Kategorien zielt,
denen natürliche Sprache und menschliche Vernunft zugrunde liegt. Nach dem DOLCE-Prinzip
können sich verschiedene Entitäten in der gleichen Raum-Zeit befinden. DOLCE wird von den
Autoren als "Ontologie der Einzelheiten" beschrieben. Darunter wird eine Ontologie von
Instanzen, anstatt einer Ontologie von Universalien oder Eigenschaften verstanden. Die
Taxonomie der grundlegenden Kategorien der Einzelheiten in DOLCE fasst z.B. abstrakte
Qualität, abstrakten Bereich, agentives physisches Objekt, Menge der Materie, nicht agentives
physisches Objekt, physische Qualität, physischen Bereich, Prozess, zeitliche Qualität, zeitliche
Region um. DOLCE hat rund 100 von Begriffen und eine ähnliche Zahl von Axiomen. Es gibt
viele Projekte, die DOLCE benutzten, beispielsweise das LOIS Projekt - ein internationales
Forschungsprojekt an mehrsprachigem Informationswiederauffinden von juristischen
Datenbanken, SmartWeb- ein Zentrum der Exzellenz in der Forschung an intelligenten
Computing-Technologien und deren Anwendung auf Web-basierte Systeme und
Dienstleistungen, Language Technology für eLearning - ein von der Europäischen Kommission
finanzierte Projekt, das mit der Verwendung von mehrsprachigen technologischen Mittel und
Semantik-Web-Techniken das Wiederauffinden von Lernmaterial verbessert, AsIsKnown - ein
semantisches auf Wissen basiertes Flow-System für europäische Textilienindustrie und die
Projekte des Labors für angewandte Ontologie.
GFO (General Formal Ontology) beinhaltet Ausarbeitungen von Kategorien wie
Objekte, Prozesse, Zeit und Raum, Eigenschaften, Relationen, Rollen, Funktionen, Fakten und
Situationen. Es wird auch die Arbeit durchgeführt, um den Begriff von Ebenen der Realität zu
11
integrieren. Dies wird ermöglicht, richtige Entitäten in den materialen, geistigen und sozialen
Bereichen zu erfassen. GFO weist eine dreischichtige Architektur auf, die aus einer abstrakten
obersten Ebene, einer abstrakten Kern-Ebene und einer Basis-Ebene besteht. Die grundlegenden
Ontologie GFO ist in mehrere Module aufgeteilt, einschließlich eines ontologischen Moduls für
Funktionen und eines Moduls für Rollen. GFO wird im Bereich der biomedizinischen
Wissenschaft benutzt. GFO ist auch verwendet worden, um Wissen über biologische Funktionen
in der Gene-Ontologie, Zellentype-Ontologie und Ontologie von chemischen Entitäten der
biologischen Interessen, und GFO-Bio (die auf GFO basiert und ist eine Kern-Ontologie für
Biologie).
Sowa´s Ontologie ist eine Ontologie, deren Entwicklung bereits im 1999 angefangen
hat. Die grundlegenden Kategorien und Unterscheidungen der Sowa´s Ontologie wurden aus
einer Vielzahl von Quellen in der Logik, Linguistik, Philosophie und künstliche Intelligenz
abgeleitet. Damit das System offen bleibt, beruht Sowa´s Ontologie nicht auf einer festen
Hierarchie von Kategorien, sondern auf einer Struktur von Unterscheidungen, von der die
Hierarchie automatisch generiert wird. Kategorien sind für jede einzelne Anwendung durch die
Auswahl einer Reihe von geeigneten Unterscheidungen gemacht. Diese Kategorien enthalten
Objekt, Prozess, Schema, Script, Verbindung, Beteiligung, Beschreibung, Geschichte, Struktur,
Situation, Ursache und Zweck. Jede dieser Kategorien kann entweder physisch oder abstrakt
(und in beiden Fällen kann es entweder kontinuierlich oder auftretend) oder unabhängig, oder
relativ oder auftretend sein, z.B. das Prozess ist physisch, auftretend und unabhängig.
Geschichte. Sowa´s Ontologie enthält etwa 30 Klassen, 5 Relationen zwischen Klassen und
Klassen und Instanzen und ca. 30 Axiome. Sowa´s Ontologie wird zwar nicht offen aber in
Module unterteilt, wobei jede der Kategorien der obersten Ebene als Modul von alleine
betrachtet werden kann, das mit anderen durch Relationen verbindet ist. Sowa´s Ontologie hat
viele bestehende in der Realität umgesetzte Upper Ontologien inspiriert. Deshalb kann ihre
Verwertung in der Entwicklung der "zweiten Generation" von Upper Ontologien als eine der
wichtigsten angesehen werden.7
2.3 Geschichte der SUMO
SUMO wurde erstmals im Dezember 2000 herausgebracht. Es wurde in der
Teknowledge Corporation entwickelt und als Starterdokument für die Standard Upper Ontology
Working Group, eine IEEE-sanktionierte Arbeitsgruppe von Spezialisten aus den Bereichen der
Technik, Philosophie und Informationswissenschaft (http://suo.ieee.org/) vorgeschlagen. SUMO
wurde durch die Zusammenlegung vom öffentlichen zugänglichen ontologischen Inhalt in eine
einzige, umfassende und zusammenhängende Struktur geschafft. Dieser Inhalt hat die 7 Vgl. Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies
12
Ontologien auf der Ontolingua Server (http://www.ksl.stanford.edu/software/ontolingua/), die
Sowa´s Upper Level Ontologie sowie andere verschiedene Theorien enthalten.
Derzeit besteht SUMO aus SUMO selbst (die offizielle neueste Version auf dem IEEE-
Website kann von http://suo.ieee.org/SUO/SUMO/SUMO_173.kif), der Mid-Level-Ontologie
(MILO) und Ontologien für Kommunikation, Länder und Regionen, Distributed Computing,
Wirtschaft, Finanzen, technische Komponente, Geographie, Regierung, Militär,
nordamerikanisches industrielles Klassifikationssystem, Menschen, physische Elemente,
transnationale Fragen, Verkehrswesen, Viren, Flughafen der Welt, Terrorismus. In fast 100
veröffentlichten Artikeln wird die Verwendung von Anwendungen der SUMO beschrieben und
dokumentiert (http://www.ontologyportaI.org/Pubs.html). Die größte Anzahl der Nutzer ist in
der Linguistik. Aber auch andere Klassen von Anwendungen sind "reine" Darstellung und
Argumentation. Die Anwendungen der SUMO sind sehr verschieden von akademischen bis
regierungs- und indistriebezogenen.
2.4 Aufbau von SUMO
Die Suggested Upper Merged Ontology (SUMO) zählt zu einer der größten Ontologien,
die sich inhaltlich auf Grundlagen der formalen Logik stützt. Im Juni 2008 fasste sie circa 20.000
Begriffe und 70.000 logische Formeln um, die Bedeutung von Begriffen beschreiben. Diese
Begriffe werden in Teilmodellen für jeweils verschiedene Themenbereiche unterteilt. SUMO
bietet die wichtigsten Teilmodelle, wo abstrakte Begriffe erklären werden, die sich für präzise
Definierung konkreter Konzepte in anderen Teilmodellen wie Mid-Level-Ontologie (MILO), die
SUMO und andere Teilmodelle in Verbindung setzt, verwenden lassen. Diese Teilmodelle
beziehen sich auf konkrete Themen wie z.B. Kommunikationstechnologie, Länder und
Regionen, Verteiltes Rechnen, Wirtschaft, Finanzmärkte, Maschinenbau, Geographie, Politik,
Militär, Produktion, Menschen, Chemische Elemente, Diplomatie, Transportwesen, Vieren,
Flughäfen, Terrorismus. Das bedeutet, durch die Verwendung der Definitionen von SUMO und
MILO sowie anderen Teilmodellen bildet sich ein Gesamtmodell. Die Abbildung 1 stellt
graphisch Beziehungen verschiedener Teilmodelle zwischen einander dar.
13
Abb.2.1.1 Architektur der Suggested Upper Merged Ontology
SUMO biete außer ihrer Ontologie auch die Möglichkeit, signifikante Begriffe in
andere Sprachen (beispielsweise Deutsch, Hindi, Chinesisch) zu übersetzen. Darüber hinaus
lassen sich verschiedene Software-Tools verwendet, um die Erstellung, Wartung und Gebrauch
von SUMO zu erleichtern.8
Wie oben erwähnt setzt sich SUMO aus einer Reihe von anderen Ontologien
zusammen, trotzdem ist die eigene Ontologie der SUMO der Angelpunk der Sammlung aller
diesen Ontologien. Die Ursache dafür besteht in der Zielsetzung von der Erstellung der SUMO.
Nämlich wurde die SUMO als Grundlage für andere Ontologien entwickelt. Das wurde
ermöglicht dank der drei prinzipiellen Aspekte, die zugrunde der SUMO liegen. Diese
Kernaspekte der SUMO können kurz auf folgende Weise beschrieben werden:
• Neue Ontologien und Informationsquellen können auf der Basis der SUMO entwerfen
werden.
• Vorhandene Informationsquellen können wiederbenutzt und integriert werden.
• Bestehende Ontologien können verknüpft werden.
Diese Prinzipien erfordern ein gemeinsames für verschiedene Ontologien Vokabular,
was in der Erstellung der SUMO realisiert worden ist. Die Basis für ein solches Vokabular ist die
Vielfalt von Systemen der Kategorien, die zuerst in SUO-KIF geschildert und danach in ein
gemeinsames Modell zusammengesetzt wurden.9
8 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 77-79 9 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 83-84
14
Abb.2.1.2 Die Upper-Level Ontologie von Russel und Norvig
Abb. 2.1.3 Sowas Top-Level Ontologie
Durch die Integration der in zwei oberen Abbildungen präsentierten Kategoriensysteme
(Sowas Top-Level Ontologie und Die Upper-Level Ontologie von Russel und Norvig) entstand
SUMO Top-Level. So heißt das Kategoriensystem des SUO-KIF, das Prinzipien der Definierung
15
konkreter Ontologien enthält. Derzeit sieht SUMO Top-Level anders aus, da es weiterentwickelt
worden ist (Abb. 2.1.4).
Abb. 2.1.5 Hierarchie der SUMO Top-Level-Kategorien
Zugrunde der abstrakten Konzepte, die in der SUMO angewendet sind, liegen
bestimmte mathematische Theorien. Beispielsweise entsprechen die mathematischen von SUMO
in SUO-KIF axiomatisierten Theorien von Relationen, Graphen und Mengen den SUMO-
Konzepten von Relation, Graph und SetOrClass. Das ermöglicht, die mathematischen Theorien
in SUMO direkt mit der Vermeidung des mühsamen Wegs von der Definierung der
entsprechenden Eigenschaften anzuwenden. Die unten aufgeführten Definitionen zeigen wie
mathematische Eigenschaften binärer Relationen in der SUMO dargestellt werden.
• Reflexivität:
• Symmetrie:
16
• Transivität:
Abb. 2.1.4 Beispiele für die in SUMO Definierung der mathematischen Eigenschaften binärer
Relationen
Diese drei Relationen gehören zu den grundlegenden Definitionen der SUMO. Das
bedeutet, dass andere Relationen entweder Spezialfälle oder Instanzen dieser Relationen sind. In
diesem Zusammenhang wird das Konzept EquivalenceRelation als Unterklasse dieser drei
Relationen definiert, indem EquivalenceRelation Eigenschaften von der Reflexivität, Symmetrie
sowie Transivität erbt. Es gibt auch mehrere weitere Beispiele, die auf der Reflexivitäts-,
Symmetrie- und Transivitätsrelationen basieren: reflexive Relationen – connected, overlaps,
subGraph; symmetrische Relationen – enemy, friend, coworker, consistent; transitive
Relationen – crosses, dependentGeopoliticalArea, multiplicativeFactor.
Die Wichtigkeit der SUMO besteht auch darin, dass es ohne die SUMO nicht möglich
wäre, impliziertes Wissen in die Ontologien in konkreten Anwendungen abzuleiten. Darüber
hinaus gibt es in der SUMO die Möglichkeit, sich mit dem semantischen Netz WordNet zu
verbinden. Diese Verbindung stellt zur Verfügung sowohl formale als auch linguistische
Informationen. Vor diesem Vordergrund ist besonderer Wert auf Informationen über Synonyme
gelegt, weil es der SUMO an Informationen über verschiedene Namen eines gleichen Konzeptes
mangelt. Am Anfang wurde diese Verbindung von Synonymen lediglich auf Substantive in
WordNet und passende Konzepte der SUMO begrenzt. In letzten Zeiten wird diese Verbindung
auch auf andere Wortarten ausgeweitet. In diesem Zusammenhang lassen sich drei Arten von
Bezeichnungen zwischen Synsets des WordNet und Konzepten der SUMO unterscheiden:
Synonymie – die genaue Entsprechung eines im WordNet bezeichneten Begriffs mit einem
SUMO-Konzept (z.B. Begriffe vom WordNet wie {plant, flora} entsprechen genau dem SUMO-
Konzept Plant); Hypermonie – ein WordNet-Begriff ist einem SUMO-Konzept untergeordnet (z-
B. ist WordNet-Begriff {Christian_Science} ein Unterbegriff vom SUMO-Konzept
ReligiousOrganisation); Instanz – ein WordNet-Begriff ist eine einzelne Ausprägung eines
SUMO-Konzeptes (z.B. WordNet Synset {Underground_Railroad, Underground_Railway} ist
ein Exemplar des SUMO-Konzeptes Organisation).
17
WordNet-Begriffe werden durch Kommentare von dem entsprechenden SUMO-
Konzept erweitert. Dabei fängt dieser entsprechende SUMO-Konzept mit dem Präfix &% an und
wird am Ende mit Informationen über Relationsart durch das Postfix versehen, wo Zeichen ‘=‘
‚‘+‘, ‘@‘ Synonymie, Hypernomie, Instanz entsprechen, beispielsweise plant, flora, plant life
((botany) a living organism lacking the power of locomotion) &% Plant=.
Die Verbindung zwischen der SUMO und WordNet vereinfacht die Erreichung des
Zieles der SUMO Erstellung, und zwar die Entwicklung und Einbeziehung von Ontologien.
WordNet scheint eine gute Einstiegsmöglichkeit in das formelle SUMO-Modell zu sein, weil
Definitionen von anderen Informationsquellen oder anderen Ontologien normalerweise in
WordNet gefunden werden können. Durch die Beschreibung eines Begriffs in WordNet mit der
Verbindung zu dem entsprechenden SUMO-Konzept ist die SUMO zu einem allgemeinen
Begriffssystem für die Bezeichnung und Integration von Informationen geworden.10
2.5 SUO KIF
Wie schon gesagt werden logische Formeln in SUMO für die Begriffsdefinierung
verwendet. Vor diesem Hintergrund wird SUO KIF entwickelt, um logische Formeln
darzustellen. Unter SUO-KIF wird eine formale Sprache, die Verarbeitung von Begriffen
erleichtert. SUO-KIF ermöglicht die Darstellung der prädikatenlogischen Formeln mit
Gleichheit. Gleichzeitig besitzt SUO-KIT ein spezielles Vokabular, das klassischen Ontologie-
Komponenten, nämlich Vererbung und Klassenzugehörigkeit darstellt. Darüber hinaus ist SUO-
KIF in der Lage, beschränkt Aussagen über logische Formeln zu tun. Um relationale Ausdrücke
zu wiedergeben, wird eine Präfix-Notation in SUO-KIF benutzt. Demzufolge wird
beispielsweise die Aussage, dass London die Hauptstadt von England folgenderweise abgebildet.
(capital-of London England)
SUO-KIF verfügt über vorbestimmte Relationen instance und subclass sowie eine
Menge von anderen vorbestimmten Relationen (subrelation). Dementsprechend kann die
Behauptung, dass London zu Hauptstädten gehört und der Konzept von Hauptstädten im
Allgemeinen eine Unterklasse von Städten ist und capital-of zu einer Teilrelation von lies-in
zählt, folgendermaßen geschildert werden:
(instance Berlin Capital)
(subclass Berlin City)
(subrelation capital-of lies-in)
SUO-KIF verfügt über Mechanismus, der die Definition der prädikatenlogischen
Formeln über relationale Ausdrücke ermöglicht. Formeln können in relationale (relsentence),
10 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 83-90
18
einfache logische (logsentence) sowie quantifizierte logische (quantsentence) Ausdrücke
klassifiziert werden.
Abb. 2.5.1 Rekursive Definierung von verschiedenen Klassen der Formeln in SUO-
KIF.
Um Variablen darzustellen, werden Worte, die mit einem Fragezeichen beginnen,
benutzt. SUO-KIF gibt auch die Möglichkeit komplexe Terme als Argumente relationaler
Ausdrücke zu verwenden. Ihre Syntax ist genauso wie einfache relationale Ausdrücke aufgebaut
und wird Präfix-Notation dargestellt.
Dank der oben beschriebenen Syntax hat die SUMO komplexe Definitionen als
Begriffe. Als Beispiel davon lässt sich hier der Konzept von Humanslave anführen, unter dem
man eine Personengruppe versteht, die Eigentum einer anderen Person ist.
Abb. 2.5.2 Die Darstellung des Konzept von Humanslave in SUO-KIF.
Der große Unterschied der SUMO von der Vielzahl anderer formalen Ontologien
besteht darin, dass es neben der formalen Beschreibung der Konzepte Formeln gibt, die die
exakten Definitionen von Beschaffenheit der benutzten Verbindungen liefern. Demzufolge
verfügt die SUMO über Axiome, die beispielsweise die Relation des Besitzes erklären.
19
Abb. 2.5.3 Die Darstellung des Axioms, das behauptet, dass der Besitzer auch
berechtigt ist, sein Eigentum zu benutzten.
Diese oben dargestellte Aussage genauso wie andere beispielsweise die Aussage über
den Wahrheitswert einer bestimmten Formel außer der Prädikatenlogik liegt. Um solche
Aussagen verarbeiten zu können, werden spezielle Beweisverfahren verwendet. Die Aussagen
über den Wahrheitswert einer bestimmten Formel lassen sich in SUO-KIF durch die Relation
holds bilden. Diese Relation erhält den Namen und Eingaben in Form von Termen. Die Relation
holds beschreibt die angezeigte Relation der Terme zueinander.
Abb. 2.5.4 Das Beispiel einer Definition mithilfe der Relation holds.
Die oben dargestellte Aussage ist ein Beispiel für eine Definition allgemeiner
Ableitungsregel, die feststellt, dass jede zweistellige Relation sich aus zwei Artikeln
zusammensetzt, falls diese Artikel in Teilrelation der angemessenen Relation sind.
SUMO hat ihre Schwierigkeiten hinsichtlich der Wissensableitung aus SUMO anhand
logischen Schließens, die wegen der äußerst hohen Mächtigkeit des Ausdrucks und der
Verwendung von nicht mehr in der Prädikatenlogik liegenden Konzepten entstehen.11
2.6 SUMO und ihre Verwendung in der Computer Linguistik
SUMO als eine Upper Ontologie gehört zu einem wesentlichen Bestandteil intelligenter
Systeme der Wahrnehmung, Handlung und Sprache. SUMO wird für die Kategorisierung von
Daten, Lösung eines Problems, Kommunikation, Planung von Handlungen verwendet. Die Rolle
der SUMO in der Computer Linguistik sowie Künstlichen Intelligenz ist nicht zu unterschätzen.
Viele Wege der Benutzung von SUMO wurden schon in oberen Teilen dieser Verfassung
beschrieben. Trotzdem sollte es noch einmal bemerkt werden, dass eine der größten Wichtigkeit
von SUMO besteht darin, sie sehr breite semantische Interoperabilität zwischen einer großen
11 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 80-83
20
Anzahl von Ontologien unterstützt bzw. ermöglicht. Darüber hinaus wird SUMO als eine der
Grundlagen von maschineller Übersetzung benutzt.12
3. Zusammenfassung
Ontologie, der Begriff, der aus der Disziplin der Philosophie stammt, hat derzeit einen
breiten Einsatz in der Informatik, Künstlicher Intelligenz sowie Computerlinguistik gefunden.
Das wurde von dem wachsenden Drang nach immer größeren Wissenssystemen verursacht. Als
Folge von dem angestiegenen Zeit- und Arbeitsaufwand ihrer Verarbeitung und Verwaltung,
wird die Frage der Automatisierung dieses Prozesses aufgeworfen. Ontologien werden groß
gesagt in 2 Klasse aufgeteilt. Während untergeordnete Ontologien formale, explizite
Spezifikationen einer gemeinsamen Konzeptualisierung13 sind, ist die Aufgabe der Upper
Ontologien, breite semantische Interoperabilität zwischen einer Großzahl von untergeordneten
Ontologien zu unterstützen. In der Zukunft sind die Tendenzen der Erweiterung und
Zusammenschließung von Upper Ontologien zu erwarten, da das Ziel verfolgt wird, eine
universale vollständige Ontologie herauszuarbeiten.14
12 Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 1-11 13 Vgl. Gruber, Thomas R.: A translation approach to portable ontology specifications, S 5 14 Vgl. Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 11-12
21
Literaturverzeichnis
Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und
Anwendung, Springer, Berlin, 2011
Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and
applications in information systems, Springer, New York, 2007
Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, Ontolinguistik, how ontological
status shapes the linguistic coding of concepts, Walter de Gruyter, Berlin, 2007
Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies
Carstensen K.U: Computerlinguistik und Sprachentechnologie, Spektrum, 2009
Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge
Sharing, Stanford Knowledge Systems Laboratory
Gruber, Thomas R.: A translation approach to portable ontology specifications, Stndford 1993
Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, Springer,
Berlin, 2006
Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer
applications, Springer, Heidelberg, 2010
http://www.ontologyportal.org/
Abbildungsnachweis
Abb.1.1.1
http://www.hispanoteca.eu/Lexikon%20der%20Linguistik/sa/SEMIOTISCHES%20DREIECK%
20%20Tri%C3%A1ngulo%20sem%C3%A1ntico%20o%20semi%C3%B3tico.htm
Abb.2.1.1 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, S 79
Abb.2.1.2 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 82
Abb. 2.1.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 85
22
Abb. 2.1.4 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 87
Abb. 2.1.5 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 84
Abb. 2.5.1 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 86
Abb. 2.5.2 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 81
Abb 2.5.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 82
Abb. 2.5.4 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien
und Anwendung, Springer, Berlin, 2011, 83
top related