semantische integration - · pdf filepat1 . x : pat2 . x : körper untextr obereextr...

77
Ulf Leser Wissensmanagement in der Bioinformatik Informationsintegration Semantische Integration

Upload: phungliem

Post on 07-Feb-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Ulf Leser

Wissensmanagement in der Bioinformatik

Informationsintegration

Semantische Integration

Ulf Leser: Informationsintegration 2

Inhalt dieser Vorlesung

• Wdh: Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration

Ulf Leser: Informationsintegration 3

Semantik von Namen

Name

Konzept Realweltliche Objekte

Intension Extension

repräsentiert

Ulf Leser: Informationsintegration 4

• Verschiedene Worte für dasselbe Konzept • Immer im Kontext der Anwendung

DB2:

Person( Id, Vorname, Nachname, Geschlecht)

DB1:

Angestellter( Id, Vorname, Name,männlich,weiblich)

Synonyme

Ulf Leser: Informationsintegration 5

• Gleiche Worte verschiedener Bedeutung • Treten oft bei Überschreitung von Domänengrenzen auf

DB2:

Protein( Id, Sequenz, organismus, Funktion, …)

DB1:

Angestellter( Id, Vorname, Name, m, w, Funktion)

Sekr., Sachbearbeiter, Bereichsleiter, etc.

Transport, Katalyse, Signal, …

Homonyme

Ulf Leser: Informationsintegration 6

Probleme

• Mögliche Beziehungen zwischen den Mengen realweltlicher Objekte, die Konzepte repräsentieren • A=B (Äquivalenz): „semantische“ (echte) Synonyme

• Kreditinstitut, Bank (?) • Gibt es echte Synonyme?

• A⊆B (Inklusion): B ist Hyperonym (Oberbegriff) zu A; A ist Hyponym zu B • Tochter ⊆ Kind

• A ∩ B ≠ ∅ ∧ A≠B (Überlappung): Schwierigster Fall • Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler

• A ∩ B = ∅ (Disjunktheit): nicht verwandte Begriffe (häufigster Fall) • Dose-Lohnsteuerjahresausgleich

Ulf Leser: Informationsintegration 7

Semantische Integration

• Wie haben wir bisher semantische Heterogenität gelöst?

Ulf Leser: Informationsintegration 8

Semantische Integration

• Bisherige Lösung • Korrespondenzen definieren semantische Beziehungen zwischen Attributen,

Relationen, Anfragen • Die kann man raten (Schema Matching), herleiten (Schema Mapping) oder

spezifizieren • Lösung beschränkt auf Schemaebene

• Auf Datenebene kaum anwendbar, da zu viele Korrespondenzen notwendig wären

• Anfrageplanung ist im Kern „semantikfrei“ • Hantiert nur mit Äquivalenz- und Inklusionsbeziehungen

Ulf Leser: Informationsintegration 9

Software und Semantik

• Natürlichsprachige Webseite für eine Maschine

Quelle: [Hen0

Ulf Leser: Informationsintegration 10

XML ≠ maschinenlesbare Bedeutung

• XML Dokument für eine Maschine

< CV >

< name >

<education>

<work>

<private>

Quelle: [Hen0

Ulf Leser: Informationsintegration 11

Schemata

Gleiche Schemata helfen….

CV

name

education

work

private

< >

< >

< >

< >

< >

< Χς >

< ναµε >

<εδυχατιον>

<ωορκ>

<πριϖατε>

CV

name

education

work

private

< >

< >

< >

< >

< >

< Χς >

< ναµε >

<εδυχατιον>

<ωορκ>

<πριϖατε>

< CV > …indem sie intensional gleiche Elementen in Beziehung setzen.

private

Quelle: [Hen02]

Ulf Leser: Informationsintegration 12

Inhalt dieser Vorlesung

• Semantische Heterogenität • Semantische Integration • Ontologien

• Einführung • Thesauri und semantische Netze

• Beschreibungslogiken • Ontologiebasierte Integration

Ulf Leser: Informationsintegration 13

Andere Idee: Ontologien

• Hoffnung • Computer sollen Schemata „verstehen“ • Durch dieses Verständnis können Korrespondenzen automatisch abgeleitet

werden

• Problem • Computer „verstehen“ überhaupt nichts

• Ansatz der semantischen Integration • Semantische Definition aller Begriffe in einer Ontologie • Verwendung einer speziellen Beschreibungslogik

• Zur Beschreibung von Konzepten und deren Beziehungen zueinander

• Beziehungen zwischen Konzepten lassen sich dann logisch ableiten

Ulf Leser: Informationsintegration 14

Hoffnung

Schema 1 Schema 2 Korrespondenzen

Schema

Schema 1 Schema 2 Korrespondenzen

Ontologie

Ulf Leser: Informationsintegration 15

Ontologiebasierte Integration

KKH Hamburg Fuss Bein

Pat1 X

Pat2 X

UK München Fuss Oberschenkel

Pat1 X

Pat2 X

Körper

UntExtr ObereExtr

Fuss

Unterschenkel

Oberschenkel

Ulf Leser: Informationsintegration 16

Quelle UK München

UK München Fuss Oberschenkel

Pat1 X

Pat2 X

Körper

UntExtr ObereExtr

Fuss

Unterschenkel Oberschenkel

UK_Oberschenkel UK_Fuss

Richtung!

Synonym

Ulf Leser: Informationsintegration 17

Quelle KKH Hamburg

KKH Hamburg Fuss Bein

Pat1 X

Pat2 X

Körper

UntExtr ObereExtr

Fuss

Unterschenkel Oberschenkel

KKH_Fuss KKH_Bein

Ulf Leser: Informationsintegration 18

Anfrage 1

• Welche Semantik haben die Pfeile? • “Verletzungen der unteren Extremitäten“

Körper

UntExtr

Fuss Unterschenkel Oberschenkel

UK_Oberschenkel

UK_Fuss

KKH_Fuss

KKH_Bein UntExtr

Ulf Leser: Informationsintegration 19

Anfrage 2

• „Fußverletzungen“

Körper

UntExtr

Fuss Unterschenkel Oberschenkel

UK_Oberschenkel

UK_Fuss

KKH_Fuss

KKH_Bein

Fuss

Ulf Leser: Informationsintegration 20

Anfrage 3

• Beinverletzungen

Körper

UntExtr

Fuss Unterschenkel Oberschenkel

UK_Oberschenkel

UK_Fuss

KKH_Fuss

KKH_Bein

?

Ulf Leser: Informationsintegration 21

Aber …

• I.A. verwenden verschiedene Quellen verschiedene Ontologien • schauspieler ≡ person ⊓ ∃spielt_in.film • schauspieler ≡ mann ⊓ ∃beruf.schauspiel • schauspieler ≡ mensch ⊓ schummler • Sind das die selben Klassen von Personen?

• Ontologieintegration statt Schemaintegration • Ontologiealignment statt Schema Mapping

Ulf Leser: Informationsintegration 22

Hoffnung

Schema 1 Schema 2 Korrespondenzen

Ontologie

Ulf Leser: Informationsintegration 23

Normalfall

Schema 1

Korrespondenzen Ontologie 1

Korrespondenzen Schema 2

Ontologie 2

Ulf Leser: Informationsintegration 24

Standards

Schema 1 Schema 2 Korrespondenzen

Standard-

Ontologie

Ulf Leser: Informationsintegration 25

Idee hinter ontologiebasierter Integration

• Nur durch Verwendung von Ontologien zur Begriffser-klärung ist wenig gewonnen • Beschreibungslogiken sind ausdrucksstärker als relationale Schema / XML

Schema • Angabe der Beziehungen wird dadurch leichter

• Mehr Beziehungstypen sind ausdrückbar • Integrationsproblem wird aber eher schwieriger

• Stärke • Standardontologie zur Beschreibung der Konzepte einer Domäne • Quellen mappen ihre Schemata in diese Ontologie

• Schwäche • Standards werden nicht eingehalten • Hoher Aufwand zur Erstellung umfassender und akzeptierter Ontologien • Web2.0: Folksonomie, freies Tagging statt formale Definitionen

Ulf Leser: Informationsintegration 26

Schema und Daten

• Ontologien setzen Begriffe in Beziehung • Schemata: Begriffe und Struktur • Daten: Nur Begriffe

• Viele Anwendungen von Ontologien behandeln nur Heterogenität in den Daten • U.A. weil Ontologien schlecht mit struktureller Heterogenität umgehen

können • Veredelung von „Controlled Vocabularies“

Ulf Leser: Informationsintegration 27

Inhalt dieser Vorlesung

• Semantische Heterogenität • Semantische Integration • Ontologien

• Einführung • Thesauri und semantische Netze

• Beschreibungslogiken • Ontologiebasierte Integration

Ulf Leser: Informationsintegration 28

Was ist Ontologie?

• Philosophisch: Ontologie = Lehre vom Sein und den Bedingungen des menschlichen Seins

• Beantwortung von Fragen wie [wikipedia]

• What is existence? • What constitutes the identity of an object? • What is a physical object? • What features are the essential, as opposed to merely accidental, attributes

of a given object? • What are an object's properties or relations and how are they related to the

object itself? • When does an object go out of existence, as opposed to merely changing?

• Beispiel • Wenn ein Mensch stirbt – hört er auf zu existieren?

Ulf Leser: Informationsintegration 29

Was ist eine Ontologie für uns?

• Wikipedia.org • „An ontology is a data model that represents a set of concepts within a

domain and the relationships between those concepts. It is used to reason about the objects within that domain.”

• Tom Gruber [Gru93] • Eine Ontologie ist „an explicit specification of a conceptualisation“

• ‚Konzeptionalisierung‘: Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte

• ‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert und aufgeschrieben

• Spezifikation: Verwendung einer formalen Sprache

• OntologysWorks.com • „Ontology is not about peoples’ conceptions or interpretations, but about

the world.“

• Was unterscheidet sonst eine schlechte Ontologie von einer guten?

Ulf Leser: Informationsintegration 30

Domäne: Verwandtschaft

• Beantwortung von Fragen wie • Ist jede Großmutter eine Person? • Hat jede Großmutter ein Kind? • Ist jede Großmutter ein Elternteil? • Wie nenne ich jemanden, der mit dem Schwager meiner Schwester verheiratet ist

und keine Kinder hat? • …

Ulf Leser: Informationsintegration 31

Konzeptualisierung

Symbol Ding

Konzept

steht für

symbolisiert durch

• Konzeptualisierung einer Domäne • Anwendung oder Ausschnitt der Welt • Erfassung aller relevanten Konzepte • Erfassung der Beziehungen zwischen diesen Konzepten

• Insbesondere Subkategorie-Beziehungen

• Festlegung des Vokabulars, über das man sprechen kann

Ulf Leser: Informationsintegration 32

Explizite Spezifikation

• Konzepte und Beziehungen werden formal definiert • Verwendung einer formalen Sprache zur Spezifikation

• Wissensrepräsentationssprache

• Unterschiedliche Ausdrucksstärken

Catalog/ ID

General Logical

constraints

Terms/ glossary

Thesauri “narrower

term” relation Formal

is-a Frames

(properties)

Informal is-a

Formal instance

Value Restrs. Disjointness, Inverse, part-

of…

Source: Robert Stevens, From Building and Using Ontologies, U. of Manchester

Ulf Leser: Informationsintegration 33

Kommunikation

• Ontologien wurden ursprünglich zur Kommunikation zwischen Softwareagenten konzipiert • Nachricht: Sachverhalt + Ontologie

• Ziel: Unterstützung der Kommunikation in einer Gruppe von … (Personen, Programmen, Organisationen, …) • = Festlegung von Standards

• Ohne den Austausch von Daten machen Ontologien wenig Sinn • Zu viel Aufwand • Semantik von Begriffen muss dann nicht expliziert werden, sondern kann

verborgen im Code bleibe

Ulf Leser: Informationsintegration 34

Arten von Ontologien

• Domänen- oder anwendungsspezfische Ontologien • Das ist unser Thema

• Top-Level Ontologien • Dömanenübergreifende

Sachverhalte • Verknüpfen Ontologien

miteinander • Arbeitsersparnis • SUMO: Suggested

Upper Ont. (IEEE) • Cyc Upper Ontology

Thing

Individual Intangible

Situation Temporal Thing

Intangible Individual

Something Existing

SetOr Collection

Event Time Interval

Attribute Value

Physical Event

Mathematical Object

Relationship Role

Set- Mathematical

Collecti

TruthFunctional Function- Denotational

Quelle: Cycorp.com

Ulf Leser: Informationsintegration 35

Inhalt dieser Vorlesung

• Semantische Heterogenität • Semantische Integration • Ontologien

• Einführung • Thesauri und semantische Netze

• Beschreibungslogiken • Ontologiebasierte Integration

Ulf Leser: Informationsintegration 36

Thesaurus

• Einfachste Form einer Ontologie • Elemente

• Begriffe • Beziehungen

• ISA, SYNONYM_OF, PART_OF • Haben Eigenschaften (Symmetrie, Transitivität, …)

• Informeller: RELATED_TO, SIMILAR_TO, USED_FOR • Ohne feste Eigenschaften

• Graph der Begriffe und Beziehungen muss zyklenfrei sein (DAG) • Bezüglich der ISA und PART-OF Beziehung

• Anwendung: (Ein)ordnung von Dingen • Zuordnung von Schlagwörter oder Kategorien • Wichtig für die Suche: Transitivität der ISA Beziehung • Schwieriger: PART_OF

• Ist ein Embryo Teil des Körpers der Mutter? • Physikalisch umschlossen (wann)? Konstituierendes Teil? Notwendiges Teil?

Ulf Leser: Informationsintegration 37

Example: Gene Ontology

• Goals of the GO Consortium • Development of a structured vocabularies describing certain aspects of

molecular biology • Use of these vocabularies to annotate database objects

• Genes and gene products • Develop tools for editing and using the GeneOntology

• Three vocabularies • Biological processes • Molecular function • Intra-cellular location

• Created an ontology industry • OBO: Open Biomedical Ontology • Guidelines and best practice (and license) • App. 60 ontologies (1/2009)

Ulf Leser: Informationsintegration 38

Small Fraction of GO

Gene Ontology

Biological Process Molecular Function

Cellular Process

Cell Communication

Signal Transduction

Physiological Process

Metabolism

Protein Metabolism

Protein Modification

Binding

Nucleotide Binding

Catalytic Activity

Transferase Activity

Kinase Activity

Ulf Leser: Informationsintegration 39

A Large Ontology

Ulf Leser: Informationsintegration 40

Database Annotation InterPro

• Used by many databases • Allows cross-database search • Provides fixed meaning of terms

• As informal textual description, not as formal definitions

Ulf Leser: Informationsintegration 41

GO model

• A GO ontology is • A collection of terms • Each term has a (free text)

description • Each term has a unique ID (GO:XXXX) • Terms may have synonyms and DB-Xrefs • IS-A relationships • PART-OF relationships • IS-A and PART-OF relationships form (each) an acyclic graph • True Path rule: „Every path from a node back to the root must be

biologically accurate“

• Support for versioning • Obsolete terms

Ulf Leser: Informationsintegration 42

Example

• „Little semantic rigor“

• „Obsolete“? • Species specificity? • Equal names? • „... unlocalized is a ... „

Ulf Leser: Informationsintegration 43

Semantische Netze

• Aufgeben der Forderungen nach • Zyklenfreiheit • Begrenzter Zahl von Beziehungstypen

• Entwickelt als Wissensreprä- sentationsmechnismus in der künstlichen Intelligenz

• Kanten können beliebige Label tragen • Sehr flexibel • Aber: Inferenz ist praktisch nicht möglich

• Da keine Eigenschaften von Beziehungen sichergestellt sind

• Häufige Heuristik: Zwei Begriffe sind sich je ähnlicher, je kürzer der kürzeste Pfad zwischen ihnen

Ulf Leser: Informationsintegration 44

UMLS

• NLM project since 1986 • „... make it easy for users to link disparate information systems, including

computer-based patient records, bibliographic databases, factual databases, and expert systems ...“

• It is huge (2007) • 776,940 concepts • 2.10 million concept names • 19.000.000 relationships • 134 concept types • 54 relationship types

• Quarterly releases

Ulf Leser: Informationsintegration 45

UMLS Construction

• „Semantic network“ • Top-level ontology • Defines concept and relationship types

• Metathesaurus • Contains concepts • Amalgamation of 60 vocabularies and classifications • Multilingual

• Merging strategy • ... preserves the meanings, attributes and relationships between terms present in

its source vocabularies, while adding certain basic information and establishing synonymy and new relationships between concepts and terms from different source vocabularies ...

Ulf Leser: Informationsintegration 46

Beispiele

Konzepte Beziehungen

Ulf Leser: Informationsintegration 47

Data Quality of UMLS [Hahn et al. 02]

• Study • Transform UMLS (partly) in LOOM-KB • Check subsumption • Inconsistent: Parallel IS-A and PART-OF relations

Cycles Inconsistencies

Pathology (40000) 400 0

Anatomy (50000) 7 2800

Udo Hahn Ontology Engineering via Thesaurus Re-engineering, Heidelberg, 2002

„You cannot reason on UMLS“

Ulf Leser: Informationsintegration 48

Inhalt dieser Vorlesung

• Wdh: Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration

Ulf Leser: Informationsintegration 49

Wissensrepräsentationssprachen

• Entwickelt in den 80ziger • Urvater ist KL-ONE [BS85] • Beschreibungslogiken, Description Logics (DL), Terminologische Logiken • Vertreter: Classic, Loom, DAML, DAML+OIL, OWL, … • Ein weites Feld, das wir nur anreißen

• Formale Sprachen zur Definition von Konzepten und deren Beziehungen untereinander • Abbildbar auf Prädikatenlogik erster Stufe

• Konzepthierarchien und Klassenzugehörigkeit • Klassenzugehörigkeit und –beziehungen werden definiert oder abgeleitet • DL: Sag mir die Eigenschaften, und ich sage dir die Klasse • OO: Sag mir die Klasse, und ich sage dir die Eigenschaften

Ulf Leser: Informationsintegration 50

Description Logic

• Eine Description Logic ist eine formale Sprache

• Elemente einer DL sind • Atomarer Konzepte und Rollen • Abgeleitete Konzepte und abgeleitete Rollen

• Abgeleitet unter Verwendung einer je nach DL unterschiedlichen Menge von Operationen

• Axiome

• Konzepte werden immer als Mengen von Individuen interpretiert • Mengentheoretische Semantik

Ulf Leser: Informationsintegration 51

Atomare Elemente

• Atomare Konzepte • Uninterpretierte, eindeutige Namen • Konzept ~ Basisklasse

• Atomare Rollen • Uninterpretierte, eindeutige Namen • Rolle ~ Basisbeziehung

• Steht ein Konzept C in der Beziehung R zu einem Konzept D, so füllt C die Rolle R von D

Ulf Leser: Informationsintegration 52

Abgeleitete Konzepte

• Definition Seien C,D (atomare oder abgeleitete) Konzepte und R eine atomare Rolle. Dann können abgeleitete Konzepte wie folgt gebildet werden • C⊓D

• Das Konzept, dass alle Individuen in der Schnittmenge von C und D repräsentiert • C⊔D

• …, dass alle Individuen in der Vereinigungsmenge von C und D repräsentiert • ¬C

• …, dass das Komplement der Menge der Individuen in C repräsentiert • ∀R.C

• …, dass alle Individuen repräsentiert, deren Rollenfüller für R Individuen des Konzeptes C sind

• ∃R.C • …, dass alle Individuen repräsentiert, die mindestens einen Rollenfüller für R haben, der ein

Individuum des Konzeptes C ist • ≥nR

• …, dass alle Individuen repräsentiert, die höchstens n Rollenfüller für R haben (~Kardinalität)

Ulf Leser: Informationsintegration 53

Axiome

• Definition Seien C und D (atomare oder abgeleitete) Konzepte. Dann können Axiome die folgende Form haben • C≡D

• Alle Individuen von C sind auch Individuen von D und umgekehrt • C⊑D

• Alle Individuen von C sind auch Individuen von D

• Bemerkung

• Mit einem Axiom postuliert man eine Subsumptionsbeziehung • Klassifikation leitet eine Subsumptionsbeziehung ab • Wir werden später noch weitere Axiomarten kennen lernen

• Siehe OWL Full

Ulf Leser: Informationsintegration 54

Ontologie

• Definition Eine formale Ontologie besteht aus • einer Menge von atomare Konzepten, • einer Menge von atomaren Rollen, • einer Menge von abgeleiteten Konzepten und • einer Menge von Axiomen über den Konzepten/Rollen.

• Beispiel • Atomare Konzepte:

person, weiblich

• Atomare Rollen: hat_kind

• Abgeleitetes Konzept: person ⊓ weiblich

• Axiome:

Ulf Leser: Informationsintegration 55

Subsumption

• Definition Ein Konzept C subsumiert ein Konzept D, D⊑C, wenn alle Individuen von C auch Individuen von D sind • C ist generischer, abstrakter, allgemeiner als D

• Inferenz in DL bedeutet im wesentlichen das Beweisen von

Subsumptionsbeziehungen zwischen Konzepten • Die Entscheidbarkeit von Subsumption hängt von den

erlaubten Operationen zur Ableitung von Konzepten/Rollen und den erlaubten Axiome ab • In der hier verwendeten Sprache ist Subsumption unentscheibar • Das kümmert uns nicht

Ulf Leser: Informationsintegration 56

Konsistenz und Erfüllbarkeit

• Definition Gegeben ein Konzept C und eine Ontologie O mit C∈O. • C heißt erfüllbar, wenn es Individuen geben kann, die zur Menge der von C

repräsentierten Individuen gehört • O heißt widerspruchsfrei (oder konsistent), wenn alle Konzepte in O

erfüllbar sind

• Bemerkung • Erfüllbarkeit kann auf Subsumption zurückgeführt werden • Ist also Subsumption in einer DL entscheidbar, kann man für jede

Ontologie in diese DL Widerspruchsfreiheit testen

Ulf Leser: Informationsintegration 57

Klassifikation

• Definition Das Klassifikationsproblem für ein Konzept C bzgl. einer Ontologie O berechnet alle C subsumierenden bzw. von C subsumierten Klassen in O.

• Bemerkung • Offensichtlich ist Klassifikation lösbar, wenn Subsumption entscheidbar ist • Durch Klassifikation wird ein (neues) Konzept in die Konzepthierarchie von

O eingeordnet • Klassifikation basiert auf der Beschreibung der Eigenschaften von C durch

abgeleitete Konzepte und Axiome

Ulf Leser: Informationsintegration 58

Beispiel

• Ableitbare Subsumptionsbeziehungen • frau ⊑ person • frau ⊑ weiblich • mutter ⊑ frau ⊑ person • grossmutter ⊑ frau • grossmutter ⊑ elterteil

• Sei o∈grossmutter • Es folgt: o∈frau und o∈∃hat_kind.elternteil • Es folgt: o∈∃hat_kind.vater oder o∈∃hat_kind.mutter • Es folgt: o∈∃hat_kind.person • Es folgt: o∈mutter • Es folgt: o∈elternteil

• Inferenzalgorithmen lösen solche Probleme automatisch • Z.B. Racer, FaCT, …

Ulf Leser: Informationsintegration 59

Erfüllbarkeit

• Wir erweitern unsere Axiome und Konzepte • keine_grossmutter ≡ frau ⊓ ¬∃hat_kind.person • grossmutter ⊑ keine_grossmutter

• Nun haben wir ein unerfüllbares Konzept • Sei o∈grossmutter

• Es folgt: o∈∃hat_kind.elternteil • Es folgt: o∈∃hat_kind.person • Es folgt: o∉¬∃hat_kind.person • Es folgt: o∉keine_grossmutter • Also kann es kein Element von grossmutter geben • Das Konzept grossmutter ist unerfüllbar • Unsere Ontologie ist inkonsistent

Ulf Leser: Informationsintegration 60

Konzepthierarchie

• Sei ⊤ die Menge aller Individuen (das allgemeinste Konzept) • Definition

Die Konzepthierarchie einer Ontologie O ist ein Graph, der alle Konzepte als Knoten und alle Subsump- tionsbeziehungen als Kanten enthält.

• Lemma Ist eine Ontologie O widerspruchsfrei, so ist ihre Konzepthierarchie ein DAG mit ⊤ als Wurzel.

mann

vater

person

elternteil frau

mutter

grossmutter

weiblich

Ulf Leser: Informationsintegration 61

Ein weiteres Beispiel

• enzyme ≡ protein ⊓ ∃catalyses.reaction • peptide ≡ protein ⊓ <100 aminoacids • short_peptide ≡ Protein ⊓ <50 aminoacids • long_peptide ≡ protein ⊓ >100 aminoacids • long_peptide ⊑ peptide

• Was folgt?

Protein

Enzyme Peptide

Short_Peptide

- enzyme ⊑ protein - peptide ⊑ protein - long_peptide ⊑ protein - Unerfüllbar: long_peptide

Ulf Leser: Informationsintegration 62

DL und relationales Model / OO

• Keine Attribute • Attribute werden als eigene Konzepte definiert • Ob ein Konzept C ein Attribut A hat, wird über eine Rolle definiert

• Beispiel: person hatName name

• Beziehungen werden zu Rollen • Rollen und Attributkonzepte leben unabhängig von Klassen

• Beispiel: organization hatName name, person hatName name • hatName (name) ist eine (globale) Rolle (Konzept) mit einmal definierten

Eigenschaften • Ungleich dem Scope-Konzept in OO oder Programmiersprachen

Ulf Leser: Informationsintegration 63

Das Filmbeispiel

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

Ulf Leser: Informationsintegration 64

Inhalt dieser Vorlesung

• Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration

• Quellenkataloge • Integration durch Subsumption

Ulf Leser: Informationsintegration 65

Quellenkataloge

• Die einfachste Art der Integration vieler Quellen • So einfach, dass wir sie nicht unter Architekturen aufgeführt haben

• Quellenkataloge • Modelliere eine Ontologie (am einfachsten einen Thesaurus) der Domäne • Annotiere jede Quelle mit den Konzepten, zu denen sie Daten enthält • Benutzer verwenden den Thesaurus, um passende Quellen zu finden • Sehr populär (Web-Kataloge, DBCat, Yahoo Directories, …)

• Pro und Contra • Bietet eine schnelle Übersicht über „Was ist da“ • Einfach, schnell, billig, non-intrusive • Quellen müssen nicht kooperieren • Keine Überwindung von Heterogenität, keine Transparenz • Keine Integration in unserem Sinne

Ulf Leser: Informationsintegration 66

Integration durch Subsumption

• Wir konzentrieren uns ganz auf semantische Heterogenität • Bedeutung von Schemaelementen • Klassische Ontologiesprachen tun sich schwer mit struktureller

Heterogenität • Aber es gibt Erweiterungen; Kombinationen von DL und Datalog

• Vorgehen • Angelehnt an das SIMS Projekt [AHK96] • Eine Domänenontologie O fungiert als globales Schema • Exportrelationen der Quellen werden als Konzepte in O definiert • Einordnung in O erfolgt durch Subsumption • Was kann in dieser Welt eine Query sein?

Ulf Leser: Informationsintegration 67

Filmquellen und globale Ontologie

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

Ulf Leser: Informationsintegration 68

Einordnung 1

• Datenquelle spielfilme • Filme mit einer Länge über 79 Minuten • spielfilm ≡ film ⊓ ∀laenge>79

• „ ∀laenge<79“ ist nicht in unserer Sprache ausdrückbar • DL können nicht gut rechnen • Umwege sind möglich (sparen wir uns)

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

spielfilm laenge>79

Ulf Leser: Informationsintegration 69

Einordnung 2

• Datenquelle kurzfilme • Filme mit einer Länge unter 11 Minuten • kurzfilm ≡ film ⊓ ∀laenge<11

spielfilm laenge>79

kurzfilm laenge<11

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

Ulf Leser: Informationsintegration 70

gespielt_von

Einordnung 3

• Datenquelle us_spielfilme • Spielfilme mit Schauspielern aus den USA • Wir brauchen zunächst amerikanische Schauspieler und Rollen

• us_buerger ⊑ nationalitaet • us_schauspieler≡ schauspieler ⊓ ∀hat_nationalitaet.us_buerger • us_rolle ≡ rolle ⊓ ∀gespielt_von.us_schauspieler

• us_spielfilm ≡ spielfilm ⊓ ∀hat_rolle.us_schauspieler

• hat_rolle definieren als inverse Rolle zu rolle_in

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

spielfilm laenge>79

kurzfilm laenge<11

us_buerger

us_schauspieler hat_nationalitaet

us_rolle us_spielfilm

hat_rolle

Ulf Leser: Informationsintegration 71

Zusammen film titel laenge

person name

schauspieler nationalitaet

regisseur

fuehrt_regie_in

rolle kritik

rolle_in

gespielt_von

spielfilm laenge>79

kurzfilm laenge<11

us_schauspieler nationalitaet=‚US‘ us_spielfilm

rolle_in

hauptrolle

filmkritiken

spielfilm_kritiken kurzfilm_rolle

rolle_in

us_rolle

gespielt_von hat_rolle

Ulf Leser: Informationsintegration 72

Anfragebearbeitung

• Was kann nun eine Query sein?

Ulf Leser: Informationsintegration 73

Anfragebearbeitung

• Ein Konzept • Alle Filme, die kürzer als 20 Minuten sind • query1 ≡ film ⊓ ∀laenge<20

• Können wir per Subsumption in die Konzepthierarchie einordnen • kurzfilm ⊑ query1 ⊑ film

• Wo finden wir Antworten? • Alle spezielleren Konzepte sind sichere Antworten • Alle allgemeineren Konzepte sind potentielle

Antworten • Ergebnis: Inhalt aller spezielleren Konzepte,

die Datenquellen entsprechen

• Modellierung komplexerer Quellen? • Definition von Views auf dem Exportschema • Einordnung der Views in die Ontologie

film titel laenge

spielfilm laenge>79

kurzfilm laenge<11

query1

Ulf Leser: Informationsintegration 74

Inhalt dieser Vorlesung

• Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration

• Quellenkataloge • Integration durch Subsumption

• Bewertung und Einordnung

Ulf Leser: Informationsintegration 75

Anfrageplanung mit/ohne Ontologien

Ulf Leser: Informationsintegration 76

Bewertung: Ontologiebasierte Integration

• Ausdrucksstark zur Definition semantischer Unterschiede • Schwach bei struktureller Heterogenität • Basiert auf einem globalen Schema

• Benutzer müssen ein komplexes Modell neu lernen

• Ontologiedesign ist kompliziert • Modellierung je komplexer, je ausdrucksstärker die Modellierungssprache • Ontology Engineering – wie geht man vor? Wann hört man auf?

• Wesentliche Erleichterung bei der Integration wird nur erreicht, wenn Ontologien als Standard akzeptiert werden • Durch die semantische Ausdrucksstärke sind sie gut geeignet zur Definition

von Standards

• Kein „silver bullet“

Ulf Leser: Informationsintegration 77

Literaturhinweise

• [AKS96] Arens, Y., Knoblock, C. A. and Shen, W.-M. (1996). "Query Reformulation for Dynamic Information Integration." Journal of Intelligent Information Systems - Special Issue on Intelligent Information Integration 6(2/3): 99-130.

• [BBBG+98] Baker, P. G., Brass, A., Bechhofer, S., Goble, C., Paton, N. and Quinn, M. (1998). "Transparent Access to Multiple Biological Information Sources: An Overview", University of Manchester.

• [BS85] Brachman, R. J. and Schmolze, J. G. (1985). "An Overview of the KL-ONE Knowledge Representation System." Cognitive Science 9(2): 171-216.

• [Gru93] Gruber, T. R. (1993). "A Translation Approach to Portable Ontology Specifications." Knowledge Acquisition 5(2): 199-220.

• [HM01] Haarslev, V. and Möller, R. (2001). "Description of the RACER System and its Applications". Description Logics 2001, Stanford, CA.