1 projektverbund ontoverse kooperatives vernetztes wissensmanagement im bereich life sciences...
Post on 05-Apr-2015
108 Views
Preview:
TRANSCRIPT
1
Projektverbund Projektverbund OntoverseOntoverseKooperatives vernetztes Wissensmanagement Kooperatives vernetztes Wissensmanagement
im Bereich Life Sciencesim Bereich Life Sciences
Christof Rumpf
Heinrich-Heine-Universität Düsseldorf
23.06.2005
2
AntragsrahmenAntragsrahmen
• Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement
• Antragszeitraum 3 Jahre
• Antragsvolumen 2,3 Mio € (ca. 13 Arbeitsplätze + ca. 100.000 € Sachmittel)
3
ProjektpartnerProjektpartner
4
ZieleZiele
• Erstellen einer Ontologie für die biomedizinische Domäne durch Verschmelzung vorhandener Ontologien
• Erstellen eines Informationsextraktionssystems basierend auf der Ontologie
• Erweiterung der Ontologie– webbasiert durch Anwender (Wikipedia)– halbautomatisch bei der Informationsextraktion
5
Was heisst Was heisst OntologieOntologie??
• Erstes Vorkommen des Wortes Ontologie in: Jacob Lorhard (1606) Ogdoas Scholastica.
• Philosophie: Ontologie ist die Wissenschaft vom Sein; Zweig der Metaphysik.
• KI und Wissensrepräsentation: Ontologie als formale Theorie über Eigenschaften und Relationen abstrakter Entitäten (Konzepte) aus einer Sprache (Vokabular, inbes. Nomen).
6
KonzepthierarchienKonzepthierarchien
• Ontologien sind hierarchische Ordnungen von Konzepten (Subsumption)
• primäre hierarchiebildende Relationen:– is_a Ober- / Unterbegriff– part_of Teil- Ganzesbeziehungen
• sekundäre Relationen:– synonym, antonym, subset, definition, has_property,
…
7
Beispiel: Gene Ontology (GO)Beispiel: Gene Ontology (GO)
Molecular Function 7,493 terms Biological Process 9,640 terms Cellular Component 1,634 terms
Total 18,767 terms
Definitions: 16,696 (93.9 %)
Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt
8
Ausschnitt GO-HierarchieAusschnitt GO-Hierarchie
rote Pfeile: part_ofblaue Pfeile: is_a
Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt
9
GO TermeGO Terme[Term]id: GO:0000001name: mitochondrion inheritancenamespace: biological_processdef: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:10873824, PMID:11389764, SGD:mcc]is_a: GO:0048308 ! organelle inheritanceis_a: GO:0048311 ! mitochondrion distribution
[Term]id: GO:0000002name: mitochondrial genome maintenancenamespace: biological_processdef: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai]is_a: GO:0007005 ! mitochondrion organization and biogenesis
[Term]id: GO:0000003name: reproductionalt_id: GO:0019952namespace: biological_processdef: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GO:curators, ISBN:0198506732]subset: goslim_genericsubset: goslim_plantsubset: gosubset_prokis_a: GO:0007275 ! development
10
Nutzen von OntologienNutzen von Ontologien
• Ontologien enthalten semantische Relationen zwischen Konzepten und damit Wissen über die Welt bzw. eine Domäne
• Ontologien können der Konsensbildung in der Wissenschaft dienen
• Ontologien unterstützen Information Retrieval und Informationsextraktion
11
Aufbau von OntologienAufbau von Ontologien
• manuell:Experten definieren Konzepte und Relationen – sehr zeitaufwändig
• automatisch:durch maschinelles Lernen auf der Grundlage von Datenbanken oder Texten (Informationsextraktion)
12
OntoverseOntoverse
• In Ontoverse soll eine Ontologie für die biomedizinische Domäne auf drei Wegen entstehen:– Verschmelzen vorhandener Ontologien– webbasierte kooperative manuelle
Erweiterung im Stil von Wikipedias – semantisches Wiki
– halbautomatische Erweiterung durch auf der Ontologie basierende Informationsextraktion
13
Verschmelzen von OntologienVerschmelzen von Ontologien
• Die Architektur der Ontoverse-Ontologie muss alle Relationen und Attribute einer zu verschmelzenden Ontologie abbilden können.
• Beim Verschmelzen müssen vollständige und partielle Übernahme von Konzepten berücksichtigt werden.
• Inkonsistenzen zwischen Ontologien müssen mit Hilfe eines Logikvalidierers erkannt und (manuell) aufgelöst werden.
14
semantisches Wikisemantisches Wiki
• kooperatives Ontologiedesign
• webbasierte Benutzerschnittstelle
• graphisches Visualisierungstool
• Authentifizierung von Autoren mit Signatur
• Markierung von Änderungen in der Ontologie mit Signatur und Zeitstempel (Trustcenter)
15
Informationsextraktion (IE)Informationsextraktion (IE)
• Bei der IE geht es um die automatische Gewinnung von strukturierter Information (relationale Datensätze) aus unstrukturierter Information (Texten).
• Bei der IE müssen Texte maschinell ‚gelesen‘ und partiell ‚verstanden‘ werden.
• Das Ontoverse-IE-System stützt sich auf die Ontoverse-Ontologie und soll gleichzeitig zur überwachten Erweiterung der Ontologie dienen.
PARADIME: 16
Task Specific Template Filling, based on the TDL Model
« Die Spannungen in Mostar nehmen am 1.Jan. 1996 zu, nachdemkroatische Polizisten einen 18jährigen Moslem erschossen haben, der... »
DomainLex:shoot=Fight-Lex
Merge typesandFill template
Templatse Hierarchy
PhrasesHierarchy
Grammatical Functions Hierarchy
Linked Types
Shallow Text Processor
... process=shootSC= subj=croatian Police obj=18 years old Muslim
DatePP = {1/1/1996}LocPP = {Mostar}
Lookup in Domain Lexicon
Select a linking type
Fight-Lex[process=1, subj=2, obj=3,templ=[action=1, attacker=2, attacked=3, ... ] ]
process=1=shootSC= subj=2=croatian Police obj=3=18 years old Muslim
DatePP=4={1/1/1996}LocPP= 5={Mostar}
action=1=shoot attacker=2=croatian Policetempl= attacked=3=18 years old Mulsim date=4= 1/1/1996 loc=5= Mostar
Quelle: Günter Neumann (DFKI)
17
Teilaufgaben der IETeilaufgaben der IE
• Auf den MUC-1-7 (1987-1998) wurden Teilaufgaben der IE spezifiziert und mit precision und recall bewertet (MUC-7):– NE: Named Entity Task (95/92%)– CO: Coreference Task (69/56%)– TE: Template Element Task (87/86%)– TR: Template Relation Task (86/67%)– ST: Scenario-Template-Task (65/42%)
Source: Jakub Piskorski, Feiyu Xu Sommersemester 2001
LanguageTechnology
(ST) Scenario Template requires filling a template structure with extracted information involving several relations or events of interest
intended to be the MUC approximation to a real-world information extraction problem identification of partners, products, profits and capitalization of joint ventures
Generic IE tasks for MUC-7
1997 18February :
:
:/
:2
:1
LtdSystems ionCommunicat GEC Siemens :
_
TIME
unknownTIONCAPITALIZA
SERVICEPRODUCT
PARTNER
PARTNER
NAME
VENTUREJOINT
..............
ONORGANIZATI
..............
ONORGANIZATI
:
:
_
ONORGANIZATI
PRODUCT
OFPRODUCT..............
PRODUCT
19
Module eines IE-SystemsModule eines IE-Systems
• Tokenizer (Text Tokens)• Part-of-Speech-Tagger (Wortarten)• Termerkennung (named entities)• Koreferenzauflösung (nominal, pronominal)• Merger für Objekt-Templates• Dependenz-Parser (grammatische Funktionen)• Merger für Szenario-Templates
PARADIME: 20
The systematic separation of the NLP and the modeling components, dealing with two types of knowledge (1)
The linguistic analysis tools comprise (1) a tokenizer, a morphological analyzer (incl. compound analysis) and a POS filter for the lexical processing, and (2) a fragment recognizer for Named Entities and generic phrases (NP, PP, Verbgroup). On the top of this (3) a dependency based parser computes a flat (partial) analysis of the text, enriched with information about grammatical functions.
[PNDie Siemens GmbH] [Vhat] [year1988][NPeinen Gewinn] [PPvon 150 Millionen DM],
[Compweil] [NPdie Auftraege] [PPim Vergleich] [PPzum Vorjahr] [Cardum 13%] [Vgestiegen sind].
“The siemens company has made a revenue of 150 million marks in 1988, since the orders increased by 13% compared to last year.”
hat
Obj
Gewinn
weil
steigen
Auftrag
PPs
{1988, von(150M)}
Subj
Subj
Siemens
{im(Vergleich) ,zum(Vorjahr), um(13%) }
PPs
SC
Comp
Quelle: Günter Neumann (DFKI)
PARADIME: 21
Translation into meaningful semantic relations
Linguistics„...Uppsala´s main church...“
Ontology
Database
Syntacic relations between „Uppsala“ and „church“
Location
City
Building
Church
hasBuilding
hasChurch
Uppsala Church-1hasChurch
Quelle: Günter Neumann (DFKI)
PARADIME: 22
Iterative Ontology Development
•Design core ontology
•Ontology to extract information
•Use linguistic information to enhance the ontology
Core OntologyOntology after interation
Quelle: Günter Neumann (DFKI)
top related