wissenserschließung und –modellierung: ontologie vs. volltextsuche am beispiel des projektes...
DESCRIPTION
Am Beispiel des Projektes EnArgus wird eine Methode zur Wissenserschließung und –Modellierung präsentiert, bei der eine Anwendungsdomäne durch Informationsextraktion aus Wiki-Texten (durch Sprachanalyse) erschlossen und in einer Ontologie repräsentiert wird. Die Ontologie dient dabei zur Unterstützung einer intelligenten Volltextsuche.TRANSCRIPT
Wissenserschließung und –Modellierung:
Ontologie vs. Volltextsuche am Beispiel des Projektes EnArgus
Thomas Koch
OrbiTeam Software GmbH & Co. KG
KnowledgeCamp 2012, Karlsruhe
Kurzvorstellung: EnArgus-Projekt
• Ziel: Entwicklung und Erprobung eines zentralen Informationssystems für Energieforschungs-vorhaben aus dem Bereich der Förderung durch Bund und Länder
• Unterschiedliche Zielgruppen – Die interessierte Öffentlichkeit
• Überblick über Forschungsprojekte
– Die Geldgeber (Ministerien, Projektträger) • Was wird/wurde gefördert (inhaltliche Fragen)
• Forschungstrends, Experten, Verteilung Fördermittel etc.
Ausgangssituation
Diverse Problemstellungen und Anforderungen • Projektdaten sind auf eine Vielzahl nicht
kompatibler Datenbanken verstreut • Datenbanken sind eher betriebswirtschaftlich
motiviert und zur fachlichen Auswertung wenig geeignet
• Bedarf nach Auswertungswerkzeugen und erweiterten Recherchemöglichkeiten
• Vorhabenbeschreibungen sind oftmals sehr fachspezifisch – Wissen über Fachgebiet für Recherche erforderlich
Idee
Verbesserte Suche durch Wissenserschließung • Wiki-texte
– Werden von Fachexperten gemeinsam verfasst
• Informationsextraktion – Aufbau der Ontologie
durch Textanalyse
• Ontologie – Dient der formalen und expliziten
Repräsentation von Wissen
• Suchanfrage – Wird durch verwandte Begriffe aus
Ontologie angereichert
• Optimierte Suchergebnisse zufriedene Benutzer
Fachexperte
Anwender
Vorgehen
• Zusammenführen von Daten aus versch. Quellen – Projektdaten aus PROFI (administrative Daten) – Projektdokumente mit Inhalt (z.B. Berichte) – Inhaltliche Erschließung über Suchmaschine
• Inhaltssuche (Volltext) und Metadatensuche
• Unterstützung der Recherche durch Fachontologie – Fachontologie wird mit Hilfe der Energieexperten erstellt – Energieexperten formulieren Sachzusammenhänge im Wiki – Ontologieexperten realisieren Erfassung des Wikis durch
Methoden der Sprachanalyse und Wissensextraktion – IT-Experten implementieren das Basis-System mit
Suchfunktionen, die auf die Ontologie zurückgreifen
Recherche-Cockpit
Energie-
forschungs
-Wiki
BSCW Core
EnArgus-DB Index Dokumente
Ontologie Core
Ontologie-DB
Kooperations- Unterstützg.
Ontologie-
Editor
Wiki-Seiten
Auswertung &
Visualisierung Suchanfragen
& -ergebnisse
EnArgus Systemarchitektur
Fakten: EnArgus®
• Nationales Forschungsvorhaben – Partner: aus Energieforschung und Informatik
• Fraunhofer FIT, FKIE, UMSICHT und ISI • Forschungszentrum Jülich • Ruhr-Universität Bochum • OrbiTeam Software
– Gefördert durch BMWi • 5. Energieforschungsprogramm
der Bundesregierung • 2 Jahre Laufzeit
(Juli 2011 bis Juni 2013)
– Mehr Infos: https://www.enargus.de
Aufwand/Nutzen
• Aufwand: Aufbau der Ontologie – Erfordert Expertenwissen
• Ontologie-Experten und Experten der Fachdomäne
– (Teil-)Automatisierung durch Sprachanalyse • Ziel: Fachexperten dokumentieren im Wiki und System
extrahiert automatisch die Fachontologie daraus
• Nutzen – Bessere Unterstützung bei der Suche
• z.B. Vorschlagen von verwandten Begriffen • Dadurch mehr relevante Treffer und zielgerichtete Suche
– Wiki ist zugleich hilfreich für Anwender • Verknüpfung von Fachbegriffen mit Wiki als eine Art Glossar
EnArgus: Teilsysteme
EnArgus.master
• Für die interne Nutzung
• Vollzugriff auf die Vorhaben-Datenbank
• Hinzufügen von Inhalten/ Dokumenten zu Vorhaben über Kooperationsplattform
• Zugang zu Recherche-Funktionen
• Expertensuche, gespeicherte Suchen etc.
EnArgus.public
• Für die Öffentlichkeit
• Einfache Bedienung
• Ansprechende Webseiten
• Eingeschränkter Zugriff auf Daten von Vorhaben
• Einfache Suchfunktion
• Lesender Zugriff auf EnArgus.wiki
EnArgus.public
• Öffentliches Teilsystem
EnArgus.public
• Facetten
EnArgus.public
• Facetten
EnArgus.public
• Details
Details zum Wiki
• Vorgehensweise – Vorlage im Wiki für die Energie-Experten zur
Beschreibung von Objekten – Aus Beschreibungen wurde von Ontologie-Experten zunächst der
obere Teil der Ontologie aufgebaut ("upper ontology")
• Bearbeitete Fachthemen: – Elektrochemische Energiespeicher – CCS (Carbon Dioxide Capture and Storage) – Windenergie – Elektrische Energiespeicher
• Einschränkungen / Hinweise – Formulierungen im Wiki sollten in einfacher Sprache erfolgen, damit
die Sprachanalyse verwertbare Ergebnisse liefert.
• Technische Basis: MoinMoin Wiki
Wiki: Beispiele
Informationsextraktion
• Aufbau der Ontologie durch Textanalyse – Wiki-Texte werden (durch Software) ausgewertet
– In diesem Prozess erfolgt die Umwandlung von Text in Wissen!
– Ergebnis der Informationsextraktion ist die (aktualisierte/erweiterte) Ontologie
– Technik: • Text mining
• Semantic Role Labeling (SRL)
– Tools: • GATE (General Architecture for Text Engineering)
• Protegé/OWL
Details zur Ontologie
• Grundlage jeder Ontologie ist eine Taxonomie – relevante Begriffe der Domäne werden in einem
Baum repräsentiert
– Begriffe sind nach Ober- und Unterklassen angeordnet
• Ontologie dient der Wissensrepräsentation – Begriffe enthalten Attribute
(z.B. Eigenschaften oder andere Schreibweisen)
– Zusätzliche Relationen zwischen den Begriffen bilden weitere semantische Beziehungen ab
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und Suchbegriff(e) eingeben
• in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional)
• in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und Suchbegriff(e) eingeben
• in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional)
• in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und Suchbegriff(e) eingeben
• in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional)
• in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
Ontologiebasierte Suche
• Benutzer können eine
Suchanfrage starten und Suchbegriff(e) eingeben
• in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional)
• in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
Suchergebnisse
• Ansicht der Treffer
– Darstellung von Details (pro Vorhaben)
Auswertungen
• Akkumulation der Suchergebnisse
– Konkrete Fragestellung: Verteilung der Förderkosten über die Jahre
Ausblick
• Weitere Aspekte im Projekt – Unterstützung der Datenanalyse
• Statistische Auswertungen von Abfragen • Graphische Visualisierung von Zusammenhängen Recherche-Cockpit (derzeit in der Entwicklung)
• Weitere Ideen für die Zukunft – Unterstützung von Mehrsprachigkeit – Ausbau der Datenbasis (Erfassung weiterer Themenfelder aus
der Energieforschung) – ergonomischere Bedienung für die Fachexperten
(z.B. durch grafischen Ontologieeditor) – Einbeziehung weiterer externer Datenquellen – Automatisierte Verschlagwortung von Vorhaben
(durch Tagging-Verfahren)
Diskussion/Fragen
• Fragen an die KM-Community
– Erfahrungen mit Wissensmodellierung
– weitere Ansätze zur inhaltlichen Erschließung einer Anwendungsdomäne (und Erfahrungen damit)?
– Erfahrungen mit ontoligiebasierter Suche
– Unterschied ‚Fachwissen‘ vs. ‚Prozesswissen‘ ?!
• Glossar vs. Rezeptbuch