Download - Information Mining zur semantischen Anreicherung von bestehenden Content-Management-Systemen
Information Mining zur semantischen Anreicherung
von bestehenden Content-Management-Systemen
AKWI-Tagung 2104, Regensburg
Vera G. Meister, Malte Hahnenwald
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
2
Agenda
Begriffsklärung Information Mining
Ausgangssituation: Informationssilos trotz CMS
Konzept forschungsbasierter Lehre
Projektbeschreibung
Projektergebnisse
• Die Hochschul-Ontologie SUSea
• Datenkonvertierung
• Anwendung und GUI
• Live Demo
Lessons Learned
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
3
Begriffsklärung: Information Mining
Data-Mining ist die [halb] automatische Auswertung großer Datenmengen
zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und
verborgener Zusammenhänge.
Information-Mining meint hier die [halb] automatische semantische Anrei-
cherung von vorhandenen Informationen mit dem Ziel der Aufwertung und
Wiederverwendung auf der Basis maschinenlesbarer Bedeutungsstrukturen.
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Quelle: T. H. Davenport, L. Prusak: Working Knowledge: How Organizations
Manage What They Know. Mcgraw-Hill Professional 2000, S. 2 - 4
Daten stellen einen Satz diskreter, objektiver Fakten über
Zustände und Ereignisse dar - ohne inherente Bedeutung,
Bewertung oder Interpretation.
Information kann als Nachricht mit Sender und Empfänger
beschrieben werden. Sie hat eine aus ihrem Zweck abgeleitete
Form und dient der Beeinflussung (Formung) des Empfängers.
Quelle: Duden online
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
4
Informationssilos trotz CMS
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Quellen für Unternehmensorganisationen:
Personen, Gruppen
andere Organisationen
diverse betriebliche Anwendungssysteme
Unterschiedlichste, nicht verbundene mediale Formate, Versionen, Strukturen
Lösungsansätze: CMS, ECM, Kooperations- und Austauschsysteme
Problem: Informationsanforderungen unterliegen einem ständigen Wandel
implementierte Strukturen werden technisch u. / o. fachlich obsolet
Lösungsansatz: neue, weitere Systeme; System- und Serviceintegration
Gefahr: auch neue Systeme können sich zu Informationssilos entwickeln,
wenn es keine gemeinsame und zugleich flexible Wissensbasis gibt
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
5
Konzept forschungsbasierter Lehre
Voraussetzungen
• Grundlagen semantischer Technologien
• Methoden des objektorientierten Software-Engineerings
• Management kooperativer Systeme
Methoden Seminare und kooperatives Entwicklungsprojekt
Lernziele
• Sie verstehen die Herausforderungen und kennen das Aufgabenspektrum in semantischen Entwicklungsprojekten.
• Sie verfügen über grundlegende Erfahrungen in der Entwicklung semantischer Anwendungen.
Lerninhalte
• Integrierte semantische Entwicklungsumgebungen
• Ontology Engineering: Analyse - Design - Implementierung - Deployment
• Management von Ontologie-Lebenszyklen
• Managementmethoden semantischer Entwicklungsprojekte
Prüfungsform Technischer Report und Präsentation
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
6
Projektbeschreibung
Projektziele
Praktischer Nutzen: Entwicklung und Dokumentation eines praktikablen
Lösungsansatzes zur maschinellen und damit effektiven und effizienten
Erfassung, Verarbeitung, Verknüpfung und bedarfsgerechten Präsentation von
Hochschulinformationen auf Basis der Daten im Hochschulweb.
Didaktischer Nutzen: Entwicklung von berufspraktischen Kompetenzen in der
Fachdomäne Semantische Technologien und in strukturierter Projektarbeit in
verteilten Teams. Kennenlernen einschlägiger Entwicklungs- und Management-
Frameworks sowie relevanter Tools.
Projektteam
Führungsrollen: Projektmanager, Product Owner (Stud.), Senior Expertin (Doz.)
Entwicklerrollen: Ontologie-Entwickler, Datenbank-Entwickler, Anwendungs-
Entwickler, Web-Designerin, Content-Entwickler
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
7
Anforderungen
Semantische Datenbasis: SPARQL abfragbares RDF
Aktualität der Informationen: Zugriff auf CMS Daten
Zusammengehörige Informationen verbinden: Ontologie
Flexibilität der Lösung: Einfache Erweiterung und Anpassung
Beibehalten vorhandener Architektur: keine Änderungen an DB & Co
Funktionierende Suche: Sämtliche Inhalte durchsuchen und filtern
Ansprechende Oberfläche: Einheitliches und übersichtliches Design
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
8
Projektergebnisse: Die SUSea-Ontologie
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
9
Datenkonvertierung und -anreicherung
Untersuchung der Ausgangs-Datenbank (RDB)
- Diffuse CMS Struktur verstehen
- Merkmale identifizieren um Klassen zu unterscheiden
Wahl der Technologie
- SPARQL abfragbares RDF
- Triple Store vs. virtuellen Triple Store
-> D2RQ
Verbindung zur Ontologie
- Verwendung bekannter Namensräume (org1, foaf2, iswc3) und Eigenentwicklung
- Mapping von DB Inhalten auf Ontologie-Struktur
1:Organisation <http://www.w3.org/ns/org#>; 2: Personen <http://xmlns.com/foaf/0.1> ; 3: Aktivitäten<http://annotation.semanticweb.org/iswc/iswc.daml#>
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
10
Anwendung
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS 11.09.2014
10
RDB
D2RQ Engine - Mapping
D2R Server SPARQL
Ontology
Jena RDF
Suche / Faceted Browsing
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
11
Grafische Benutzeroberfläche
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS 11.09.2014
11
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
Live Demo anhand eines Use Cases
11.09.2014
12
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Ein Kollege möchte sich über alle
Lehrveranstaltungen eines/r Professors/in
des Fachbereichs Wirtschaft informieren.
Fall 1: Zugang über die FH-Webseiten.
• Informationen sind zwar vorhanden,
jedoch extrem schwer auffindbar.
Im Grunde sind Insider-Kenntnisse
notwendig.
Fall 2: Zugang über SUSea-Portal.
• Informationen sind auf einen Klick
abrufbar, dabei wird auf dieselbe
Datenbank zugegriffen, wie in Fall 1.
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
13
Lessons Learned
1. Die Nutzbarkeit automatischer Tools zur Konvertierung relationaler Daten-
banken in RDF-Triples kann auf Grund der spezifischen Struktur des Quell-
systems eingeschränkt sein. Je nach Quellsystem sind die [halb] automati-
schen Methoden anzupassen.
2. Zur Verbesserung des Informationszugangs müssen etablierte und weit-
verbreitete Systeme in Unternehmen und Organisationen nicht zwingend
ersetzt werden.
3. Durch die Implementierung einer semantischen Anwendung auf Basis von
Standard-Technologien werden hochwertige, semantische Datenstrukturen
erzeugt, die in neuen Systemen leicht wiederverwendet werden können.
4. Sowohl die Vorgehensweise im Projekt als auch bestimmte Ergebnisse oder
Teilergebnisse sind grundsätzlich auf weitere (Alt)systeme in der Organisa-
tion aber auch auf ähnliche Herausforderungen in KMU übertragbar.
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS
Fachbereich Wirtschaft
Vielen Dank für Ihre Aufmerksamkeit
Vera G. Meister Malte Hahnewald
Jahrestagung der AKWI 2014 · OTH Regensburg · 08.09.2014 Seite
11.09.2014
15
Zugriffssteuerung über D2RQ
Meister, Hahnenwald · Information Mining zur semantischen Anreicherung bestehender CMS