extraktion und visualisierung von semantischen ... · electronic_computer 0...
TRANSCRIPT
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis
Prof. Dr.-Ing. D. KrömkerProfessur für Graphische
Datenverarbeitung
Abschlussvortrag
Extraktion und Visualisierung von semantischen Informationen aus Wikis
~
vorgetragen vonPatrizia Wojsyk und Arkadius Grycko
~
betreut vonSarah Voß und Jörg Demmer
1
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Motivation
Wikis enthalten „interessante“ Artikel
a b e r
Die Relevanz ist nicht sofort ersichtlich
Relevante Artikel sind möglicherweise nicht direkt verlinkt
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis2
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Ziele
Ziele:
� Auffinden von interessanten Artikeln unterVerwendung von Semantiken
� Geeignete Visualisierungsform für die gefundenen Informationen finden
� Wikiunabhängigkeit
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis3
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Wiki-Systeme
Sind ...
einfache Content-Management-Systeme
Werden genutzt für ...
� Wissensaustausch
� E-Learning
� Projektmanagement
� Dokumentation
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis4
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Wiki-Systeme : Vorteile
Wichtigste Eigenschaften ...
� einfache Bedienbarkeit (WikiCode)
� gemeinsames Arbeiten
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis5
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Wiki-Systeme : Vorteile
Gemeinsamkeiten aller Wikis
� Links
� Revisionen
� Recent Changes
� Suche
� History
� Sandbox
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis6
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Wiki-Systeme >> Datenstruktur
Informationen in Wikis
Wichtigkeit der Informationen ist Wiki-Abhängig
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis7
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Datenextraktion >> Wiki-Zugriff
HTTP-Request Aufruf kompletter Wiki-Seitehttp://en.wikipedia.org/wiki/dog
„Wiki-API“ gezieltes Extrahieren gewünschter Informationenhttp://en.wikipedia.org/w/api.php?action=query&titles=dog|atom&prop=links&format=xml
Export Extraktion von Artikeltextenhttp://de.wikipedia.org/w/index.php?title=Spezial:Exportieren&pages=Stochastik%0AHaushund&offset=1&limit=5
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis8
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Datenextraktion >> Semantik
Semantik (die Bedeutungslehre)Beziehungen zwischen Wörtern
Synonyme und Homonyme
Gleichbedeutung und Mehrdeutigkeit
Bsp.: Rechner – Computer (Synonyme)Bank (Finanzen) – Bank (Sitz)(Homonyme)
Hypernonym und Hyponyme
Hirarchische Beziehung zwischen Worten
Bsp.: Obst (Hypernonym) �� Apfel (Hypononym)(Verallgemeinerung) (Verfeinerung)
Meronyme und Holonyme„Part-Of“ Beziehung zwischen WortenBsp.: Apfel ist (Holonym) von Apfelkern
Apfelkern ist (Meronymie) von Apfel
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis9
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Datenextraktion >> Thesaurus
wozu Semantiken?
In der Textanalyse werden Semantiken verwendet um zwei Seiten, Sätze oder Wörter auf ihre „Gleichheit“ zu überprüfen
woher bekommt man die semantischen Informationen?
Worin unterscheidet sich ein Thesaurus zu einem regulärem Wörterbuch?
- nicht den gesamten Wortschatz- Anwendungsbeispiele für das Lemma (gesuchter Begriff)- Synonyme, Akronyme- Holonyme und Meronyme- Hyperonyme und Hyponyme
Problem: Fachwissen ist in Thesauren nicht vorhanden
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis10
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierung
Informations-Visualisierung (abstrakter Daten)
Bevor mit der Erstellung einer Visualisierung begonnen werden kann, müssen die folgenden Fragen beantwortet werden:
� Wie viele Attribute (Informationen) besitzen die Daten und umwelche Art von Daten handelt es sich?
� Welche Darstellungsart eignet sich zur Darstellungder Daten?
� In welcher Dimension soll die Visualisierung dargestellt werden2D oder 3D?
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis11
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierung
Die verschiedenen Visualisierungs-TechnikenTreeMap 3D RadialTreeMap HyperbolicTree 3D ForceDirectedGraph
TimeWall Scatterplot 3D RadialGraph ConeTree 3D
Wichtige Eigenschaften einer Wiki-Vis. � Beziehungen und die Hierarchische Struktur
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis12
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungs-Techniken
Radial-GraphHierarchische Darstellung von Knoten - vergleichbar mit einem Baumdiagramm
AufbauIn der Mitte befindet sich der Ausgangsknotenum den Mittelpunkt herum sind konzentrische Ringe als Knotenlaufbahnen
� Platzsparende Anordnung der Knoten� Graph wächst in alle Richtungen
(gute Raumausnutzung)� Möglichkeit der Trennung unterschiedlicher Knoten über Ringe
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis13
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
2D & 3D
2D & 3D
� Wahl der Dimension hat Auswirkungen auf Performance der Nutzer
� Präferenz der Nutzer liegt eher bei 3D
� 3D benötigt zusätzliche Mechanismen um Objekte im Raum eindeutig zu orten
� Okklusion, Größenunterschiede schwer zu unterscheiden
� Unterschiedliche Anforderungen an Navigation bei 2D und 3D
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis14
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Konzept
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis15
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Anforderungen: Datenextraktion
Anforderungen
� Wiki-Unabhängigkeit der Komponenten
� Gewichtung, die relevante Artikel hervorhebt
� Möglichst geringe Laufzeit
� Leichte Integration in bestehende Wikis
Aber: Letzte beiden Punkten nicht gut miteinander vereinbar!
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis16
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Konzept
Allgemeine Probleme
� Schnell wachsende Anzahl von Artikel-Links � Laufzeit!
� Beschränkte Anzahl von Links in Anfrage (z.B. bei MediaWiki)
� Mehrdeutigkeit von Artikelnamen
� Möglichkeit, daß mehr Kategorien als Artikel-Links
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis17
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Konzept: Datenzugriff
Zwei Möglichkeiten:
Datenbank größere Linktiefe,
aber nicht sofort Einsetzbar,
Daten müssen aktualisiert werden
„Live“-Variante sofort Einsetzbar, Daten immer aktuell
Zugriff: vorzugsweise Wiki-API ansonsten
Daten-Export, HTTP-Request
aber beschränkte Linktiefe
Architektur beider Varianten ähnelt sich stark
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis18
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Konzept: Sem-Crawler Komponenten
Wiki-Crawler
� Suche und Zugriff weiterer Artikel (Web-Crawler)
� Beinhaltet die Gewichtung
� Wiki-Unabhängigkeit durch anpaßbare Suchmuster (WikiCode)
Thesaurus-Schnittstelle
� Abruf der benötigten semantischen Informationen
Daten-Schnittstelle
� Kommunikation mit dem Visualisierungs-Modul
Optional: Autor-Crawler
� Suche nach Autoren und ihren Artikeln
Daten-Parser (DB-Variante)
� Parsed Artikeltexte nach vorhandenen Informationen & trägt diese in DB ein
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis19
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Komponente: Wiki-Crawler
Erkennen der Sonderfälle…
� Weiterleitung
� Mehrdeutigkeit ( mit Hilfe des Wikis)
� Nicht vorhanden
Crawlen in der Kategorie-Hierarchie
� Erhöhung der Anzahl der Hauptkategorien
� Reduktion der anderen Kategorien
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis20
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Komponente: Wiki-Crawler
Link-Analyse
� Bool‘sche Zonengewicht, Bewertung über ausgewählte Eigenschaften
� PageRank, iterativ auf allen Links� HITS, Submenge von Links, verwendet Vor- Nachfahren
����Linkeigenschaften werden verglichen
Dokument-Analyse
� Vektorraum-Model, Wortvorkommen in Dokumenten
����Artikeltexte werden auf ihre Ähnlichkeit zueinander verglichen
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis21
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Komponente: Wiki-Crawler
Gewichtung
Adaption der Bool‘schen Zonengewichtung
Gewichtungsfaktoren sind an jeweiliges Wiki anzupassen!
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis22
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Kombinierte Gewichtung
Semantisches Gewichtungsmaß
� verwendet (Semantiken) „Teil-von“, Ober- Unterbegriff, Domänen
� Schnittmengenbildung mit den in der Linkanalyse gefundenenArtikeln
� Bezug zum Hauptartikel wird bestärkt
Ein Thesaurus ist wahrscheinlich nicht ausreichend
� Nutzung mehrerer Thesauri (Sprache und/oder Wissensgebiet)Unterschiedliche Wikis benötigen unterschiedliche Thesauri
� WikiCrawler benötigt eine entsprechende Schnittstelle
Quellen für semantische Informationen
� Online Datenbanken (wie z.B. Wortschatz Uni-Leipzig)
� Lokale Datenbanken (wie z.B. WordNet)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis23
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
WordNetParser
Verwendung von WordNet hat die Vorteile...
� Lokale Datenbasis
� Unabhängigkeit von WebServices
� Umfangreiche semantische Informationen
WordNet enthält zum jeweiligen Lemma...
� Synonyme, Hypernonyme, Hyponyme, Meronyme undHolonyme
� Domänenangehörigkeit
� eine Kurzbeschreibung der Wörter
WordNet ermöglicht...
� Unterscheidung zwischen Nomen, Verb, Adjektiv, Adverb(Nützlich bei Dokumentenanalyse)
Problem
� Homonymität (Mehrdeutigkeit)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis24
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
WordNetParser
Zugriff auf die WordNet Datenbank� Index Dateicomputer%1:06:00:: 03082979 1 6(Suchbegriff) (Offset)
� Zugriff über den Offset auf Datendateien03082979 06 n 06 computer 0 computing_machine 0 computing_device 0 data_processor 0 electronic_computer 0 information_processing_system 0 055 @ 03699975 n 0000 #p 03962685 n 0000 ;c 06128570 n 0000 + 00637259 v 0104 + 02337364 v 0101 + 02218759 v 0101 + 01718952 v 0102 + 02337364 v 0102 + 02218759 v 0102 + 01718952 v 0103 -c 00509039 a 0000 -c 00509206 a 0000 -c 01091995 a 0000 -c 00145929 n 0000 ~ 02708224 n 0000 %p 02924713 n 0000 %p 02985137 n 0000 %p 02995345 n 0000 %p 03020034 n 0000 %p 03084204 n 0000 %p 03084420 n 0000 -c 03092656 n 0000 %p 03163798 n 0000 ~ 03196324 n 0000 %p 03209141 n 0000 %p 03209910 n 0000 -c 03314608 n 0000 %p 03493333 n 0000 ~ 03528523 n 0000 %p 03614007 n 0000 %p 03744276 n 0000 -c 03778817 n 0000 %p 03782190 n 0000 ~ 03827107 n 0000 ~ 03835582 n 0000 ~ 03890514 n 0000 %p 03916720 n 0000 -c 03967396 n 0000 ~ 03998867 n 0000 -c 04151228 n 0000 ~ 04175147 n 0000 -c 04243727 n 0000 -c 04429756 n 0000 ~ 04499180 n 0000 -c 04539053 n 0000 -c 05728493 n 0000 -c 05799761 n 0000 -c 05799952 n 0000 -c 06128570 n 0000 -c 06278830 n 0000 ~ 06359193 n 0000 -c 06636806 n 0000 -c 07341860 n 0000 –c 7421859 n 0000 -c 01694620 v 0000 | a machine for performing calculations automatically
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis25
Autoren als eine weitere Quelle der Gewichtung
Wieso?
� Autoren können Spezialgebiete besitzen
� Die Interessen eines Autors können sich mit denendes Nutzers überschneiden und zu anderen interessantenArtikeln führen
Problem
� Nicht alle Wikis unterstützen die Extraktion der Autoren undall ihrer Edits - deshalb optional!
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Komponente AuthorCrawler
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis26
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Datenaustauschformat
<?xml version="1.0" encoding="UTF-8"?>
<graph>
<knotenobjekt>
<name>STRING</name> // Name des Artikels
<id>INTEGER</id> // unique identifier
<weight>FLOAT</weight> // Artikel-Gewicht
<typ>STRING</typ> // Kategorie/Artikel/Lemma
<bl>BOOLEAN</bl> // Lemma-Back-Link?
<sem>SEMANTIK</sem> // semantische Beziehung zu Lemma
<colour>HEX</colour> // Knotenfarbe
<desc>STRING</desc> // weitere Beschreibungen
</knotenobjekt>
. . .
<kantenobjekt>
<fromID>INTEGER</fromID>
<toID>INTEGER</toID>
<colour>HEX</colour> // Kantenfarbe
</kantenobjekt>
. . .
</graph>
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis27
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Visualisierungskonzept
Die Visualisierung soll…
� Relevanz der Artikel darstellen (Gewichtung)
� unterschiedliche Knotenobjekte (Artikel, Kategorie,…)
� semantische Beziehungen
� Autorinformationen darstellen
� benutzerfreundlich sein
� interaktiv sein
� zu neuen Informationen (Wissen) führen
� bei der Recherche in einem Wiki eingesetzt werden können
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis28
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Aufbau des Graphen
� Unterschiedliche Anzahl Ringe
� Unterschiedliche Datenobjekte
� Gewichtungsmetapher
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis29
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Aufbau des Graphen (Gewichtung über die Knoten)
� Farbe
� Knotengröße
� Kombiniert
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis30
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Interaktion
� Klickbare Knoten
� Interaktive Knoten(Zoom, Alpha & Farbe)
� Filter (Gewicht)
� Eingabefeld (Suche)
� Pan & Zoom
� Tooltip(Einleitungstext)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis31
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Darstellung semantischer Informationen(Neben dem Graph)
� Soll den Nutzern Informationen über die Beziehung geben
� Problem Artikelanzahl > Semantikanzahl � kritische Nutzer
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis32
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Darstellung semantischer Informationen(In einem eigenem Graph)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis33
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Darstellung der Autoren-Informationen
� Über den Tooltip
� Eigener Graph
� Vielleicht interessante Artikel?
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis34
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Darstellung eines Wiki-Artikels(Innerhalb der Visualisierung)
� Beim Klick auf einen Knoten(neues Browsertab oder –fenster)
� Über den Tooltip (Einleitungstext)
� Neben dem Graph
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis35
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Darstellung eines Wiki-Artikels(Innerhalb der Visualisierung)
� Eigene Wikiartikel-Ansicht
� Gewichtung der Artikel
� Filter
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis36
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Problematisch sind die Mehrdeutigkeit und nicht existierende Artikel
� Müssen dem Nutzer verdeutlicht werden
� Bei Mehrdeutigkeit soll die Visualisierung eine Auswahlermöglichen
� Darstellungsform als Graph
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis37
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Visualisierungskonzept
Visualisierungskonzept
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis38
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis39
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Architektur des SemCrawlers
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis40
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WikiCrawler
WikiCrawler
� Umwandlung des erhaltenen Lemmas nach „Wiki-Standard“
� Auswahl der „korrekten“ WordNet-Ausgabe
� Verwendet Ausschluß-Filter bei Kategorien
Gewichtung
� beim Einlesen der Artikel-, Kategorie-Links
� Bonus durch Kategorien „lesenswert“
� Menge der Lemma-Kategorien wird durch derenUnter-Kategorien erweitert
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis41
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> SemCrawler
SemCrawler
� Verarbeitung der Sonderereignisse(Erstellung spezieller XML)
� XML Generierung
� Rekodierung der Artikelnamen UTF-8 � HTML
� Zusammenfassung der Nicht-Lemma Kategorien
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis42
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WordNetParser
WordNetParser
� Wird vom WikiCrawler gestartet (mit Lemma)
� Parst WordNet Datendateien
� Übergabe von Semantiken
� Generierung von zwei XML (Graph & Tabelle)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis43
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WordNetParser
AuthorCrawler
� Wird vom WikiCrawler gestartet (mit Lemma)
� Nutzt Wiki API
� Extraktion der Autoren und deren Artikel
� Filterung
� Generierung von XML
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis44
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WikiSemVis
WikiSemVis
� Basiert auf Flex und AS3
� Nutzt das Visualisierungsframework RaVis
� Eventbasierte Kommunikation zwischen den Komponenten
� Greift auf die in der Extraktion generierten XML Dateien zu (HTTP-Services)
� Interaktive Elemente in AS3 verwirklicht
� Alle visuellen Elemente in Flex
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis45
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WikiSemVis
WikiSemVis - Artikelansicht
� Flash unterstützt nur bedingt die Darstellung von HTML
� Verwendung eines IFrame zur Darstellung der Wiki-Inhalte
� Adaption der IFrame Technik in Flash von Brian Deitte
� Darstellung der Gewichtung
� Filterfunktion
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis46
WikiSemVisImplementierung
Implementierung >> WikiSemVis
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis47
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Implementierung >> WikiSemVis
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis48
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Probleme
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis49
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Probleme
ProblemeDatenextraktion
� Laufzeit Datenextraktion
� Kategorie-Reduzierung
� Kein Standard bei mehrteiligen Artikelnamen
Allgemein
� Kommunikation SemCrawler �� WikiSemVis
Visualisierung
� Performance Visualisierung
� Einbindung HTML mit IFrame (Explorer)
� Tooltip (Explorer)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis50
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Evaluierung
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis51
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Evaluierung
Evaluierung
� Anonymer Test im Web - Multiple-Choice-Formular- Möglichkeit Kommentare zu hinterlassen- Unterschiedliche Foren (mit technischem Hintergrund)
� Ziele der Befragung:- Nützlichkeit- Bedienbarkeit- Verständnis
� Erwartungen an das Ergebnis:
- Probleme beim Verständnis und/oder Bedienung- Die Applikation ist zu langsam- Jedoch werden auch Nutzer existieren die einen Nutzen in der Visualisierung finden (besonders wenn sie sich Zeit lassen)
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis52
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Evaluierung
Evaluierung
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis53
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Evaluierung
Evaluierung
� Bis auf einen Nutzer kannten alle Wikipedia
und haben sie bereits zur Recherche genutzt
Eigene Erfahrung
� WikiSemVis kann einen Mehrwert bei der Recherche bieten
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis54
Evaluierung
Evaluierung
� Anonymer Test im Web (Multiple-Choice-Formular)
� Ziele der Befragung:- Nützlichkeit- Bedienbarkeit- Verständnis
�
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis55
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Ausblick
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis56
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Ausblick
Ausblick
� Datenbankeinbindung – verbesserte Ergebnismenge?
� XML-Verwaltung für die „Live“-Variante
� History der besuchten Lemmata
� Performanteres Visualisierungsframework
� Interlingualität zum Vergleich der Ergebnisse?
� Integration von Spezialwissen zur Thesaurus-Unterstützung
� Der Nutzen eines 3D Radial-Graphs?
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis57
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Diskussion
Vielen Dank für Ihre Aufmerksamkeit
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis58
Motivation & Ziele~
Grundlagen&
Analyse~
Konzept- Datenextraktion -
- Visualisierung -
~Implementierung
- Datenextraktion -- Visualisierung -
~Probleme
~Evaluierung
~Ausblick
~Diskussion
Diskussion
Vielen Dank für Ihre Aufmerksamkeit
Patrizia Wojsyk & Arkadius Grycko – Extraktion und Visualisierung von semantischen Informationen aus Wikis59