einführung in die semantische suche in massendaten
Post on 01-Jul-2015
224 Views
Preview:
DESCRIPTION
TRANSCRIPT
Einführung in die intelligente
Suche in MassendatenBDK-Fachtagung "Auswertung von Massendaten"
Martin Voigt
Oktober 2014
1
Query Construction
QueryProcessing
Result Presentation
QueryRefinement
Keywords Keywords ++ Natural Language Formal Query Languages
IR-based Matching & Ranking
KB-based Matching & Iinferencing
Query Visualization Document & Data
Presentation Summarization
Implicit Feedback Explicit Feedback Incentives
Semantic Models Real World Resources
Wer ich bin.
(Wiss. Mitarbeiter &) Doktorand @ TU Dresden
Komposite Webanwendungen / Mashups
Semantische Technologien, NLP, Topic Mining
Informationsvisualisierung & HCI
Sen. Researcher & Projektleiter @ Ontos
Linked Data Anwendungen für Endnutzer
2
Data Upload & Augmentation
Data Pre-Selection
Data & VisSelection
Visualization Configuration
Interpretation & Internalization
Data Augmentation
Visualization Recommendation
Visualization Integration
Knowledge Externalization
Data Reduction
Syst
em
Use
r
Human Action
System Action
31 5 7 9
2 4 6 8 10
Interaction
Wer ist Ontos.
3
3
DoW – CTI Project
Ontos Group
Key Facts- Established 2001
- 15+ employees
- Share in Eventos RU
(30 people)
- 5± Mio CHF turnover
Industry- Media/News
- Law Enforcement
- Government
- Switzerland
- (Russia)
Agenda
Probleme heutiger Suchtechnologien
Things, not Strings: Semantik!
Intelligente, semantische Suche
Zusammenfassung
4
Heutige Suchtechnologien …
… und deren Probleme
5
Daten, Daten, Daten, …
6
http://www.csc.com/insights/flxwd/78931-big_data_growth_just_beginning_to_explode
Daten, Daten, Daten, …
7
http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
Daten, Daten, Daten, …
Probleme mit den Daten („4 Vs”)
Datenmenge (Volumen)
Datenvielfalt / -heterogenität (Variety)
8
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Daten, Daten, Daten, …
Probleme mit den Daten („4 Vs”)
Datenmenge (Volumen)
Datenvielfalt / -heterogenität (Variety)
Geschwindigkeit (Velocity)
9
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Daten, Daten, Daten, …
Probleme mit den Daten („4 Vs”)
Datenmenge (Volumen)
Datenvielfalt / -heterogenität (Variety)
Geschwindigkeit (Velocity)
Datenqualität (Veracity)
10
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Daten, Daten, Daten, …
… und der Mensch?
11
Key et al: VizDeck: self-organizing dashboards for visual analytics.Procs. of the 2012 ACM SIGMOD International Conference on Management of Data, ACM, 2012.
Suchmaschinen!
Desktop, Web, Intranet, Smartphone, …
12
Klassisches Information Retrieval
Ziel: Erzeugung einer gewichteten Ergebnisliste
unter Verwendung versch. Algorithmen (TFIDF,
PageRank, …)
ggf. Nutzung von
Personalisierung
Facettierung
multimediale Ergebnisse
13
http://www.photocase.de/foto/187761
Klassisches Information Retrieval
Funktionsweise von IR
14
Suchanfrage Dokumente
Index
Suchterme Schlüsselwörter
Ergebnisse http://www.photocase.de/foto/140872
http://www.photocase.de/foto/109526
Klassisches Information Retrieval
15
Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente.
Ontologie-basiertes Information-Filtering und –Retrieval mit relationalen Datenbanken.
In Advances in Information Systems and Management Science, Bd.10, 2004, 3-8325-0514-8
Suchmaschinen im Web
3 wesentliche Aufgaben
Crawlen
Verarbeiten der Suchanfrage (IR + Rangfolge)
Darstellung der Ergebnisse
16
http://www.photocase.de/stock-fotos/118186
http://www.photocase.de/stock-fotos/184687
Multimedia Daten
17
Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search
Multimedia Daten
18
Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search
Probleme der Suche
Stichwortsuche statt semantische Fragen
Menschen verlernen das Fragen!
19
Probleme der Suche
Verschiedene Sprachen
20
Probleme der Suche
Homonyme, z.B. Bank & Bank
21
Probleme der Suche
Synonyme, z.B. Franz Beckenbauer & Kaiser
22
Probleme der Suche
Subjektivität der Suche
23
Zusammenfassung
Grundproblem: 4 „V“ der Daten
Information Retrieval etabliert
Maschinelles Lernen hunderter von Dimensionen
über ca. 45 Mrd. Dokumente (http://www.worldwidewebsize.com/)
große Investitionen in Rechenkraft
Bleibende Herausforderungen beziehen sich
insbesondere auf die Modellierung
menschlicher Wahrnehmung
24
Things, not Strings!
Wie Semantik die Suche verbessert…
25
Das Verständnisproblem
26
<html>
…
<b>Dr. Mark
Smith</b>
<i>Physician</i>
Main St. 14
Smalltown
Mon-Fri 9-11 am
Wed 3-6 pm
…
</html>
Dr. Mark SmithPhysician
Main St. 14
Smalltown
Mon-Fri 9-11 am
Wed 3-6 pm
Print in bold: „hmf298hmhudsa“
Print in italics: „mj2i9ji0“
Print normal: „fdsah
02hfadsh0um2m0adsmf0ih
m2mjpoimjiofdpmsajiomjm“
http://www.photocase.de/stock-fotos/279931
Das Verständnisproblem
Volltextsuche mit klassischem IR
„Mark Smith“
„Physician in Smalltown“
„Doctor in Smalltown“
„Physician in Smalltown with
opening hours on
Wednesday afternoon“
Informationen nicht
„maschinenverstehbar“
27
<html>…
<b>Dr. Mark
Smith</b>
<i>Physician</i>
Main St. 14
Smalltown
Mon-Fri 9-11 amWed 3-6 pm
…
</html>
Lösungsansatz: Semantic Web
Viele Namen…
Semantic Web
Web of Data
Data Web
Web 3.0
Linked Data
Linked Data Web
Linked Open Data
Semantic Data
…
28
http://geekandpoke.typepad.com/geekandpoke/
Lösungsansatz: Semantic Web
Zwei wesentliche Sichten
1) Explizite Links zwischen Daten im WWW
Semantic Web als „Web der Daten“
2) Familie standardisierter Technologien, die gut
zusammenspielen, u.a. flexibles Datenmodel (RDF),
Ontologiesprachen (RDFS, OWL), Anfragesprache
(SPARQL), …
Fazit: neue Lösungen/Anwendungen, die
vorher nicht möglichen oder praktikabel
waren (http://www.thefigtrees.net/lee/blog/2011/08/why_semantic_web_technologies)
29
Grundlagen / Prinzipien
HTTP URIs als Bezeichner für „Dinge“, so dass man nachschauen kann Ressourcen
http://www.bbc.co.uk/nature/life/Gray_Wolf
30
Grundlagen / Prinzipien
Verknüpfe Ressourcen untereinander Triple
Schaffung von Kontext
31
http://www.bbc.co.uk/nature/life/Gray_Wolf
http://www.bbc.co.uk/nature/life/Mammal
http://www.bbc.co.uk/nature/habitats/Temperate_broadleaf_and_mixed_forests
is a
lives in
Grundlagen / Prinzipien
Verknüpfe externe Datenquellen
Zusatzinformationen integrieren
32
LOD Knowledge Graphs
LOD in Zahlen (2014) http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/
1014 Datensätze in RDF
aber nur ca. 8% mit Lizenz!
DBpedia als „Herz“ (http://blog.dbpedia.org/category/dataset-releases/)
4,58 Mio „Dinge“ und ca. 3 Mrd. Triple
LOD als Basis für Wissensgraphen
„Knowledge Graph“ (Google, Yahoo), Satori (Bing)
34
http://lod-cloud.net/
Intelligente, semantische Suche
35
Semantische Suche
„Semantic search over documents is about
finding information that is not based just on the
presence of words, but also on their meaning“(http://link.springer.com/chapter/10.1007%2F978-3-642-54798-0_2)
Kombination von Text mit „Wissensstrukturen“
Entität-zentrierte Suche
Kombination verschiedener Techniken
Information Retrieval (IR)
Natural Language Processing (NLP)
Semantic Web (SW)
36
Suchprozess im Überblick
37
Query Construction
QueryProcessing
Result Presentation
QueryRefinement
Keywords Keywords ++ Natural Language Formal Query Languages
IR-based Matching & Ranking
KB-based Matching & Iinferencing
Query Visualization Document & Data
Presentation Summarization
Implicit Feedback Explicit Feedback Incentives
Semantic Models Real World Resources
Basis: Entity Linking
Wechselseitige Verknüpfung von „Ressourcen“
mit ihrer semantischer Repräsentation
Named Entity Recognition (NER)
Entweder basierend auf Regeln, Statistiken oder
Wörterbüchern (oder Kombination)
Named Entity Disambiguation (NED)
Nutzung des Kontextes im Vektorraum und/oder im Wissensgraphen Relatedness
38
Basis: Entity Linking
auch in Metadaten von Multimedia
39
Folie aushttp://de.slideshare.net/lysander07/semantic-analysis-of-video-data-to-enable-exploratory-search
Suchprozess im Überblick
40
Query Construction
QueryProcessing
Result Presentation
QueryRefinement
Keywords Keywords ++ Natural Language Formal Query Languages
IR-based Matching & Ranking
KB-based Matching & Iinferencing
Query Visualization Document & Data
Presentation Summarization
Implicit Feedback Explicit Feedback Incentives
Semantic Models Real World Resources
Anfragen & Semantik
Stichwortsuche (Keywords)
Paradigma der „Single Search Box“
vom Stil eher telegraphisch, z.B. keine Grammatik
wie aus der Einleitung
Erweiterte Stichwortsuche (Keywords ++)
Stichwort mit Kontext
Bsp.:
typisierte Formularfelder
Facettierte Suche
Ortsauswahl in Karte
41
http://www.ebay.de
Anfragen & Semantik
Erweiterte Stichwortsuche (Keywords ++)
Amazon Stichworterweiterung & Facetten
42
Anfragen & Semantik
Erweiterte Stichwortsuche (Keywords ++)
Ontos: Facettierung bei Suche in Spezifikationen
43
Anfragen & Semantik
Natürlichsprachige Anfragen
Eingabe geschriebener und gesprochener Sprache
Ziel: „menschlichere“ Suche
Beispiele für geschriebene Anfrage
45
Anfragen & Semantik
gesprochene Anfragen
„On-the-go“ Suche zwingt freie Hände
ca. 30% der Autofahrer lesen/schreiben
Textnachrichten beim Fahren! (http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6210a1.htm)
46
http://enterprisematters.blogs.xerox.com
http://grist.org/
http://waz.m.derwesten.de
Anfragen & Semantik
Natürlichsprachige Anfragen, z.B.
Apple‘s Siri (http://searchengineland.com)
47
Suchprozess im Überblick
48
Query Construction
QueryProcessing
Result Presentation
QueryRefinement
Keywords Keywords ++ Natural Language Formal Query Languages
IR-based Matching & Ranking
KB-based Matching & Iinferencing
Query Visualization Document & Data
Presentation Summarization
Implicit Feedback Explicit Feedback Incentives
Semantic Models Real World Resources
Verarbeitung & Semantik
Entitäten sind wichtig für Anfragen:
ca. 70% mit Named Entitys (NE) (entity mention
queries), z. B. “brad pitt Katie holmes”
ca. 50% mit Fokus auf eine NE (entity seeking
queries), z. B. “brad pitt attacked by fans”
ca. 10% suchen nach Klassen von NEs, z. B. “brad
pitt movies”
49
• Jeffrey Pound, Peter Mika, Hugo Zaragoza:
Ad-hoc object retrieval in the web of data. WWW 2010: 771-780
• Thomas Lin, Patrick Pantel, Michael Gamon, Anitha Kannan, Ariel Fuxman:
Active objects: actions for entity-centric search. WWW 2012: 589-598
Verarbeitung & Semantik
Ziel: Entity Linking der Query Abgleich mit
Entitäten in den Dokumenten
Gutes Tutorial: http://ejmeij.github.io/entity-linking-
and-retrieval-tutorial/
Vorgehen
1) „Linkbare“ Phrasen identifizieren
50
„Golf vergleichen Deutschland“
Verarbeitung & Semantik
Vorgehen
2) Identifikation,
Rangfolge und
Selektion von Links
51
„Deutschland“
„Golf“
Verarbeitung & Semantik
Vorgehen
3) Disambiguierung durch Kontext (optional)
52
Verarbeitung & Semantik
Vorgehen
3) Disambiguierung durch Kontext (optional)
53
Suchprozess im Überblick
54
Query Construction
QueryProcessing
Result Presentation
QueryRefinement
Keywords Keywords ++ Natural Language Formal Query Languages
IR-based Matching & Ranking
KB-based Matching & Iinferencing
Query Visualization Document & Data
Presentation Summarization
Implicit Feedback Explicit Feedback Incentives
Semantic Models Real World Resources
Präsentation & Semantik
Ziele: 1) Anfrage visualisieren, 2) Ergebnisse &
Zusatzinformationen präsentieren und ggf. 3)
Zusammenfassungen erstellen
User Interfaces
Rich Result Pages
Direct Display
neuartige User Interfaces
55
Präsentation & Semantik
Rich Result Pages: Google Knowledge Graph
56
Präsentation & Semantik
Rich Result Pages: Google Knowledge Graph
57
Präsentation & Semantik
Rich Result Pages: Ontos für „Cash“-Magazin
58
Präsentation & Semantik
Direct Display: Google Knowledge Graph
59
Präsentation & Semantik
Direct Display: WolframAlpha
60
http://www.wolframalpha.com/input/?i=oranienburg
Präsentation & Semantik
Künftige UIs: „getInspired“
61
Keck et al. - Visual Innovations for Product Search Interfaces. Informatik 2014.
http://www.visea-projekt.de/
Semantische Suche @ Ontos
62
Eventos (IR)- Information Retrieval (Algebra)
- Clustering & Summarization
- Identifikation von „Story Lines“
OntosMiner (NLP)- Entity Linking
- Regel- & Wörterbuch-basiert- Semantische Annotation (RDF)
OntoQUAD
- RDF / Graph Store (Unix, Android)- Triple & Quadruple
- SPARQL 1.1
Semantische Suche @ Ontos
63
Beispiel: IBM Watson
Ziel: Cognitive Computing
Open Domain Frage-Antwort-System
Fragen verstehen & antworten
Wahrscheinlichkeiten für Antworten
Erläuterung warum Antwort korrekt
Schnell: Antwort in < 3s
Evaluation: Jeopardy gegen die Besten
64
http://de.slideshare.net/knoesis/knoesis2013
Beispiel: IBM Watson
65
http://de.slideshare.net/knoesis/knoesis2013
Beispiel: Google Glass
Head Mounted Displays (HMD) sind Realität!
Augmentierung der Realität Informieren
statt Suchen
Infos: https://www.google.com/glass/start/
66
Beispiel: Google Glass
67
Aktuelle F&E-Fragen
kaum Lokale Entitäten Erweiterung der LOD
notwendig
(Erläuterung) der Herkunft der Informationen
68
Offene F&E-Fragen
Aktualität semantischer Daten
69
Offene F&E-Fragen
Automatische Zusammenfassung von Ergebnissen zu „Stories“ „Robot Journalism“
70
Merge
Analyse
Linked Data Set
Features
Phrase Selection Phrase
Template Inclusion
First Text
NL Generation & Cleaning
Text
http://www.slate.com/blogs/future_tense/2014/03/17/
quakebot_los_angeles_times_robot_journalist_writes_article_on_la_earthquake.html
Zusammenfassung
71
Was nehme ich mit?
Information Retrieval etabliert
Verbesserung der Suche nur durch
Modellierung menschlicher Wahrnehmung
Nutzung semantischer Technologien und
Wissenbasen vielversprechend
Trend zur „natürlichen Kommunikation“ mit
Maschine
72
Was nehme ich mit?
“When we started Google 15 years ago my
vision was that information would come to you
as you need it. You wouldn’t have to search
query at all.”
Sergey Brin, Google
73
http://blog.ted.com/2013/02/27/sergey-brin-with-google-glass-at-ted2013/
Q&A
Martin Voigt
Ontos AG / GmbH
Nidau (CH) / Leipzig (DE)
T: +49 341 21559-10
M: +49 178 40 222 58
E: martin.voigt@ontos.com
74
https://twitter.com/m_a_r_t_i_n
https://www.xing.com/profile/Martin_Voigt12
http://de.linkedin.com/pub/martin-voigt/9/3a0/64b/
top related