text mining - wissensrohstoff...
Post on 01-May-2020
9 Views
Preview:
TRANSCRIPT
Institut für Informatik
Text Mining -
Wissensrohstoff Text
Gerhard Heyer
Universität Leipzig heyer@informatik.uni-leipzig.de
Einführung
Informatik und ihre Anwendungen
3
1940-1960 Wissenschaftliches Rechnen
70er Datenbanken, Digitalisierung von Geschäftsprozessen (Wirtschaftsinformatik)
80er Digitalisierung von elektrotechnischen Anwendungen,
Beginn der Textverarbeitung, SGML
90er Digitalisierung von analogen Medien, Vernetzung von verteilten Ressourcen: http, HTML, XML
seit 2000 Internet basierte Dienste, Wissensmanagement
Einführung
Das große Aber der Digitalisierung
What do you do with a million books? (Gregory Crane, DL Magazine 2006)
• Wer soll das alles lesen?
• Wie können die Inhalte genutzt werden?
• Wie können die Ergebnisse ins Netz zurückfliessen?
5 Prof. Dr. G. Heyer Bochum, 4.
Februar 2010
Einführung
6
Definition
„Process of deriving high-quality information from text“ (Feldman &
Sanger 2006)
Text mining [is] "distant reading" i.e. opposed to "close reading“ (ttasovac on twitter, Jul. 5th 2010)
Im weiteren Sinne:
Technologie für die
automatische Strukturierung
und Transformierung von
(meist sehr großen)
Textkollektionen
Prof. Dr. G. Heyer Bochum, 4. Februar 2010
Einführung
7 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Text Mining (Begriff): Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Zugriffsergebnis
bekannt
Zugriffsergebnis
nicht bekannt
Strukturierte
Daten
Unstrukturierte
Daten
Datenabfrage
Datenbank-Systeme
Datenanfrage
Suchmaschinen,
Data Mining
Inhaltsabfrage
Dokumenten-
management-Systeme
Inhaltsanfrage
Text Mining
Werkzeuge
Einführung
8 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
• Voraussetzung: Text ist digitaler Wissensrohstoff
• Wissensbasierte/ Regelbasierte Ansätze problematisch
– zu große Menge an Textdaten
– flexible Strukturen erforderlich
– Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“
• Text Mining
Forschungsbereich zwischen Information Retrieval und linguistischer Informatik
Text Mining
Einführung
9 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Einige Arbeitshypothesen
• Wissen wird hauptsächlich durch (digitalen) Text vermittelt
(Wissensgesellschaft)
• digitaler Text dient als Codierung von Wissen
• digitaler Text ist in sehr grossen Mengen verfügbar
• Text kann als digitaler Wissensrohstoff wiederverwendet
werden (vgl. translation memories)
• semantische Relationen können unter Verwendung
vorhandener Ressourcen (z.B. Lexika, Mark-ups u.a.
Wissensquellen) automatisch extrahiert werden
Text als Grundlage der Wissensverarbeitung
Einführung
10 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Erweitertes Text-Retrieval
– Finden von Definitionen, Erläuterungen, Referenzen, Zitaten
– ggf. mehrsprachig
– Unterstützung der explorativen Suche
Inhaltsanalyse
– Extrahieren von Eigennamen und Fachterminologie
– Finden von fachspezifischen Schlüsselbegriffen
– Entdecken latenter semantischer Gemeinsamkeiten
– Berechnung semantischer Relationen zwischen Entitäten
– Clustern und Klassifizieren von Termen, Entitäten und
Dokumenten
– Entdecken von „interessanten“ Konzepten und Trends
Aufgaben des Text-Mining
Einführung
11 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Anwendungsbereiche des Text-Mining
Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...)
– WWW, Intranet, Portale
– Dokumenten-Management-Systeme, e/i/m-commerce
– Call Center, CRM
– Netzoptimierung und -verwaltung (Communities)
– Plagiatserkennung, Zitationsspuren, Text Reuse
Dokumentenklassifikation und Clustering
– Archivierung und Suche
– Workflow-Optimierung (emails, Geschäftsvorfälle, ...)
Informationsstrukturierung und –extraktion
– Aufbau von Ontologien
– Wissensakquisition
– Opinion Mining und Sentiment Analysis
– Trend und Topic Detection
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Text Classification
elektra.digicol.de
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Text Classification: Use
• assign new stories to person in charge
• personal profile
• distribute email to responsible person
• find scientific articles belonging to a topic
• find patents for a specific problem class
• …
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Similarity Search
• http://citeseer.ist.psu.edu/
• Back links: find follow-up work
• Reconstruct discourse
• Measure impact
• Search by co-citation, context of
reference
• Search contributions by author, etc.
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Text Clustering
• Cluster search
results
• Extract cluster
labels
• Hierachical
clusters
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Text Clustering: Grafical Representation
• Cluster web
sites
• Arrange by
similarity
www.kartoo.com
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Taxonomies
• Hierachical organization
of concepts
• Domains: patents,
computer science,
medical science
www.wipo.int
Tasks
• Assignment of phrases to
taxonomy concepts
• Automatic generation of
taxonomies
Einführung
Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Information Extraction
http://joboter.de/
Identify …
• Names
• Locations
• Institutions
• Points in time, dates
• Amounts of money
• …
Einführung
23 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Verfahren und ihre Voraussetzungen
Einführung
24 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Verfahren
• Stringbasierte Verfahren
– Editierdistanz und Alignment für N-Gramme (Buchstaben, Wortformen,
Phrasen)
– Text Reuse und Zitationsgraphen
• Musterbasierte Verfahren
– Patterns, bootstrapping
– NER, Informations- und Relationsextraktion
• Inhaltsanalysen
– Topic Modelle und latent semantic analysis
– Machine learning (clustering, classification)
– Kookkurrenzbasiertes Text Mining
– Graphbasierte Verfahren
• Hybride Verfahren
– Anwendungsspezifische Kombinationen aus o.g. Verfahren
Einführung
Voraussetzung Datenaufbereitung
Dokumente Ergebnis-
datenbanken
Analysis of text
1. Preprocessing: Säubern, LangID, Verweise, ...
2. Filter: Zerlegung, Markup, Metadaten, …
3. Verarbeitung:
- statistische Verfahren
dummy
- Muster basierte Verfahren
- Indexierung
Prof. Dr. G. Heyer Vorstellungsvortrag GESIS 2011 25
… … …
Einführung
Texte und Textparameter
• Text hat Struktur
• Wörter und ihre Reihenfolge nicht zufällig
• Satzfolge nicht zufällig
• Text hat Autor(en)
• Text hat Adressat(en)
• Text hat Entstehungskontext
• Text entsteht in einem Medium
• Entstehungskontext hat Zeit- und Raumkoordinaten
Bezug zu Konzept der Fachsprachen und Sprachregister
Rekonstruktion einzelner Textparameter interessante
Fragestellung fürs Text Mining
26 Prof. Dr. G. Heyer Modul Linguistische Informatik
Einführung
Inhalt
Algorithmen in c++
Grundlagen ... Sortieren
Suchen
Elementare Sortierverfahren Quicksort ... ... ...
Grundalgorithmus
Leistungsmerkmale …
ACM Hierarchy
ACM CCS
Theory of Computation
Analysis of Algorithms and
Problem Complexity
Nonnumerical
Algorithms and
Problems
Sorting and
Searching
Quicksort
Pivot element
Textstruktur und Termhierarchie: Algorithmen in C++ (Sedgwick)
Einführung
Textparameter finden ihren Niederschlag in Textmerkmalen
• N-Gram Frequenzen und Signifikanzen
• Kookkurrenzen
• getypte N-Gramme und Kookkurrenzen
• relative Häufigkeiten von (getypten) N-Grammen und
Kookkurrenzen (z. B. relativer Anteil von Stopwörtern, Nomina
oder Mehrworttermen)
• Ähnlichkeiten von N-Gramme und Kookkurrenzen (z. B.
Editierdistanzen, Dice, …)
• Muster von (getypten) N-Gramme mit oder ohne Wildcards
• Veränderungen von Textmerkmalen über die Zeit
• … … …
28 Prof. Dr. G. Heyer Modul Linguistische Informatik
Einführung
Patterns nach Winograd
Patterns
1. einfache oder literal patterns
2. open patterns
(Nutzung von Wildcards)
3. variable patterns
(Nutzung von Variablen u. Lexika)
4. Satzstruktur Patterns
- semantisch
- syntaktisch (LFG)
• Vergleiche Ausdrücke (gemäß eines Ähnlichkeitsmaßes) und
• matche (abgleichen) in Bezug auf Constraints
29
Prof. Dr. G. Heyer Modul Linguistische Informatik
Einführung
Weitere Textmerkmale
In der Literatur finden sich zahlreiche Beschreibungsparameter für Texte, die Einfluss auf die zu verarbeitenden Features haben, z.B.
– Entropy,
– Concentration,
– Dispersion,
– Repetition,
– Predictability,
– Grammaticality,
– Sentence Length,
– Spelling Accuracy u.v.m.
(vgl. Testilova 1992, Semino & Short 2004, Jockers et. al. 2011, Schierle 2011)
30 Prof. Dr. G. Heyer Modul Linguistische Informatik
Einführung
Beispiel für Textmerkmale
31 Prof. Dr. G. Heyer Modul Linguistische Informatik
[Schierle 2011, S. 35]
Einführung
32 Prof. Dr. G. Heyer Modul Linguistische Informatik
Textmerkmale sind zentral fürs maschinelle Lernen im Text Mining
Einführung
Abschließendes Beispiel
Einfluss von Textmerkmalen auf die Qualität einer
Sachgebietsklassifikation
• Naiver Bayes’scher Klassifikator mit Unigrammen auf
Filmempfehlungen: ~ 70%
['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
33 Prof. Dr. G. Heyer Modul Linguistische Informatik
• Selbe Anwendung-
sdomäne, aber mit
den top 10.000
most informative
features: ~ 93%
Einführung
34 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text
Literatur
Heyer, G., Quasthoff, U., Wittig, Th., Text Mining –
Wissensrohstoff Text, W3L Verlag: Bochum 2006
Manning, C., Schütze, H., Foundations of Statistical Language
Processing, MIT Press: Cambridge (Mass.) 1999
Witten, I., Frank, E., Data Mining: Practical Machine Learning
Tools and Techniques with JAVA Implementations, Morgan
Kaufman: San Francisco 2000
top related