teilvorhaben technische modellbildung - technische universität berlin · 2020-04-08 · 21.02.2020...
TRANSCRIPT
-
Teilvorhaben Technische Modellbildung -Implementierung eines Software-
Demonstrators zur Erhebung und Analyse von Daten aus sozialen Netzwerken
21. Februar 2020, Marburg
221.02.2020
Zusammenfassung
● Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs ein Softwaredemonstrator zur Textklassifikation & Sentimentanalyse entwickelt
● Die Annotation der Trainingsdaten zum Training der Textklassifizierer und der Sentimentanalyse erfolgte durch das ZTG
● Erste Erprobungen an Validierungsdaten aus dem Phänomenbereich Islamismus liefern vielversprechende Ergebnisse
● Die gewonnenen Erkenntnisse und die entwickelte Technik werden in eine browser-basierte Softwarelösung der Wissenschaft und zivilgesellschaftlichen Akteuren zur Verfügung gestellt
321.02.2020
Überblick
1. Demonstrator: Komponenten & Architektur
2. Datengewinnung
3. Indikatorenmodell & Textklassifizierung
4. Widgets
5. Datenexport
6. Ausblick: ‘Academic Version’
421.02.2020
modularePlugin-Architektur
Nutzerschnittstelle
Software-Framework*
Datenakquise
Auswertungs-Module
Datenimport / -export
& weitere Funktionen
*in Zusammenarbeit mit Projekt INTEGER
Text-Klassifizierer
1. Demonstrator: Komponenten & Architektur
521.02.2020
2. Datengewinnung (1/2)
Datenquellen PANDORA-Datenbank
Datenschnittstelle
API Webscraping
621.02.2020
2. Datengewinnung (2/2)
Datenzugangsberechtigungen
➔ Entkopplung technische Möglichkeiten & rechtliche Voraussetzungen
721.02.2020
3. Indikatorenmodell & Textklassifizierung (1/2)
1
2
Definition der Klassifizierer durch die wissenschaftlichen Partner
3 Klassifizierer, 7 (+2) Klassen
Datensatz Anzahl
Keine religiösen Bearbeitungen 2546
Formelhaft-religiöse Bearbeitungen 1088
Religiöse Bearbeitungen 3147
Keine Abwertungen 19547
Missbilligte Handlungen 2194
Abwertungen 1736
Beleidigungen 642
Keine gewaltaffirmativen Äußerungen 21847
Gewaltaffirmative Äußerungen 450
● Religiöse Bearbeitungen● Abwertungsphänomene● Gewaltaffirmationen
821.02.2020
3
4
Annotation von Trainingsdaten durch die wissenschaftlichen
Partner
Implementierung im Demonstrator
● 6781 Inhalte mit insgesamt 46440 Sätzen annotiert
3. Indikatorenmodell & Textklassifizierung (2/2)
921.02.2020
4. Widgets - Textklassifikation (1/2)
Beispiel: 3 Telegram-Kanäle
von denen einer als ‚dschihadistisch‘ eingeordnet wird
Ergebnis automatischer Text- & Satz-Klassifikation
1021.02.2020
4. Widgets - Textklassifikation (1/2)
● Direkter Vergleich der PANDORA-Indikatoren zwischen den drei Telegram-Kanälen in Projekt
● Als ‚dschihadistisch‘ eingeordneter Kanal ist rot markiert
Kanal A
Kanal B
Kanal C
Kanal AKanal BKanal C
1121.02.2020
4. Widgets - Sentimentanalyse
mehr negative Wörter bei ‘dschihadistischem’ Kanal
Auszählung positive & negative Wörter pro Inhalt
Gesamtbewertung als positiv
Gesamtbewertung als negativ
1221.02.2020
5. Datenexport
.csv.xlsx
MaltegoMaxQDA
...
Während der Projektlaufzeit von PANDORA wurden ca. 1 Mio. Textinhalte bereitgestellt
1321.02.2020
6. Ausblick: “Academic Version” (1/2)
1421.02.2020
6. Ausblick: “Academic Version” (2/2)
● Einschätzung von Datenquellen hinsichtlich 3 Kriterien:○ Religiöse Bearbeitungen○ Abwertungsphänomene○ Gewaltaffirmationen
● Verfügbare Datenquellen werden kuratiert
● Import eigener Daten oder Nutzung bereitgestellter Auswahl
● Zielgruppen: Wissenschaft, Soziale Arbeit, Bildung
Wie ist die Stimmung über das Attentat im Kanal, zustimmend oder ablehnend?
Wie hat sich der Diskurs seit dem letzten Ereignis verändert?
1521.02.2020
-Backup-
1621.02.2020
Komponenten des Software-Demonstrators II: Architektur
1721.02.2020
Gütebestimmung der Textklassifikation
● Verhältnis Trainingsdatensatz : Evaluationsdatensatz 4:1Im Folgenden: Precision p, Recall r, Accuracy a
● Klassifizierer „Religiöse Bearbeitungen“○ p = (80%, 69%, 86%), r = (91%, 53%, 83%), a = 81%
● Klassifizierer „Abwertungsphänomene“○ p = (88%, 52%, 75%), r = (97%, 27%, 45%), a = 86%
● Klassifizierer „Gewaltaffimationen“○ p = (99%, 70%), r = (99%, 49%), a = 99%
● Beispiel: Falsch-Positiv; Score: 0.94(Gewaltaffirmationen) mit Erklärung
- ¬ Religiös Formelhaft Religiös
¬ Religiös(wahr) 450 11 32
Formelhaft(wahr) 54 122 55
Religiös(wahr) 61 45 527
1821.02.2020
PANDORA-Widgets IV: Affektive und emotionale Prozesse
● Widget zur Messung der Häufigkeit vonpsycholinguistischen Markern
● Grundlage ist (deutschsprachiger) LIWC-Korpus(Linguistic Inquiry and Word Count)(liwc.wpengine.com)
● Ordnet verwendete Wörter (Wortstämme)psycholinguistischen Kategorien zu, z.B.(aggress*, bekämpf*, rache → Kategorie „Wut“)
● 68 Kategorien, 7598 Wörter (Wortstämme)
● Entwicklung eines Python-Modulsspacy_deliwc20XX zur Integration von LIWC inspaCy-Pipeline
● Beispielanalyse findet häufigere Verwendung vonWörtern der Kategorie „Wut“ und „NegativeEmotion“ bei den Datensätzen mit extremererAusprägung (Bild unten)
1921.02.2020
PANDORA-Widgets V: Semantische Netzwerkanalyse
● Darstellung semantischer Zusammenhängeals Netzwerkgraph
● Vorgehensweise am Beispiel desSatzes „Ich strafe die Ungläubigen.“:
1. Parsen des Satzes auf Syntaxebene ergibt Syntaxbaum:
1. Verbindungsregeln für Syntaxelemente:
sb → VERB, VERB → oa, etc.(sb: Subjekt, oa: Akkusativobjekt)
1. Zuordnung von vorher festgelegten Kategorien zu den Syntaxelementen anhand von Wortlisten (und Gewichtung nach relativer Häufigkeit):
Ich [ich, ...], Strafen [straf*, ...], Ungläubige [ungläubig*, gottlos*, ...]