teilvorhaben technische modellbildung - technische universität berlin · 2020-04-08 · 21.02.2020...

-

Teilvorhaben Technische Modellbildung -Implementierung eines Software-

Demonstrators zur Erhebung und Analyse von Daten aus sozialen Netzwerken

21. Februar 2020, Marburg

221.02.2020

Zusammenfassung

● Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs ein Softwaredemonstrator zur Textklassifikation & Sentimentanalyse entwickelt

● Die Annotation der Trainingsdaten zum Training der Textklassifizierer und der Sentimentanalyse erfolgte durch das ZTG

● Erste Erprobungen an Validierungsdaten aus dem Phänomenbereich Islamismus liefern vielversprechende Ergebnisse

● Die gewonnenen Erkenntnisse und die entwickelte Technik werden in eine browser-basierte Softwarelösung der Wissenschaft und zivilgesellschaftlichen Akteuren zur Verfügung gestellt

321.02.2020

Überblick

1. Demonstrator: Komponenten & Architektur

2. Datengewinnung

3. Indikatorenmodell & Textklassifizierung

4. Widgets

5. Datenexport

6. Ausblick: ‘Academic Version’

421.02.2020

modularePlugin-Architektur

Nutzerschnittstelle

Software-Framework*

Datenakquise

Auswertungs-Module

Datenimport / -export

& weitere Funktionen

*in Zusammenarbeit mit Projekt INTEGER

Text-Klassifizierer

1. Demonstrator: Komponenten & Architektur

521.02.2020

2. Datengewinnung (1/2)

Datenquellen PANDORA-Datenbank

Datenschnittstelle

API Webscraping

621.02.2020

2. Datengewinnung (2/2)

Datenzugangsberechtigungen

➔ Entkopplung technische Möglichkeiten & rechtliche Voraussetzungen

721.02.2020

3. Indikatorenmodell & Textklassifizierung (1/2)

1

2

Definition der Klassifizierer durch die wissenschaftlichen Partner

3 Klassifizierer, 7 (+2) Klassen

Datensatz Anzahl

Keine religiösen Bearbeitungen 2546

Formelhaft-religiöse Bearbeitungen 1088

Religiöse Bearbeitungen 3147

Keine Abwertungen 19547

Missbilligte Handlungen 2194

Abwertungen 1736

Beleidigungen 642

Keine gewaltaffirmativen Äußerungen 21847

Gewaltaffirmative Äußerungen 450

● Religiöse Bearbeitungen● Abwertungsphänomene● Gewaltaffirmationen

821.02.2020

3

4

Annotation von Trainingsdaten durch die wissenschaftlichen

Partner

Implementierung im Demonstrator

● 6781 Inhalte mit insgesamt 46440 Sätzen annotiert

3. Indikatorenmodell & Textklassifizierung (2/2)

921.02.2020

4. Widgets - Textklassifikation (1/2)

Beispiel: 3 Telegram-Kanäle

von denen einer als ‚dschihadistisch‘ eingeordnet wird

Ergebnis automatischer Text- & Satz-Klassifikation

1021.02.2020

4. Widgets - Textklassifikation (1/2)

● Direkter Vergleich der PANDORA-Indikatoren zwischen den drei Telegram-Kanälen in Projekt

● Als ‚dschihadistisch‘ eingeordneter Kanal ist rot markiert

Kanal A

Kanal B

Kanal C

Kanal AKanal BKanal C

1121.02.2020

4. Widgets - Sentimentanalyse

mehr negative Wörter bei ‘dschihadistischem’ Kanal

Auszählung positive & negative Wörter pro Inhalt

Gesamtbewertung als positiv

Gesamtbewertung als negativ

1221.02.2020

5. Datenexport

.csv.xlsx

MaltegoMaxQDA

...

Während der Projektlaufzeit von PANDORA wurden ca. 1 Mio. Textinhalte bereitgestellt

1321.02.2020

6. Ausblick: “Academic Version” (1/2)

1421.02.2020

6. Ausblick: “Academic Version” (2/2)

● Einschätzung von Datenquellen hinsichtlich 3 Kriterien:○ Religiöse Bearbeitungen○ Abwertungsphänomene○ Gewaltaffirmationen

● Verfügbare Datenquellen werden kuratiert

● Import eigener Daten oder Nutzung bereitgestellter Auswahl

● Zielgruppen: Wissenschaft, Soziale Arbeit, Bildung

Wie ist die Stimmung über das Attentat im Kanal, zustimmend oder ablehnend?

Wie hat sich der Diskurs seit dem letzten Ereignis verändert?

1521.02.2020

-Backup-

1621.02.2020

Komponenten des Software-Demonstrators II: Architektur

1721.02.2020

Gütebestimmung der Textklassifikation

● Verhältnis Trainingsdatensatz : Evaluationsdatensatz 4:1Im Folgenden: Precision p, Recall r, Accuracy a

● Klassifizierer „Religiöse Bearbeitungen“○ p = (80%, 69%, 86%), r = (91%, 53%, 83%), a = 81%

● Klassifizierer „Abwertungsphänomene“○ p = (88%, 52%, 75%), r = (97%, 27%, 45%), a = 86%

● Klassifizierer „Gewaltaffimationen“○ p = (99%, 70%), r = (99%, 49%), a = 99%

● Beispiel: Falsch-Positiv; Score: 0.94(Gewaltaffirmationen) mit Erklärung

- ¬ Religiös Formelhaft Religiös

¬ Religiös(wahr) 450 11 32

Formelhaft(wahr) 54 122 55

Religiös(wahr) 61 45 527

1821.02.2020

PANDORA-Widgets IV: Affektive und emotionale Prozesse

● Widget zur Messung der Häufigkeit vonpsycholinguistischen Markern

● Grundlage ist (deutschsprachiger) LIWC-Korpus(Linguistic Inquiry and Word Count)(liwc.wpengine.com)

● Ordnet verwendete Wörter (Wortstämme)psycholinguistischen Kategorien zu, z.B.(aggress*, bekämpf*, rache → Kategorie „Wut“)

● 68 Kategorien, 7598 Wörter (Wortstämme)

● Entwicklung eines Python-Modulsspacy_deliwc20XX zur Integration von LIWC inspaCy-Pipeline

● Beispielanalyse findet häufigere Verwendung vonWörtern der Kategorie „Wut“ und „NegativeEmotion“ bei den Datensätzen mit extremererAusprägung (Bild unten)

http://liwc.wpengine.com/

1921.02.2020

PANDORA-Widgets V: Semantische Netzwerkanalyse

● Darstellung semantischer Zusammenhängeals Netzwerkgraph

● Vorgehensweise am Beispiel desSatzes „Ich strafe die Ungläubigen.“:

1. Parsen des Satzes auf Syntaxebene ergibt Syntaxbaum:

1. Verbindungsregeln für Syntaxelemente:

sb → VERB, VERB → oa, etc.(sb: Subjekt, oa: Akkusativobjekt)

1. Zuordnung von vorher festgelegten Kategorien zu den Syntaxelementen anhand von Wortlisten (und Gewichtung nach relativer Häufigkeit):

Ich [ich, ...], Strafen [straf*, ...], Ungläubige [ungläubig*, gottlos*, ...]

teilvorhaben technische modellbildung - technische universität berlin · 2020-04-08 · 21.02.2020...

Documents