![Page 1: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/1.jpg)
Big Data Platform für
Erdsystemdaten (Ophidia)
Nele Lips & Dominik Scherer
06.11.2017
Projekt „Big Data“
Betreuer: Jakob Lüttgau, Julian Kunkel
![Page 2: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/2.jpg)
Ziele
Untersuchung der Leistungsfähigkeit von Ophidia
• Geschwindigkeit
• Funktionsumfang
• Usability
Feststellen, ob Ophidia Mehrwert bringt
“Gebrauchsanleitung” ausarbeiten
Dominik Scherer 2 / 8Machine Learning Hardware
![Page 3: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/3.jpg)
Was ist Ophidia?
Big Data Analytics Framework
Entwickelt am Euro Mediterranean Centre on
Climate Change (CMCC), erster Release 1.2.2016
Support Programm beim Umgang mit Big Data in
der Wissenschaft (erste Tests mit Klimadaten)
Dominik Scherer 3 / 8Machine Learning Hardware
![Page 4: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/4.jpg)
Ophidia Architektur
Bietet Zugriffs-, Analyse und Mining Funktionalitäten
Verwendet
• Wissenschaftliche numerische Bibliotheken
• Verteiltes und hierarchisches Speichermodell
• Paralleles Software Framework basierend auf MPI
Erweitert relationale Datenbanksysteme um
• Primitive
• Datentypen
Dominik Scherer 4 / 8Machine Learning Hardware
![Page 5: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/5.jpg)
Ophidia Architektur
Array Based Data (multidimensional)
Quelle: Ophidia: a big data analytics framework, Dr. Sandro Fiore, [1]
Dominik Scherer 5 / 8Machine Learning Hardware
![Page 6: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/6.jpg)
Ophidia Architektur
Aufbau
• Server front-end
• OphidiaDB
• Compute nodes
• I/O nodes
• Storage system
Dominik Scherer 6 / 8Machine Learning Hardware
![Page 7: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/7.jpg)
Zeitplan
Installation von Ophidia & Hintergrundwissen
• Oktober
Einarbeitung/Testen von Demobeispielen
• November
Benchmarken mit realen Testdaten (vom DKRZ)
• Dezember
SQL
• Januar
Dominik Scherer 7 / 8Machine Learning Hardware
![Page 8: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/8.jpg)
Dominik Scherer 8 / 8Machine Learning Hardware
Quellen:
• [1] http://aims-group.github.io/pdf/f2f2014/ophidia.pdf
• S. Fiore, A. D’Anca, C. Palazzo, I. Foster, D.N. Williams, G. Aloisio,
Ophidia: Toward Big Data Analytics for eScience, In Procedia
Computer Science, Volume 18, 2013, Pages 2376-2385
• https://github.com/OphidiaBigData/ophidia-analytics-framework
![Page 9: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/9.jpg)
AI for a computer gameGaming AI in der Spring RTS Engine
Valentin Krön und Friedrich Braun
![Page 10: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/10.jpg)
NOTA(Not Original Total Annihilation)
- Kostenfreie Engine für RTS- Eins von vielen Möglichen Spielen für
Die Spring RTS Engine- Dem spiel „Total Annhilation“
nachempfunden- Verschiedene Einheiten Arten,
Ressourcen Management und Einheiten Micro
- KI soll das spielen
![Page 11: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/11.jpg)
Die KI
• Auf Basis von Existierenden Bots einen Eigenen entwickeln• Der Bot soll in Lage seine Entscheidungen während des Spiels selbst
zu treffen• Wir lassen den Bot gegen andere existierende Bots antreten• Anschließen wird die KI durch Evolutionäre Algorithmen
weiterentwickelt
![Page 12: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/12.jpg)
Tools
• Als Programmiersprache wird C++ verwendet• Dazu das Deep Learning Framework „Caffee“ developed by Berkeley
AI Research• Spring RTS selbst ist eine Engine und bietet auch tools für das
Entwickeln von KI‘s an (C++ Wrapper API)• Tool zur Auswertung der Game Logs
![Page 13: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/13.jpg)
Zeitplan
● Bis Anfang Dezember: der Bot soll lauffähig sein● Bis Ende Dezember: die Auswertung der Logs soll stehen (inkl.
Auswertungsfunktion) und der Bot soll in der Lage sein reaktive Entscheidungen zu treffen
● Bis Ende Januar: der evolutionärer Algorithmus soll stehen (d.h. es soll dann möglich sein das Training zu beginnen)
● während Februar: trainieren der KI
![Page 14: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/14.jpg)
Wolkenkamera: Big Data ProjektThemenvorstellung
Marcel Steger, Jan Zickermann
Universität Hamburg
6. November 2017
1 / 12
![Page 15: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/15.jpg)
Übersicht
1 Projektthema
2 PreprocessingEntkrümmung
3 Supervised Learning
4 Unsupervised Learning
5 Zeitplan
2 / 12
![Page 16: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/16.jpg)
Projektthema
Projektthema: WolkenkameraZiel: anhand von Photographien einer stationären Kamera denBewölkungsgrad zu ermitteln. Hierfür sollen neuronale Netze verwendetwerden.
[1]
python: tensorflow (machine learning), scipy (preprocessing)3 / 12
![Page 17: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/17.jpg)
Preprocessing
Preprocessing
Aussortierung der ’noisy labels’
[2]
Erkennung der Sonne und Differenzierung von WolkenBestimmung des Messpunktes des Ceilometer
4 / 12
![Page 18: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/18.jpg)
Preprocessing Entkrümmung
Entkrümmung
cos θ → verzerrt an den Rändern5 / 12
![Page 19: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/19.jpg)
Supervised Learning
Supervised Learning
verfügbare Labels:rain (Regensensor)height (Ceilometer)
Klassifizierung von Wolkenbild nach Regenpreprocessed data → Convolutional Neural Network
6 / 12
![Page 20: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/20.jpg)
Supervised Learning
Convolutional Neural Networks
lokale Informationen verwenden, wie das Augeconvolution: Filter die über Pixel fahrenpooling : Pixel reduzieren (z.B. 2x2 max-pooling)Wolkenbild → Regenwahrscheinlichkeit
[3]
7 / 12
![Page 21: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/21.jpg)
Unsupervised Learning
Unsupervised Learning (GAN)
Ziel: Wolkenbilder zu generieren basierend auf vorangegangenenBilderngenerator : realistisches Bild (nach Urteil von discriminator)
wird trainiert durch output von discriminatordiscriminator : entscheidet real/fake
wird trainiert mit real data input
8 / 12
![Page 22: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/22.jpg)
Unsupervised Learning
Generative Adversarial Networks
[4]
9 / 12
![Page 23: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/23.jpg)
Unsupervised Learning
GAN Probleme
Folgebilder generieren:Informationen der vorangegangenen Bilder erhaltenmöglicherweise zu wenige Informationen für Generator
Performance:Bildgröße muss reduziert werdenreduzieren von neurons/layers → Tests notwendig
10 / 12
![Page 24: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/24.jpg)
Zeitplan
Zeitplan
1 supervised learning (Regen) für CNN Modelbis Dezember
2 CNN Model für GAN (unsupervised learning)Januar
3 training / finetuning
11 / 12
![Page 25: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/25.jpg)
Zeitplan
Bildquellen:Wolkenbild, 04.11.2017 : https://github.com/LEX2016WoKaGru/pyclamster/blob/master/examples/images/wettermast/Image_Wkm_Aktuell_2.jpg?raw=true
Wolkenbild mit Regen, 05.11.2017 : https://github.com/LEX2016WoKaGru/pyclamster/blob/master/examples/images/wettermast/Image_Wkm_Aktuell_1.jpg?raw=true
CNN, 05.11.2017:http://www.mdpi.com/entropy/entropy-19-00242/article_deploy/html/images/entropy-19-00242-g001.png
GAN, 04.11.2017: https://image.slidesharecdn.com/generativeadversarialnetworks-161121164827/95/generative-adversarial-networks-11-638.jpg?cb=1480242452
12 / 12
![Page 26: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/26.jpg)
SemantischeSuchemitApacheSolarEikeNilsKnopp,MinhHieu Nguyen
![Page 27: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/27.jpg)
ThemenstellungInwieweitkannApacheSolr fürsemantischeSuchen(ähnlicheBegriffe,Synomyme)eingesetztwerden?
![Page 28: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/28.jpg)
KonkretesZielErstellungeinerWeb-App›IntuitivesemantischeSuche›Passendfürkomplexewissentschaftliche Daten
REST-AnbindungderWeb-AppanApacheSolr
![Page 29: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/29.jpg)
FeaturesBasicWebsite›Suchfeld›Ergebnisliste›Kategorien/Filter
Features›Statistics (Userquery statistics)›Machine Learning„Learningto Rank“›IntuitivesdurchsuchenspeziellerFelder›project_name›entry_type
![Page 30: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/30.jpg)
LangzeitzieleTagsundKategorienvereinheitlichen(CleanUp)›UnterschiedlicheSchreibweisenderSelbenSachenzusammenführen
IntelligenteFelder
Stemming derSuchbegriffe
SuchenachSynonymendesSuchbegriffs
Result ClusteringmitCarrot2
![Page 31: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/31.jpg)
VorgehenFrontend:›ReactJS
Backend:›Nochnichtganzabsehbar,obbenötigt›Fallsbenötigt:NodeJS
ApacheSolr›Version7.1.0
![Page 32: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/32.jpg)
VorgehenErstellungeinerrudimentärenWebsiteinReactJS (Testumgebung)
AnbindungvonApacheSolr andieWebsite›AnbindungvonFilternetc.›EinbindungvonPluginswieUserQueryStatistics
![Page 33: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/33.jpg)
CHAT BOT
Chat botPaul Offner
Merlin Sewina
Felicitas Castrian
![Page 34: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/34.jpg)
ZIEL
Implementierung eines Chat bots, welcher auf Level1 sowie Level 2 Supportanfragen von Usern über eine
Webschnittstelle antworten und auf die entsprechenden Links verweisen kann.
1
![Page 35: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/35.jpg)
HERANGEHENSWEISE
• 1. Crawler
• 2. Programm zur Textanalyse
• 3. Anforderungsanalyse an Chat bot
• 4. Chat bot
• 5. Web Schnittstelle für User Anfragen/ Antworten
2
![Page 36: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/36.jpg)
1. CRAWLER
• Crawler für DKRZ Seite
• Speichern aller gefundenen Html-Links mit Inhalt in Dateien in einem Verzeichnis.
• Reduzierung der Dateien auf die Textelemente.
3
![Page 37: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/37.jpg)
2. TEXTANALYSE
• Programm zur Analyse der abgespeicherten Dateien.
• Auffinden von Schlagwörtern
• Verweisung vom Chat bot auf die entsprechenden Links bei Anfrage
àVerschiedene Ansätze zur Analyse von Texten.
4
![Page 38: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/38.jpg)
3. ANFORDERUNGSANALYSE CHAT BOT
• Analyse des Umfangs und der Art möglicher Supportanfragen an unseren Chat bot.
à Detailliertere Auseinandersetzung mit Website des DKRZs.
5
![Page 39: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/39.jpg)
4. CHAT BOT
• Implementierung Chat bot auf Basis der Anforderungsanalyse.
6
![Page 40: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/40.jpg)
5. WEB SCHNITTSTELLE
• Web Schnittstelle (REST API) für User Anfragen/ Antworten an Chat bot über HTTP.
7
![Page 41: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/41.jpg)
ZEITPLAN
30.10-05.11 Crawler implementiert06.11-12.11 Crawler fertigstellen / Textanalyse Ideen13.11-29.11 Textanalyse umsetzten20.11-26.11 Textanalyse 27.11-03.12 Anforderungsanalyse Support04.12-10.12 Chat bot / Zwischenpräsentation11.12-17.12 Chat bot18.12-22.12 Chat bot08.01-14.01 Webschnittstelle / Zwischenpräsentation15.01-21.01 Webschnittstelle22.01-28.01 Projektbericht / Präsentation29.01-03.02 Projektbericht fertigstellen
8
![Page 42: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/42.jpg)
BILDQUELLE
• https://d30y9cdsu7xlg0.cloudfront.net/png/852157-200.png
9
![Page 43: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/43.jpg)
Analyse von News-Artikeln –Sentiment Analysis mit
word2vecMaike Schubert ([email protected])
Raffael Diestel ([email protected])
![Page 44: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/44.jpg)
Detaillierte Themenvorstellung
• Analyse von News
• Sammlung großer Daten Sets von Artikeln
beschränken auf bestimmte Topics (bspw. Politik, Business)
• Sentiment-Analysis mit word2vec
Allgemein auf Herausgeber bezogen und themenbezogen
Inwiefern lässt sich durch Sentiment-Analysis mittels word2vec das allgemeine Sentiment sowie auch die Position zu bestimmten Themen von den verschiedenen News-Portalen ermitteln?
![Page 45: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/45.jpg)
Ansatz/Methodik
• Vorgehen:
− Sammlung von Daten mittels Crawler → Data Set erhalten
− Extrahieren von Text und Schlüsselinformationen
− Analyse und Visualisierung der Daten mit word2vec
− Auswertung der Ergebnisse
• Themen:
− Natural Language Processing
− Machine Learning
− Text Analysis
− Data Visualization
![Page 46: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/46.jpg)
Zeitplan
• Daten sammeln Dauer: ca. 2 Monate
• relevante Informationen extrahieren
• Daten analysieren/visualisieren
• Auswertung der Ergebnisse
![Page 47: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/47.jpg)
Exploration of NewsTatyana Galitskaya, Sara Yüksel, Alexander Spikofsky
![Page 48: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/48.jpg)
Ziele
• Unterschiede und Gemeinsamkeiten zwischen amerikanischen, britischen und deutschen News herausfinden
• Fokus auf internationale Nachrichten in englischer Sprache
• Zu untersuchende Seiten u.a. BBC, The New York Times, Spiegel Online, …
![Page 49: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/49.jpg)
Methoden & Tools
• Ideen: • Themenidentifikation• Ähnlichkeiten zwischen Artikeln• Association Rule Mining, Wort-Kontexte• Reposting-Analyse, Sentiment-Analyse• Größe der Rubriken• Textlänge pro Rubrik • Anzahl Artikel pro Zeiteinheit
• Analysen durch Keywords, Bag of Words, POS, N-Grams, …
• Tools: Pandas, scikit, Jupyter, ggplot2, Gephi, Tableau
![Page 50: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/50.jpg)
Zeitplanung
• Aufsetzen des Crawlers• RSS Feed Liste erstellen (bis 06.11.17)• BeautifulSoup einrichten zur Extraktion des Reintextes (bis 06.11.17)• Crawler laufen lassen (über gesamte Projektzeit)
• Text Mining• Analysemethoden auswählen und einarbeiten• Anwendung der Methoden auf gesammelte Daten (ab 06.11.17 über gesamte
Projektzeit)
• Ergebnisvisualisierung• (Laufend sobald Daten aussagekräftig analysiert wurden)
• Erweiterung um weitere Aufgaben• (falls am Ende noch Zeit ist)
![Page 51: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/51.jpg)
Analyse von News zur Suizidprävention
Nina Arndt, Melanie Budde, Ariana Sliwa
![Page 52: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/52.jpg)
Kann ein Werther-Effekt nachgewiesen werden? Besteht ein Zusammenhang zwischen der (Online-) Medienberichterstattung (der Metropolregion Hamburg) und der lokalen Suizidrate?
2
Thema // Projektziel
![Page 53: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/53.jpg)
3
Zeitplan und Meilensteine
Oktober
Feedliste erstellen
Crawler starten
November
Recherche zum aktuellen Forschungsstand bzgl.
Medienberichterstattung und Suizid
Treffen mit UKE
Aufstellen der Ausgangsthese
Recherche potentieller Auslöser eines Suizids und Recherche von relevanten
Stichworten
Dezember
Preprocessing der Daten
Vorbereitung der Sentimentanalyse
Januar
Korrelationen ermitteln
Ergebnisse ausarbeiten
Visualisierung
Februar/März
Projektbericht
![Page 54: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/54.jpg)
4
Zeitplan und Meilensteine
Oktober
Feedliste erstellen
Crawler starten
![Page 55: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/55.jpg)
5
Zeitplan und Meilensteine
November
Recherche zum aktuellen Forschungsstand bzgl.
Medienberichterstattung und Suizid
Treffen mit UKE
Aufstellen der Ausgangsthese
Recherche potentieller Auslöser eines Suizids und Recherche von relevanten
Stichworten
![Page 56: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/56.jpg)
6
Zeitplan und Meilensteine
Dezember
Preprocessing der Daten
Vorbereitung der Sentimentanalyse
![Page 57: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/57.jpg)
7
Zeitplan und Meilensteine
Januar
Korrelationen ermitteln
Ergebnisse ausarbeiten
Visualisierung
![Page 58: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/58.jpg)
8
Zeitplan und Meilensteine
Februar/März
Projektbericht
![Page 59: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/59.jpg)
▪ Können wir vergangene Artikel mit einbeziehen?
▪ Gibt es eine Möglichkeit, Twitter-Posts nach Hashtags zu crawlen?
▪ Wie detailliert sind die statistischen Daten des UKE? Geschlecht, Alter, Zeitpunkt, Art, etc. -> Tbd. bis zum Termin
▪ Analyse mittels welcher Tools? R? word2vec?
9
Fragen
![Page 60: Big Data Platform für Erdsystemdaten (Ophidia)hps.vi4io.org/_media/teaching/wintersemester_2017_2018/all.pdfBig Data Analytics Framework Entwickelt am Euro Mediterranean Centre on](https://reader034.vdokument.com/reader034/viewer/2022050605/5faca5adf275a54cad30caa1/html5/thumbnails/60.jpg)
10
Feedback // Vorschläge