Download - Big Data ist hier um zu bleiben
Big Data ist hier um zu bleiben (auch wenn es noch oft den Namen wechseln wird)
André Csillaghy Institut für 4D-Technologien
Hochschule für Technik Fachhochschule Nordwestschweiz
BIG DATA: VERBLASSENDER HYPE?
Die Blogosphäre:
Zeigt Zusammenhänge zwischen kommunizierdende Menschen
Offensichtlich ist die Information nicht zufällig verteilt.
Solar Dynamics Observatory, ein NASA Satellit
Nimmt soviele Daten wie 3 Fernsehkanäle, die 24 / 7 laufen.
Die Beobachtungen können nicht mehr von Hand ausgewertet werden.
Quelle: (via) Wikipedia
NSA --
Ebay: 7.5PB in Teradata Enterprise Data Warehouse 40 PB Hadoop Cluster 40PB auf ein Custom-System für deep-dive Analysis 100 TB / Tag neue Daten 500 Milliarden aktuellen Angebote
Facebook: 50 Milliarden Fotos, automatische Gesichtserkennung
Kreditkartenschutz: 2.1 Milliarden Karten werden geschützt
Soure: OECD Digital Economy Outlook 2015
Internet of Things Anzahl am Internet angeschlossenen Geräte pro 100 Einwohnen
BUSINESS NUTZEN
BIG DATA ANALYTICS
Daten-Aufwertungskette
Original Data
Target Data
Preprocessed Data
Patterns
Knowledge
Data Integration and Selection
Preprocessing
Model Construction
Interpretation
Quelle: Ramakrishnan & Gehrke
Institute of 4D Technologies: Management, Processing, and Visualization of Data
www.fhnw.ch/i4ds, facebook.com/fhnw.i4ds
Data Science am Institut für 4D-Technologien
Trans_id Kunde_id Datum Objekt Menge
111 201 2.2.2006 Kugelschreiber 2
111 201 2.2.2006 Tinte 1
111 201 2.2.2006 Milch 3
111 201 2.2.2006 Saft 6
112 105 6.3.2006 Kugelschreiber 1
112 105 6.3.2006 Tinte 1
112 105 6.3.2006 Milch 1
113 106 5.5.2006 Kaffee 1
113 106 5.5.2006 Milch 1
114 201 25.5.2006 Kugelschreiber 2
114 201 25.5.2006 Tinte 2
114 201 25.5.2006 Saft 4
114 201 25.5.2006 Wasser 1
http://gravitationallensing.pbworks.com/w/page/15553245/Cosmic%20Lensing
https://s3.amazonaws.com/datarobotblog/images/deepLearningIntro/013.png
TECHNOLOGIEN
• Datenbanken: – Teradata, Cloudera – SQL / NOSQL
• Data analysis – Weka toolkit (data mining) – OpenCV (feature extraction)
• HPC – Pydron (HBC) – Hadoop / Spark
• Resource management – Mesos
• Usw., usw., usw….
Open Data Analysis Stack
Application
Storage
Data Processing
Infrastructure
Aus: ganges.usc.edu/pgroupW/.../Berkley_Data_Analysis_Stack_(BDAS).pptx
CHANCEN UND RISIKEN LEBEN ZUSAMMEN
• Verlust der Kontrolle: auch wenn ich nichts zu verstecken habe, habe ich keine Möglichkeit zu kontrollieren, für was meine Daten benutzt werden
• Mein Gefühl sagt mir, dass es mehr den Unternehmen profitiert als mich selbst
• Ich kann das Datensammeln nicht mehr ausweichen
Que
lle: T
he G
uard
ian
24.6
.201
4
Storage Model: the Data Warehouse
Quelle: http://www.hammer.net/images/data_storage_diagram2.jpg
Computing infrastructure
• Scalability = data + computing power – Parallelization
• Google: Map / Reduce • Pydron
Astronomische Datenmengen
In Betrieb
2 TB / Tag
Start 2019 100 PB
Im Bau 13 TB/ Nacht
Design Mehr als das gesamte Internet
Is Big Data too big for SMEs?
• Wir geben eher mehr Daten an Grossunternehmen, als wir von denen zurückbekommen (Beispiel: Google Mail)
• Tatsache #1: jede Firma – jede Person – baut sich ein kleines Daten-Imperium – kann aber dieses nicht verarbeiten….
• Tatsache #2: Es ist immer besser wenn man bescheid über die eigenen Daten weiss
Es geht um Leute
• Wie kreiert man Wert aus Daten? • Data Analysts Data Scientists
– Neues Profil, ein mix von Hacker, Analyst, Communicator, trusted Advisor
• Wie können KMUs die notwendigen Skills bekommnen?
Aus dem Wild West zur Zivilisation
• Big Data is here to stay • Big Data kennt keine Grenzen • Im Moment mischen sich riesige Chancen mit
noch undenkbaren Risiken • Der Technologie sind die Chancen und Risiken
egal. Sie wird sich weiter entwickeln • Chancen können nur überwiegen, wenn wir
eine Ethik der Datennutzung einführen, wo die Risken unter Kontrolle gebracht werden
Es geht aber auch um Infrastruktur
• Zu viel für KMUs? • Clouds • Schon wenig kann mehr sein • Macht der Job attraktiv
Vielen Dank!