© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Big Data – Datenanalyse und Visualisierung für Wirtschaft 4.0
PD Dr. Christoph QuixFraunhofer-Institut für Angewandte Informationstechnik FITLife Science InformaticsLeiter High Content Analyse & Informationsintensive [email protected]
Informatik 5 (Databases & Information Systems)Leiter Forschungsgruppe Big Data & Model Management
RWTH Aachen University
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Warum UPS nicht mehr links abbiegt
� Welche Faktoren sind für eine effizienteRoutenplanung entscheidend?
� Verkehrsdichte
� Ampeln
� Links abbiegen
� Auswertung von Fahrzeugdaten & -routen
� Verfügbarkeit von genauen Tracking-Daten (GPS)
� Genauere Kartendaten
� Zusammenführen der Daten und Analyse
� Ableiten der Regel: „Häufiges links abbiegen braucht mehr Zeit“
� Konsequenz: Links abbiegen in der Routenplanung vermeiden
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Risikobewertung bei Mikrokrediten
� Welche Faktoren sind für die Rückzahlungs-wahrscheinlichkeit eines Mikrokredits entscheidend?
� Verhalten beim Ausfüllen des Online-Formulars
� Daten aus soziale Netzwerken
� Installierte Schriftarten
� Auswertung der kundenbezogenen Daten und historischen Daten
� Welche Eigenschaften hatten die Kunden, die ihre Kredite (nicht) zurück zahlen? � „Training“ eines Regelmodells
� Zusammenführen der Daten und Analyse
� Regel: „Schriftart X auf PC installiert � Rückzahlungsquote gering“
� Warum? Schriftart X wird bei Online-Poker-Software installiert
� Erkannte Regel erfordert weitergehende Analyse
� Gefahr des Übertrainierens, falsche oder triviale Zusammenhänge
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
� Einleitende Beispiele
� Eigenschaften von Big-Data-Anwendungen
� Big-Data-Technologien
� Unternehmensübergreifender Datenaustausch
� Fazit & Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Typische Eigenschaften von Big-Data-Anwendungen
� „Viele“ Daten sind verfügbar
� Durch Zusammenführen unterschiedlicher Datenbestände werden interessante Zusammenhänge zwischen Merkmalen entdeckt
� Diese Zusammenhänge werden nicht nur in einzelnen Datensätzen, sondern in vielen Datensätzen erkannt� Ableiten von allgemeinen Regeln (Data Mining)
� Anwendung der Ergebnisse
� Kostenreduzierung
� Risikobewertung
� Datenbasierte Planung
� Umsatzsteigerung
Quelle: Big Data – Innovationspotenzialanalyse,Fraunhofer IAIS, http://bigdata-studie.de
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Die „Vs“ von Big Data
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Herausforderungen
� Verfügbare Daten „verarbeitbar“ machen: ETL-Prozess
� Extraktion aus den Datenquellen
� Transformation in ein einheitliches Datenmodell
� Laden in ein Datenbank-System
� Datenqualität (Fitness for use)
� Verwendung von Daten in einer anderen Anwendung � Datenqualitätsprobleme
� Genauigkeit, Vollständigkeit, Korrektheit, Aktualität, Verständlichkeit, …
� Heterogenität der Daten
� Syntax & Semantik
� Zeitliche Granularität
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
� Einleitende Beispiele
� Eigenschaften von Big-Data-Anwendungen
� Big-Data-Technologien
� Unternehmensübergreifender Datenaustausch
� Fazit & Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Big-Data-Technologien
� Es gibt nicht eine Big-Data-Technologie, sondern eine Vielzahl
� Eine Big-Data-Anwendung nutzt in der Regel eine Kombination von verschiedenen Technologien
� Hadoop
� NoSQL-Datenbank-Systeme
� Data Mining
� Datenvisualisierung
� Herausforderung
� Auswahl der richtigen Werkzeuge und effiziente Kombination
� Wenn man einen Hammer hat, sehen viele Probleme wie ein Nagel aus
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Hadoop
� Verteilte Plattform zurVerwaltung von (un-)strukturierten Daten
� Keine besondereAnforderungen andie einzelnen Knoteneines Cluster(Standard-PC-Hardware)
� Flexibilität und Aus-fallsicherheit durch Redundanz im Netzwerk (mehrere Knoten haben die gleichen Daten)
� Effiziente Verarbeitung von komplexen Datenanalyse-Prozessen durch Map-Reduce-Konzept: Verteile die Arbeit auf Knoten im Cluster (Map) und fasse dann Teilergebnisse zu Gesamtergebnis zusammen (Reduce)
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
NoSQL-Datenbanksysteme
� Probleme mit klassischen relationalen Datenbanksystemen
� Zu unflexibel wegen starrer Datenstrukturen
� Keine hohen Anforderungen an Konsistenz in aktuellen Anwendungen
� Skalierbarkeit schwierig
� Daten aus Datenbank müssen aufwändig in Anwendungsmodelle transformiert werden
� NoSQL-Datenbanksysteme
� Flexible, anwendungsorientierte Datenmodelle
� Wenig Aufwand zur Vorbereitung der Datenbank
� Sehr einfach in der Cloud skalierbar
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Data Mining
� Ziel: Regeln oder Zusammenhänge in großen Datenbeständen erkennen
� „Wer Bier kauft, kauft häufig auch Chips“
� Verschiedene MethodenCluster-Analyse
„EM-Gaussian-data“ von Chire - Eigenes Werk. Lizenziert unter CC BY-SA 3.0 über Wikimedia Commons –https://commons.wikimedia.org/wiki/File:EM-Gaussian-data.svg
Klassifikation
"CART tree titanic survivors" by Stephen Milborrow - Own work.Licensed under CC BY-SA 3.0 via Commons –
https://commons.wikimedia.org/wiki/File:CART_tree_titanic_survivors.png
Assoziationsanalyse
P.L. Lanzi, Politecnico di Milano,http://de.slideshare.net/zafarjcp/data-mining-association-rules-basics
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Visualisierung
� Große Datenmengen
� Zusammenhänge erkennen
� Mehrere Perspektivenbzw. Dimensionen
� Interaktiv
� Geographische &zeitliche Darstellung
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
� Einleitende Beispiele
� Eigenschaften von Big-Data-Anwendungen
� Big-Data-Technologien
� Unternehmensübergreifender Datenaustausch
� Fazit & Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Für den Datenaustausch zwischen Unternehmen in der Datenökonomie gibt es strategische Anforderungen
Datensouveränität: Daten-Owner bestimmen, was mit den Daten passiert
Gemeinschaftliche Governance: Die Anwender des Industrial Data Space machen die Spielregeln
Dezentrale Architektur: Verteilte Datenhaltung
Datenschutz: Sicherer Datenaustausch
Vertrauensschutz: Zertifizierung der Service-Anbieter
Offenheit: Transparente Mitwirkungsmöglichkeiten
Echtzeitfähigkeit1: Daten sind sofort für digitale Services nutzbar
1) Prinzip der Rechtzeitigkeit, also »weichen« Echtzeitigkeit.
� Industrial Data Space: Vom BMBF gefördertes Projekt der Fraunhofer-Gesellschaft zur Entwicklung eines Konzepts und einer Plattform für den unternehmensübergreifenden Datenaustausch.
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Der Industrial Data Space bildet das Bindeglied zwischen Industrie 4.0 und Smart Services
Kommerzielle Dienste
Industrielle Dienste
Individualisierung
Ende-zu-Ende-Prozess
»Ecosystem«
Ubiquität
Industrial
Data
Space
Vernetzung
Mensch-Maschine-Kooperation
Autonomisierung
Internet der Dinge
Kunde
Produktions-netzwerk
Logistik-
netzwerk
Smart ServicesDaten-
scharnierIndustrie 4.0
Öffentliche Daten
Daten aus der Wertschöpfungskette
Legende: Informationsfluss Güterfluss.
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Basis für Wirtschaft 4.0
Der Industrial Data Space ist ein Architekturentwurf für ein »Trusted Data Network«
Automobil-hersteller
Elektronikund IT
Dienst-leistungen
LogistikMaschinen &Anlagenbau
Pharma &Medizinbedarf…
Smart-Service-Szenarien
Service- und Produktinnovation
»Smart Data Services« (Alerting, Monitoring, Datenqualität etc.)
»Basic Data Services« (Informationsfusion, Mapping, Aggregation etc.)
Internet der Dinge ∙ Breitband-Infrastruktur ∙ Geräte-Proxies, Netzprotokolle ∙∙∙
Echtzeitbereich ∙ Sensoren, Aktoren, Devices ∙∙∙
Arc
hit
ek
ture
be
ne
n
INDUSTRIAL DATA SPACE
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
� Einleitende Beispiele
� Eigenschaften von Big-Data-Anwendungen
� Big-Data-Technologien
� Unternehmensübergreifender Datenaustausch
� Fazit & Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Rolle der Daten ändert sich
Zeit
Wertbeitrag
Daten als Prozess-ergebnis
Daten als Befähigervon Prozessen
Daten als Befähigervon Produkten
Daten als Produkt
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Automatisierte Entscheidungen können auch gravierende Fehler verursachen
� Siehe zum BeispielFlash Crash in 2010
� Absturz der Börsenkursein kurzer Zeit durchautomatisiertenHandelstransaktionen
"Flash Crash" by PaulTheOctopus - Own work. Licensed under CC BY-SA 3.0 via Commons https://commons.wikimedia.org/wiki/File:Flash_Crash.jpg#/media/File:Flash_Crash.jpg
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Ausblick
1. Big Data allein macht keinen Unterschied
2. Big Data wird menschliche Entscheidungsprozesse automatisieren
3. Big Data wird das Bauchgefühl als wesentliche Entscheidungsgrundlage nicht ablösen
4. Big Data wird zu Fehlentscheidungen von erheblicher Tragweite führen
5. Big Data schafft völlig neue Geschäftsmodelle und Dienstleistungen
6. Big Data wird in naher Zukunft eine kritische Infrastruktur darstellen
7. Big Data wird zu neuem Verständnis & Ausdifferenzierung hinzu Datenschutz, Urheberrecht und Haftungsrecht führen
8. Big Data verschärft die Suche nach der Nadel im Heuhaufen
9. Big Data verschärft die Suche von Unternehmen nach geeigneten Mitarbeitern
10.Big Data ist insbesondere eine Chance für den Mittelstand
10 Kernthesen aus „Innovationspotenzialanalyse für die neuen Technologien für das Verwalten und Analysieren von großen Datenmengen“ (Studie im Auftrag des BMWi von Markl, Hoeren, Krcmar)