Download - Big Data –Datenanalyse und Visualisierung für …dbis.rwth-aachen.de/~quix/papers/ihk-fit-dez-2015.pdfLogistik Maschinen & Anlagenbau Pharma& Medizinbedarf… Smart-Service-Szenarien

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Big Data – Datenanalyse und Visualisierung für Wirtschaft 4.0

PD Dr. Christoph QuixFraunhofer-Institut für Angewandte Informationstechnik FITLife Science InformaticsLeiter High Content Analyse & Informationsintensive [email protected]

Informatik 5 (Databases & Information Systems)Leiter Forschungsgruppe Big Data & Model Management

RWTH Aachen University


Warum UPS nicht mehr links abbiegt

� Welche Faktoren sind für eine effizienteRoutenplanung entscheidend?

� Verkehrsdichte

� Ampeln

� Links abbiegen

� Auswertung von Fahrzeugdaten & -routen

� Verfügbarkeit von genauen Tracking-Daten (GPS)

� Genauere Kartendaten

� Zusammenführen der Daten und Analyse

� Ableiten der Regel: „Häufiges links abbiegen braucht mehr Zeit“

� Konsequenz: Links abbiegen in der Routenplanung vermeiden


Risikobewertung bei Mikrokrediten

� Welche Faktoren sind für die Rückzahlungs-wahrscheinlichkeit eines Mikrokredits entscheidend?

� Verhalten beim Ausfüllen des Online-Formulars

� Daten aus soziale Netzwerken

� Installierte Schriftarten

� Auswertung der kundenbezogenen Daten und historischen Daten

� Welche Eigenschaften hatten die Kunden, die ihre Kredite (nicht) zurück zahlen? � „Training“ eines Regelmodells

� Zusammenführen der Daten und Analyse

� Regel: „Schriftart X auf PC installiert � Rückzahlungsquote gering“

� Warum? Schriftart X wird bei Online-Poker-Software installiert

� Erkannte Regel erfordert weitergehende Analyse

� Gefahr des Übertrainierens, falsche oder triviale Zusammenhänge


Agenda

� Einleitende Beispiele

� Eigenschaften von Big-Data-Anwendungen

� Big-Data-Technologien

� Unternehmensübergreifender Datenaustausch

� Fazit & Ausblick


Typische Eigenschaften von Big-Data-Anwendungen

� „Viele“ Daten sind verfügbar

� Durch Zusammenführen unterschiedlicher Datenbestände werden interessante Zusammenhänge zwischen Merkmalen entdeckt

� Diese Zusammenhänge werden nicht nur in einzelnen Datensätzen, sondern in vielen Datensätzen erkannt� Ableiten von allgemeinen Regeln (Data Mining)

� Anwendung der Ergebnisse

� Kostenreduzierung

� Risikobewertung

� Datenbasierte Planung

� Umsatzsteigerung

Quelle: Big Data – Innovationspotenzialanalyse,Fraunhofer IAIS, http://bigdata-studie.de


Die „Vs“ von Big Data


Herausforderungen

� Verfügbare Daten „verarbeitbar“ machen: ETL-Prozess

� Extraktion aus den Datenquellen

� Transformation in ein einheitliches Datenmodell

� Laden in ein Datenbank-System

� Datenqualität (Fitness for use)

� Verwendung von Daten in einer anderen Anwendung � Datenqualitätsprobleme

� Genauigkeit, Vollständigkeit, Korrektheit, Aktualität, Verständlichkeit, …

� Heterogenität der Daten

� Syntax & Semantik

� Zeitliche Granularität


Agenda







Big-Data-Technologien

� Es gibt nicht eine Big-Data-Technologie, sondern eine Vielzahl

� Eine Big-Data-Anwendung nutzt in der Regel eine Kombination von verschiedenen Technologien

� Hadoop

� NoSQL-Datenbank-Systeme

� Data Mining

� Datenvisualisierung

� Herausforderung

� Auswahl der richtigen Werkzeuge und effiziente Kombination

� Wenn man einen Hammer hat, sehen viele Probleme wie ein Nagel aus


Hadoop

� Verteilte Plattform zurVerwaltung von (un-)strukturierten Daten

� Keine besondereAnforderungen andie einzelnen Knoteneines Cluster(Standard-PC-Hardware)

� Flexibilität und Aus-fallsicherheit durch Redundanz im Netzwerk (mehrere Knoten haben die gleichen Daten)

� Effiziente Verarbeitung von komplexen Datenanalyse-Prozessen durch Map-Reduce-Konzept: Verteile die Arbeit auf Knoten im Cluster (Map) und fasse dann Teilergebnisse zu Gesamtergebnis zusammen (Reduce)


NoSQL-Datenbanksysteme

� Probleme mit klassischen relationalen Datenbanksystemen

� Zu unflexibel wegen starrer Datenstrukturen

� Keine hohen Anforderungen an Konsistenz in aktuellen Anwendungen

� Skalierbarkeit schwierig

� Daten aus Datenbank müssen aufwändig in Anwendungsmodelle transformiert werden

� NoSQL-Datenbanksysteme

� Flexible, anwendungsorientierte Datenmodelle

� Wenig Aufwand zur Vorbereitung der Datenbank

� Sehr einfach in der Cloud skalierbar


Data Mining

� Ziel: Regeln oder Zusammenhänge in großen Datenbeständen erkennen

� „Wer Bier kauft, kauft häufig auch Chips“

� Verschiedene MethodenCluster-Analyse

„EM-Gaussian-data“ von Chire - Eigenes Werk. Lizenziert unter CC BY-SA 3.0 über Wikimedia Commons –https://commons.wikimedia.org/wiki/File:EM-Gaussian-data.svg

Klassifikation

"CART tree titanic survivors" by Stephen Milborrow - Own work.Licensed under CC BY-SA 3.0 via Commons –

https://commons.wikimedia.org/wiki/File:CART_tree_titanic_survivors.png

Assoziationsanalyse

P.L. Lanzi, Politecnico di Milano,http://de.slideshare.net/zafarjcp/data-mining-association-rules-basics


Visualisierung

� Große Datenmengen

� Zusammenhänge erkennen

� Mehrere Perspektivenbzw. Dimensionen

� Interaktiv

� Geographische &zeitliche Darstellung


Agenda







Für den Datenaustausch zwischen Unternehmen in der Datenökonomie gibt es strategische Anforderungen

Datensouveränität: Daten-Owner bestimmen, was mit den Daten passiert

Gemeinschaftliche Governance: Die Anwender des Industrial Data Space machen die Spielregeln

Dezentrale Architektur: Verteilte Datenhaltung

Datenschutz: Sicherer Datenaustausch

Vertrauensschutz: Zertifizierung der Service-Anbieter

Offenheit: Transparente Mitwirkungsmöglichkeiten

Echtzeitfähigkeit1: Daten sind sofort für digitale Services nutzbar

1) Prinzip der Rechtzeitigkeit, also »weichen« Echtzeitigkeit.

� Industrial Data Space: Vom BMBF gefördertes Projekt der Fraunhofer-Gesellschaft zur Entwicklung eines Konzepts und einer Plattform für den unternehmensübergreifenden Datenaustausch.


Der Industrial Data Space bildet das Bindeglied zwischen Industrie 4.0 und Smart Services

Kommerzielle Dienste

Industrielle Dienste

Individualisierung

Ende-zu-Ende-Prozess

»Ecosystem«

Ubiquität

Industrial

Data

Space

Vernetzung

Mensch-Maschine-Kooperation

Autonomisierung

Internet der Dinge

Kunde

Produktions-netzwerk

Logistik-

netzwerk

Smart ServicesDaten-

scharnierIndustrie 4.0

Öffentliche Daten

Daten aus der Wertschöpfungskette

Legende: Informationsfluss Güterfluss.

© Fraunhofer-Institut für Angewandte Informationstechnik FIT Basis für Wirtschaft 4.0

Der Industrial Data Space ist ein Architekturentwurf für ein »Trusted Data Network«

Automobil-hersteller

Elektronikund IT

Dienst-leistungen

LogistikMaschinen &Anlagenbau

Pharma &Medizinbedarf…

Smart-Service-Szenarien

Service- und Produktinnovation

»Smart Data Services« (Alerting, Monitoring, Datenqualität etc.)

»Basic Data Services« (Informationsfusion, Mapping, Aggregation etc.)

Internet der Dinge ∙ Breitband-Infrastruktur ∙ Geräte-Proxies, Netzprotokolle ∙∙∙

Echtzeitbereich ∙ Sensoren, Aktoren, Devices ∙∙∙

Arc

hit

ek

ture

be

ne

n

INDUSTRIAL DATA SPACE


Agenda







Rolle der Daten ändert sich

Zeit

Wertbeitrag

Daten als Prozess-ergebnis

Daten als Befähigervon Prozessen

Daten als Befähigervon Produkten

Daten als Produkt


Automatisierte Entscheidungen können auch gravierende Fehler verursachen

� Siehe zum BeispielFlash Crash in 2010

� Absturz der Börsenkursein kurzer Zeit durchautomatisiertenHandelstransaktionen

"Flash Crash" by PaulTheOctopus - Own work. Licensed under CC BY-SA 3.0 via Commons https://commons.wikimedia.org/wiki/File:Flash_Crash.jpg#/media/File:Flash_Crash.jpg


Ausblick

1. Big Data allein macht keinen Unterschied

2. Big Data wird menschliche Entscheidungsprozesse automatisieren

3. Big Data wird das Bauchgefühl als wesentliche Entscheidungsgrundlage nicht ablösen

4. Big Data wird zu Fehlentscheidungen von erheblicher Tragweite führen

5. Big Data schafft völlig neue Geschäftsmodelle und Dienstleistungen

6. Big Data wird in naher Zukunft eine kritische Infrastruktur darstellen

7. Big Data wird zu neuem Verständnis & Ausdifferenzierung hinzu Datenschutz, Urheberrecht und Haftungsrecht führen

8. Big Data verschärft die Suche nach der Nadel im Heuhaufen

9. Big Data verschärft die Suche von Unternehmen nach geeigneten Mitarbeitern

10.Big Data ist insbesondere eine Chance für den Mittelstand

10 Kernthesen aus „Innovationspotenzialanalyse für die neuen Technologien für das Verwalten und Analysieren von großen Datenmengen“ (Studie im Auftrag des BMWi von Markl, Hoeren, Krcmar)

Download - Big Data –Datenanalyse und Visualisierung für …dbis.rwth-aachen.de/~quix/papers/ihk-fit-dez-2015.pdfLogistik Maschinen & Anlagenbau Pharma& Medizinbedarf… Smart-Service-Szenarien

Top Related