demnach als ein großer Treiber für neue Geschäftsmodelle anzusehen.
Abbildung 1 zeigt das Verhältnis zwischen der Analysekomplexität und dem daraus generierten Mehrwert. Der Wert an gewonnenen Informationen steigt parallel mit der Analysekomplexität der Rohdaten an [SCN13].
Die folgenden Beispiele zeigen, wie Unternehmen die Potenziale, die sich hinter der Kombination von Predictive Analytics und der technischen Realisierung eines Prozesses, in Echtzeit Entscheidungen zu treffen, verbergen, bereits erfolgreich ausschöpfen.ÂÂ E-Commerce: Amazon befasste sich schon sehr früh mit der Frage, wie aus Daten Informationen und anschließend Mehrwert generiert werden können. Seine EmpfehlungsEngine verschaffte dem OnlineVersandhändler einen starken Umsatzzuwachs bei sehr niedrigen Akquisitionskosten. Laut Unternehmensbericht betrug der zusätzlich generierte Umsatz durch die EmpfehlungsEngine 30 Prozent [Exp13]. In dem Zusammenhang fand
„n = all“ – Anforderungen der heutigen Wirtschaft
Die Anforderungen der Wirtschaft an große Datenmengen sind heute komplexer und umfangreicher als zur Jahrtausendwende. In der Praxis erleben wir diese als die bekannten „3V’s“ von Big Data: Volume, Velocity und Variety, also das hohe Datenvolumen, die Geschwindigkeit, mit der diese Daten generiert werden, sowie die Vielfalt dieser Daten und ihrer Quellen. Hinzu kommt, dass sich neben klassischen Fragestellungen, die sich mit vergangenen Ereignissen reaktiv befassen, immer stärker ein neuer, proaktiver Zweig der Datenanalytik etabliert: Advanced Analytics.
Advanced Analytics ist ein Oberbegriff, unter dem sich viele AnalyticsRichtungen zusammenfassen lassen, unter anderem auch Predictive Analytics. Der Umfang von Advanced Analytics reicht von Bilderkennung und Bildklassifizierung über semantische Auswertung von Texten bis zur prädiktiven Modellierung von Zusammenhängen. Sie ist
Die konsequente Antwort auf Big Data
Advanced Analytics Die META Group, die jetzt zu Gartner gehört, sprach bereits Ende der 1990er-Jahre über „Data Deluge“ [Mar12] und beschrieb damit einen Trend im Versandhandel. Diese Branche verzeichnete damals einen großen Anstieg an Datenvolumen. Komplexe Auswertungen des Kundenverhaltens konnten mit den verfügbaren Technologien und Speicherkapazitäten nur schwer bewerkstelligt werden. Am 6. Februar 2001 veröffentlichte Doug Laney als Analyst der META Group das Paper „3D Data Management: Controlling Data Volume, Velocity and Variety“ [Lan01]. Die Anfor-derung, große Datenvolumen zu speichern und diese in kurzer Zeit auszuwerten, wurde darin offiziell definiert.
Abb. 1: Predictive Analytics ermöglicht Operational Insights (nach [SCN13])
ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0101 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS
FACHARTIKEL
Amazon heraus, dass bereits ein Mehr an Latenz von 100 Millisekunden den Umsatz in der Summe um ein Prozent schrumpfen lässt [Ala14].ÂÂ Predictive Maintenance: Daimler setzt auf Predictive Analytics in der Produktion von Zylinderköpfen. Während des gesamten Produktionsprozesses gibt es pro Zylinderkopf ca. 500 Attribute, die von Sensoren erfasst und ausgewertet werden, um mögliche zukünftige Störungen und Wartungsbedarfe vorherzusagen. Durch den Einsatz von Predictive Analytics konnte Daimler die Produktivität um ca. 25 Prozent steigern [Bur14].ÂÂ Fraud Prevention: Der Finanz und Versicherungssektor gehört bei der Anwendung von Predictive Analytics generell zu den Vorreitern. Hier geht es zum Beispiel um betrügerische Transaktionen, ein großes Problem, das konkrete Kosten verursacht. Finanzdienstleister bauen deshalb an Scoringsystemen, die Transaktionen in Echtzeit bewerten und sogar selbst entscheiden können, ob eine Transaktion valide ist oder ob sie manuell überprüft werden sollte. Anhand eines solchen Falles zeigen wir später noch, wie mit Hilfe von BigDataTechnologien eine Skalierung erreicht werden kann, die für die großen Datenmengen und die hohe Entscheidungsgeschwindigkeit bei der Betrugsprävention notwendig ist.
Alle drei Beispiele haben eine gemeinsame Komponente: Immer geht es um Vorgänge, die entweder parallel zu einem auslösenden Event ausgeführt werden oder sogar eine proaktive Aktion auslösen. Durch die Skalierbarkeit von Prozessen, die für die Datenanalyse seit Jahrzehnten bekannte mathematische Verfahren nutzen, entstehen unter der Bezeichnung Advanced Analytics neue Themengebiete. Sie eröffnen neue Analysemöglichkeiten, mit denen Anwender nicht nur vergangene Prozesse erklären, sondern auch einen Blick in die Zukunft werfen können.
Kriterium Business Intelligence Advanced AnalyticsOrientierung Vergangenheit Vergangenheit & ZukunftMethoden Reporting (KPIs/Metriken)
Dashboards/ScorecardsOLAPAd-hoc-Abfrage
Predictive ModelingData MiningBildanalytikQuantitative Analyse
Datentypen Strukturiert & semistrukturiert Strukturiert & unstrukturiertGenerierung von Insights Manuell AutomatischAnwender Business-Anwender Data Scientists, Analysten, Business-AnwenderAktionsrichtung Reaktiv Proaktiv
Abb. 2: Technisches Vorgehen beim „überwachten Lernen“ (Supervised Learning)
Advanced Analytics versus klassische BIDie Verfahren von Advanced Analytics unterscheiden sich wesentlich von denen der klassischen BIAnalysewerkzeuge. Die meisten BITools nutzen Batchbasierte Analysen, die in fest definierten Zeiträumen ablaufen und damit lediglich vergangene Geschehnisse in den Blick nehmen können und deskriptiv beschreiben. Bei Advanced Analytics werden zusätzlich zu den historischen Daten EchtzeitDaten einbezogen. Damit werden die Analyseergebnisse genauer und die Vorhersagen können permanent an die aktuelle Situation angepasst werden.
Tabelle 1 zeigt, wie divergent Methoden, die den Schlagwörtern BI und Advanced Analytics zugeordnet werden, in der Praxis laufen.
Predictive Analytics Die Mathematik hinter Predictive Analytics ist wie schon gesagt nicht neu. Es werden Verfahren eingesetzt, die zum Teil noch aus dem letzten Jahrhundert stammen wie zum Beispiel SVM, Naive Bayes, Decision Trees, logistische oder lineare Regressionsmodelle. Werden jedoch Komponenten aus den heutigen Marktanforderungen hinzugerechnet, wie das Datenvolumen und die Datengeschwindigkeit, dann müssen die Prozesse zur Anwendung mathematischer Verfahren skalierbar gemacht werden.
Die Eigenschaften von Ereignissen oder Objekten – in unserem nachfolgenden Beispiel wäre dies das binäre Label einer Kreditkartentransaktion „Betrugsfall“ oder „kein Betrugsfall“ – werden beim Predictive Modeling verwendet, um ein Modell zu trainieren. Beim Predictive Modeling handelt es sich um einen Prozess, in dem anhand von mathematischen Verfahren und den Eigenschaften von Ereignissen oder Objekten ein möglichst genaues Abbild der Realität modelliert wird und darauf basierend unbekannte Ereignisse
Tab. 1: Divergenz von Methoden unter den Schlagwörtern BI und Advanced Analytics (nach: [Rap16])
ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0302 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS
FACHARTIKEL
vorgelegt, von denen etwas mehr als 1.000 als Betrugsfälle gemeldet wurden. Aus diesen Daten berechneten wir die Realpotenziale für die Vorhersage und die Verhinderung solcher Fälle. Auf diese Weise konnten wir herausfinden, wie groß der Schaden sein wird, der dem Unternehmen durch Betrugsfälle entsteht, die nicht oder falsch ermittelt werden (false negative). Ebenso konnten wir feststellen, wie hoch die Opportunitätskosten sein werden, also der Schaden, der durch fälschlich unterbundene Transaktionen (false positive) entsteht. In unserem Fall betrugen Letztere ca. 2 Prozent der Buchungssumme. Abbildung 3 zeigt die Ergebnisse der trainierten Modelle für diese Vorhersage und vergleicht die Ergebnisse mit den Kosten, die dem Unternehmen zusätzlich entstehen.
Für eine Aufgabenstellung wie diese eignen sich mehrere Verfahren, zum Beispiel SVM, Naive Bayes, Regressionsverfahren, aber auch Entscheidungsbäume. Verschiedene Verfahren wurden in mehreren Trainings und Testläufen miteinander verglichen. ÂÂ Beim SVM mit SGD (Stochastic Gradient Descent) sowie mit dem BroydenFletcherGoldfarbShanno(BFGS)Kernel fiel in allen Testdurchläufen eine Anomalie auf: Die Klassifikation blieb über alle Testreihen unverändert auf dem Niveau der NullHypothese. Ein anderer linearer Kernel konnte noch nicht verprobt werden, da die größere Auswahl erst ab Spark Version 2.0 verfügbar ist. Diese ist momentan jedoch noch nicht stabil. ÂÂ Naive Bayes hat schlechte Resultate geliefert. Rückblickend lässt sich das folgendermaßen erklären: Der FeatureRaum in der behandelten Problemstellung gibt nicht genügend Anhaltspunkte her, um ein robustes NaiveBayesModell zu trainieren. Außerdem kann dieses keine Interaktionen zwischen den Features „lernen“. Naive Bayes entfaltet seine Stärke eher beim Klassifizieren von Dokumenten, zum Beispiel bei einer SentimentAnalyse [Che16].ÂÂ In der Testreihe erzielten die Entscheidungsbäume sowie ein ähnliches Verfahren, „Random Forests“, die besten Ergebnisse. Das lag vor allem daran, dass sich die Zu
klassifiziert werden. Mit Hilfe eines solchen Modells können die Labels bzw. kann die „Klassifikation“ unbekannter Ereignisse anhand ihrer Eigenschaften vorhergesagt werden. Daher werden Verfahren, die unbekannte Ereignisse einem Label zuordnen, auch unter dem Begriff „Classifier“ zusammengefasst [Che16].
Classifier können durch überwachtes Lernen trainiert werden [Klo15]. Dafür werden zuerst Features aus den Zieldaten extrahiert, die für das Training genutzt werden sollen. Dieser Schritt wird in der Fachliteratur als „Feature Engineering“ bezeichnet. Mit Feature Engineering lassen sich Rohdaten in Features transformieren, die das zugrunde liegende Problem für den Prädiktionsalgorithmus besser repräsentieren. Dieses Verfahren beeinflusst die Qualität des Modells (Modellgüte) und ist daher bei diesem Vorgehen zwingend erforderlich [Gut15].
Für das eigentliche Training des Modells wird die Menge aller vorverarbeiteten Transaktionen zunächst in Trainingsdaten und Testdaten aufgeteilt. So kann das trainierte Modell später mit ihm unbekannten Daten konfrontiert und die Klassifizierung bis dahin unbekannter Transaktionen überprüft, die Vorhersagen mit den echten Features verglichen und die Modellgüte bestimmt werden (siehe Abbildung 2). Die verschiedenen Algorithmen zur Erstellung eines Modells aus einem Trainingsdatensatz werden als „Estimators“ bezeichnet. Zu jedem Estimator existiert ein korrespondierender Transformer. Ein Transformer verwendet das vom Estimator trainierte Modell, um Vorhersagen für ein Featureset zu treffen [Apa16].
Skalierbarkeit in der PraxisUm große Datenmengen für Vorhersagen nutzen zu können, müssen die bisherigen Verfahren skaliert werden. Doch wie sieht Skalierbarkeit in der Praxis aus? Betrachten wir dazu ein einfaches Betrugserkennungssystem, das mit Hilfe von Spark MLlib trainiert wurde [Git16].
Dem System haben wir in einem aktuellen Projekt einen Datensatz von einer Viertelmillion Kreditkartenbuchungen
Abb. 3: Performance-Test und Auswahl eines geeigneten Verfahrens
ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0302 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS
FACHARTIKEL
sammenhänge in den Daten gut mit dem Regelwerk eines Entscheidungsbaums abbilden lassen.
Das Fallbeispiel verdeutlicht, dass neben der Auswahl des Estimators und der Ausgestaltung der für das Training verwendeten Features die Parametrisierung der Estimators eine große Rolle spielt. So führen unterschiedliche Terminierungsregeln für Entscheidungsbäume, wie zum Beispiel die maximale Baumtiefe, oder ein unterschiedlicher Threshold bei Regressionsverfahren zu sehr unterschiedlichen Modellen mit ebenso unterschiedlicher Güte.
Solche Optimierungsprobleme können spätestens jetzt durch Ausprobieren möglicher Kombinationen in „BruteForce“Manier angegangen werden. Die Rechenleistung heutiger ServerInfrastrukturen macht dies möglich. Zudem können die benötigten mathematischen Verfahren über Technologien wie Spark oder Flink in RechenClustern verteilt angewendet werden. Steht ausreichend Rechenleistung zur Verfügung, können eine Vielzahl an Modellen in kurzer Zeit unter Nutzung unterschiedlicher Estimators und Parametrisierungen ausprobiert werden.
Durch die Möglichkeit, die Modellgüte quantitativ zu bewerten, bietet sich für die Optimierung ein maschinelles „Ausprobieren“ geeigneter Modellparameter an. Auch die Kombination mehrerer Modelle zur Vorhersage (Ensembles), bei der zwei Modelle, die für sich allein „schlechte“ Vorhersagen liefern, so kombiniert werden, dass sie gemeinsam ein „gutes“ Modell ergeben, ist meist durch maschinelles Ausprobieren mit großer Rechenleistung deutlich effizienter als durch Menschenhand.
Integration in die bestehende Aufbau- und Ablauforganisation Advanced Analytics beinhaltet Verfahren, die üblicherweise mit der Rolle des Data Scientist und der Methode zur explorativen Analyse in Verbindung gebracht werden. Die explorative Analyse ist beispielsweise eine Methode, die
nach dem „fail early“Paradigma die effiziente Verprobung fachlicher Hypothesen ermöglichen soll. Denn die Anforderungen des Fachbereichs an Datenanalysen der IT wandeln und erweitern sich meist schneller als die betriebsfokussierten Softwareentwicklungsprozesse in den ITAbteilungen, die diese bedienen. Zudem ist oftmals vom Zeitpunkt der Anforderung bis zum Beginn der Umsetzung der wahre Nutzen der Hypothese unklar oder nicht ausreichend, um den Aufwand für die Einführung zu rechtfertigen. Daher ist Advanced Analytics ein Paradebeispiel für die „IT der zwei Geschwindigkeiten“ [Pic16].
Im Rahmen des BigDataHypes sind aus diesen zwei Geschwindigkeiten Definitionen für die agile Plattform der Datenanalysten entstanden, das „Data Lab“, und die hochskalierbare operative Plattform des Betriebs, die „Data Factory“ (siehe Tabelle 2).
Das Data Lab ist eine skalierbare Daten und Verarbeitungsplattform, auf der Analysten Hypothesen mit produktiven (bzw. produktionsnahen) Daten verproben können. Aus diesem Grund wird das Data Lab auch häufig auf der gleichen physikalischen Infrastruktur betrieben wie das Produktivsystem. Für die Verprobung neuer Hypothesen sind Daten, die durch operative Datenbewirtschaftungsprozesse bereitgestellt werden, jedoch häufig nicht ausreichend, sodass der Analyst in der Lage sein muss, selbstständig Datenquellen hinzuzufügen.
Damit die Modelle, die im Data Lab trainiert wurden, sowie die Skripte zur Vorverarbeitung neuer Datenquellen in den operativen Betrieb der Data Factory übergehen können, werden diese, sobald sie den notwendigen fachlichen Reifegrad erreicht haben, an die ITAbteilung übergeben. Diese integriert die Modelle und Datentransformationen in die operativen Anwendungen und baut automatisierte Datenbewirtschaftungsstrecken für die neu hinzugefügten Datenquellen.
Der Weg von einer fachlichen Hypothese zum produktiven AdvancedAnalyticsVerfahren verläuft demnach ent
lang zweier Achsen (siehe dazu auch Abbildung 4): ÂÂ zum einen entlang
der technischen Achse, die den Prozess der Softwareentwicklung und des Testings der Entwicklungs zur Produktionsumgebung abbildet, ÂÂ zum anderen entlang
der fachlichen Achse, die Hy
Kriterium Data Lab Data FactoryZiel Generierung von Insights Monetarisierung von InsightsZugang Für Analysten Für automatisierte ProzesseEntwicklungsstil „Fail early“ BetriebsfokussiertMachine Learning Training und Otimierung von
ModellenNutzt Modelle in operativen Prozessen
Datenbasis (Synonymisierte) Produktivdaten Produktivdaten
Tab. 2: Vergleich von Data Lab und Data Factory
Abb. 4: Datenbe-wirtschaftung und Zugriff von Data Lab und Data Factory
ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0504 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS
FACHARTIKEL
pothesen und Vorverarbeitungsprozesse auf unterschiedlichen Ständen voneinander abgrenzt.
Für die Verprobung der Hypothese werden sowohl produktiv bewirtschaftete Daten (Data Factory), in technischer Verprobung befindliche Daten (Transition) als auch ad hoc hinzugefügte Daten (Data Lab) benötigt. Im Data Lab werden diese Datenschichten zur Analyse vermischt, beeinflussen die inneren (produktiv genutzten) Daten jedoch nicht. Für den produktiven Einsatz ist es wichtig, dass die produktiven Daten der Data Factory von anderen Daten aus dem Analyseprozess unbeeinflusst bleiben. Damit trotz dieser Isolation eine Verprobung der Hypothese nah an der produktiven Umgebung stattfinden kann, bietet es sich umso mehr an, Data Lab und Data Factory auf der gleichen Plattform zu betreiben und die Datentrennung lediglich logisch vorzunehmen.
FazitWer Advanced Analytics aus den Laborumgebungen und den Büros der Analysten herausholen und für produktive Prozesse nutzbar machen will, muss sich über die Abläufe und Schnittstellen zwischen IT und Analyseteams in seinem Unternehmen sowie über den Setup seiner Datenplattform Gedanken machen.
Die modernen SkalierungsFrameworks lassen sich bereits beliebig horizontal skalieren. Bei einigen Deep Learning Frameworks im Bereich Advanced Analytics zeichnet sich zudem die Möglichkeit ab, Berechnungen vertikal über GPUs zu skalieren. So werden Analysen von extrem großen Datenmengen möglich. Google und Co. machen es bereits vor und erweitern die Domäne der Advanced Analytics um Sprachanalyse und Bildbeschreibung. Es bleibt spannend ...
[ Literatur ][Ala14] Alam, M. et al.: Oracle NoSQL Database: Real-Time Big Data Management for the Enterprise. McGraw-Hill Publications 2014
[Apa16] Apache Spark MLlib: http://spark.apache.org/mllib/, abgerufen am 15.9.2016[Bur14] Burdeska, T.: Predictive Maintenance bei Daimler. http://www.it-zoom.de/it-director/e/predictive-mainte nance-bei-daimler-9387/, abgerufen am 20.10.2016[Che16] Chen, E.: Choosing a Machine Learning Classifier. http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier/, abgerufen am 29.9.216[Exp13] Recommendation engines: What’s in Pandora’s Box? http://www.experian.com.au/blogs/marketing-forward/2013/01/17/recommendation-engines-whats-in-pandoras-box/, abgerufen am 12.9.2016[Gut15] Gutierrez, D. D.: Machine Learning and Data Sci-ence: An Introduction to Statistical Learning Methods with R. Technics Publications 2015[Klo15] Klose, O.: Machine Learning (2) – Supervised ver-sus Unsupervised Learning. http://oliviaklose.com/machi ne-learning-2-supervised-versus-unsupervised-learning/, abgerufen am 29.9.2016[Lan01] Laney, D.: 3D Data Management: Controlling Data Volume, Velocity and Variety. Meta Group 2001[Mar12] Martin, W.: Strategic Bulletin – Big Data. Dr. Wolf-gang Martin Team Sarl, 2012[Pic16] Pickert, F.: Digitale Prozesse in einer IT der zwei Geschwindigkeiten. https://fh-muenster.de/ipl/down loads/03_IPL-Praxisforum_IT_zwei_Geschwindigkeiten_ Pickert.pdf, abgerufen am 20.9.2016[Rap16] Rapidminer, https://rapidminer.com/resource/introduction-advanced-analytics/, abgerufen am 12.9.2016[SCN13] SAP Community Network, Predictive Analysis Enables Operational Insights. http://scn.sap.com/communi ty/utilities/blog/2013/03/05/predictive-analysis-enables-operational-insights, abgerufen am 12.9.2016
[Git16] Die Implementierung des behandelten Beispiels steht auf github zur Verfügung: https://github.com/cthom sen/sparkmllib-credit-card-fraud, abgerufen am 29.9.2016
Dimitri Gross arbeitet als Senior Consultant bei OPITZ CONSULTIG Deutschland GmbH. Als Kernteam-Mitglied im Com-petence Center Big Data beschäftigt er sich mit Big-Data-Architektur, Werkzeugauswahl, Lösungsdesign und Aufbauorga-nisation in Big-Data-Projekten und unterstützt seine Kunden darüber hinaus in analytischen Fragestellungen. E-Mail: [email protected] Christopher Thomsen arbeitet als Senior Consultant bei OPITZ CONSULTING Deutschland GmbH. Als Gründungsmit-glied des Kernteams des Big Data Competence Center beschäftigt er sich seit einigen Jahren mit den Herausforderungen der Massendatenverarbeitung und -analyse und entwirft und implementiert zusammen mit Kunden individuelle Lösun-gen. Sein technischer Schwerpunkt liegt in der Umsetzung skalierbarer Applikationen und Datenverarbeitungsplattfor-men. E-Mail: [email protected]
ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS 0504 ONLINE-THEMENSPECIAL PREDICTIVE & ADVANCED ANALYTICS
FACHARTIKEL