doag news 2012 - analytische mehrwerte mit big data
Post on 02-Aug-2015
99 Views
Preview:
TRANSCRIPT
Data Warehouse & Bl
Seit e in igen Monaten wird , ,Big Data" intensiV aber auch kontrovers diskut ier t . Dieser Art ikel zeigt nach einem ern-führenden Überbl ick anhand von Anwendungsfäl len auf, wo die geschäft l ichen Mehrwerte von Big-Data-Pro;ektenl iecen rrnd wip diese neuen Erkenntnisse in die bestehenden Data-Warehouse- und Business- lntel l inence-Proiekteinteqr ier t werden können.
2. Filtern dieser Daten aufgrund defi-nierter interessanter Merkmale
3. Selektive Weiterverarbeitung bezie-hungsweise Übernahme der inter-essanten Informationen in die vor-handenen internen IT-Systeme
4. Die verarbeiteten Daten aus dem 1.Schritt wegwerfen und den Prozessfortsetzen
Um diese unstrukturierten, schema-Iosen Daten überhaupt sammeln zukönnen, wurden von Google und an-deren Internet-Pionieren NoSQL-Da-tenbanken (wie Cassandra) entwickeltund mit Hadoop sowohl ein verteiltesDateisystem (HDFS) als auch ein Ent-wicklungs-Framework (MapReduce) be-reitgestellt (siehe Positionierung derOracle Big Data Appliance [2]). Abbil-dung 1 stellt die maßgeblichen Kom-ponenten der NoSQL- und SQL-Weltgegenüber.
Zunächst soll eine mögliche ge-meinsame Architektur betrachtet wer-den, um diese Technologien paralleloder auch gemeinsam zu betreiben,bevor aus Anwendungssicht die Fragegeklärt wird, was dieses pragmatischeVorgehensmodell konkrei fiir verschie-dene Anwendungsfälle bedeutet.
Zusammenspiel Big Data/DataWalehouse
Bei einer klassischen Konzeption einesData-Warehouse und Business-Intelli-gence-Systems, leicht modifiziert nach
[3], bleiben durch Big Data die beste-henden Data-Warehouse- und Busi-ness-lntelligence-Prozesse zunächst un-angetastet. Die neuartigen Datenquel-len erweitern aber zum einen den ana-lyserelevante Datenraum, was Erkennt-nisgewinn verspricht, zum anderentreten an die Seite von klassischen BI-Abbil dung 7 : G egenüb er stellung der Komponenten
46 | www.doag.org
Analytische Mehrwerte von Big DataOliver Röniger und Harald Erb, ORACLE Deutschland B.V. & Co. KG
Der McKinsey-Report ,,Big Data" be-tont die enorme gesellschaftliche undgeschäftliche Bedeutung, die sich ausden explodierenden Datenmengen innahezu allen Branchen ergibt [1]. Umtatsächlich von ,,Big Data" zu spre-chen, sind drei Merkmale zu erftillen(,,3 vs"):
. VolumeRiesige Datenmengen (xx Terabyte),die sich bislang nicht für Data-Warehouse-Analysen erschließenlassen, weil deren relevante Infor-mationsdichte einfach zu gering ist,als das sich deren Speicherung undVerarbeitung aus wirtschaftlicherSicht lohnt.
. VelocityDie hektische zeitliche Frequenz, inder Daten in operativen Geschäfts-Prozessen entstehen. Mehrwertewerden sowohl aufgrund der sehrhohen Granularität der Daten als
auch in deren umgehender Verar-beitung und Erkenntnisgewinnungin Echtzeit gesehen.
. VarietyDie Vielfalt der zusätzlichen (un-
strukturierten) Datenformate, diesich jenseits der üblichen wohl-strukturierten Transaktionsdaten ausSocial-Media-Daten, Maschine-zu-Maschine-Kommunikationsdaten,Sensordaten, Webserver-Logdateienetc. ergeben.
Diese Daten sind inhaltlich neu, siesind unstrukturiert, es sind unsagbarviele - die wirklich interessanten In-formationen darin sind hingegen nuräußerst dünn gesät. Insofern liegt esnahe, sich an das folgende einfacheVorgehensmodell zu halten:
1. Gezieltes Sammeln der neuartigenMassendaten aus den relevantenDatenquellen
! u"*,* i;::"::,:"J
ffi
Abbildung 2: Vom Twitter-Feed zum Big-Data-Zugriffvia External Table im Data Warehouse
Abbildung 3 : Beispiel eine s Endeca-D ashboards
Werkzeugen zusätzliche Suchfunkti-onalitäten, die den unstrukturierten,textuellen Informationen besser ge-recht werden. Es handelt sich ieweilsum Ergänzungen zum Bestehenden,also eher Evolution als Revolution.Eine technische Kernfrage lautet, wiedie unstrukturierten Massendaten ausBig Data mit derfr Data Warehouse ver-bunden werden können. Hierzu gibt
es seitens Oracle mehrere technischeMöglichkeiten:
. Oracle Loader for HadoopDaten aus einem Hadoop-Clusterwerden direkt in das Oracle DataWarehouse geladen
. Oracle Direct Connector for HadoopHDFSDirekter Zugriff auf das verteil-
Data Warehouse E Bl
te Filesystem ftir das Oracle DataWarehouse
. Oracle Data Integrator (ODI) Appli-cation Adapter pr HadoopEinbinden eines Hadoop-Jobs in ei-nen ODl-Ladeprozess
Abbildung 2 zeigt beispielhaft anhandvon Twitter-Nachrichten zwei unter-schiedliche Szenarien, wie sogenann-
aut Rohdaten
Oracle Data Warehouse (Exadata)External Table: HDFS_CAR_SENTIMENT
q;,i;i::, .;'1;i 16$ri,:ä#iiill 966;';;Fod Fda 01{t-12 I 2
lnfiniBand
Fod F@6 0142-12 24 aO6cle DlrcctConnoctor for \ Fod Fj50 o1{t{2 50 3
Hadoop HDFS Loatis: hdfs_forum-€r_model.toct
gE!,tca ,
l'Bor{ BDFS_CÄR_SnI!I!CN!
ls,*"' "f
I gut* cott".t I Roalüme odel| (searctr I hi6tori6ch€I User Lookup) I O.Enr +
Oracle Big Data ApplianceH D F S
.::itiü:f , I rti':i:1.{,1{ili&$t*!üi{i&i:FodFo601-01-2012 I 2
FordF@@01-02-2012 24 I
FodF-1500141-2012 50 3
File: PART-R-0000
ii::1i
DOAG News 4-2012 | 47
Originalsystem (2.8. Datenbank)
@
q ! E t o ä l
ä i sg ä äF d ' = 3 Q ; l{ ö i ä F 6
eä'o
Endeca Index
liledlkamentenb$chrelbung (Text)
Sinclair I June
IE!!t--
iletlormin
m,2o1o
Metformin was approved for use in the U.S.for treatment of type 2 dlabotes inDecember, 1994. lt ls sold under thebrand name Glucophage and is alsoavailable generically. Metfomin is appro/edfor trsatnent wilh sulfonylureas, or withinsulin, or as monotherapy (by itself).Glu@phage XR Extended Release täblets, aonce daily version of metformin, is available.Als. metiormin is availäble...
Sulfonylursag
"."dtdtt-
.4
EF
Data Warehouse & Bl
Abbildung 4: Beispiel eines Facetten-Datenmodells
te ,,Social-Media-Daten" in die Big-Data-Infrastruktur eines Untemehmensüberfährt und auswertbar gemacht wer-den können. Szenario L steht dabei fürden individuellen Entwicklungsansatz,bei dem die Akquisition der Rohdatenüber Twitter-Developer-APls (siehe
http://dev.twitter.com) und die Daten-organisation über das Hadoop-MapRe-duce-Entwicklungs-Framework (nicht
abgebildet) erfolgt. Alternativ lassensich heute auch schon Mehrwertdiens-te (Szenario 2) in Anspruch nehmen,die per Auftrag TWitter-Datenabzüge
aufbereiten und anreichem, indem sieunter anderem den Geo-Bezug herstel-len, den Einfluss der Twitter-Beiträgeauf andere per ,,Klout Score" ermittelnoder eine Sentiment-Analyse durch-ftihren. Im Ergebnis werden die rele-vanten Daten (in der Abbildung die
Real Time
.E(,oo
o*,t!o
Abbildung 5 : Big-D ata- Anw endungsb ereiche : Oracle Lösungs quadrant
48 | www.doag.org
permanenlersem istru ktu r ierterDatenstrom
Selektive Ubernahme
Ubergang inBestandssysteme Datamart / Datenausschnift
Rohdaten oder verdichtete Daten
Traditionelle analytische Anwendungen
Abbildung 6: Analytisclres Gesamtszensrio
veredelten Twitter-Feeds) als Key-Va-lue-Paare in Dateiform in einem Ha-doop Distributed File System (HDFS)zur weiteren Analyse bereitgestellt.Nutzt man hierzu die Oracle-Big-Data-Infrastruktur in Kombination mit ei-nem Oracle-Data-Warehouse, eröffnetsich dem Analysten ein eleganter Wegdes Datenzugriffs per External Tablesund SQL (siehe auch I4l).
Analysemöglichkeiten
Die Akquisition von Endeca erweitertdas bisherige Oracle-Business-lntell i-gence-Analyse-Spektrum, indem dietextbasierte Suche unstrukturierter In-formationen mit den typischen quan-titativen Bl-Analysen kombiniert unddem Benutzer intuitiv nutzbar präsen-tiert wird. Die Verbindung quantita-tiver und qualitativer Informationenüberschreitet die klassische Grenzevon Business Intell igence und kannkonzeptionell dem Knowledge Ma-nagement zugeördnet werden. Der Slo-gan ,,No data left behind" drückt die-
se Philosophie treffend aus. ErweiterteAnalyse-Funktionen sind zum Beispieldie unternehmensweite Suche, die Prä-sentation in Form von Tag Clouds, dasdatengetriebene dynamische Filternvon Merkmalen und die sogenannte
,,Facetten-Navigation", bei der die Su-che und Auswahl von Attributen wieauf einer Webseite funktioniert [5].
Abbildung 3 zeigt plastisch Teiledieser neuen funktionalen Möglich-keiten. Es geht um die Analyse einesTwitter-Streams zum Thema ,,AutoMake and Model". In der Guided-Na-vigation-Leiste links sieht man dieeinbezogenen Datenquellen (iPhone-,Android- und Blackberry-Nutzer) unddie weiteren gesetzten Filterkriterien(,,Ford Focus"). Oben in der Metrik-Leiste wird ausgewiesen, dass in 416(von ca. 350.000 Interaktionen) zutref-fende Nachrichten gefunden wurdenund sich 400 (der ca. 132.500 Benutzer)zu diesem Thema austauschen. In denTag-Clouds werden besonders häufigverwendete, unterschiedliche Pkw-Mo-
delle und andere Begriffe hervorgeho-ben, wobei die Größe der Schrift zeigt,auf welche Wörter die meisten Trefferkommen. Die bereits erwähnten Mög-lichkeiten zur Anreicherung von Soci-al-Media-Daten durch,,Klout Scores"und Sentiment-Analysen helfen demAnalysten bei der Bewertung der Twit-ter-Beiträge, etwa in Form zusätzlicherMetriken oder weiterer Attribute fürdie gefuhrte Suche im Datenbestand.Schließlich finden sich unten weitereStatistiken, die zusätzlichen korrespon-dierenden Inhalt enthalten können.
Bevor es zur fachlichen Analysekommen kann, sind die Daten aufzu-bereiten, gegebenenfalls zu verknüp-fen sowie anzureichern. Neben klassi-schen ETl-Funktionen gibt es seitensEndeca ein erweiterbares Content-Acquisition-System (CAS) für die Da-ten-Integration von Hunderten vonDateitypen, Dokument-Repositories,CMS-Systemen, Webinhalten und RSS-Feeds. CAS kann sowohl Dateiserverals auch Twitter, Facebook & Co. ana-
IL
DOAG lVeyrs 1-2012 49
Data Warehouse E Bl
lysieren. Jedes unstrukturierte Attributkann verarbeitet und um weitere Infor-mationen angereichert werden. Gängi-ge Techniken sind:
. Automatic Tagging
. Named Entity Extraction
. Sentiment Analysis
. Term Extraction
. Geospatial Matching
Die unstrukturierten Daten könnenmit anderen Datensätzen über einenbeliebigen Schlüssel miteinander ver-bunden werden. Natürlich könnenauch strukturierte Daten mit diesenunstrukturierten Daten im Rahmendes ETl-Prozesses verknüpft sein. Da-bei wird keine feste analysefokussier-te Datenmodellierung betrieben - wieim Data Warehouse in Richtung Star-oder Snowflake-Modell in Form vonfest verknüpften Tabellen üblich -,
sondern die Dimensionen werden allegleichberechtigt nebeneinander in einModell gelegt. In der Praxis existie-ren Analyse-Modelle mit mehrerenHundert Dimensionen. Aus fachlicherSicht eröffnen sich so unendliche Ana-lyse-Möglichkeiten. Abbildung 4 ver-anschaulicht die Idee des hochdimen-sionalen Facetten-Datenmodells.
Die Praxis
Big-Data-Projekte sind kein Selbst-zweck. Die neue Technik ist reizvoll,aufgrund des notwendigen Spezialwis-sens und der sehr großen Datenmen-
gen (Hardware-Bedarf) aber durchauskostenintensiv. Daher ist es erforder-lich, die fachlichen neuen Möglich-keiten, die sich aus Big-Data-Analysenergeben können, nüchtern zu bewer-ten. Das kann nur jedes Unternehmenselbst anhand seiner Anwendungsfälletun. In Anlehnung an [6] zeigt Abbil-dung 5 eine Gegenüberstellung einigerBig-Data-Anwendungsbereiche und desOracle-Lösungsangebots zu Big Dataund Data Warehousing.
Unter wn w.doag.org/go/doagnews/erb_tabelle sind beispielhaft fünf aus-gewählte Use Cases vorgestellt und ihreKomplexität sowie deren Geschäfts-nutzen bewertet.
Quellenverzeichnis[1] McKinsey Global Institute: Big Data: The
next frontier for innovation, competition, and productiviry Report, May 2011:http: i /www.mckinsey. com/Insights/MGI/Research/Technology_and_lnnovation/Big_data_The_next_frontier_for_innovation
[2] Carsten Czarski, Big Data: Eine Einführung,Oracle Dojo Nr. 2, München 2O72: http:llwww.oracle. com/webfolder/technetwork/de/community/dojo/index.html
[3 | Cackett, D./Bond, A./Lancaster, K./Leiker, K.,Enabling Pervasive BI through a Practi-cal Data Warehouse Reference Architec-ture, An Oracle White Paper, Februar 2010:http://www.oracle.com/us/solutions/data-warehousing/058925.pdf
[4] Günther Stürner, Big Data - Hype undWirklichkeit, Vortrag auf dem Führung-skräfte-Forum,,Ergebnis- und wirkungsori-entierte Steuerung" des Behördenspiegels:http : //www.fuehrungskraefte-f orum.de/?page_id=1617
[5] Mark Rittman, Where Does Endeca Fitwith Oracle BI and DW?, 22. Februar 2072,ht tp: / /www.r i t tmanmead. com I ZO12 I 02 I
oracle-endeca-week-where-does-endeca-fi t-with-oracle-bi-dw-and-epm/
[6] Ravi Kalakota, Big Data Analytics Use Cas-es, 12. Dezember 2011: http://practicalana-lltics.wordpress.com I 2O71, I 12 I 12 lbig-data-analytics-use-cases
[7] TU München, o.V., Neuer Krebsauslöser inPommes frites entdecku scinexx - Das Wis-sensmagazin, 19. August 2008, http://wn'w.g-o.de/wissen-aktuell-8686-2008-08-19.html
[8] o.V.: Bei Twitter hat Obama im Wahlkampfdie Nase vorn, in Westdeutsche AllgemeineZeitung Online, 3. Januar 2012, http:llwww.derwesten. de/wirtschaft/digital/bei-tw i t t e r - ha t -obama- im-wah l kamp f -d i e -nase-vorn-id62109 15.html
[9] o.V.: Neue Umsatzsteuer soll Betrug vor-beugen, in Frankfurter Allgemeine ZeitungOnline, 20. Oktober 2005: http://rvww.faz.net/aktuell/wirtschaft/wirtschaftspolitik/h au sh alt- neu e -u m satzs teu er- s ol I -be trug-vorbeugen- 1 28 27 02.html
Oliver Rönigeroliver.roeniger@
oracle.com
Harald Erbharald.erb@oracle.com
Firmenmitglieder
Dirk Fleischmann, cubus Bl Solut ions GmbHWolfgang Hack, dimensio Informatics GmbHVolker Oboda, DMySQLAG e.VMart in Böddecker, mb Support GmbHHans Hase lbeck , EMPIRIUS GmbH
Uwe SchreiberWolfgang Michael GirschChrista WeckmanThomas KrahnMarco StroechWoltgang BossmannChristoph MeckerCorinna KerstanGerhard Schaefet
Michael TucekRüd iger Z ieg le rErika KrügerAndreas KoopUlr ich Gerkmann-BaftelsManfred DrozdChristoph QuereserAndreas RernhardtMarkus Vincon
Wir begrül3en unsere neuen Mitglieder
Persönliche Mitglieder
Norbert KossokDi rk WemhönerAlexandra StraußThomas Ewald-Nifk i f faKevin Brychjoach im Enge lThorl ten GrebeMar t in Bernemann
Josef Rabacher
50 | www.doag.org
Nr; Baänchä Anäly5ö:f okUs....,
1 Pharmaproduzent Prod u ktpositionierung
2 Automobilhersteller qualitätssicherung
3 Verbra ucherschutz Gefahreneinschätzung, Auf klärung
4 Polit ische Parteien Wahlkampagnen
5 Steuerfahndung Betrugsermittlung
Tabelle 1: Ausgewählte Big Ddta Use Cases
Tabelle 2: Use Case ,PharmaProfuum{
Tabelle 3: Use Case ,Automobilhersteller"
fia$eställun9, wird unser neues'Präparat positiv in dei öffentlithkeit besProchen?
Analyseziel Sentiment-Analyse, Haben wir mehr als 70 Prozent Zustimmung?
InformationsquellenWebseiten ausgewählter pharmazeutischey'medizinischer Foren und internationaler Fachzeitschrif-tenTwitterstreams ausgewählter Meinungsbildner
IntegrationsbedarfAus dem DWH werden wöchentlich die Abverkaufsdaten nach Regionen als Vergleichsmaßstabbereitgestellt sowie die aktuellen Kampagnenkosten aufgefächert nach Kanal
Komplexität Gering
Zyklus Beschränkter Beobachtungszeitraum
NutzenErfolgskontrolle und gegebenenfalls Neuausrichtung/Fokussierung der kostenintensiven Matketing-Aktivitäten
$i,agestellung,W6..weadeü.'.te$nis{heiAilähü$l:.gämef:deti,,deräh,,,küffiistig€:::6*üaka;mibimO..!*.Uer lau{endenFiodüktiiöni..;täte-:.gäE ehänfnlls,,notweödigä;r:rkoit€rrintenatu€::Rürkufaktionen,:iowie:,|:mä:gä:schäden Vermeiaen hitttr i ,
Analyseziel Qualitätsmanagement in der Produktion, Frühwarnung
InformationsquellenWebseiten ausgewählter Kfz-ForenWerkstattberichte der Vertragshändler
lntegrationsbedarfIntegration der Erkenntnisse erfolgt nachträglich in das bestehende Data Warehouse, bestehendequalitatserfahrungen aus der Vergangenheit werden zum Vergleich genutzt
Komplexität Mitrel
Zyklus laufende Analyse im ersten Produktionsjahr des Modells
Nutzen[eicht rechenbar anhand der täglichen Produktionskapazität multipliziert mit den nachträglichenFehlerkorrektur-Kosten pro werktück. Jeder Tag, der eher zur Problembehebung führt, refinanziertdirekt das Analyse-Projekt.
riägast€llüng:,,Forscher haben in Kartoffel-Chips und Fommes frites erstmals einö,,.Substänz dlrekt nathgewleien,die,noch,,üiei,::gefähilicher:iit,,af*,,Acrtlämid::::Dä,s::as::gerräfihter6lycidräm]d:::en!{!qht...ebirnfälts..bsim..::tfhi&n::'ünil|Ka*u+tätpigo*t<ren...und:.steht..im:ir'ei#tht::5rki:*idbi.:idiid
AnalysezielWo finden sich wissenschaftliche Gutachten und Berichte zu clycidamid, intern und extern? Wo findensich Anhaltspunkte dazu in unseren vorhandenen Messdaten aus der Praxis?
Informationsquellen
Webseiten ausgewählter Foten und internationaler Fachzeitschriften[aborberichte aus den l-aborsystemen der lebensmittelüberwachungs-Behörden eines Bundeslandesund der KommunenEigenes Dokumenten-Managementsystem und gegebenenfalls wissenschaftl iche Bibliotheken
IntegrationsbedarlOft existiert in Verbraucherschutzministerien kein umfassendes DWH, dort wird aufgrund der Textorien-tierung bislang eher mit Dokumentenmanagementsystemen gearbeitet
Komplexität Mittel - eher Enterprise Search als echte Analyse
Zyklus Einzelfallbezogene Analysen, je nach Dringlichkeit kurzfristig notwendig
NutzenDie Quantifizierung des Nutzens in Geldeinheiten fällt hier schwer. Der gesellschaftliche Auftrag ver-langt intensiven Einsatz, die Bevölkerung muss aktiv informiert werden.
Tabelle 4: Use Case,,Verbraucherschutzministerium"
Tabelle 5: Use Case ,,Politische Parteien"
Tabelle 6 :
_Use
C ase,,Starcrfahndun{
riagesiälfüa(
rEezag:en:::ä|Jf::pofititffier::älEtüälte,themen {wiu,,Gunmäi5,,,Ätomä,usities;::ACrA):::ioll:::ein::5limrnüngsbild,,
,,Die amerikanischen Fiaiiaentschäitsbeweöer nützen fui ihre karnpägnen äüsgiebig den KuitnäihiithtenUienst,,rwiftef,,,Sie,,*erwäisen,äuf,,lhre,,,FpEary11e",,,erz"ihlea:::tirn:::ih ,,@enmdä,,,orIerdanken.füiei*eh;..nättcn;;;Empfän'i::A|:leidio9i...si.nd..nid*::ä:}|c::9|aid}::in
AnalysezielSentiment-Analyse Welche Position ist mehrheitsfähig? wie verändern sich Meinungen der gleichenWähler im Zeitablauf (zumindest bis auf Regionen heruntergebrochen)?
InformationsquellenWebseiten ausgewählter politischer Foren und von Tages-/Wochenzeiten sowie NachrichtenagenturenTwitterstreams ausgewählter MeinungsbildnerWettbewerbsbeobachtung der anderen Parteien
IntegrationsbedarfKeine Integration zu vorhandenen lT-Systemen notwendig
Komplexität 6ering
Zyklus Einzelthemen werden im Zeitablauf beobachtet
NutzenBereits 2008 hat Barack obama seine Kampagnen im Präsidentschaftswahlkampf sehr stark mittels derneuen Medien geführt und auch Spenden gesammelt. Der Erfolg ist bekannt.
iFiä:geitellung0ürctr,::ÜfüiätistäüäflKäiuiiöfrlä äatstehän.tähitith::s$ä:dänr:rln 1Iöhä,,von,,4,5:iafd;::Eüfö:r:lnrroäüts$läöd[9]i Händler erhalten umsatzsleüereibtattung,en, obwohl keine wäiän:rCät in Ceser trtenge herge- ,stellt und vertrieben wurden. Diese Betrugriätte giti es iut uOeitäÄ. ','
Analysezielldentif izierung der Händler-Netzwerke und ihrer Scheingeschäfte. Das gelingt durch Social NetworkAnalysis (SNA), in der die verdächtigen Händler als Knoten modell iert und ihr Zusammenwirken imNetzwerk untersucht wirc.
InfotmationsquellenMassendaten aus der Umsatzsteuererstattung
Jahresabschlussdaten, alle Einnahmen/Ausgaben (Rechnungen) und Geschäftsbeteil igungen von ver-dächtigen Händlern
IntegrationsbedarfDie Transaktionsdaten und Händler-Stammdaten kommen aus dem Data Warehouse, die anderen Datender Händler werden damit verknüpft
Komplexität Sehr hoch, nahtloser Übergang zu Data Mining
Zy kl us Monatliches Screening, dann fallweises Bearbeiten
NutzenDer Nutzen errechnet sich unmittelbar aus den aufgedeckten Fällen: Allein ein größerer Fall rechtfertigtkostenseitig bereits das Gesamtprojekt.
top related