die 10 wichtigsten big data-technologien · hadoop - ein bewährtes konzept 4 2. cloudera –...
Post on 04-Aug-2020
3 Views
Preview:
TRANSCRIPT
it-novum.com
So finden Sie das richtige Toolset
Die 10 wichtigsten Big Data-Technologien
Zusammenfassung 3
1. Hadoop - Ein bewährtes Konzept 4
2. Cloudera – Hadoop für Unternehmen 4
3. Apache Hive - Das Data Warehouse für Hadoop 5
4. Cloudera Impala - Die Lösung für Echtzeit abfragen 6
5. MongoDB - Die Datenbank für alle Fälle 7
6. Pentaho - Flexible Business Intelligence Plattform 8
7. Infobright-MySQL-EnginemiteffektiverDatenkompression 9
8. Apache Spark - Ein Framework zur Echtzeitanalyse 10
9. Splunk-BigDatavereinfachen 11
10. Apache Storm - Big Data Analyse auf Echtzeitbasis 12
Ausblick 14
Inhalt
2
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
ZusammenfassungDas Whitepaper präsentiert eine Auswahl der wichtigsten Big Data-Technologien, die derzeit auf
dem Markt sind. Es soll der ersten Information und Orientierung dienen, kann aber eine intensi-
ve Auseinandersetzung mit dem Thema nicht ersetzen.
Heute ist es wichtiger denn je, möglichst viele Informationen über den Markt und die Kun-
den zu sammeln und auszuwerten, um einen Wettbewerbsvorteil zu generieren. Ohne Zweifel
gehören Big-Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen, aus denen
sichErkenntnissefürdieEntwicklungneuerGeschäftsmodelle,ProdukteundStrategienziehen
lassen. Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung,
eingeeignetesBig-Data-KonzeptunddiegeeignetenUseCasesfürsichzuidentifizieren.Jenach
Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte
aus dem Big-Data-Umfeld zum Einsatz. Die zehn wichtigsten dieser Technologien stellen wir in
diesem Whitepaper vor.
3
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
1. Hadoop - Ein bewährtes KonzeptHadoopisteininJavageschriebenesOpenSource-FrameworkzurparallelenDatenverarbeitung
auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei
vielen Lösungen eine zentrale Rolle. Ursprünglich wurde es entwickelt, um große Datenmengen
für Internet-Riesen wie Facebook, Google und Yahoo günstig zu speichern und die Daten gleich-
zeitig auf vielfältige Weise zu verarbeiten. Besonders geeignet ist Hadoop für Datenauswertun-
gen, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschie-
denen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller
Business Intelligence Tools hinaus.
UnternehmenprofitierendurchdenEinsatzvonHadoop,da
и große und vielfältige Datenmengen kostengünstig gespeichert werden. Damit lohnt sich auch
die Vorratshaltung von Rohdaten, deren Wert noch unklar ist
и esaufpreiswerterHardwareohneBindunganeinenbestimmtenHerstellerläuft,
и dieDatenaufvielfältigeundflexibleWeiseanalysiertwerdenkönnen,
и die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensent-
scheidungen unterstützt werden.
Ein großes Problem in vielen Unternehmen ist, dass die zur Verfügung stehende Zeit fehlt, um
die Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Daten-
flussdergestalt,dassdieVerarbeitungszeitbeizunehmendemDatenvolumensinkt.Dieswird
erreicht, indem mehrere Rechner parallel an den Aufgaben arbeiten. Die sogenannte Shared-
Nothing-Architektur, die in Hadoop eingesetzt wird, sorgt dafür, dass jeder Rechner des verteil-
ten Systems unabhängig von den anderen seine Aufgaben erfüllt.
2. Cloudera – Hadoop für UnternehmenCloudera ist eine Datenmanagementplattform, die Apache Hadoop mit einer Reihe von Open
Source-Projekten im Big Data-Bereich kombiniert. Cloudera stellt die umfangreichste und am
häufigsteneingesetzteHadoop-Distributiondar–die„Cloudera‘sDistributionincludingApache
Hadoop“ (CDH). Als einzelnes System, das hochskalierbar ist, vereint Cloudera Speicherressour-
cen mit leistungsstarken Verarbeitungs- und Analyseframeworks.
CDH umfasst als einzige Hadoop-Distribution individuell auswählbare Erweiterungen, eine
Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Ver-
fügbarkeit auf Unternehmensniveau.
4
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Die mit Abstand wichtigsten Features von CDH sind ein eigenes Installationsprogramm und
ein komfortables Werkzeug zur Cluster-Administraton - der proprietäre Cloudera Manager. Die
Kompatibilität von CDH mit einer großen Anzahl von Betriebssystemen, Hardwarekomponenten,
Data Warehouses und ETL-Systemen ist in ausführlichen Tests bewiesen worden.
CDH-Anwenderprofitierendavon,dasssiebestehendeIT-Toolsund-Ressourcenweitereinset-
zen können. Ein weiterer Vorteil der Cloudera-Distribution liegt in ihrer Flexibilität, denn bei der
Implementierung von neuen Technologien in bestehende Produktionsabläufe sind meistens
großeHerausforderungenzubewältigen,dieoftnurindividuellgelöstwerdenkönnen.
Die Vorteile von Cloudera sind:
и Komplette Hadoop-Distribution für den Business-Einsatz
и Hochskalierbar
и Große Flexibilität bei der Integration in Unternehmensprozesse
3. Apache Hive - Das Data Warehouse für Hadoop
Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil
die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query
Language (SQL) gespeichert sind. Unterstützung bietet hier das Open Source Data Warehouse-
System Apache Hive. Von Facebook entwickelt und auf dem MapReduce-Algorithmus beruhend,
liefert es den SQL-Dialekt Hive Query Language (HiveQL oder einfach HQL) mit.
Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die
Datenanalyse.DazuwerdenHiveQLSQL-artigeAbfragenautomatischinMapReduce-Jobsüber-
setzt, die auf dem Hadoop-Cluster ausgeführt werden. Auf diese Weise kann Hive Implementie-
rungenfürAggregationen,Filter,JoinsundandereStandard-OperationenzurVerfügungstellen,
dieansonsteninJavaindividuellimplementiertwerdenmüssten.ZusätzlichkönnenBenutzer
dieFunktionalitätdurchsogenannteUserDefinedFunctionsselbstumsetzen,umdamitz.B.
spezielle Dateiformate einzulesen. Am besten eignet sich Hive für die Batch-Verarbeitung von
großen Datenmengen wie zum Beispiel Web-Logs.
5
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Vorteile, die sich für Unternehmen beim Einsatz von Hive ergeben:
и DieHürdenfürdenEinsatzvonMapReducesindniedrig,dadieJobsnichtselbstimplemen-
tiert werden müssen,
и Schnelles Laden der Daten durch den Schema-on-Read-Ansatz,
и SQL-Kenntnisse sind weit verbreitet, wodurch auch Nichtspezialisten mit Hive arbeiten kön-
nen.
Relationale Datenbanken arbeiten nach dem Schema-on-Write-Ansatz (SoW). Hier wird beim
Einspielen von Daten ein Schema erzwungen. Ein herkömmliches ETL bereitet die Daten so auf,
das sie zum Datenbankschema passen. Enthalten die Quelldaten neue Informationen, muss das
Schema angepasst werden, bevor die neuen Daten eingespielt werden. Hive dagegen arbeitet
nach dem Schema-on-Read-Ansatz (SoR). Dabei werden die Daten unverändert im HDFS abge-
legtunderstbeiAnfragenmittels„ETLonthefly“gegendasSchemageprüft.DerVorteildes
SoR-Ansatz gegenüber dem SoW-Konzept besteht darin, dass er ein schnelles Laden von Daten
ermöglicht, da sie nicht gelesen, geparst und in das datenbankinterne Format konvertiert wer-
den müssen. Das Laden besteht lediglich aus dem Kopieren oder Verschieben von Dateien. Das
hatdenpositivenNebeneffekt,dassmehrereSchemataaufdenselbenDatenarbeitenkönnen.
Die Ausführungszeit der Übersetzungen steigt natürlicherweise mit der zu analysierenden
Datenmenge.DahersolltendieDateieninHadoopsHDFSmöglichsteffektivorganisiertwerden,
damiteffizienteAbfragennuraufeinerTeildatenmengedurchgeführtwerdenmüssen.Hivebie-
tet darüber hinaus auch die Möglichkeit, Daten komprimiert zu speichern. Das ermöglicht eine
kostengünstige Datenhaltung und senkt den für Hive erforderlichen Speicherplatz im HDFS. Für
Ad-hoc-AnalysenistHiveallerdingswegenderLatenzdurchdasStartenderMapReduce-Jobs
nurbedingtgeeignet.BenutzerspezifischeFunktionenfürHivewerdeninJavageschrieben.
4. Cloudera Impala - Die Lösung für Echtzeit abfragen
Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfra-
gen in HDFS oder HBase durchgeführt werden können. Das für Apache lizenzierte Impala-Projekt
ermöglicht es Nutzern, Low Latency SQL-Abfragen ohne die Bewegung oder Umwandlung von
Daten aus HDFS und Apache HBase zu erstellen. Diese Abfragen werden in SQL formuliert und
versprechen, schneller zu sein als mit Hive oder MapReduce durchgeführte.
Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool
fürHDFSundHBasebereitzustellen.DazuerzeugtImpalaeinflexiblesDatenmodell,daseffizien-
ter mit komplexen Daten umgehen kann als ein klassisches Data Warehouse.
6
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
ImpalaistindasHadoop-ÖkosystemintegriertundnutztdiegleichenflexiblenDatei-und
Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Apache
Hadoop, Apache Hive, Apache Pig und andere Komponenten der Hadoop-Produktfamilie. Für
Anwender,dieSQLbeherrschen,stelltImpalaeineffizientesEntwicklungsmodelldar,danicht
jedesMaleinneuesJava-Programmgeschriebenwerdenmuss,wennneueArtenvonAnalysen
durchgeführt werden müssen.
Unternehmen,dieClouderaImpalaeinsetzen,profitierenvonderTechnologie,da
и Daten nicht importiert bzw. exportiert werden müssen; sie werden direkt mit Pig oder Hive
gelesen,
и kostengünstige Standardhardware ausreicht,
и Abfragen in SQL formuliert werden und damit keine neue Sprache gelernt werden muss,
и es ein eigenständiges System zur Big Data-Verarbeitung und -Analyse ist. Kosten für ETL zu
Analysezwecken lassen sich daher vermeiden.
5. MongoDB - Die Datenbank für alle FälleMongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich.
Als„Allzweckdatenbank“eignetsichMongoDBbestensfürdieheutigeIT-Landschaftmitihren
großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynami-
sche Entwicklung und hohe Skalierbarkeit bei den Anwendungen. Dem Nutzer bietet MongoDB
eine integrierte Query Language für einfache Abfragen, Replikation und Sharding. Mongo DB
folgt dem Sharding-Ansatz, um einen hohen Durchsatz bei den Schreib- und Leseoperationen zu
erreichen.
Vorteile, die sich durch den Einsatz von Mongo DB ergeben, sind:
и dynamische Entwicklung und horizontale Skalierbarkeit der Datenbank,
и vielfältigeinsetzbar,einfachzukonfigurierenundschnelleinsatzfähig,
и Skalierung von Einzelservern bis hin zu komplexen Architekturen über mehrere Rechenzent-
ren hinweg möglich,
и Schemafreiheit. Dadurch entfällt ein gewisser Arbeitsaufwand bei der Implementierung.
MongoDB lässt sich auf allen gängigen Betriebssystemen einsetzen und ist mittlerweile auch in
der Cloud verfügbar. Wie bei anderen schemafreien NoSQL-Datenbanken muss auch bei Mon-
goDB kein Schema vor dem Einsatz festgelegt werden. Das erlaubt im Gegensatz zu einer MySQL-
Datenbank eine hohe Flexibilität bei den zu speichernden Daten. Bei MongoDB bestehen die
DokumenteausJSON-CodeundlassensichnachBedarfverändern.ElementewieArraysoder
Timestamps dürfen dabei vorkommen.
7
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Änderungen an der Datenstruktur stellen kein Problem dar, weshalb sich MongoDB vor allem für
neueunddadurchoftänderndeDatenstruktureneignet.TrotzdemsolltenAnwendersichGedan-
ken über die Gestaltung der Dokumente machen, da Performance-Probleme drohen, wenn die
Datenbank an Umfang zunimmt.
DieDatenwerdenimBSON-Formatgespeichert,dasmitdemJSON-Formatverwandtist.Damit
unterstütztMongoDBalleJavaScript-Datentypen.WerdenneueFelderhinzugefügtoderwächst
die Größe eines Dokuments über den zugewiesenen Speicherplatz hinaus, speichert MongoDB
das Dokument an einer anderen Stelle der Datei. Das kann die Performance beeinträchtigen,
denndieSoftwaremussdieDatenneuschreiben.GeschiehtdasNeuschreibenhäufig,passt
MongoDB automatisch den Padding-Faktor an und räumt Dokumenten von Haus aus mehr Platz
ein. Darüber hinaus garantiert die eingebaute Replikation mit automatisierter Ausfallsicherung
eine große Zuverlässigkeit.
6. Pentaho - Flexible Business Intelligence Plattform
PentahoisteinerderweltweitführendenAnbieterfürOpenSourceBusinessIntelligence-Soft-
ware und unterstützt Unternehmen bei der Integration ihrer Big Data-Bestände. Die Strategie
von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework
zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel
Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung
neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch
fürdieVisualisierungderDatenverwenden.PDIunterstütztvieleBigData-spezifischeVerarbei-
tungsschritte,wiedasAusführenvonMapReduce-JobssowiePig-oderHive-Skripten.PDIist
sehrflexibelundkannnichtnuraufHadoop,sondernauchaufHBase,MongoDBundandereBig
Data-Datenquellen zugreifen.
Der Einsatz von Pentaho im Big Data-Bereich bringt folgende Vorteile mit sich:
и Unterstützung bei der Einführung von Big Data-Technologien, sodass keine hochspezialisier-
ten Kenntnisse von Seiten des Unternehmens nötig sind,
и FlexibilitätbeiderAuswahlderSoftware-KomponentenermöglichtindividuelleLösungen,
и Zusammenfassung von Einzellösungen zu einem kompletten Framework,
и Präsentation der einzelnen Funktionen der Pentaho BI-Plattform in einheitlicher Form und
Aussehen.
8
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
PentahoverfügtübereineoffeneArchitektur,diesichmiteinergroßenAnzahlvonSchnitt-
stelleneinfachinbestehendeIT-Landschafteneingliedernlässt.ImVergleichzutraditionellen
BI-Lösungen ist die Pentaho-Plattform eine aus verschiedenen Modulen bestehende Suite. Die
Suite besteht aus dem Pentaho Server, der das BI-Framework umfasst, das wiederum das ETL,
die Webdienste und das Sicherheitszentrum enthält. Der Server umfasst Komponenten für die
Report-Erstellung,Analyse,Workflow,DashboardsundDataMiningsowiedieBI-Workbench,
daneben enthält er eine Reihe von Design- und Verwaltungs-Tools. Die Aufgabe des Pentaho-
Servers ist es, dem Anwender die einzelnen Funktionen in einheitlicher Form und Aussehen zu
präsentieren.
NebendenOpenSourceSoftware-Komponenten,dieindersogenanntenPentahoCommunity
Edition enthalten sind, bietet Pentaho auch proprietäre Funktionen. Diese können entweder
einzeln oder zusammengefasst als komplette Suite, der Pentaho Enterprise Edition, bezogen
werden. Alle Komponenten der Community Edition stehen unter Open Source-Lizenzen und sind
inJavaentwickelt.DieEnterpriseEditionbietetzusätzlicheSoftware-KomponentenundDienst-
leistungen an, wie zum Beispiel einen Kundensupport.
Für die wichtigsten Big Data-Quellen bietet Pentaho umfassende Unterstützung: Neben der
Hadoop-Plattform unterstützt Pentaho auch NoSQL-Datenbanken wie Apache Cassandra/Data-
Stax, HBase, MongoDB, und HPCC Systems sowie analytische Datenbanken wie Infobright und
Vectorwise.DamitstelltPentahoeineflexibleundkostengünstigeSoftware-SuitefürdieAnbin-
dung von Big Data-Technologien und bietet eine leistungsfähige und moderne Anwendung für
die Auswertung von sehr großen Datenbeständen.
7. Infobright - MySQL-Engine mit effektiver Datenkompression
Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter
Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenban-
ken entwickelt. Bei der spaltenorientierten Speicherung werden die Werte einer Spalte fortlau-
fend abgespeichert. Das ist besonders für Data Warehouse, Customer Relationship Management-
undandereAd-hoc-Abfrage-SystemesowiefüranalysierendeApplikationenvorteilhaft.
Vorteile, die sich aus dem Einsatz spaltenorientierter Datenbanksysteme ergeben, sind:
и EffektiveDatenkompressionenkönnendurchgeführtwerden,
и Weniger Speicherplatz wird verbraucht, wodurch Kosten gespart werden,
и Insgesamt größere Flexibilität und Schnelligkeit bei Analysen,
и Ad-hoc-Abfragen können durchgeführt werden.
9
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
InspaltenbasiertenSystemenkönnenimGegensatzzuzeilenorientiertenSystemeneffektive-
re Kompressionen durchgeführt werden. Die Spaltendaten haben einen einheitlichen Typ und
können daher über Kompressionsschemata verdichtet werden, was den Speicherplatzverbrauch
verringert. Mit zunehmender Kompression wird es jedoch schwerer, auf einzelne Daten zuzugrei-
fen, da große Datenmengen dekomprimiert werden müssen. Bei der Speicherung sollte daher
beachtet werden, dass die Daten einer gesamten Spalte an gleicher Stelle abgespeichert wer-
den, da sonst die Lesegeschwindigkeit abnimmt.
ImLaufederletztenJahrehabensichverschiedeneSystemewieVectorwise,HPVerticaoder
Netezza/BM am Markt etabliert. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergan-
genheit ein neues Open Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet
ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden
Knowledge Grid-Architektur. Damit werden die Kosten gering gehalten. Für den Betrieb von Info-
bright reicht eine einfache Server- und Speicherinfrastruktur aus, weil die Datenbank auf jeder
Standardhardwareläuft.
DasskalierbareDataWarehouseistaufeinfacheImplementierungundPflegeausgelegtund
kannkomplexeAnfragensehrgutbearbeiten.DieNotwendigkeit,spezifischeSchematazuer-
stellen, entfällt, genauso wie die Erstellung und Wartung von Indizes oder die Partionierung von
Daten sowie deren manuelle Feinabstimmung. Infobright macht damit hohe Ladegeschwindig-
keiten von sehr komprimiert gespeicherten Daten möglich.
8. Apache Spark - Ein Framework zur Echtzeitanalyse
Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen
treffenzukönnen,zumBeispieldieOptimierungvonProduktenoderdasIdentifizierenvonEin-
sparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark.
Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open Source-Bereich, das
die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht. Im
Vergleich zu Hadoops MapReduce-Algorithmus kann Spark bei bestimmten Anwendungen Daten
um ein vielfaches schneller verarbeiten.
Vorteile, die sich durch den Einsatz von Apache Spark ergeben, sind:
и Echtzeitanalysen durch In-Memory-Bearbeitung der Daten,
и Schnelle und fundierte Entscheidungen,
и SQL-ähnliche Abfragen möglich, wodurch keine spezialisierten Kenntnisse im Unternehmen
nötig sind.
10
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Durch die In-Memory-Funktion wird bei Spark die Datenverarbeitung von der Festplatte in den
Hauptspeicher verlagert. Berechnungen lassen sich dadurch wesentlich schneller durchführen.
Spark unterstützt eine schnelle Big Data-Anwendungsentwicklung und ermöglicht die Wieder-
verwendung von Codes in Batch-, Streaming- und interaktiven Anwendungen. Zudem bietet
die Technologie eine erweiterte Ausführung von hochentwickelten Graphen. Gelesen werden
können Daten aus verschiedenen Quellsystemen, z.B. Hive, Cassandra oder auch HDFS.
SparkstellteinfacheundverständlicheAPIszurVerfügung,umApplikationeninJava,Python
oder Skala zu schreiben. Spark Streaming ist ein Modul für die Verarbeitung von Daten-Streams
wiez.B.Clickstreams.DamitistdieSoftwaremitdembereitsbesprochenenStormvergleichbar.
Im Gegensatz zu Storm verfolgt Spark jedoch einen Durchsatz-erhöhenden Micro Batching-An-
satz. Der Nachteil ist allerdings, dass gleichzeitig auch die Latenz steigt.
SparkSQListeinweiteresModul,mitdemsichautomatischSparkJobsauseinemSQLState-
ment erzeugen lassen. Damit lassen sich z.B. ETL-Strecken ohne Programmieraufwand entwi-
ckeln. Das macht es für Entwickler leichter, SQL-Befehle in einer Applikation zu programmieren,
die externe Daten mit komplexen Analysen kombinieren.
9. Splunk - Big Data vereinfachenSplunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kun-
dentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei
die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können.
Anfänglich wurde Splunk nicht als eine der großen Entwicklungen im Big Data-Bereich gesehen.
Heute hat sich die Technologie jedoch besonders auf dem Gebiet des Digital Footprint etabliert.
Vorteile, die sich aus dem Einsatz von Splunk ergeben, sind:
и Kompatibilität mit den meisten Betriebssystemen,
и Vertraute Befehle können zur Datensuche eingesetzt werden,
и Echtzeit-Interaktion mit Suchergebnissen,
и Starke Individualisierung möglich, da Funktionen unabhängig voneinander eingestellt wer-
den können,
и zu Beginn reicht eine einzige Instanz des Produkts auf dem Computer aus, um von dort aus
wachsen zu können.
Splunk kann fast alle Arten von Dateien, die in einem Unternehmen anfallen, indizieren, ver-
arbeitenundauswerten.DazusammeltdieSoftwarealleDaten,unabhängigvonFormatoder
Speicherort. Splunk kann Daten von Netzwerk-Ports oder direkt von Programmen oder Skripten
übernehmen.
11
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Zusätzlich kann das System mit relationalen Datenbanken kooperieren, um Daten zu aktualisie-
ren oder zu sammeln.
DieAuswertungfindetmitderSplunk-spezifischenSuchsprache,derSearchProcessingLangua-
ge (SPL) statt. Zahlreiche mathematische Funktionen erlauben ein umfangreiches Auswerten der
Daten. Die Pivot-Schnittstelle ermöglicht es Benutzern, Maschinendaten zu lesen, um umfassen-
de Berichte zu erstellen, ohne die Suchsprache lernen zu müssen. Nach dem Auswerten können
ResultategrafischweiterverarbeitetundinDashboardsmitmehrerenDiagrammenundAnsich-
ten zusammengefasst und individuell platziert werden.
Ein weiterer großer Vorteil von Splunk ist, dass sich seine Funktionen stark anpassen und unab-
hängig voneinander individualisieren lassen. Beispielsweise ist es möglich, die Datensammel-
komponente zu skalieren, um mehrere Server bearbeiten zu können. Die Datenindizierungsfunk-
tionkannebenfallsaufmehrerenServern,diealsverteiltePeerskonfiguriertwerden,eingestellt
werden. Damit lässt sich mit einer großen Verfügbarkeitsoption die Fehlertoleranz transparent
behandeln.
10. Apache Storm - Big Data Analyse auf Echtzeitbasis
Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Daten-
strömen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet
unabhängig von Programmiersprachen. Die Idee zu Storm ist im Umfeld von Twitter entstanden
und wurde zur Erfüllung der folgenden Ziele entwickelt: Datenbanken sollen auf Basis der Echt-
zeitverarbeitung von Nachrichten aktualisiert werden, fortlaufend Ergebnisse berechnen und
ausgeben (Continuous Computation) sowie rechenintensive Anfragen mithilfe verteilter Remote
Procedure Calls parallelisieren.
Vorteile, die der Einsatz von Apache Storm mit sich bringt, sind:
и die Echtzeitanalyse von Daten,
и eine einfach und überschaubar aufgebaute API,
и ein geringer Aufwand um mit nahezu jeder beliebigen Programmiersprache auf das Analyse-
system zuzugreifen.
12
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Das Einsatzgebiet von Storm ist der latenzsensitive Bereich der Echtzeitdatenverabeitung: Storm
istdasMittelderWahl,wennEntscheidungenimMillisekundenbereichgetroffenwerdenmüs-
sen,ohnedassdaraufgewartetwerdenkann,dassz.B.einklassischerBatchJobeinErgebnis
liefert. Ein typischer Anwendungsfall ist die Analyse von Clickstreams im Retailbereich. Storm
kann hier mit wenig Hardware bereits eine große Anzahl an Tupeln mit geringen Latenzen verar-
beiten. Dabei garantiert Storm mit Hilfe eines Acknowlegement-Algorithmus, dass im verteilten
Einsatz keine Nachrichten verloren gehen und jedes Tupel verarbeitet wird. Geht ein Tupel z.B.
durch einen Netzwerkfehler verloren, wird es automatisch erneut gesendet.
Ein weiterer Vorteil von Storm ist die Ausfallsicherheit. So werden Work Threads auf den Nodes
automatischvomMasterNodeneugestartet,fallsdorteinFehlerauftritt.DesWeiterenfindetein
automatisches Loadbalancing zwischen einzelnen (gleichen) Nodes statt.
Storm bietet überdies eine einfache vertikale Skalierbarkeit durch das Hinzufügen von Worker-
Nodes. Dazu ist es allerdings erforderlich, dass die Topologie neu gestartet wird. Das Hinzufügen
„on-the-fly“istderzeitnochnichtmöglich.
13
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
AusblickOhne Zweifel gehören Big Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen,
ausdenensichErkenntnissefürdieEntwicklungneuerGeschäftsmodelle,ProdukteundStrate-
gien ziehen lassen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entschei-
dungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht
einführen, riskieren Wettbewerbsnachteile.
IndennächstenJahrenwirddasAngebotanindividualisiertenLösungenundEchtzeitprodukten
wirdstarkzunehmen.DamitwerdensichauchneueTätigkeitsfeldererschließen,dieFachkräfte
benötigen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungs-
prozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einfüh-
ren, riskieren Wettbewerbsnachteile.
Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung, ein ge-
eignetesBigData-Konzeptfürsichzuidentifizieren.Dabeiisteswichtig,individuelleBedürfnisse
herauszuarbeiten und darauf basierend die richtigen Technologien einzuführen.
14
it-novum Profil
Ihr Ansprechpartner für Business Intelligence und Big Data: Stefan Müller Director Big Data Analytics stefan.mueller@it-novum.com+49(0)661103942
Warum Sie mit it-novum sprechen sollten... Wir setzen diese Business Intelligence- und Big Data-Vorteile gewinnbringend für Unternehmen um:
▶ 360-Grad Blick auf Ihre Kunden ▶ Fachabteilungen werten dank Self-Service Analytics Big Data-Daten selbst aus ▶ IdentifikationneuerUmsatzquellendurchintelligenteNutzungvonUnternehmensdaten ▶ Kosteneinsparung durch Einsatz eines Data Warehouse ▶ Vermeidung des aufwändigen und fehleranfälligen Excel-Chaos
Wenn Sie diese Vorteile auch in Ihrem Unternehmen nutzen wollen, sollten wir uns kennenlernen!
Als Spezialist für die Implementierung von BI- & Big Data-Lösungen und -Technologien auf Open Source-Basis bieten wir Ihnen…
▶ Beratung ▶ Anwenderschulung (Public oder Inhouse) ▶ Proof of Concept ▶ Beratungs-Workshop (Konzeption, Deployment Assurance) ▶ Datenintegration und Data Warehouse ▶ Reporting und Analysen ▶ Dashboards und Datenvisualisierung (CTools) ▶ Systemeinführung (nach PRINCE2 oder agile Methodik) ▶ SAP/Pentaho Connector für die Verarbeitung von SAP-Daten ▶ ErwerbvonkommerziellenLizenzen,z.B.vonPentahooderJedox ▶ Implementierung von Data Lakes ▶ Predictive Analytics
Führend in Business Open Source-Lösungen und -Beratung
it-novum ist das führende IT-Beratungsunternehmen für Business Open Source im deutschsprachi-gen Markt. Gegründet 2001, ist it-novum heute eine Konzerntochter der börsennotierten KAP AG. Mit unseren 85 Mitarbeitern betreuen wir vom Hauptsitz in Fulda und den Niederlassungen in Düsseldorf, Dortmund und Wien aus vorwiegend große Mittelstandskunden sowie Großunternehmen im deutsch-sprachigen Raum.
top related