cloud wars–what‘sthe smartestdataplatform? · pdf file• microsoft certified...
TRANSCRIPT
Cloud Wars – what‘s thesmartest data platform?
Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform
Stefan Kirner PASSCamp, 06.12.2016
2
ReferentSpeaker Bio: Stefan Kirner
• Teamleiter Business Intelligence Solutions bei der inovex GmbH• Mehr als 15 Jahre Erfahrung mit dem Microsoft Business Intelligence Toolset• Microsoft Certified Systems Expert (MCSE) für Business Intelligence • Microsoft Certified Systems Associate (MCSA) für Cloud Platform• Microsoft P-TSP Data Platform• Leitung SQL PASS e.V. Community Karlsruhe• Sprecher auf zahlreichen Konferenzen zu BI und Cloud Themen
3
inovex ist ein IT-Projekthaus mit dem Schwerpunkt „Digitale Transformation“:
Digital Consulting · DatenprodukteWeb · Apps · Smart Devices · BI Big Data · Data Science · SearchReplatforming · Cloud · DevOpsData Center Automation & HostingTrainings · Coachings
Wir nutzen Technologien, um unsere Kunden glücklich zu machen.Und uns selbst.
inovex gibt es in Karlsruhe · Pforzheim · München · Köln · Hamburg
Und natürlich unter www.inovex.de
4NIST
Was ist Cloud Computing?
“Cloud computing is a model forenabling ubiquitous, convenient, on-demand network access to a shared
pool of configurable computing
resources [...] that can be rapidlyprovisioned and released withminimal management effort orservice provider interaction”
5http://cavdar.net/cloud-computing/#/1
Warum Cloud Computing?
Hier im Focus
6Microsoft (Thierry Gasser)
I/P/S-as-a-Service(On-Premises)
Storage
Servers
Networking
O/S
Middleware
Virtualization
Data
Applications
Runtime
You
man
ag
e
Infrastructure(as a Service)
Storage
Servers
Networking
O/S
Middleware
Virtualization
Data
Applications
Runtime
Oth
er M
an
ag
es
You
man
ag
e
Platform(as a Service)
Oth
er M
an
ag
es
You
man
ag
e
Storage
Servers
Networking
O/S
Middleware
Virtualization
Applications
Runtime
Data
Software(as a Service)
Oth
er M
an
ag
es
Storage
Servers
Networking
O/S
Middleware
Virtualization
Applications
Runtime
Data
7Albert Barron (Ibm) https://www.linkedin.com/pulse/20140730172610-9679881-pizza-as-a-service
Analogie der “as a Service“ Schichten
8http://www.adslzone.net/app/uploads/2014/09/cloud.jpg
Welche Public Cloud?
10Amazon Web Services
Public Cloud Anbieter
• Seit 2006• Iaas Marktführer• Dogfood für viele eigene Dienste
(Amazon Store, Video…)• “PaaS like services with the option of
IaaS-like control in some cases” - Dan Sullivan - Tom's IT Pro
Amazon Web Services10Screenshot Console AWS
Public Cloud Anbieter
• Seit 2010• Als PaaS gestartet wurde seit 2013
sukzessive erweitert mit IaaS-Komponenten
• Starke SaaS Komponenten• Dogfood für viele SaaS Dienste
(Skype, XBox etc)
Microsoft Azure
13
Azure Platform Services „Landscape“12https://i-msdn.sec.s-msft.com/dynimg/IC831231.png
http://www.infoworld.com/article/3051017/cloud-computing/the-importance-of-dogfooding-in-the-cloud.html
Public Cloud Anbieter
• Seit 2008– IaaS, PaaS• No “Dogfooding“ – Googles Dienste
basieren nicht auf GCP• Cloud SDK und CLI, Console als
WebFrontend
• Go, Java, Python
Google Cloud Platform
15
Google Cloud Platform14
Storage and Databases Big Data and Analytics Machine Learinig
Compute
Cloud ML
Cloud Speach API
15Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf
Marktsituation
“The cloud wars between Amazon, Google, and Microsoft are heating up, with the three working tirelessly to attract the large business customers that bring in the big bucks.
From a technological perspective, though,the three cloud platforms are basically equal, and offer a similar sales pitch.”
Business Insider, April 2016
16Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf
MarktsituationGartner: 2015 Magic Quadrant for Cloud Infrastructure as a Service, Worldwide
17https://www.gartner.com/doc/reprints?id=1-2G45TQU&ct=150519&st=sb
MarktsituationGartner: 2016 Magic Quadrant for Enterprise
Application Platform
as a Service, Worldwide
18Synergy Research Group - https://www.srgresearch.com/
Marktsituation
19Synergy Research Group - https://www.srgresearch.com/
Marktsituation
20http://searchcloudcomputing.techtarget.com/tip/Compare-AWS-vs-Azure-vs-Google-big-data-services
„The cloud market is evolving quickly, with an ever-changing set of big data
services. While this makes cloud
vendor comparisons difficult, it's
worth the attempt, because theofferings from the top three cloud
providers -- Amazon Web Services, Microsoft Azure and Google -- aren't
created equal.“Jim O'Reilly
21
Fazit Marktsituation• Einheitliches Bild zu PaaS eher schwierig• Unterschiedliche Definitionen • Technologien nicht immer vergleichbar/bekannt• Qualitative Vergleiche decken nur spezielle Use
cases ab
Da müssen wir selber ran!
• Web Interface und Bedienung• SDK‘s und Programmiersprachen• Tooling und Integration in
Entwicklungsumgebung• Dokumentation
22
Web Interface & HandhabungVergleich der Cloud Provider Services
23
Web Interface & Handhabung
• Übersichtlich und minimalistisches Web Interface mit Übersicht über Dienste
• Tooling• Plugins für Eclipse und Visual
Studio vorhanden• AWS Command Line Interface• AWS SDK• S3 Browser
(Desktopanwendung)
AWS Management Console
24Azure Portal
Web Interface & Handhabung
• Web Portal mit sehr verschachtelter Kacheloptik
• Altes und neues Portal• Tooling
• Befehlszeilentools über Power Shell• CLI auch für Linux &
Mac • Azure SDK -Mit passendem
Toolkit für Visual Studio• Azure Explorer
Azure Portal
25GCP Console
Web Interface & Handhabung
• Schlichtes Web Interface • Tooling
• gcloud Tool - CLI für GCP Produkte und Services
• Cloud SDK• Wenig IDE Unterstützung
26
DEMO TIME
AWS Portal und S3 Bucket27
Azure Ressourcengruppe und Speicherkonto28
GCP Storage Bucket29
30
Web Interface & Handhabung
Dienst Web Console Azure Portal GCP ConsoleBewertung Portal:☆☆☆
SDK: ☆☆Tooling: ☆☆Dokumentation: ☆CLI: ☆☆☆
Portal:☆☆SDK: ☆☆Tooling: ☆☆Dokumentation: ☆☆☆
CLI: ☆☆
Portal:☆☆SDK: ☆☆Tooling: ☆Dokumentation: ☆☆CLI: ☆☆
Vergleich der Cloud Provider Services
31
Big Data /Analytics Use-Case
Data Presentation
Visualisierung und Dashboard
Analytics and Computation
Aggregation und Analyse
Collection and Storage
Event Broker und Stream Prozessor
Data Generation / Extraction
App, IoT oder Sensordaten
32http://lambda-architecture.net/
Lambda Architecture
1. Weiterleiten der ankommenden Daten zu Speed und Batch Layer
2. Batch-Layer
1. Berechnen der Batch Views2. Rohdaten aufbewahren
3. Serving Layer indexiert die Batch Views
4. Speed-Layer erlaubt Echtzeit Views
5. Querys auf Batch und Echtzeit Views möglich
33https://blogs.technet.microsoft.com/msuspartner/2016/01/27/azure-partner-community-big-data-advanced-analytics-and-lambda-architecture/
Lambda Architektur
Viele Möglichkeiten Lambda Architektur mit Cloud Technologien abzubilden-> Architektur nicht an Dienste gebunden
Lambda Architecture on AzureOptions for each Layer
35
Big Data /Analytics Use-Case
• ≈5000 Wetterstationen in Baden-Württemberg
• Weather Underground API• Temperatur, Niederschlag,
Luftdruck, Windgeschwindigkeit
• Aktualisierung ≈ 5 min
36
Pub/Sub DataflowBig Query Data
Studio 360
KinesisFirehose
S3 Elastic MapReduce
Data Pipeline
Quick Sight
Event Hub
Stream Analytics
Data Factory
PowerBI
Data Generation
Collection and Storage
Analytics and
Computation
Data Presentation
Data LakeStore
Redshift
Data LakeAnalytics
Data LakeStore
Collection
37
• Kontinuierlicher Strom von Daten empfangen und verarbeiten
• Mehrere Publisher/Subscriber• Skalierbar• Hoch Verfügbar• Niedrige Latenzen
• Echtzeit Verarbeitung und Analyse
38
Streaming DiensteVergleich der Cloud Provider Services
39
Pub/Sub, Message Broker - Streaming
Dienst Kinesis Event Hub Pub/Sub
Beschreibu
ng
• Nahe Echtzeit• Zeitbasierter Ereignispuffer
• Datastrom von verschiedenen Prozessen oder Geräten• Vereinfacht das
empfangen und veröffentlichen von Datenströmen in Echtzeit
• Datenaufbewahrung bis 7 Tage
• Azure Event Hubs ist ein hochgradig skalierbarer Dienst für das Veröffentlichen und Abonnieren von Ereignissen
• Publish/Subscribe• Hoch skalierbare
Message Queue mit Push/Pull Delivery
40
Dienste zur Stream Verarbeitung
Dienst Kinesis FirehoseKinesis
Analytics(Beta)Kinesis & Lambda
Stream Analytics Dataflow
Beschreibun
g
• Echtzeitverarbeitung von Streams
• Kinesis mit SQL basierte Anfragen
• Lambda Funktionen um Events zu verarbeiten
• Firehose persistiert Stream nach S3, ES
• SQL basierte Abfragen• Windowing• Echtzeitdashboards
und Warnungen
• Programmierung von Dataflows in Java
• Damit Windowing und quasi jeder Output möglich
41AWS Kinesis
Streaming Dienste
• Kinesis Firehose
• Schreibt Stream in Blöcken auf den S3 Storage, Elasticsearch oder Redshift
• Keine Möglichkeiten der Programmierung
• Kinesis Streams
• Macht es notwendig einen Stream Receiver zu programmieren und diesen zu deployen
• AWS Lambda Funktionen • Kinesis Analytics (Beta)
42
Streaming Dienste
• Leistungsstarkes Modell• Eingabe
• Event Hub, Blob, IoT Hub• Mehrere Eingaben möglich
• Abfrage• SA-QL: SQL Ähnliche Syntax• Window Operationen möglich
• Ausgabe• Blob, SQL, PowerBI ....• Mehrere Ausgaben möglich
Azure Stream Analytics
43Google DataFlow
Streaming Dienste
• Programmiermodell– Batch und Stream
Workload– Pipelineing als DAG– Arbeiten auf
Collections• Google Dataflow als
Runner für das DataflowProgrammiermodell
Google Dataflow
44
Dienste zur Stream Verarbeitung
Dienst Amazon Kinesis Stream Analytics DataflowBewertung Bedienung:☆☆
Lifecycle Management: ☆
Möglichkeiten: ☆☆
+ Simple Bedienung- Für gleiche Funktionalität wie bei Azure coding erforderlich- Firehose eingeschränkte Funktionsumfang- Kinesis Stream benötigt selbst implementierten und deploytenReceiver (z.B: AWS Lambda)
Bedienung:☆☆☆Lifecycle Management: ☆
Möglichkeiten: ☆☆☆
+ Simple Bedienung+ Hohe Funktionalität mit geringem Aufwand+ SQL Syntax für Abfrage- Schlecht zu versionieren oder zu Managen
Bedienung:☆☆Lifecycle Management: ☆☆
Möglichkeiten: ☆☆☆
Programmcode mit allen Vor-und Nachteilen+ Sehr gute Skalierbarkeit und Big Data Fähigkeit- Höherer Einarbeitungsaufwand
45
Kosten Message Broker /Stream Verarbeitung
Dienst Amazon Kinesis Stream Analytics DataflowPreise Shard Stunde 1,7ct
Put Nutzlast pro 1 MioPuts (25KB) 1,65ctVerlängerte Datenaufbewahrung 2ct/h
Beispiel: 2 Events a 35KB pro Sekunde≈13€/Monat
Unit Stunde 3,1ct Nutzlast 0,1ct pro GB
Beispiel: 2 Events a 35KB pro Sekunde≈20€ Stream Analytics/Monat≈9€ Event Hub/Monat
Pub/Sub1 Milion Operationen 40ctHalbiert sich ab 250M Operationen
Batch 1ct GCEU/hStream 1,5ct GCEU/h
46
DEMO TIME
Azure Stream Analytics47
AWS Kinesis48
GCP Pub/Sub49
GCP Dataflow50
Analytics and Computation
51
• Daten auslesen, ggf. transformieren und schreiben (Vergleichbar mit ETL)
• Transformation eher schwieriger• Orchestrierung Dienste
• Zusammenfassen und Orchestrierung von Verarbeitungsschritten
• Neue Quellen und Ziele• Cloud und Hybride Szenarien
• Big-Data Fähigkeit
52
Orchestrierungs Dienste
53
Orchestrierungs Dienste
• Erstellen in AWS Management Console
• Designer und Vorlagen• Properties in Drop-Down
Feldern verwalten• Recht überschaubarer
Funktionsumfang ohne Detailfunktionen
• Deckt typische ETL-Szenarien gut ab
• Keine Entwicklungsumgebung und Code Management
Data Pipeline
54
Orchestrierungs Dienste – Data Pipeline
• Hive in Data Pipeline• Ressource Anlegen• Skript schreiben und
verknüpfen
55
Orchestrierungs Dienste
• Factory Dashboard• Werkzeuge für das
Erstellen der Factory• Zustandsüberwachung• Manuelles Starten von
Vorgängen• Auslastung und
Diagnosen
Data Factory
56
Orchestrierungs Dienste
• Data Factory Projekt• Templates erlauben
schnelles Erstellen einfacher Anwendungsfälle
• Deployment aus Visual Studio oder Factory Dashboard
• JSON-Dokumente ohne Toolunterstützung füllen und verknüpfen• Design by Copy and
Paste
Data Factory
57
Orchestrierungs Dienste
Dienst Data Pipeline Data FactoryBewertung Bedienung:☆☆
Lifecycle Management: ☆Möglichkeiten: ☆☆
+ Selbsterklärender Designer- Keine Code Completion oder Syntax Highlighting oder Validierung - Code kann lediglich über JSON exportiert und versioniert werden (händisch)
Bedienung:☆+Lifecycle Management: ☆☆Möglichkeiten: ☆☆
+ Templates und Visual Studio Unterstützung- Kein Designer sondern zusammenfügen von JSON Dokumenten
SSIS weit voraus
58
DEMO TIME
Azure Data Factory59
AWS Data Pipeline60
Horizontal skalierende analytische Datenspeicher
61
• Parallel verarbeitende Instanzen • Massively Parallel Processing Architecture• Skalierbarkeit
• SQL Querys
62
Horizontal skalierende analytische Datenspeicher
63
Analytische Datenspeicher
• Schnelle Skalierung der Cluster Instanzen über API Aufrufe
• Postgres-Fork nutzt spaltenbasierte Datenbank und massive parallele Verarbeitung
Redshift
64
Analytische Datenspeicher
• Ganz frisch (Dez 16)• SQL Abfragen über semi-
strukturierte Dateien im S3 Store
• Serverless, kein ETL • Basierend auf Presto• Automatische Skalierung
AWS Athena
65
Analytische Datenspeicher
•Verteilter Speicher- und Analysedienst semi-strukturierter Daten•U-SQL – TSQL und C#•Visual Studio Unterstützung•Dynamische Skalierung•Verteilte Hardware und Parallelisierung gänzlich abstrahiert
Data Lake Store & Analytics
66
Analytische Datenspeicher
• Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden
• Vielfältige SQL Server-Funktionalität mit T-SQL Abfragen
• Pausierbar, spart Geld
SQL Data Warehouse
67
Analytische Datenspeicher
•SQL Querys auf Terabyte von Daten •Import/Export Mechanismen•Bezahlung nach Datenmenge der Query•Serverless•Browsertool vorhanden (sonst REST oder CLI) - SDK für .Net, Java, Python, Go
Google Big Query
68
Analytische Datenspeicher
Dienst AWS Redshift Azure Data Lake Big QueryBeschreibun
g
• Postgres Fork• Massiv Parallel
• Store und Analytics• U-SQL als
Mischung von C# und T-SQL
• Serverless• Pay per Query
Preise • $0.25 pro Stunde für dc1.large
• $0.85 pro Stunde für ds2.xlarge
• Analytics Einheit 0,017$/Minute
• Abgeschlossener Auftrag 0,025$
• SQL-DWH: ab 0,70$/h
• $5 pro queryed TB• $0.02 per GB Speicher• $0.01 per 200 MB
Insert
Dienst Amazon Redshift Azure Data Lake Big QueryBewertung Bedienung:☆+
LifecycleManagement: ☆☆Möglichkeiten: ☆☆
- Keine Entwicklungsunterstützung im Web Interface oder Entwicklungsumgebung
Bedienung:☆☆☆LifecycleManagement: ☆☆Möglichkeiten: ☆☆☆
+ Visual Studio Unterstützung+ Strukturierte und Semistrukturierte Daten
Bedienung:☆☆+LifecycleManagement: ☆☆Möglichkeiten: ☆☆
+ Web Tooling
69
Analytische Datenspeicher
70
DEMO TIME
AWS Redshift – und Kinesis als Quelle71
Azure Data Lake Analytics72
GCP Big Query73
Data Presentation
74
• Daten Präsentieren• Umfangreiche Visualisierungen• Dashboards und Reports über Web
• SaaS
• Anbindung an Datenbanken• Real-Time Anbindung
75
Datenvisualisierung
76
Datenvisualisierung
Dienst Amazon Quick Sight
Microsoft Power Bi(bzw. Embedded)
Google Data Studio 360
Beschreibu
ng
• Public Preview• Redshift Anbindung - Kein Streaming- Wenige visuals
(keine Maps!)- Keine Interaktivität
zwischen den Visuals
• GA mit SLAs• Echtzeit BI mit
Stream Analytics möglich
• Anbindung vieler Datenquellen
• Interaktivität
• Public Preview• Big Query
Anbindung• Wenige
Datenquellen • Weniger visuals• Keine Interaktivität
Dienst Amazon Quick Sight
Microsoft Power Bi(bzw. Embedded)
Google Data Studio 360 (beta)
Bewertung Bedienung:☆☆Möglichkeiten: ☆+Visuals:☆Connectivity: ☆☆
Public Preview
Bedienung:☆☆☆Möglichkeiten: ☆☆☆Visuals:☆☆☆Connectivity:☆☆☆
+ On-Prem Entwicklung möglich
Bedienung:☆☆Möglichkeiten: ☆+Visuals:☆☆Connectivity:☆
Public Preview
77
Datenvisualisierung
Alternativ gute Integration von Frontend-Tools wie Tableau, Qlik und Co
78
DEMO TIME
Power Bi – Daten von Stream Analytics79
Google Data Studio80https://datastudio.google.com/#/reporting/0B_U5RNpwhcE6bzVYT2FSNmRBUWc
81
Datenvisualisierung Google Data Studio 360
82
Datenvisualisierung AWS Quicksight
83
Vergleich der Cloud Provider
Amazon Web Services
Microsoft Azure Google Cloud Platform
Stream ☆☆ ☆☆☆ ☆☆
Orchestration ☆☆+ ☆☆ -
MPP ☆☆ ☆☆+ ☆☆+
Datenvisualisieru
ng
☆☆ ☆☆☆ ☆☆
Für diesen Use Case hat Microsoft die Nase vorn
84http://www.tecchannel.de/a/amazon-web-services-versus-microsoft-windows-azure,2071501,3
„Unterm Strich lässt sich sagen, dass Microsoft aufgrund seiner PaaS-Historie technologisch in
diesem Bereich einen deutlichen Vorsprung hat. Amazon AWS
hingegen ist derzeit noch der unumstrittene Innovations- und Marktführer im IaaS-Umfeld.“
René Büst - Senior Analyst und Cloud Practice Lead bei Crisp Research
85
Auch als Artikelserie auf:
blog.inovex.dehttp://bit.ly/2gwpF0R
Regelmäßige Beiträge zu den aktuellsten Technologie-Themen rund um Web, Mobile, Analytics, Data Center & Co.
86
Youtube Mitschnitt vom Meetup:
https://www.youtube.com/watch?v=2NrgPdGSXhE&t=65s
Vielen Dank
Stefan Kirner
inovex GmbHLudwig-Erhard-Allee 676131 Karlsruhe
[email protected]@microsoft.com
Solche Projekte und Technologien sind für dich
interessant?
Wir suchen
Cloud Solution Architects
und Werkstudenten für Data Management & Analytics
Und viele andere Jobs auf https://www.inovex.de/de/karriere
/stellenangebote