citizen data science...selbständiger data scientist sco2t roller-sharing in wien citizen data...
Post on 17-Jun-2020
5 Views
Preview:
TRANSCRIPT
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Citizen Data Science
Balázs Bárány
Linuxwochen Wien 2016
29. April 2016
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Inhalt
Einführung: Data Science
Werkzeuge und Methoden
Citizen Data ScienceDaten holenDaten verstehenDaten-VorverarbeitungPrädiktive ModellierungAnwendungen im privaten Kontext
Zusammenfassung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Über mich
Selbständiger Data Scientist � https://datascientist.at
SCO2T � Roller-Sharing in Wien � https://sco2t.com
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Über mich
Selbständiger Data Scientist � https://datascientist.at
SCO2T � Roller-Sharing in Wien � https://sco2t.com
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
�Sexiest job of the 21st century�
I Sagen Google, LinkedIn, ...
I Wer ist ein Data Scientist?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
�Sexiest job of the 21st century�
I Sagen Google, LinkedIn, ...
I Wer ist ein Data Scientist?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Data Science Venn Diagram
(c) Drew Conway, 2010. CC-BY-NC
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Was machen Data Scientists?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Aufgaben
I Daten holen und zusammenführen
I Verknüpfen und umformen für Analytik
I Analysieren und visualisieren
I Vorhersagen und Handlungen empfehlen
I Operationalisieren
I Big Data?
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
The Data Mining process
Cross Industry Standard Process for Data Mining (Kenneth Jensen/Wikimedia Commons)
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Fehlende Data Scientists
I Prognosen: 50 % der Stellen nicht besetzbar
I Ausbildung kommt nicht nach
I Citizen Data Scientists
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Fehlende Data Scientists
I Prognosen: 50 % der Stellen nicht besetzbar
I Ausbildung kommt nicht nach
I Citizen Data Scientists
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Werkzeuge und Methoden
Werkzeuge und Methoden
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Scripting und Programmierung
I R
I Python mit Modulen
I Octave/Matlab, andere mathematische Sprachen
I Hadoop, Big Data libraries (Java)
I Cloud services
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Gra�sche Werkzeuge
I (teilweise) Open Source: RapidMiner, KNIME, Orange
I Open-Source-Data-Warehouse-Werkzeuge mit Erweiterungenfür Analytik: Pentaho, Talend
I Kommerzielle Werkzeuge, z. B. SAS, IBM SPSS
I Hadoop-Newcomer: z. B. Datameer
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Infrastruktur
I Datenbanken und Datenspeicher
I Relational, NoSQLI Hadoop-ClusterI In-memory
I Datenströme
I Unstrukturiert: Text, Bilder, Video, Audio, ...
I Web APIs
I Open Data
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen und zusammenführen
I Daten im �Rohformat�
I Join, Aggregierung, Filterung, Berechnung, ...
I Säuberung
I Fehlende WerteI Ausreiÿer
I Ergebnis: Für Analytik geeignete Tabelle
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen und zusammenführen
I Daten im �Rohformat�
I Join, Aggregierung, Filterung, Berechnung, ...
I Säuberung
I Fehlende WerteI Ausreiÿer
I Ergebnis: Für Analytik geeignete Tabelle
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen und zusammenführen
I Daten im �Rohformat�
I Join, Aggregierung, Filterung, Berechnung, ...
I Säuberung
I Fehlende WerteI Ausreiÿer
I Ergebnis: Für Analytik geeignete Tabelle
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen und zusammenführen
I Daten im �Rohformat�
I Join, Aggregierung, Filterung, Berechnung, ...
I Säuberung
I Fehlende WerteI Ausreiÿer
I Ergebnis: Für Analytik geeignete Tabelle
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
I Zielvariable bekannt?
I Supervised/unsupervised (überwacht/unüberwacht)
I Klassi�kation (supervised): Vorhersage einer Kategorie
I Regression (supervised): Vorhersage eines numerischen Wertes
I Clustering (unsupervised): Automatische Gruppierung
I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
I Zielvariable bekannt?
I Supervised/unsupervised (überwacht/unüberwacht)
I Klassi�kation (supervised): Vorhersage einer Kategorie
I Regression (supervised): Vorhersage eines numerischen Wertes
I Clustering (unsupervised): Automatische Gruppierung
I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
I Zielvariable bekannt?
I Supervised/unsupervised (überwacht/unüberwacht)
I Klassi�kation (supervised): Vorhersage einer Kategorie
I Regression (supervised): Vorhersage eines numerischen Wertes
I Clustering (unsupervised): Automatische Gruppierung
I Assoziationsanalyse, Ausreiÿererkennung, Zeitreihen-Prognose,...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Operationalisierung
I Anwendung des Modells auf neue Daten ergibt Vorhersage
I (+ Kon�denz)
I Im ERP- oder CRM-System speichern
I Aufmerksam machen (E-Mail, Popup)
I Markieren (z. B. E-Mail als Spam)
I Transaktion unterbrechen
I Waren nachbestellen
I ...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Operationalisierung
I Anwendung des Modells auf neue Daten ergibt Vorhersage
I (+ Kon�denz)
I Im ERP- oder CRM-System speichern
I Aufmerksam machen (E-Mail, Popup)
I Markieren (z. B. E-Mail als Spam)
I Transaktion unterbrechen
I Waren nachbestellen
I ...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Operationalisierung
I Anwendung des Modells auf neue Daten ergibt Vorhersage
I (+ Kon�denz)
I Im ERP- oder CRM-System speichern
I Aufmerksam machen (E-Mail, Popup)
I Markieren (z. B. E-Mail als Spam)
I Transaktion unterbrechen
I Waren nachbestellen
I ...
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Citizen Data Science
Data Science für Alle
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Mein Werkzeugkasten
I Datenbank: PostgreSQL
I Features, Erweiterungen, Ökosystem, ...
I Programmiersprache: R
I Geschmackssache
I Gra�sches Data-Mining-Tool: RapidMiner
I Für Geodaten: QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Mein Werkzeugkasten
I Datenbank: PostgreSQL
I Features, Erweiterungen, Ökosystem, ...
I Programmiersprache: R
I Geschmackssache
I Gra�sches Data-Mining-Tool: RapidMiner
I Für Geodaten: QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Mein Werkzeugkasten
I Datenbank: PostgreSQL
I Features, Erweiterungen, Ökosystem, ...
I Programmiersprache: R
I Geschmackssache
I Gra�sches Data-Mining-Tool: RapidMiner
I Für Geodaten: QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Mein Werkzeugkasten
I Datenbank: PostgreSQL
I Features, Erweiterungen, Ökosystem, ...
I Programmiersprache: R
I Geschmackssache
I Gra�sches Data-Mining-Tool: RapidMiner
I Für Geodaten: QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Daten holen
Datenquellen
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Wetterdaten von Weather Underground
I Gratis-API
I Vorhersage, aktuelles Wetter, historische Daten
I JSON- und XML-Format verfügbar
I Demo mit RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Wetterdaten von Weather Underground
I Gratis-API
I Vorhersage, aktuelles Wetter, historische Daten
I JSON- und XML-Format verfügbar
I Demo mit RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Wien: Bezirksgrenzen
I Open Data, in verschiedenen Formaten verfügbar
I Bezirksgrenzen als Polygone; Fläche, Umfang
Beispiel
Einlesen in PostgreSQL in einem Befehl:COPY bezirksgrenzen_wien
FROM PROGRAM 'curl -s "http://data.wien.gv.at/daten/geo?..."'
WITH CSV delimiter ',' HEADER;
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Wien: Bezirksgrenzen
I Open Data, in verschiedenen Formaten verfügbar
I Bezirksgrenzen als Polygone; Fläche, Umfang
Beispiel
Einlesen in PostgreSQL in einem Befehl:COPY bezirksgrenzen_wien
FROM PROGRAM 'curl -s "http://data.wien.gv.at/daten/geo?..."'
WITH CSV delimiter ',' HEADER;
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Bezirksgrenzen - Fortsetzung
I Geodaten noch im Textformat
I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS
Beispiel
PostGIS:ALTER TABLE bezirksgrenzen_wien
ADD COLUMN geo geometry;
UPDATE bezirksgrenzen_wien
SET geo = ST_GeomFromText(shape);
I Demo mit QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Bezirksgrenzen - Fortsetzung
I Geodaten noch im Textformat
I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS
Beispiel
PostGIS:ALTER TABLE bezirksgrenzen_wien
ADD COLUMN geo geometry;
UPDATE bezirksgrenzen_wien
SET geo = ST_GeomFromText(shape);
I Demo mit QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten holen
Bezirksgrenzen - Fortsetzung
I Geodaten noch im Textformat
I Umwandlung in echte Geo-Objekte mit PostGIS oder QGIS
Beispiel
PostGIS:ALTER TABLE bezirksgrenzen_wien
ADD COLUMN geo geometry;
UPDATE bezirksgrenzen_wien
SET geo = ST_GeomFromText(shape);
I Demo mit QGIS
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Daten verstehen
Data Understanding
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Data understanding
I Erster Schritt nach dem Import neuer Daten
I Was ist enthalten?
I Datenqualität
I Datenmenge
I Schlüssel zu anderen Datenbeständen
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Data understanding
I Erster Schritt nach dem Import neuer Daten
I Was ist enthalten?
I Datenqualität
I Datenmenge
I Schlüssel zu anderen Datenbeständen
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Data understanding
I Erster Schritt nach dem Import neuer Daten
I Was ist enthalten?
I Datenqualität
I Datenmenge
I Schlüssel zu anderen Datenbeständen
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Visualisierung (RapidMiner)
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten verstehen
Visualisierung (R)
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Daten-Vorverarbeitung
Vorverarbeitung = Preprocessing
Bis zu 80 % der Projektzeit!
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Daten-Vorverarbeitung
I Hereinkommende Daten selten �fertig�
I Zusammenführung unterschiedlicher Datensätze
I Filtern, Bereinigung
I Erstellung/Berechnung neuer Attribute
I Aggregierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Daten-Vorverarbeitung
I Hereinkommende Daten selten �fertig�
I Zusammenführung unterschiedlicher Datensätze
I Filtern, Bereinigung
I Erstellung/Berechnung neuer Attribute
I Aggregierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Daten-Vorverarbeitung
I Hereinkommende Daten selten �fertig�
I Zusammenführung unterschiedlicher Datensätze
I Filtern, Bereinigung
I Erstellung/Berechnung neuer Attribute
I Aggregierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Daten-Vorverarbeitung
I Hereinkommende Daten selten �fertig�
I Zusammenführung unterschiedlicher Datensätze
I Filtern, Bereinigung
I Erstellung/Berechnung neuer Attribute
I Aggregierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Beispiel in RapidMiner
I 2 Datensätze von OGD Wien
I Bevölkerungsprognose pro BezirkI Bezirksdaten
I Prognose nach Geschlecht gruppiert => aggregieren
I Über Bezirkscode verknüpfen
I Prognostizierte Bevölkerungsdichte berechnen
I Demo
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Beispiel in RapidMiner
I 2 Datensätze von OGD Wien
I Bevölkerungsprognose pro BezirkI Bezirksdaten
I Prognose nach Geschlecht gruppiert => aggregieren
I Über Bezirkscode verknüpfen
I Prognostizierte Bevölkerungsdichte berechnen
I Demo
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Beispiel in RapidMiner
I 2 Datensätze von OGD Wien
I Bevölkerungsprognose pro BezirkI Bezirksdaten
I Prognose nach Geschlecht gruppiert => aggregieren
I Über Bezirkscode verknüpfen
I Prognostizierte Bevölkerungsdichte berechnen
I Demo
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Beispiel in RapidMiner
I 2 Datensätze von OGD Wien
I Bevölkerungsprognose pro BezirkI Bezirksdaten
I Prognose nach Geschlecht gruppiert => aggregieren
I Über Bezirkscode verknüpfen
I Prognostizierte Bevölkerungsdichte berechnen
I Demo
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Daten-Vorverarbeitung
Beispiel in RapidMiner
I 2 Datensätze von OGD Wien
I Bevölkerungsprognose pro BezirkI Bezirksdaten
I Prognose nach Geschlecht gruppiert => aggregieren
I Über Bezirkscode verknüpfen
I Prognostizierte Bevölkerungsdichte berechnen
I Demo
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung
Prädiktive Modellierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung
I Modell aufbauen (lassen)
I Zielvariable
I Modell auf neue Daten anwenden
I Vorhersage, Kon�denz
I Validierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung
I Modell aufbauen (lassen)
I Zielvariable
I Modell auf neue Daten anwenden
I Vorhersage, Kon�denz
I Validierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung
I Modell aufbauen (lassen)
I Zielvariable
I Modell auf neue Daten anwenden
I Vorhersage, Kon�denz
I Validierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Richtige Validierung
I Modell nicht auf Eingangsdaten anwenden!
I Split Validation
I Cross Validation
I Demo in RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Richtige Validierung
I Modell nicht auf Eingangsdaten anwenden!
I Split Validation
I Cross Validation
I Demo in RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Richtige Validierung
I Modell nicht auf Eingangsdaten anwenden!
I Split Validation
I Cross Validation
I Demo in RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Richtige Validierung
I Modell nicht auf Eingangsdaten anwenden!
I Split Validation
I Cross Validation
I Demo in RapidMiner
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung � Fortsetzung
I Vergleich verschiedener Lernverfahren
I Parameteroptimierung
I Variation der Vorverarbeitung
I Attributselektion
I Attributgenerierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung � Fortsetzung
I Vergleich verschiedener Lernverfahren
I Parameteroptimierung
I Variation der Vorverarbeitung
I Attributselektion
I Attributgenerierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung � Fortsetzung
I Vergleich verschiedener Lernverfahren
I Parameteroptimierung
I Variation der Vorverarbeitung
I Attributselektion
I Attributgenerierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Prädiktive Modellierung � Fortsetzung
I Vergleich verschiedener Lernverfahren
I Parameteroptimierung
I Variation der Vorverarbeitung
I Attributselektion
I Attributgenerierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Deployment
I Operationalisierung der Ergebnisse
I Automatisierte Vorverarbeitung und Vorhersagen
I Regelmäÿige Evaluierung und Optimierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Deployment
I Operationalisierung der Ergebnisse
I Automatisierte Vorverarbeitung und Vorhersagen
I Regelmäÿige Evaluierung und Optimierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Prädiktive Modellierung
Deployment
I Operationalisierung der Ergebnisse
I Automatisierte Vorverarbeitung und Vorhersagen
I Regelmäÿige Evaluierung und Optimierung
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Anwendungen im privaten Kontext
Anwendungen im privaten Kontext
I Lebensgestaltung: Open Data, OpenStreetMap
I Kontrolle: Open Government Data, Firmen-Verö�entlichungen
I Hobbies
I Wetter, Geodaten, GPS-Tracks, ...I ...
I �Egometrics�, �Quanti�ed self�
I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Anwendungen im privaten Kontext
Anwendungen im privaten Kontext
I Lebensgestaltung: Open Data, OpenStreetMap
I Kontrolle: Open Government Data, Firmen-Verö�entlichungen
I Hobbies
I Wetter, Geodaten, GPS-Tracks, ...I ...
I �Egometrics�, �Quanti�ed self�
I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Anwendungen im privaten Kontext
Anwendungen im privaten Kontext
I Lebensgestaltung: Open Data, OpenStreetMap
I Kontrolle: Open Government Data, Firmen-Verö�entlichungen
I Hobbies
I Wetter, Geodaten, GPS-Tracks, ...I ...
I �Egometrics�, �Quanti�ed self�
I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Anwendungen im privaten Kontext
Anwendungen im privaten Kontext
I Lebensgestaltung: Open Data, OpenStreetMap
I Kontrolle: Open Government Data, Firmen-Verö�entlichungen
I Hobbies
I Wetter, Geodaten, GPS-Tracks, ...I ...
I �Egometrics�, �Quanti�ed self�
I Fitness- und Gesundheitstracker, Smart Meter, Smart VehicleI Internet of Things
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Zusammenfassung
I Data Science � ein spannendes Thema
I Frei verfügbare, einfach bedienbare Werkzeuge
I Vorgehensweise
I Anwendung im privaten Bereich
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Zusammenfassung
I Data Science � ein spannendes Thema
I Frei verfügbare, einfach bedienbare Werkzeuge
I Vorgehensweise
I Anwendung im privaten Bereich
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Zusammenfassung
I Data Science � ein spannendes Thema
I Frei verfügbare, einfach bedienbare Werkzeuge
I Vorgehensweise
I Anwendung im privaten Bereich
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Zusammenfassung
I Data Science � ein spannendes Thema
I Frei verfügbare, einfach bedienbare Werkzeuge
I Vorgehensweise
I Anwendung im privaten Bereich
Citizen Data Science Linuxwochen Wien 2016
Über Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Zusammenfassung
Fragen?
I Balázs Bárány, <balazs@tud.at>
I https://datascientist.at/
Citizen Data Science Linuxwochen Wien 2016
top related