data mining in der wirtschaft und durch geheimdienste · i open source: rapidminer, knime, weka,...
TRANSCRIPT
![Page 1: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/1.jpg)
Data Mining � Club IT, 2013-09-11
Data Mining in der Wirtschaft und durchGeheimdienste
Methoden und Anwendungen
Balázs Bárány
Rapid-I GmbH
Club IT, 11. 9. 2013
![Page 2: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/2.jpg)
Data Mining � Club IT, 2013-09-11
Inhalt
Einführung und ÜberblickData Mining im Kontext
Methoden und TechnikEinteilung der VerfahrenBeispielhafte LernalgorithmenErweiterte AnwendungenUmsetzung in die PraxisWerkzeuge
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
![Page 3: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/3.jpg)
Data Mining � Club IT, 2013-09-11
Einführung und Überblick
Data Mining im Kontext
Wichtige Begri�e
Data Science
Predictive Analytics
Statistik
Data MiningMaschinelles Lernen
Data Warehousing
Business Intelligence Big Data
![Page 4: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/4.jpg)
Data Mining � Club IT, 2013-09-11
Einführung und Überblick
Data Mining im Kontext
Ethische Fragen
I Werkzeug-Aspekt
I Datenschutz
I Aussagekraft; Umgang mit falschen Vorhersagen
![Page 5: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/5.jpg)
Data Mining � Club IT, 2013-09-11
Einführung und Überblick
Data Mining im Kontext
Ethische Fragen
I Werkzeug-Aspekt
I Datenschutz
I Aussagekraft; Umgang mit falschen Vorhersagen
![Page 6: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/6.jpg)
Data Mining � Club IT, 2013-09-11
Einführung und Überblick
Data Mining im Kontext
Ethische Fragen
I Werkzeug-Aspekt
I Datenschutz
I Aussagekraft; Umgang mit falschen Vorhersagen
![Page 7: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/7.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Einteilung der Verfahren
Methoden und Technik
Methoden: Einteilung
![Page 8: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/8.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Einteilung der Verfahren
Einteilung der Verfahren
I informierte Verfahren (�supervised�): Zielvariable bekannt
I Aufgaben:
I Klassi�kationI RegressionI Assoziation
I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt
I ClusteringI Ausreiÿererkennung
![Page 9: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/9.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Einteilung der Verfahren
Einteilung der Verfahren
I informierte Verfahren (�supervised�): Zielvariable bekannt
I Aufgaben:
I Klassi�kationI RegressionI Assoziation
I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt
I ClusteringI Ausreiÿererkennung
![Page 10: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/10.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Einteilung der Verfahren
Einteilung der Verfahren
I informierte Verfahren (�supervised�): Zielvariable bekannt
I Aufgaben:
I Klassi�kationI RegressionI Assoziation
I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt
I ClusteringI Ausreiÿererkennung
![Page 11: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/11.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Einteilung der Verfahren
Methoden und Technik
Lernalgorithmen
![Page 12: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/12.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
(Lineare) Regression
I Erstellt Gleichungen der Form y = ax+b
Quelle: R-Projekt, Datensatz �cars�
![Page 13: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/13.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Regression: Erweiterungen
I mit mehreren Variablen
I nichtlineare Funktionen
I andere Verteilungen
![Page 14: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/14.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Entscheidungsbäume
Entscheidungsbaum (Quelle: RapidMiner)
![Page 15: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/15.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Entscheidungsbäume: Algorithmus
I Attribut und Wert suchen, der die Daten am besten aufteilt
I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.
I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient
I Viele Varianten und Erweiterungen
![Page 16: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/16.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Entscheidungsbäume: Algorithmus
I Attribut und Wert suchen, der die Daten am besten aufteilt
I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.
I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient
I Viele Varianten und Erweiterungen
![Page 17: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/17.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Entscheidungsbäume: Algorithmus
I Attribut und Wert suchen, der die Daten am besten aufteilt
I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.
I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient
I Viele Varianten und Erweiterungen
![Page 18: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/18.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Support Vector Machine
I Versucht, die gröÿtmögliche Distanz zwischen Kategorien zu�nden
I Transformation der Attribute, um �lineare Trennung� zuerzielen
Quelle: RapidMiner-Schulungsunterlagen
![Page 19: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/19.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Support Vector Machine
I Nur einige Punkte (�support vector�) de�nieren dieKlassengrenzen
Quelle: RapidMiner-Schulungsunterlagen
![Page 20: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/20.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Weitere Algorithmen
I Naive Bayes
I �bedingte Wahrscheinlichkeiten�
I Neuronale Netze
I simples Modell menschlicher Nervenzellen
I Nearest Neighbors
I Suche nach ähnlichen Attributwerten
I Ensemble-Algorithmen u. v. m.
![Page 21: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/21.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Weitere Algorithmen
I Naive Bayes
I �bedingte Wahrscheinlichkeiten�
I Neuronale Netze
I simples Modell menschlicher Nervenzellen
I Nearest Neighbors
I Suche nach ähnlichen Attributwerten
I Ensemble-Algorithmen u. v. m.
![Page 22: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/22.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Weitere Algorithmen
I Naive Bayes
I �bedingte Wahrscheinlichkeiten�
I Neuronale Netze
I simples Modell menschlicher Nervenzellen
I Nearest Neighbors
I Suche nach ähnlichen Attributwerten
I Ensemble-Algorithmen u. v. m.
![Page 23: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/23.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Weitere Algorithmen
I Naive Bayes
I �bedingte Wahrscheinlichkeiten�
I Neuronale Netze
I simples Modell menschlicher Nervenzellen
I Nearest Neighbors
I Suche nach ähnlichen Attributwerten
I Ensemble-Algorithmen u. v. m.
![Page 24: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/24.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Beispielhafte Lernalgorithmen
Methoden und Technik
Erweiterungen für unstrukturierte Daten
![Page 25: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/25.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Text mining
I Tabellenstruktur aus unstrukturierten Texten/Dokumenten
Quelle: RapidMiner, Händlerbewertungen auf geizhals.at
![Page 26: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/26.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Vorgehensweise bei Text Mining
I Berechnung: Term-Frequenz, TF/IDF
Beispiel
TF/IDF = term frequencydocument frequency
Je häu�ger ein Term in einem Dokument vorkommt, aber jeseltener in anderen Dokumenten, umso relevanter ist er für diesesDokument.
![Page 27: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/27.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Image mining
I Segmentierung und Berechnung von Kennzahlen
I Farbverteilung, Komplexität, Helligkeit, ...
I Erkennung von Formen und Figuren (Anzahl, Position)
I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)
I Erweiterung: Videoanalyse
![Page 28: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/28.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Image mining
I Segmentierung und Berechnung von Kennzahlen
I Farbverteilung, Komplexität, Helligkeit, ...
I Erkennung von Formen und Figuren (Anzahl, Position)
I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)
I Erweiterung: Videoanalyse
![Page 29: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/29.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Image mining
I Segmentierung und Berechnung von Kennzahlen
I Farbverteilung, Komplexität, Helligkeit, ...
I Erkennung von Formen und Figuren (Anzahl, Position)
I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)
I Erweiterung: Videoanalyse
![Page 30: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/30.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Image mining
I Segmentierung und Berechnung von Kennzahlen
I Farbverteilung, Komplexität, Helligkeit, ...
I Erkennung von Formen und Figuren (Anzahl, Position)
I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)
I Erweiterung: Videoanalyse
![Page 31: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/31.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Netzwerkanalyse
I Netzwerkstruktur: Graph im mathematischen Sinne
I Besteht aus Knoten und Kanten
I Kennzahlen: Zentralität, Intensität und Richtung derBeziehungen
I Entfernung vom �Zentrum� oder de�nierten Knoten
![Page 32: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/32.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Netzwerkanalyse
I Netzwerkstruktur: Graph im mathematischen Sinne
I Besteht aus Knoten und Kanten
I Kennzahlen: Zentralität, Intensität und Richtung derBeziehungen
I Entfernung vom �Zentrum� oder de�nierten Knoten
![Page 33: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/33.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Erweiterte Anwendungen
Methoden und Technik
Umsetzung in die Praxis
![Page 34: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/34.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Algorithmen sind nicht alles
I Vorverarbeitung fast immer notwendig
I Behandlung fehlender Werte
I Attributkonstruktion
I Parameteroptimierung
![Page 35: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/35.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Algorithmen sind nicht alles
I Vorverarbeitung fast immer notwendig
I Behandlung fehlender Werte
I Attributkonstruktion
I Parameteroptimierung
![Page 36: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/36.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Algorithmen sind nicht alles
I Vorverarbeitung fast immer notwendig
I Behandlung fehlender Werte
I Attributkonstruktion
I Parameteroptimierung
![Page 37: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/37.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Algorithmen sind nicht alles
I Vorverarbeitung fast immer notwendig
I Behandlung fehlender Werte
I Attributkonstruktion
I Parameteroptimierung
![Page 38: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/38.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Umsetzung
I Lernalgorithmus nur kleiner Teil der Gesamtlösung!
Quelle: RapidMiner; MythMiner-Projekt des Vortragenden
![Page 39: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/39.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Umsetzung in die Praxis
Methoden und Technik
Data-Mining-Werkzeuge
![Page 40: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/40.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Werkzeuge
Werkzeuge
I Komplettlösungen für Data Mining und Analytik, GUI
I Open source: RapidMiner, KNIME, Weka, Orange usw.
I Kommerziell: SAS, IBM SPSS, Statistica usw.
I Statistische Programmiersprache R (open source)
I GUI für Data Mining: Rattle
![Page 41: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/41.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Werkzeuge
Werkzeuge
I Komplettlösungen für Data Mining und Analytik, GUI
I Open source: RapidMiner, KNIME, Weka, Orange usw.
I Kommerziell: SAS, IBM SPSS, Statistica usw.
I Statistische Programmiersprache R (open source)
I GUI für Data Mining: Rattle
![Page 42: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/42.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Werkzeuge
Werkzeuge
I Komplettlösungen für Data Mining und Analytik, GUI
I Open source: RapidMiner, KNIME, Weka, Orange usw.
I Kommerziell: SAS, IBM SPSS, Statistica usw.
I Statistische Programmiersprache R (open source)
I GUI für Data Mining: Rattle
![Page 43: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/43.jpg)
Data Mining � Club IT, 2013-09-11
Methoden und Technik
Werkzeuge
Anwendungen
Anwendungen in Wirtschaft, Wissenschaft und durchdie Geheimdienste
![Page 44: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/44.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Kündigerprävention
I In der Wirtschaft: Daten wie Vertragsdauer,Nutzungsintensität, Konkurrenzsituation usw.
I Daraus Erkennung kündigungswilliger Kunden, Reaktion
I Durch Geheimdienste:
I Änderungen in der Lebenssituation, KommunikationsverhaltenI Vorhersage: Gefahr der �Radikalisierung�I oder: bekannte �Zelle� wird jetzt aktivI oder: welche Mitglieder sind unglücklich und können�umgedreht� werden
![Page 45: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/45.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Kündigerprävention
I In der Wirtschaft: Daten wie Vertragsdauer,Nutzungsintensität, Konkurrenzsituation usw.
I Daraus Erkennung kündigungswilliger Kunden, Reaktion
I Durch Geheimdienste:
I Änderungen in der Lebenssituation, KommunikationsverhaltenI Vorhersage: Gefahr der �Radikalisierung�I oder: bekannte �Zelle� wird jetzt aktivI oder: welche Mitglieder sind unglücklich und können�umgedreht� werden
![Page 46: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/46.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Betrugserkennung
I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.
I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung
I Bei falscher Anwendung zu hohe Rate �Falscher Positive�
I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte
I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)
I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)
![Page 47: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/47.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Betrugserkennung
I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.
I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung
I Bei falscher Anwendung zu hohe Rate �Falscher Positive�
I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte
I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)
I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)
![Page 48: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/48.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Betrugserkennung
I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.
I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung
I Bei falscher Anwendung zu hohe Rate �Falscher Positive�
I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte
I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)
I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)
![Page 49: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/49.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Regressionsmethoden
I In der Wirtschaft:
I Absatzplanung, Bedarfsplanung
I Optimierung von Abläufen und technischen Prozessen
I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse
I Durch Geheimdienste:
I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen
I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)
![Page 50: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/50.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Regressionsmethoden
I In der Wirtschaft:
I Absatzplanung, Bedarfsplanung
I Optimierung von Abläufen und technischen Prozessen
I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse
I Durch Geheimdienste:
I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen
I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)
![Page 51: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/51.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Regressionsmethoden
I In der Wirtschaft:
I Absatzplanung, Bedarfsplanung
I Optimierung von Abläufen und technischen Prozessen
I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse
I Durch Geheimdienste:
I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen
I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)
![Page 52: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/52.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Text mining, Textanalyse
I In der Wirtschaft:
I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets
I Dokumentenkategorisierung
I Durch Geheimdienste:
I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)
I Fall Andrej Holm
I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)
![Page 53: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/53.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Text mining, Textanalyse
I In der Wirtschaft:
I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets
I Dokumentenkategorisierung
I Durch Geheimdienste:
I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)
I Fall Andrej Holm
I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)
![Page 54: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/54.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Text mining, Textanalyse
I In der Wirtschaft:
I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets
I Dokumentenkategorisierung
I Durch Geheimdienste:
I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)
I Fall Andrej Holm
I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)
![Page 55: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/55.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Image Mining
I In der Wirtschaft:
I (Facebook, Google): Erkennung von Menschen auf BildernI Landwirtschaft, Bergbau: Verarbeitung von Satellitenbildern
I Durch Geheimdienste:
I Auswertung von Bildern aus Überwachungskameras, -satellitenI Erkennung von Verdächtigen (z. B. am Flughafen)
![Page 56: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/56.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Image Mining
I In der Wirtschaft:
I (Facebook, Google): Erkennung von Menschen auf BildernI Landwirtschaft, Bergbau: Verarbeitung von Satellitenbildern
I Durch Geheimdienste:
I Auswertung von Bildern aus Überwachungskameras, -satellitenI Erkennung von Verdächtigen (z. B. am Flughafen)
![Page 57: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/57.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Netzwerkanalyse
I In der Wirtschaft:
I KündigerpräventionI Empfehlung neuer Waren oder Dienstleistungen
I Durch Geheimdienste:
I Identi�zierung zentraler oder �interessanter� FigurenI Plötzliche Änderungen im KommunikationsverhaltenI Ausweitung der Suche auf Kommunikationsumfeld desVerdächtigen
![Page 58: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/58.jpg)
Data Mining � Club IT, 2013-09-11
Anwendungen in der Wirtschaft (und durch die Geheimdienste?)
Netzwerkanalyse
I In der Wirtschaft:
I KündigerpräventionI Empfehlung neuer Waren oder Dienstleistungen
I Durch Geheimdienste:
I Identi�zierung zentraler oder �interessanter� FigurenI Plötzliche Änderungen im KommunikationsverhaltenI Ausweitung der Suche auf Kommunikationsumfeld desVerdächtigen
![Page 59: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/59.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Ausblick, abschlieÿende Gedanken
I Data Mining wird noch zunehmen
I Sinnvoll, sich damit zu beschäftigen
I Data Mining nicht per se schlimm
![Page 60: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/60.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Ausblick, abschlieÿende Gedanken
I Data Mining wird noch zunehmen
I Sinnvoll, sich damit zu beschäftigen
I Data Mining nicht per se schlimm
![Page 61: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/61.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Ausblick, abschlieÿende Gedanken
I Data Mining wird noch zunehmen
I Sinnvoll, sich damit zu beschäftigen
I Data Mining nicht per se schlimm
![Page 62: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/62.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Literatur � anwendungsorientiert
Matthew North: Graham Williams:Data Mining for the Masses Data Mining with Rattle and R
![Page 63: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/63.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Literatur � theoretische Grundlagen
Ian H. Witten, Eibe Frank, Mark A. Hall:Data Mining (3. ed.)
![Page 64: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache](https://reader036.vdokument.com/reader036/viewer/2022081408/6061461cf6e69215786138e8/html5/thumbnails/64.jpg)
Data Mining � Club IT, 2013-09-11
Zusammenfassung und Ausblick
Schluÿ
I Fragen?
Balázs Bárány <[email protected]>