![Page 1: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/1.jpg)
PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTEWS 09/10
DATA MINING ALS EXPERIMENT
VORTRAG: CHRISTOPH NÖLLENHEIDT
26.01.10
![Page 2: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/2.jpg)
Ablauf
� Das CRISP-DM-Modell
� Zwei verschiedene Standpunkte über die Theoriebildung im Prozess
� Ein verändertes CRISP-DM-Modell� Ein verändertes CRISP-DM-Modell
� Die Idee des „anything goes“ für das Data Mining
� Wie sieht das Experiment in RapidMiner aus?
� Literatur
![Page 3: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/3.jpg)
CRISP-DM („Cross Industry Standard Process for Data Mining“)
� Inhaltliche Ausprägung vollständig aus Projekterfahrungen zum Data Mining abgeleitet
� Beteiligt an der Entwicklung seit 1996:� Beteiligt an der Entwicklung seit 1996:
- DaimlerChrysler (damals Daimler-Benz)
- Integral Solutions Ltd. (seit 1999 Teil von SPSS)
- NCR („National Cash Register“)
� Ziel: Etablierung eines Standards zur Vorgehensweise bei Data Mining Projekten
![Page 4: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/4.jpg)
CRISP-DM-Modell
Projekt-Verständnis
Daten-Verständnis
AnwendungKDD
Datenvorverarbeitung
Modellbildung
Bewertung
Data Mining
Daten
![Page 5: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/5.jpg)
Die Phasen des CRISP-DM
1. Projekt-Verständnis
� Ziel: Eckpunkte eines Data Mining Projektes festlegenfestlegen
Teilschritte:
� Situationsanalyse und Aufgabendefinition
� Formulierung der Data Mining Ziele
� Erstellung des Projektplans
![Page 6: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/6.jpg)
Die Phasen des CRISP-DM
2. Verständnis der Daten erreichen
� Datenbeschaffung
Erste Einblicke in die Daten� Erste Einblicke in die Daten
� Probleme mit der Qualität der Daten ausfindig machen
� Hinzunahme externer Daten?
![Page 7: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/7.jpg)
Die Phasen des CRISP-DM
3. Datenvorverarbeitung
� schließt alle Aktivitäten ein, um den für die Modellbildung verwendeten Datensatz aus den Modellbildung verwendeten Datensatz aus den Rohdaten zu erhalten
� für den Projekterfolg von großer Bedeutung
� enthält bereits Verfahren des maschinellen Lernens
![Page 8: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/8.jpg)
Die Phasen des CRISP-DM
3. Datenvorverarbeitung
� Aufgaben sind z.B. Merkmalsauswahl, Transformation als auch DatenbereinigungTransformation als auch Datenbereinigung
� Fehlerkorrektur: Fehlende Werte ersetzen
� Wie gehe ich mit Ausreißern um?
� Stichproben ziehen
![Page 9: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/9.jpg)
Die Phasen des CRISP-DM
4. Modellbildung
� Anwendung der Data Mining Verfahren
Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des � Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des Analyseergebnisses
� Einige Verfahren haben spezielle Anforderungen an die Form der Daten, zur Vorverarbeitung zurückzukehren ist daher oftmals nötig
![Page 10: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/10.jpg)
Die Phasen des CRISP-DM
5. Bewertung
� Bevor das gefundene Modell zur abschließenden Analyse verwendet wird, muss es bewertet werden
� Einzelne Schritte, die ausgeführt wurden, um das Modell zu bilden, werden überprüft
� Wurden die Data Mining Ziele erreicht?
![Page 11: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/11.jpg)
Die Phasen des CRISP-DM
6. Anwendung� Wissen für den Kunden darstellen
Phase kann enthalten:� Phase kann enthalten:
- Bericht
- wiederholbaren Data Mining Prozess implementieren
� Wichtig für den Kunden: Welche Aktionen müssen ausgeführt werden, um das Modell zu verwenden?
![Page 12: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/12.jpg)
Experiment
� Experiment setzt zwingend Theorie voraus
� Messung macht ohne Theorie keinen Sinn (Kuhn)
� Bateson: „Theorien können sich im Laufe der Untersuchung ändern“
� 2 verschiedene Sichtweisen über die Bildung einer Theorie im Data Mining Prozess
![Page 13: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/13.jpg)
Theoriebildung im Data Mining Prozess
Projekt-Verständnis
Daten-Verständnis
Anwendung
Theoriebildung
A)
Datenvorverarbeitung
Modellbildung
Bewertung
Daten
Theoriebildung
B)
![Page 14: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/14.jpg)
CRISP-DM
� Im CRISP-DM gibt es keinen datengenerierenden Prozess
� Informatik: „Ihr gebt uns die Daten, ob wir damit die � Informatik: „Ihr gebt uns die Daten, ob wir damit die Realität abbilden, wissen wir nicht“
⇒ Erkenntnisse aufgrund der Daten
� Statistik: betont datengenerierenden Prozess
![Page 15: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/15.jpg)
Was macht Wissenschaft aus?
Projekt-Verständnis
Daten-Verständnis
Anwendung
Datengenerierende Prozess
Datenvorverarbeitung
Modellbildung
Bewertung
![Page 16: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/16.jpg)
Paul Feyerabend
� „anything goes“
� Wir müssen nicht ab einem gewissen Punkt anfangen und an einem gewissen Punkt ankommenund an einem gewissen Punkt ankommen
� Wissenschaft sollte nicht „durch Zwänge eingeschränkt werden“
![Page 17: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/17.jpg)
Idee des „anything goes“
Bedeutung im Data Mining:
� Kreativität
� Vielleicht erhalten wir durch neue Betrachtungen bessere Ergebnisse
![Page 18: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/18.jpg)
Idee des „anything goes“
Projekt-Verständnis
Daten-Verständnis
Anwendung
Theorie
Verständnis
Datenvorverarbeitung
Modellbildung
Bewertung
Daten
Theorie
![Page 19: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/19.jpg)
RapidMiner (vormals YALE)
� Open-Source Umgebung für Data Mining
� Rapid-I (http://www.rapid-i.com)
� Mittlerweile meist genutzte open-source Umgebung für Data Mining
� Anwendungen in Forschung und Praxis
![Page 20: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/20.jpg)
RapidMiner
� Wichtigste Eigenschaft: Prozesse des Data Mining als Operator-Bäume modellieren
� Operator in RapidMiner bedeutet: einzelne Methode, � Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens
� Experimente können auf der Grundlage einer großen Anzahl von beliebig ineinander verschachtelbaren Operatoren durchgeführt werden
![Page 21: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage](https://reader033.vdokument.com/reader033/viewer/2022041418/5e1cf8ffad5b3868d4318798/html5/thumbnails/21.jpg)
Literatur
� Mierswa, I. et al., YALE: Rapid Prototyping for
Complex Data Mining Tasks, In: Proceedings of theACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), 2006.2006), 2006.
� Gabriel, R. et al.: Data Warehouse & Data Mining
(2009), W3L-Verlag, Herdecke, Witten.
� Für das CRISP-DM-Modell:
http://www.crisp-dm.org