data mining tutorial - dbs.ifi.lmu.de · data mining tutorial e. schubert, a. zimek aufgabe 10-1...
TRANSCRIPT
![Page 1: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/1.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Data Mining TutorialKlassifikation I
Erich Schubert, Arthur Zimek
Ludwig-Maximilians-Universität München
2015-06-24 — KDD Übung
![Page 2: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/2.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A
4 0 1 5
B
2 2 1 5
C
1 1 3 5
Ki
7 3 5 15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 3: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/3.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A
4 0 1 5
B
2 2 1 5
C
1 1 3 5
Ki
7 3 5 15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 4: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/4.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1
5
B 2 2 1
5
C 1 1 3
5
Ki
7 3 5 15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 5: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/5.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5
15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 6: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/6.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 7: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/7.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|
4 3 12 1 33 2 2
![Page 8: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/8.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4
3 1
2
1 3
3
2 2
![Page 9: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/9.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12
1 3
3
2 2
![Page 10: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/10.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33
2 2
![Page 11: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/11.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
![Page 12: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/12.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
Precision(K,A) = 4/7Precision(K,B) = 2/3Precision(K,C) = 3/5
Recall(K,A) = 4/5Recall(K,B) = 2/5Recall(K,C) = 3/5
F1(K,A) = 2/3F1(K,B) = 1/2F1(K,C) = 3/5
Precision(K, i) =|{o ∈ Ki |K(o) = C(o)}|
|Ki|=
|TPi||TPi|+ |FPi|
![Page 13: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/13.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
Precision(K,A) = 4/7Precision(K,B) = 2/3Precision(K,C) = 3/5
Recall(K,A) = 4/5Recall(K,B) = 2/5Recall(K,C) = 3/5
F1(K,A) = 2/3F1(K,B) = 1/2F1(K,C) = 3/5
Recall(K, i) =|{o ∈ Ci |K(o) = C(o)}|
|Ci|=
|TPi||TPi|+ |FNi|
![Page 14: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/14.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
Precision(K,A) = 4/7Precision(K,B) = 2/3Precision(K,C) = 3/5
Recall(K,A) = 4/5Recall(K,B) = 2/5Recall(K,C) = 3/5
F1(K,A) = 2/3F1(K,B) = 1/2F1(K,C) = 3/5
F1(K, i) =2 · Recall(K, i) · Precision(K, i)Recall(K, i) + Precision(K, i)(
nicht allgemeingültig: =2|TPi|
2|TPi|+ |FPi|+ |FNi|
)
![Page 15: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/15.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
Mittlere Precision, Recall und F1:Mittelwert Precision: 1
3(4/7 + 2/3 + 3/5) ≈ 0.613Mittelwert Recall: 1
3(4/5 + 2/5 + 3/5) = 0.6F1 ≈ 2·0.6·0.613
0.6+0.613 ≈ 0.606.
![Page 16: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/16.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von Klassifikatoren
Konfusionsmatrix aufbauen:
A B C Ci
A 4 0 1 5B 2 2 1 5C 1 1 3 5
Ki 7 3 5 15
|TP| |FP| |FN|4 3 12 1 33 2 2
Mittelwert der F1(K, . . .) ≈ 0.589. Es ist aber sinnvoller,
F1(Mittlere Precision(K),Mittlerer Recall(K))
zu verwenden. Precision und Recall sind wichtigeKennzahlen, und F1 ist “nur” eine Reduktion dieser zweiKennzahlen auf eine einzige.
![Page 17: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/17.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von Klassifikatoren
Optimaler Klassifikator (nur für zufällige Klassenlabel!):
Immer als die häufigste (Mehrheits-) Klasse klassifizieren.
Erwartete Fehlerrate?
Da |A| = |B| = |D|/2, ist die Fehlerrate 50%.
![Page 18: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/18.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von Klassifikatoren
Optimaler Klassifikator (nur für zufällige Klassenlabel!):
Immer als die häufigste (Mehrheits-) Klasse klassifizieren.
Erwartete Fehlerrate?
Da |A| = |B| = |D|/2, ist die Fehlerrate 50%.
![Page 19: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/19.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von KlassifikatorenLeave-one-out Validierung
Leave-one-out Validierung:Erwartete Fehlerrate?
Die “falsche” Klasse wird jetzt zur Mehrheitsklasse, da wirja nur das Testobjekt weglassen.
Der erwarteter Fehler wird 100%!Das ist natürlich zu pessimistisch.
![Page 20: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/20.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von KlassifikatorenLeave-one-out Validierung
Leave-one-out Validierung:Erwartete Fehlerrate?
Die “falsche” Klasse wird jetzt zur Mehrheitsklasse, da wirja nur das Testobjekt weglassen.
Der erwarteter Fehler wird 100%!Das ist natürlich zu pessimistisch.
![Page 21: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/21.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von KlassifikatorenBootstrap Methode
Bootstrap durch “Ziehen mit Zurücklegen”:Jedes Objekt wird mit einer Wahrscheinlichkeit von ca.(1− 1
n
)n ≈ 0.368 nie gezogen, also nur ca. 63.2% derObjekte werden zum Training verwendet.(Bei 10-facher Kreuzvalidierung werden 90% verwendet!)Die normale Fehlerschätzung wäre pessimistisch.
Üblicher Ansatz: man integriert auch den beobachtetenKlassifikationsfehler (auf den Trainingsdaten!):
Fehlerrate = 0.632 · Fehler auf Testdaten
+ 0.368 · Fehler auf Trainingsdaten
Das wird mehrmals wiederholt (mit unterschiedlichenStichproben) und dann darüber gemittelt.
![Page 22: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/22.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Bewertung von KlassifikatorenBootstrap Methode
Bootstrap durch “Ziehen mit Zurücklegen”:Jedes Objekt wird mit einer Wahrscheinlichkeit von ca.(1− 1
n
)n ≈ 0.368 nie gezogen, also nur ca. 63.2% derObjekte werden zum Training verwendet.(Bei 10-facher Kreuzvalidierung werden 90% verwendet!)Die normale Fehlerschätzung wäre pessimistisch.
Üblicher Ansatz: man integriert auch den beobachtetenKlassifikationsfehler (auf den Trainingsdaten!):
Fehlerrate = 0.632 · Fehler auf Testdaten
+ 0.368 · Fehler auf Trainingsdaten
Das wird mehrmals wiederholt (mit unterschiedlichenStichproben) und dann darüber gemittelt.
![Page 23: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/23.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von KlassifikatorenBootstrap-Methode
Die Fehlerrate des konstanten Klassifikators ist ≈ 50%.
Neuer “bester” Klassifikator auf den Trainingsdaten:“auswendig lernen”!Auf den Trainingsdaten kann der “auswendig lernen”Ansatz eine Präzision von bis zu 100% erreichen!
Dann ergibt sich:
Fehlerrate = 0.632 · 50%+ 0.368 · 0% = 31.6%
was eine zu optimistische Schätzung ist.
![Page 24: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/24.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von KlassifikatorenBootstrap-Methode
Die Fehlerrate des konstanten Klassifikators ist ≈ 50%.
Neuer “bester” Klassifikator auf den Trainingsdaten:“auswendig lernen”!Auf den Trainingsdaten kann der “auswendig lernen”Ansatz eine Präzision von bis zu 100% erreichen!
Dann ergibt sich:
Fehlerrate = 0.632 · 50%+ 0.368 · 0% = 31.6%
was eine zu optimistische Schätzung ist.
![Page 25: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/25.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluierung von KlassifikatorenBootstrap-Methode
Die Fehlerrate des konstanten Klassifikators ist ≈ 50%.
Neuer “bester” Klassifikator auf den Trainingsdaten:“auswendig lernen”!Auf den Trainingsdaten kann der “auswendig lernen”Ansatz eine Präzision von bis zu 100% erreichen!
Dann ergibt sich:
Fehlerrate = 0.632 · 50%+ 0.368 · 0% = 31.6%
was eine zu optimistische Schätzung ist.
![Page 26: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/26.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naïve Bayes
Wetter Schnee Ski? Wetter Schnee Ski?Sonne < 50 nein Schnee < 50 neinRegen < 50 nein Sonne ≥ 50 jaRegen ≥ 50 nein Schnee ≥ 50 jaSchnee ≥ 50 ja Regen < 50 ja
A priori- und bedingte Wahrscheinlichkeiten:
![Page 27: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/27.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naïve Bayes
Wetter Schnee Ski? Wetter Schnee Ski?Sonne < 50 nein Schnee < 50 neinRegen < 50 nein Sonne ≥ 50 jaRegen ≥ 50 nein Schnee ≥ 50 jaSchnee ≥ 50 ja Regen < 50 ja
A priori- und bedingte Wahrscheinlichkeiten:
P(Ski) = 1/2
P(¬Ski) = 1/2
![Page 28: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/28.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naïve Bayes
Wetter Schnee Ski? Wetter Schnee Ski?Sonne < 50 nein Schnee < 50 neinRegen < 50 nein Sonne ≥ 50 jaRegen ≥ 50 nein Schnee ≥ 50 jaSchnee ≥ 50 ja Regen < 50 ja
A priori- und bedingte Wahrscheinlichkeiten:
P(Wetter = Sonne|Ski) = 1/4
P(Wetter = Schnee|Ski) = 2/4
P(Wetter = Regen|Ski) = 1/4
P(Wetter = Sonne|¬Ski) = 1/4
P(Wetter = Schnee|¬Ski) = 1/4
P(Wetter = Regen|¬Ski) = 2/4
![Page 29: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/29.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naïve Bayes
Wetter Schnee Ski? Wetter Schnee Ski?Sonne < 50 nein Schnee < 50 neinRegen < 50 nein Sonne ≥ 50 jaRegen ≥ 50 nein Schnee ≥ 50 jaSchnee ≥ 50 ja Regen < 50 ja
A priori- und bedingte Wahrscheinlichkeiten:
P(Schnee ≥ 50|Ski) = 3/4
P(Schnee < 50|Ski) = 1/4
P(Schnee ≥ 50|¬Ski) = 1/4
P(Schnee < 50|¬Ski) = 3/4
![Page 30: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/30.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
![Page 31: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/31.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
A)Wetter=Sonne, Schnee ≥ 50
P(Ski|Wetter = Sonne, Schnee ≥ 50)
=P(Wetter = Sonne|Ski) · P(Schnee ≥ 50|Ski) · P(Ski)
P(Wetter = Sonne, Schnee ≥ 50)
=14 ·
34 ·
12
P(Wetter = Sonne, Schnee ≥ 50)
=332
P(Wetter = Sonne, Schnee ≥ 50)
![Page 32: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/32.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
A)Wetter=Sonne, Schnee ≥ 50
P(¬Ski|Wetter = Sonne, Schnee ≥ 50)
=P(Wetter = Sonne|¬Ski) · P(Schnee ≥ 50|¬Ski) · P(¬Ski)
P(Wetter = Sonne, Schnee ≥ 50)
=14 ·
14 ·
12
P(Wetter = Sonne, Schnee ≥ 50)
=1
32P(Wetter = Sonne, Schnee ≥ 50)
![Page 33: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/33.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
A)Wetter=Sonne, Schnee ≥ 50
P(Ski|Wetter = Sonne, Schnee ≥ 50) =3
32P(. . .)
P(¬Ski|Wetter = Sonne, Schnee ≥ 50) =132
P(. . .)
⇒ Skifahren
![Page 34: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/34.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
B)Wetter=Regen, Schnee < 50
P(Ski|Wetter = Regen, Schnee < 50)
=P(Wetter = Regen|Ski) · P(Schnee < 50|Ski) · P(Ski)
P(Wetter = Regen, Schnee < 50)
=14 ·
14 ·
12
P(Wetter = Regen, Schnee < 50)
=132
P(Wetter = Regen, Schnee < 50)
![Page 35: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/35.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
B)Wetter=Regen, Schnee < 50
P(¬Ski|Wetter = Regen, Schnee < 50)
=P(Wetter = Regen|¬Ski) · P(Schnee < 50|¬Ski) · P(¬Ski)
P(Wetter = Regen, Schnee < 50)
=24 ·
34 ·
12
P(Wetter = Regen, Schnee < 50)
=6
32P(Wetter = Regen, Schnee < 50)
![Page 36: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/36.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
B)Wetter=Regen, Schnee < 50
P(Ski|Wetter = Regen, Schnee < 50) =1
32P(. . .)
P(¬Ski|Wetter = Regen, Schnee < 50) =632
P(. . .)
⇒ nicht Skifahren
![Page 37: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/37.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
C)Wetter=Schnee, Schnee < 50
P(Ski|Wetter = Schnee, Schnee < 50)
=P(Wetter = Schnee|Ski) · P(Schnee < 50|Ski) · P(Ski)
P(Wetter = Schnee, Schnee < 50)
=24 ·
14 ·
12
P(Wetter = Schnee, Schnee < 50)
=232
P(Wetter = Schnee, Schnee < 50)
![Page 38: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/38.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
C)Wetter=Schnee, Schnee < 50
P(¬Ski|Wetter = Schnee, Schnee < 50)
=P(Wetter = Schnee|¬Ski) · P(Schnee < 50|¬Ski) · P(¬Ski)
P(Wetter = Schnee, Schnee < 50)
=14 ·
34 ·
12
P(Wetter = Schnee, Schnee < 50)
=3
32P(Wetter = Schnee, Schnee < 50)
![Page 39: Data Mining Tutorial - dbs.ifi.lmu.de · Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Evaluierung von Klassifikatoren Bootstrap-Methode Die Fehlerrate](https://reader030.vdokument.com/reader030/viewer/2022040218/5e0d476534ba6649f70d858e/html5/thumbnails/39.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Naive Bayes
Wetter Schneea priori Sonne Schnee Regen ≥ 50 < 50
Ski 1/2 1/4 2/4 1/4 3/4 1/4¬ Ski 1/2 1/4 1/4 2/4 1/4 3/4
C)Wetter=Schnee, Schnee < 50
P(Ski|Wetter = Schnee, Schnee < 50) =232
P(. . .)
P(¬Ski|Wetter = Schnee, Schnee < 50) =3
32P(. . .)
⇒ nicht Skifahren