data mining tutorial - kernel, regression, evaluation
TRANSCRIPT
![Page 1: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/1.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Data Mining TutorialKernel, Regression, Evaluation
Erich Schubert, Arthur Zimek
Ludwig-Maximilians-Universität München
2013-07-05 — KDD Übung
![Page 2: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/2.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Fukctionen
“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:
I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete
Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0
Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.
Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!
![Page 3: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/3.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Fukctionen
“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:
I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete
Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0
Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.
Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!
![Page 4: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/4.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Fukctionen
“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:
I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete
Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0
Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.
Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!
![Page 5: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/5.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Positiv semi-definit↔ Generalisierte Skalarprodukte
Standardskalarprodukt: 〈x, y〉 =∑
i xiyi
Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y
Matrix E so dass xT · E · y = 〈x, y〉?
〈x, y〉 =∑
i
∑j
eij · xi · yj
eij =
{1 i = j0 i 6= j
Das ist die Einheitsmatrix!
![Page 6: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/6.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Positiv semi-definit↔ Generalisierte Skalarprodukte
Standardskalarprodukt: 〈x, y〉 =∑
i xiyi
Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y
Matrix E so dass xT · E · y = 〈x, y〉?
〈x, y〉 =∑
i
∑j
eij · xi · yj
eij =
{1 i = j0 i 6= j
Das ist die Einheitsmatrix!
![Page 7: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/7.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Positiv semi-definit↔ Generalisierte Skalarprodukte
Standardskalarprodukt: 〈x, y〉 =∑
i xiyi
Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y
Matrix E so dass xT · E · y = 〈x, y〉?
〈x, y〉 =∑
i
∑j
eij · xi · yj
eij =
{1 i = j0 i 6= j
Das ist die Einheitsmatrix!
![Page 8: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/8.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Positiv semi-definit↔ Generalisierte Skalarprodukte
Standardskalarprodukt: 〈x, y〉 =∑
i xiyi
Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y
Matrix E so dass xT · E · y = 〈x, y〉?
〈x, y〉 =∑
i
∑j
eij · xi · yj
eij =
{1 i = j0 i 6= j
Das ist die Einheitsmatrix!
![Page 9: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/9.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · y
k0(x, x) = 〈x, x〉 =∑
i xixi =∑
i x2i ≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 10: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/10.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi
=∑
i x2i ≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 11: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/11.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi =
∑i x2
i
≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 12: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/12.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi =
∑i x2
i ≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 13: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/13.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi =
∑i x2
i ≥ 0 offensichtlich
A) k1(x, y) = 1
= c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 14: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/14.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi =
∑i x2
i ≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 15: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/15.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel-Funktionen
Beweise für ein paar Kernel-Funktionen:
0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =
∑i xixi =
∑i x2
i ≥ 0 offensichtlich
A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+
k1(x, x) = c+ ≥ 0 trivial.
![Page 16: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/16.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y
= c+ · k0(x, y)k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 17: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/17.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)
k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 18: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/18.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸
C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 19: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/19.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸
≥0
· k0(x, x)︸ ︷︷ ︸≥0
≥ 0
C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 20: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/20.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸
≥0
· k(x, x)︸ ︷︷ ︸≥0
≥ 0
C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 21: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/21.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸
≥0
· k(x, x)︸ ︷︷ ︸≥0
≥ 0
C) k3(x, y) = 3 · xT · y + 5
= c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 22: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/22.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸
≥0
· k(x, x)︸ ︷︷ ︸≥0
≥ 0
C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 23: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/23.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Kernel functions
Beweise für ein paar Kernel-Funktionen:
B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸
≥0
· k(x, x)︸ ︷︷ ︸≥0
≥ 0
C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+
Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7
![Page 24: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/24.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Lineare Regression⇔ beste Ausgleichsgerade!
AllgemeineGerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 25: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/25.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 26: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/26.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 27: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/27.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt: y = αx + β
Für Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 28: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/28.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 29: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/29.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 30: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/30.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Eingabedaten:
x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83
Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).
Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)
Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.
Also als Erstes: Mittelwerte berechnen, Daten zentrieren.
Mittelwerte: x = 9.1, y = 55.4
![Page 31: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/31.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6
(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 32: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/32.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 33: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/33.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 34: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/34.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
1n−1
∑(x− x)(y− y)
1n−1
∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 35: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/35.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 36: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/36.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61
αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 37: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/37.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81
reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 38: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/38.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 39: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/39.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Zentrierte Daten:
x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44
(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.
(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19
Cov(X,Y)
Var(X)=
∑(x− x)(y− y)∑(x− x)(x− x)
=1269.6358.9
≈ 3.53747562 = α
β = y− αx ≈ 23.2089719
Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097
![Page 40: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/40.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Prognose:
Formel: y = 3.53747562 · x + 23.2089719
A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212
![Page 41: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/41.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Prognose:
Formel: y = 3.53747562 · x + 23.2089719
A) x = 20
⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212
![Page 42: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/42.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Prognose:
Formel: y = 3.53747562 · x + 23.2089719
A) x = 20⇒ y ≈ 93.9585B) x = 8
⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212
![Page 43: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/43.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Prognose:
Formel: y = 3.53747562 · x + 23.2089719
A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11
⇒ y ≈ 62.1212
![Page 44: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/44.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
Prognose:
Formel: y = 3.53747562 · x + 23.2089719
A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212
![Page 45: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/45.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
0 5 10 15 20 2520
30
40
50
60
70
80
90
100
110
![Page 46: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/46.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
0 5 10 15 20 2520
30
40
50
60
70
80
90
100
110
![Page 47: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/47.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Lineare Regressionsanalyse
0 5 10 15 20 2520
30
40
50
60
70
80
90
100
110
![Page 48: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/48.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Regression in NumPy
import numpy as npx = np.array([ 3, 8, 9, 13, 3, 6, 11, 21, 1, 16])y = np.array([30, 57, 64, 72, 36, 43, 59, 90, 20, 83])
x.mean(), y.mean()# (9.0999999999999996, 55.399999999999999)
x-x.mean()# array([ -6.1, -1.1, -0.1, 3.9, -6.1, ...
(x-x.mean())*(y-y.mean())# array([ 154.94, -1.76, -0.86, 64.74, ...
(x-x.mean())**2# array([ 3.72100000e+01, 1.21000000e+00, ...
sum((x-x.mean())*(y-y.mean())), sum((x-x.mean())**2)# (1269.6000000000001, 358.90000000000003)
![Page 49: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/49.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Regression in NumPy
alpha=sum((x-x.mean())*(y-y.mean()))/sum((x-x.mean())**2)beta =y.mean() - alpha * x.mean()alpha, beta# (3.5374756199498467, 23.208971858456394)
alpha * x + beta# array([ 33.82139872, 51.50877682, 55.04625244, ...
(alpha * x + beta - y) ** 2# array([ 14.60308816, 30.15353203, 80.1695954 , ...
sum(((alpha * x + beta - y) ** 2))# 261.22095291167477
np.sqrt(sum(((alpha * x + beta - y) ** 2))/len(x))# 5.1109779192604101
np.array([20, 8, 11]) * alpha + beta# array([ 93.95848426, 51.50877682, 62.12120368])
(The first two lines are the actual regression, the last is prediction!)
![Page 50: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/50.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Regression
Es gibt zahlreiche Varianten von Regression!Hier: ein optimaler KQ-Schätzer bekannt.Oftmals: numerische Suche nach lokalem Maximum!
I quadratischer Fehler vs linearer FehlerI Polynome statt linearen FunktionenI Regularisierung, um Overfitting zu vermeidenI RANSAC – RANdom SAmple Consensus, robuster
gegen AusreißerI Gradient descent für differenzierbare FunktionenI u.v.m.
Mehr in der Vorlesung “Maschinelles Lernen”, dennRegression braucht Trainingsdaten, und “lernt”!
![Page 51: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/51.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von Clusterings
A1 A2 A3 A4 A5
B1 2 1 11 0 13B2 0 10 0 3 1B3 15 0 4 0 0B4 0 0 2 8 1
![Page 52: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/52.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von Clusterings
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
![Page 53: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/53.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsSet Matching
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
“Precision”: Summe Maxima in Zeilen:
(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028
F-Measure: ≈ 0.7171
![Page 54: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/54.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsSet Matching
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479
“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028
F-Measure: ≈ 0.7171
![Page 55: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/55.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsSet Matching
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:
(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028
F-Measure: ≈ 0.7171
![Page 56: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/56.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsSet Matching
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028
F-Measure: ≈ 0.7171
![Page 57: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/57.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsSet Matching
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028
F-Measure: ≈ 0.7171
![Page 58: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/58.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:
(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 59: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/59.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:
(
13/27
+ 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 60: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/60.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:
(
13/27 + 10/14
+ 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 61: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/61.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:
(
13/27 + 10/14 + 15/19
+ 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 62: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/62.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:
(
13/27 + 10/14 + 15/19 + 8/11
)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 63: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/63.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781
Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 64: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/64.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 65: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/65.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(
15/17
+ 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 66: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/66.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(
15/17 + 10/11
+ 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 67: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/67.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(
15/17 + 10/11 + 11/17
+ 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 68: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/68.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(
15/17 + 10/11 + 11/17 + 8/11
+ 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 69: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/69.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:
(
15/17 + 10/11 + 11/17 + 8/11 + 13/15
)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 70: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/70.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 71: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/71.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage Precision
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065
F-Measure: ≈ 0.7368
![Page 72: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/72.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
Was ist das F-Measure einer Zelle?
Precision: cij/|Ai|Recall: cij/|Bj|
F-Measure daraus:
F1(cij,Ai,Bj)
![Page 73: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/73.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
Was ist das F-Measure einer Zelle?
Precision: cij/|Ai|Recall: cij/|Bj|
F-Measure daraus:
F1(cij,Ai,Bj)
![Page 74: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/74.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
Was ist das F-Measure einer Zelle?
Precision: cij/|Ai|Recall: cij/|Bj|
F-Measure daraus:
F1(cij,Ai,Bj) =2 · cij|Ai| ·
cij|Bj|
cij|Ai| +
cij|Bj|
![Page 75: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/75.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
Was ist das F-Measure einer Zelle?
Precision: cij/|Ai|Recall: cij/|Bj|
F-Measure daraus:
F1(cij,Ai,Bj) =2 · cij|Ai|·|Bj|
|Bj|+|Ai||Ai|·|Bj|
![Page 76: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/76.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
Was ist das F-Measure einer Zelle?
Precision: cij/|Ai|Recall: cij/|Bj|
F-Measure daraus:
F1(cij,Ai,Bj) =2 · cij
|Bj|+ |Ai|
![Page 77: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/77.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 78: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/78.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 79: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/79.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:
(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 80: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/80.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4
≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 81: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/81.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 82: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/82.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:
(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 83: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/83.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5
≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 84: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/84.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 85: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/85.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091
F-Measure daraus: ≈ 0.7088
![Page 86: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/86.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsAverage F-Measure
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
A1 A2 A3 A4 A5
B1444
238
2244 0 26
42B2 0 20
25 0 625
229
B33036 0 8
36 0 0B4 0 0 4
281622
226
Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222
Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959
Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088
![Page 87: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/87.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 88: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/88.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 89: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/89.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 90: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/90.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 91: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/91.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 92: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/92.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsam
Anzahl Paare in einer Menge von n Elementen:(n2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 93: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/93.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:
(n2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 94: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/94.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)
= n(n−1)2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 95: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/95.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
Intuition:
Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n
2
)= n(n−1)
2 (“jedes mit jedem anderen, aber nicht doppelt”)
![Page 96: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/96.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 97: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/97.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Achtung: Nicht mehr die Summen in der letzten Spalte/Zeile!
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 98: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/98.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:
∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 99: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/99.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 100: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/100.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)=
668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 101: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/101.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 102: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/102.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)=
487 (“Paare in A”, a + b)Gesamtzahl (möglicher) Paare:
(n2
)= 2485 (M)
![Page 103: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/103.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 104: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/104.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11
|Ai| 17 11 17 11 15 71
(cij2
)A1 A2 A3 A4 A5
(|Bj|2
)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2
)136 55 136 55 105
Summe Konfusionsmatrix:∑i,j
(cij2
)= 322 (“Übereinstimmungen”, a)
Summe Zeilen Σj(|Bj|
2
)= 668 (“Paare in B”, a + c)
Summe Spalten Σi(|Ai|
2
)= 487 (“Paare in A”, a + b)
Gesamtzahl (möglicher) Paare:(n
2
)= 2485 (M)
![Page 105: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/105.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485
d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 106: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/106.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision:
a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 107: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/107.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c)
≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 108: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/108.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall:
a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 109: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/109.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b)
≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 110: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/110.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus:
≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 111: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/111.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index:
a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 112: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/112.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d
= 322+16522485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 113: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/113.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand:
Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 114: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/114.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M
≈ 130.91ARI = a−E
(a+c)+(a+b)2 −E
≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 115: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/115.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 116: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/116.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E
≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 117: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/117.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index:
J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 118: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/118.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c
= 322487+668−322 ≈ 0.3866
![Page 119: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/119.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsPair Counting
D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652
Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758
Rand Index: a+da+b+c+d = 322+1652
2485 ≈ 0.7944
Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91
ARI = a−E(a+c)+(a+b)
2 −E≈ 0.4279
Jaccard Index: J = aa+b+c = 322
487+668−322 ≈ 0.3866
![Page 120: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/120.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsZusammenfassung
Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576
Rand 0.7944ARI 0.4279Jaccard 0.3866
Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).
![Page 121: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/121.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsZusammenfassung
Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576
Rand 0.7944ARI 0.4279Jaccard 0.3866
Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.
Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).
![Page 122: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/122.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsZusammenfassung
Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576
Rand 0.7944ARI 0.4279Jaccard 0.3866
Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.
Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).
![Page 123: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/123.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
Evaluation von ClusteringsZusammenfassung
Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576
Rand 0.7944ARI 0.4279Jaccard 0.3866
Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).
![Page 124: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/124.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 125: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/125.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare Vorteile
I Vergleich mit bekannten Labels (“supervised”)I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 126: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/126.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 127: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/127.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 128: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/128.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne Evaluierung
I Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 129: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/129.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 130: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/130.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch Experten
I Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 131: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/131.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?
![Page 132: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/132.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?
I Bewertung durch Verbesserung der Ergebnisseanderer Methoden?
![Page 133: Data Mining Tutorial - Kernel, Regression, Evaluation](https://reader036.vdokument.com/reader036/viewer/2022062604/62b5270d91b44d373245e700/html5/thumbnails/133.jpg)
Data MiningTutorial
E. Schubert,A. Zimek
Aufgabe 10-1
Aufgabe 10-2
Aufgabe 10-3
EvaluationFazit
Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!
I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)
I Bestraft echt neues Wissen!
I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?
I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv
I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse
anderer Methoden?