universitat hamburg technische universitat hamburg...
Post on 22-Aug-2019
216 Views
Preview:
TRANSCRIPT
UNIVERSITAT HAMBURG
HOCHSCHULE FUR ANGEWANDTE WISSENSCHAFTEN HAMBURG
TECHNISCHE UNIVERSITAT HAMBURG-HARBURG
Hochschulubergreifender Studiengang Wirtschaftsingenieurwesen
D I P L O M A R B E I T
gemaß. § 20 der
Prufungsordnung vom 25. Mai 2004
Vergleich ausgewahlter Data Mining-Verfahren zur
Prognose von Kundigungswahrscheinlichkeiten
von Krankenkassenmitgliedschaften
Bereich: Integrationsgebiet, Schwerpunkt Wirtschaftswissenschaften
Verfasser: Tobias Baumgartel, Am Sood 40, 22848 Norderstedt
1. Gutachter: Prof. Dr. Gerd Bornmuller
2. Gutachter: Prof. Dr. Stefan Voß
Vorgelegt am: 23. September 2009
Ich erklare hiermit, dass die vorliegende Diplomarbeit ohne fremde Hilfe
selbstandig verfasst wurde und nur die angegebenen Quellen und Hilfsmittel
benutzt worden sind. Wortlich oder sinngemaß aus anderen Werken entnom-
mene Stellen sind unter Angabe der Quelle kenntlich gemacht.
Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen
digitalen Form verwendet wurden, sind der Arbeit beigefugt.
18. September 2009
Hamburg, den Unterschrift
Zusammenfassung
In dieser Arbeit wird die Notwendigkeit der Etablierung eines Kundigungs-
managements im Bereich des Kundenbeziehungsmanagements von Unterneh-
men – insbesondere im Versicherungssektor – dargelegt und Dataminingver-
fahren zur Prognose von Kundigungen der gesetzlichen Krankenversicherung
evaluiert.
Dabei werden sowohl Kundigungen zu einer anderen gesetzlichen Kranken-
kasse als auch Kundigungen in eine private Krankenversicherung prognostiziert.
Die Kundigung zu einer privaten Krankenversicherung ist dabei deutlich
besser zu prognostizieren. Beide Kundigungsarten lassen sich am besten mit
einem neuronalen Netz voraussagen, wobei die fuhrenden Methoden dicht bei-
einander liegen und der Anteil von Ensemble-Methoden hier hoher ist.
Meinen Eltern
Inhaltsverzeichnis
Abbildungsverzeichnis iv
Tabellenverzeichnis vii
Abkurzungsverzeichnis viii
Symbolverzeichnis ix
1 Einleitung 1
1.1 Einfuhrung und Motivation . . . . . . . . . . . . . . . . . . . . . 1
1.2 Ziel dieser Arbeit – die Kundigungsprognose . . . . . . . . . . . . 3
1.3 Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Kundenbeziehungsmanagement 5
2.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Churn Management . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Data Mining 9
3.1 Einordnung in den KDD-Prozess . . . . . . . . . . . . . . . . . . 9
3.2 CRISP-DM – industrieubergreifender Standard des Datamining-
Prozesses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2.2 Referenzmodell . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Elementare Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Klassifizierungsmethoden . . . . . . . . . . . . . . . . . . . . . . 12
3.4.1 Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4.2 ”Lazy Learners“ . . . . . . . . . . . . . . . . . . . . . . . 12
3.4.3 Bayes-Klassifikatoren . . . . . . . . . . . . . . . . . . . . . 13
3.4.4 Lineare/Logistische Regression . . . . . . . . . . . . . . . 14
3.4.5 Entscheidungsbaume . . . . . . . . . . . . . . . . . . . . . 15
3.4.6 Kunstliche neuronale Netze . . . . . . . . . . . . . . . . . 17
3.4.7 Support Vector Machines . . . . . . . . . . . . . . . . . . 21
3.4.8 Ensemble-Methoden . . . . . . . . . . . . . . . . . . . . . 22
3.5 Gutemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Software-Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Versuchsteil 36
4.1 Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.2 Datenstruktur . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Prognoseziel . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Bestimmung der Trainingsmenge . . . . . . . . . . . . . . 37
4.2.3 Auswahl der deskriptiven Variablen . . . . . . . . . . . . 42
4.2.4 Grundaufbau . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Kundigungen zur PKV . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.1 kNN – k nearest neighbours . . . . . . . . . . . . . . . . . 43
4.3.2 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . 46
4.3.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . 49
4.3.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . 50
4.3.5 Lineare SVM (Fast Large Margin) . . . . . . . . . . . . . 50
4.3.6 SVM mit RBF-Kernel . . . . . . . . . . . . . . . . . . . . 53
4.3.7 Entscheidungstabelle . . . . . . . . . . . . . . . . . . . . . 55
4.3.8 Naıve Bayes-Klassifikator . . . . . . . . . . . . . . . . . . 55
4.3.9 Bayes-Netz-Generator . . . . . . . . . . . . . . . . . . . . 56
4.3.10 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.11 Boosting von Entscheidungsbaumstumpfen . . . . . . . . 59
4.3.12 Averaged One-Dependence Estimators – AODE . . . . . . 61
4.3.13 Alternierende Entscheidungsbaume . . . . . . . . . . . . . 61
4.3.14 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 Kundigungen zur GKV . . . . . . . . . . . . . . . . . . . . . . . 67
4.4.1 Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4.2 kNN – k nearest neighbours . . . . . . . . . . . . . . . . . 67
4.4.3 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . 68
4.4.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . 71
4.4.5 Logistische Regression . . . . . . . . . . . . . . . . . . . . 71
4.4.6 Lineare SVM (Fast Large Margin) . . . . . . . . . . . . . 72
4.4.7 SVM mit RBF-Kernel . . . . . . . . . . . . . . . . . . . . 74
4.4.8 Entscheidungstabelle . . . . . . . . . . . . . . . . . . . . . 75
4.4.9 Naıver Bayes-Klassifikator . . . . . . . . . . . . . . . . . . 75
4.4.10 Bayes-Netz-Generator . . . . . . . . . . . . . . . . . . . . 76
4.4.11 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.12 Boosting von Entscheidungsbaumstumpfen . . . . . . . . 78
4.4.13 Averaged One-Dependence Estimators – AODE . . . . . . 78
4.4.14 Alternierende Entscheidungsbaume . . . . . . . . . . . . . 80
4.4.15 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5 Fazit und Ausblick 83
Literaturverzeichnis 87
Abbildungsverzeichnis
1 Entwicklung Anzahl Krankenkassen . . . . . . . . . . . . . . . . . 2
2 CRM-Komponenten . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Kollaboratives CRM . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 Maßnahmendiversifikation im Churnmanagement . . . . . . . . . 8
5 Schritte des KDD-Prozesses . . . . . . . . . . . . . . . . . . . . . 9
6 Phasen des CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . 10
7 Logistische Regressionskurven fur unterschiedliche Logit-Koeffi-
zienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8 Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungs-
baum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
10 Verschiedene Aktivierungsfunktionen bei kunstlichen Neuronen . 18
9 Modell eines kunstlichen Neurons . . . . . . . . . . . . . . . . . . 18
11 Mogliche Klassifizierungen beim Multilayerperceptron mit einer
verdeckten Schicht . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Mogliche Klassifizierungen beim Multilayerperceptron zwei ver-
deckten Schichten . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
13 SVM-Klassifizierung bei linear trennbaren Daten . . . . . . . . . 21
14 Einfluß des Parameters C bei Ermittlung einer SVM-Losung . . . 22
15 Drei Grunde fur das bessere Performen von Ensemblemethoden . 23
16 Beispiel ROC-Analyse . . . . . . . . . . . . . . . . . . . . . . . . 28
17 Beispiel drei unterschiedlicher ROC-Graphen . . . . . . . . . . . 29
18 Entwicklung der Anzahl der Pakete fur R . . . . . . . . . . . . . 30
19 Klassifizierung mit einer SVM mit der Software R . . . . . . . . 31
20 Klassifizierung mit einem MLP mit der Software KNIME . . . . 32
21 Beispiel einer Lernkurvenermittlung im Rapid Miner . . . . . . . 32
22 Geschwindigkeitsvergleiche Data-Mining-Software . . . . . . . . . 33
23 Umfrageergebnis zu eingesetzten Data Mining-Programmen . . . 35
24 Kundigerstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
25 Versuchsaufbau zur Lernkurvenermittlung . . . . . . . . . . . . . 38
26 Lernkurven zur PKV-Kundigung, lineare Mengenachse . . . . . . 38
27 Lernkurven zur PKV-Kundigung, logarithmische Mengenachse . 39
28 Lernkurven zur PKV-Kundigung, Trainingsdauer . . . . . . . . . 39
29 Lernkurven zur GKV-Kundigung, lineare Mengenachse . . . . . . 40
30 Lernkurven zur GKV-Kundigung, logarithmische Mengenachse . 40
31 Lernkurven zur GKV-Kundigung, Trainingsdauer . . . . . . . . . 41
32 Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . 42
33 AUC-Werte beim kNN-Verfahren mit gewichteten und ungewich-
teten euklidischen Entfernungen in Abhangigkeit der Anzahl der
Nachbarn (PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
34 Parameteroptimierung kNN – Gesamtdarstellung (PKV) . . . . . 45
35 Parameteroptimierung kNN – optimaler Bereich (PKV) . . . . . 45
36 Performance kNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
37 Performance kNN mit angepasstem k (PKV) . . . . . . . . . . . 46
38 Parameteroptimierung fur Entscheidungsbaume (PKV) . . . . . 48
39 Performance Entscheidungsbaum unbeschnitten (PKV) . . . . . 49
40 Performance Entscheidungsbaum beschnitten (PKV) . . . . . . . 49
41 Performancevergleich beschnittener und unbeschnittener Entschei-
dungsbaum (PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . 49
42 Performance lineare Regression (PKV) . . . . . . . . . . . . . . . 50
43 Performance logistische Regression (PKV) . . . . . . . . . . . . . 50
44 Parameteroptimierung fur die lineare SVM (PKV) . . . . . . . . 52
45 Performance lineare SVM (PKV) . . . . . . . . . . . . . . . . . . 53
46 Parameteroptimierung fur die SVM mit RBF-Kernel (PKV) . . . 54
47 Performance der SVM mit RBF-Kernel (PKV) . . . . . . . . . . 54
48 Parameteroptimierung fur die Entscheidungstabelle (PKV) . . . 55
49 Performance der Entscheidungstabelle (PKV) . . . . . . . . . . . 56
50 Performance des naıven Bayes-Klassifikators (PKV) . . . . . . . 56
51 Parameteroptimierung fur den Bayes-Netz-Generator (PKV) . . 57
52 Performance des Bayes-Netzes (PKV) . . . . . . . . . . . . . . . 58
53 Parameteroptimierung fur den Random Forest (PKV) . . . . . . 59
54 Performance Random Forest (PKV) . . . . . . . . . . . . . . . . 59
55 Parameteroptimierung fur das Boosting der Baumstumpfe (PKV) 60
56 Performance der geboosteten Baumstumpfe (PKV) . . . . . . . . 60
57 Performance AODE (PKV) . . . . . . . . . . . . . . . . . . . . . 61
58 Performance AODEsr (PKV) . . . . . . . . . . . . . . . . . . . . 61
59 Performancevergleich beider AODE-Methoden (PKV) . . . . . . 62
60 Parameteroptimierung fur den alternierenden Entscheidungsbaum
(PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
61 Performance Alternierender Entscheidungsbaum (PKV) . . . . . 63
62 AUC-Vergleich bei PKV-Kundigung auf den vier Testpartitionen 64
63 AUC-Vergleich bei PKV-Kundigung . . . . . . . . . . . . . . . . 65
64 Parameteroptimierung kNN – Gesamtdarstellung (GKV) . . . . . 67
65 Parameteroptimierung kNN – optimaler Bereich (GKV) . . . . . 67
66 Performance kNN (GKV) . . . . . . . . . . . . . . . . . . . . . . 68
67 Performance kNN mit angepasstem k (GKV) . . . . . . . . . . . 68
68 Parameteroptimierung fur Entscheidungsbaume (GKV) . . . . . 70
69 Performance Entscheidungsbaum (GKV) . . . . . . . . . . . . . . 71
70 Performance lineare Regression (GKV) . . . . . . . . . . . . . . . 71
71 Performance logistische Regression (GKV) . . . . . . . . . . . . . 71
72 Parameteroptimierung fur die lineare SVM (GKV) . . . . . . . . 73
73 Performance lineare SVM (GKV) . . . . . . . . . . . . . . . . . . 74
74 Parameteroptimierung fur die SVM mit RBF-Kernel (GKV) . . . 74
75 Performance der SVM mit RBF-Kernel (GKV) . . . . . . . . . . 75
76 Parameteroptimierung fur die Entscheidungstabelle (GKV) . . . 75
77 Performance der Entscheidungstabelle (GKV) . . . . . . . . . . . 76
78 Performance des naıven Bayes-Klassifikators (GKV) . . . . . . . 76
79 Parameteroptimierung fur den Bayes-Netz-Generator (GKV) . . 77
80 Performance des Bayes-Netzes (GKV) . . . . . . . . . . . . . . . 77
81 Parameteroptimierung fur den Random Forest (GKV) . . . . . . 77
82 Performance Random Forest (GKV) . . . . . . . . . . . . . . . . 78
83 Parameteroptimierung fur das Boosting der Baumstumpfe (GKV) 78
84 Performance der geboosteten Baumstumpfe (GKV) . . . . . . . . 79
85 Performance AODE (GKV) . . . . . . . . . . . . . . . . . . . . . 79
86 Performance AODEsr (GKV) . . . . . . . . . . . . . . . . . . . . 79
87 Performancevergleich beider AODE-Methoden (GKV) . . . . . . 80
88 Parameteroptimierung fur den alternierenden Entscheidungsbaum
(GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
89 Performance alternierender Entscheidungsbaum (GKV) . . . . . 81
90 AUC-Vergleich bei GKV-Kundigung auf den vier Testpartitionen 82
91 AUC-Vergleich bei GKV-Kundigung . . . . . . . . . . . . . . . . 83
92 Normierte Verteilungen der Merkmale bei PKV-Kundigungen . . 85
93 Verteilungen der Merkmale bei GKV-Kundigungen . . . . . . . . 85
(Alle Abbildungen ohne Quellenangabe sind selbst entworfen)
Tabellenverzeichnis
1 Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungs-
baum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Konfusionsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Klassifikationsfalle bei binaren Klassifikationen . . . . . . . . . . 25
4 Beispiel ROC-Analyse, Hypothesen eines naıven Bayes-Klassifi-
kators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Verwendete Variablen . . . . . . . . . . . . . . . . . . . . . . . . 37
6 Ermittelte optimale Parameter fur die kNN-Methode (PKV) . . 44
7 Ermittelte optimale Parameter fur den Entscheidungsbaum (PKV) 47
8 Ermittelte optimale Parameter der linearen SVM (PKV) . . . . . 51
9 Ermittelte optimale Parameter fur die SVM mit RBF-Kernel
(PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
10 Ermittelte optimale Parameter der Entscheidungstabelle (PKV) . 55
11 Optimale Parameter des Bayes-Netz-Generators (PKV) . . . . . 57
12 Ermittelte optimale Parameter des Random Forests (PKV) . . . 58
13 Ermittelte optimale Parameter fur das Boosting von Entschei-
dungsbaumstumpfen (PKV) . . . . . . . . . . . . . . . . . . . . . 60
14 Optimale Parameter fur PKV-Kundiger und den alternierenden
Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . 62
15 AUC-Vergleich bei PKV-Kundigung . . . . . . . . . . . . . . . . 64
16 Ermittelte optimale Parameter fur die kNN-Methode (GKV) . . 68
17 Ermittelte optimale Parameter fur den Entscheidungsbaum (GKV) 69
18 Ermittelte optimale Parameter der linearen SVM (GKV) . . . . 72
19 Ermittelte optimale Parameter fur die SVM mit RBF-Kernel
(GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
20 Ermittelte optimale Parameter der Entscheidungstabelle (GKV) 75
21 Optimale Parameter des Bayes-Netz-Generators (GKV) . . . . . 76
22 Ermittelte optimale Parameter des Random Forests (GKV) . . . 77
23 Ermittelte optimale Parameter fur das Boosting von Entschei-
dungsbaumstumpfen (GKV) . . . . . . . . . . . . . . . . . . . . . 78
24 Ermittelte optimale Parameter fur den alternierenden Entschei-
dungsbaum (GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . 80
25 AUC-Vergleich bei GKV-Kundigung . . . . . . . . . . . . . . . . 82
Abkurzungsverzeichnis
AUC Area under Curve, hier die Flache unter der ROC-Kurve
CART Classification And Regression Trees, Entscheidungsbaumalgorithmus
CHURN Kunstwort aus change und turn, Kundenabwanderung
CRISP-DM Cross-Industry Standard process for Data-Mining
CRM Customer Relationship Management / Kundenbeziehungsmanagement
FLM Fast Large Margin – ein Algorithmus einer linearen SVM
GKV Gesetzliche Krankenversicherung
GUI Graphical User Interface – Grafische Benutzeroberflache
ID3 Iterativer Dichotomiser 3, Entscheidungsbaumalgorithmus
JVM Java Virtual Machine
KDD Knowledge Discovery in Databases
MLP Multilayerperzeptron
OLAP Online Analytical Processing / Systematisches Auswerten von Daten im
Data Warehouse mittels Slicing/Dicing, Drill Down/Roll Up
PKV Private Krankenversicherung
RBF Radiale Basisfunktion
ROC Receiver Operating Characteristic
RSA Risikostrukturausgleich
SVM Support Vector Machine
TK Techniker Krankenkasse
Symbolverzeichnis
δmax Maximaler Abstand bei einer SVM von der Trennungshyperebene zu
beiden Merkmalsgruppen
γ Parameter der Radial-Basis-Funktion, bzw. der sigmoiden Funktion
γ Youden-Index
pt1 geschatzte Wahrscheinlichkeit, dass beim Entscheidungsbaum ein Ob-
jekt im Knoten t zur Klasse 1 gehort
M Merkmalsvektor
ζ Abstand zur Hyperebene bei falsch klassifizierten Objekten wahrend des
Trainings einer SVM
a, b Logit- oder Regressionskoeffizienten bei der logistischen Regression
Ci Zugehorigkeit zur Klasse i
d Anzahl Attribute/Dimensionen
Fα F-Maß
FN False negatives, falschlicherweise als negativ klassifizierte Daten der po-
sitiven Klasse
FP False positives, falschlicherweise als positiv klassifizierte Daten der ne-
gativen Klasse
k Anzahl der zu betrachtenden Nachbarn bei der kNN-Methode
M Anzahl verwendeter Merkmale
MB Anzahl mannlicher Bleiber
MK Anzahl mannlicher Kundiger
n Anzahl Klassen
Nt Gesamtanzahl der Objekte im Knoten t beim Entscheidungsbaum
nt1 Anzahl der Objekte der Klasse 1 im Knoten t beim Entscheidungsbaum
npv Negative predictive value, Negativer Vorhersagewert
P (. . .), p(. . .) Wahrscheinlichkeit
ppv Positive predictive value, Positiver Vorhersagewert
r Anzahl Auspragungen
se Sensitivity, Sensitivitat
sp Specificity, Spezifitat
TN True negatives, richtig klassifizierte Daten der negativen Klasse
TP True positives, richtig klassifizierte Daten der positiven Klasse
TPR True Positive Rate
V Anzahl Versicherte
WB Anzahl weiblicher Bleiber
WK Anzahl weiblicher Kundiger
C Faktor fur die Gewichtung der Klassifizierungsfehler beim Training einer
SVM
1 EINLEITUNG 1
1 Einleitung
1.1 Einfuhrung und Motivation fur die Kundigungsprognose
bei gesetzlichen Krankenversicherungen
Das Thema dieser Arbeit basiert auf den Tendenzen unterschiedlicher wissen-
schaftlicher Gebiete. Auf dem Gebiet des Marketings setzte Mitte der achtzi-
ger Jahre ein Wandel ein. Die Steigerung der Unternehmensprofitabilitat allein
durch transaktionsorientiertes Marketing1 war nicht mehr zielfuhrend.[26] Ur-
sachen dafur waren z.B. zunehmende Sattigung und Transparenz der Markte.
Es begann die Entwicklung des kundenbeziehungsorientierten Marketings. Dem
liegt die Annahme zugrunde, dass es weniger aufwendig ist, einem bereits ge-
wonnenen Kunden ein Produkt zu verkaufen, als einen Neukunden zu gewinnen.
In diesem Zusammenhang wurde der Faktor Kundentreue einer der wichtigsten
im Marketing.[4] Fur Unternehmen, die Produkte mit einer Laufzeit2 verkau-
fen, ist diese Kostendifferenz noch bedeutender. Hier ist es deutlich gunstiger,
einen kundigungswilligen (profitablen) Kunden zum Bleiben zu bewegen, als
einen Neukunden zu akquirieren.
Beispielsweise rechnen Buschkens und Gropp in Ihrer Fallstudie uber Effekte
der Kundenabwanderung einer Gesetzlichen Krankenkasse an einem fiktiven,
aber realistischen Beispiel vor, wie die Vermeidung von 600 Kundigungen einem
Ergebnisbeitrag von ¤ 400.000,- p.a. entsprechen kann.[5]
Ein weiterer Wandel vollzieht sich in den gesetzlichen Rahmenbedingungen
der Krankenkassen, der den Wettbewerb unter Ihnen fordern soll. Seit 1996
konnen Versicherte der GKV ihre Krankenkasse frei wahlen3.[23] Die Kran-
kenkassen konnen eine sogenannte aktive Risikoselektion betreiben, indem sie
sich bei der Akquisition um einen gunstigen Risikopool bemuhen. Um aber
diese Entmischung der Risikostrukturen4 auszugleichen, wurde der (nicht mor-
biditatsorientierte) Risikostrukturausgleich 1994 eingefuhrt (§266 SGB V).[23]1Die Maximierung der Anzahl einzelner Verkaufsabschlusse. Eine Definition findet sich
in [28]:”Transaktionsmarketing ist ein Ansatz der Marketingtheorie mit dem Ziel, einseitige
Transaktionen mit anonymen Kunden – zu denen keine Abhangigkeiten (Wiederholkaufe)
bestehen – mit dem Erfolgskriterium ,Verkauf‘ zu bewirken.“2Man unterscheidet zwischen bestimmten (z.B. Kreditvertrag) oder unbestimmten (z.B.
Versicherungsvertrag) Laufzeiten.3§175, Abs. 1 SGB V:
”Die Ausubung des Wahlrechts ist gegenuber der gewahlten Kran-
kenkasse zu erklaren. Diese darf die Mitgliedschaft nicht ablehnen.[. . . ]“4Es tritt auch passive Risikoselektion auf, vgl. [23].
1.1 EINFUHRUNG UND MOTIVATION 2
2002 wurde der RSA dahingehend reformiert, dass zusatzlich zu den Merk-
malen Alter und Geschlecht auch die Disease-Management-Programme fur die
Versorgung chronisch Kranker bei den Ausgleichzahlungen berucksichtigt wur-
den. Dieser Ausgleich wurde 2009 mit Einfuhrung des morbiditatsorientierten
RSA drastisch verfeinert.
Seit Januar 2009 zahlen alle Beitragszahler den gleichen Beitragssatz. Da-
durch ist der Wettbewerb uber unterschiedliche Beitrage durch die Einfuhrung
des Gesundheitsfonds praktisch weggefallen, sodass sich die Differenzierung der
Krankenkassen verstarkt uber Qualitat und Leistung vollzieht. Krankenkassen,
die mit den Zuweisungen aus diesem Fond nicht auskommen und damit schlech-
ter wirtschaften als andere, konnen von ihren Mitgliedern Zusatzbeitrage erhe-
ben, wobei diese dabei auf ihr Wechselrecht hingewiesen werden mussen.
Die Beitragsdifferenzen zwischen zwei Krankenkassen – der Hauptgrund fur
Wechsel5 – mussen nicht mehr selbst umgerechnet werden, sodass die Transpa-
renz erhoht und die Hurde fur einen Wechsel gesenkt wurde.[23]
400
600
800
1.000
1.200
1.400
Sonstige
BKK
Ersatzkassen
IKK
AOK
0
200
400
600
800
1.000
1.200
1.400
1991 1996 2002 2005 2006 2007 2008 2009(Januar)
Sonstige
BKK
Ersatzkassen
IKK
AOK
Abbildung 1: Entwicklung Anzahl Krankenkassen[22]
Durch diese Verscharfungen des Wettbewerbs setzte eine (von Seiten des
Gesetzgebers erwunschte) Konsolidierung des Marktes ein – unwirtschaftliche
und kleinere Kassen mussten mit anderen fusionieren. Ab 2010 konnen auch ge-
setzliche Krankenkassen Insolvenz anmelden. So ist die Zahl der Krankenkassen
von 1991 bis Anfang 2009 von uber 1.200 auf 202 gesunken (s. Abb. 1).
Am 15. August dieses Jahres hat Bundesgesundheitsministerin Ulla Schmidt
dem Weser Kurier noch einmal ihr Ziel verdeutlicht: die Zahl der Krankenkas-
sen soll sich weiter verringern. Von den zu diesem Zeitpunkt noch etwa 1875Die weiteren Grunde sind dann Arbeitgeberwechsel, Leistungserstattung, Umzug oder
Service.[5]
1.2 ZIEL DIESER ARBEIT – DIE KUNDIGUNGSPROGNOSE 3
Kassen wurden 30–50 Kassen ausreichen, um den Menschen genugend Wech-
selmoglichkeiten zu bieten.[9]
Am 18. August berichtete die Frankfurter Allgemeine Zeitung, dass die Ge-
meinsame Betriebskrankenkasse Koln (GBK) ruckwirkend zum 1. Juli als erste
Kasse einen Zusatzbeitrag von acht Euro pro Monat erhebe – obwohl diese schon
vom Landesverband der Betriebskassen gestutzt werde.[21] Diese acht Euro sind
der Hochstbetrag, der ohne Einkommensprufung erhoben werden kann.
Die dritte Entwicklung, durch die diese Arbeit motiviert ist, sind die ste-
tigen Fortschritte auf dem Gebiet des Data Minings, insbesondere die vielver-
sprechenden Tendenzen auf dem Teilgebiet der Ensemble-Methoden, wie z.B.
random forests oder Boosting schwacher Klassifikatoren.
1.2 Ziel dieser Arbeit – die Kundigungsprognose
Das Ziel dieser Arbeit ist es einerseits, einen Weg zur Identifizierung einer Me-
thode fur die Prognose von Kundigungen von Krankenkassenmitgliedschaften
zu skizzieren. Durch verbesserte Kundigungsprognosen lassen sich signifikante
Einsparungen u.a. im Bereich des Marketings erzielen. Die prazisere Ansprache
von potentiellen Kundigern ermoglicht eine Senkung der Kundigungsrate und
damit einen geringeren Aufwand bei der Akquisition von Neukunden. Dies ist
ebenfalls bei der Finanzplanung durch geringere Schwankungen bei den Ein-
nahmen von Nutzen.
Die Identifizierung der besten Methode ist dabei so wichtig, da schon bei
nur einer nicht erkannten Kundigung gerade bei Krankenkassen deutliche Ein-
nahmeverluste die Folge sind.
Da die verwendeten Daten stark aggregiert sind (s. Abschn. 4.1.1), lasst sich
nicht ausschließen, dass in der Praxis6 ein anderes Verfahren bessere Ergebnisse
erzielen wird.
Es werden die unterschiedlichen Methoden untereinander verglichen und
in eine Rangfolge gebracht. Durch die Wahl der AUC als Gutemaß fur die
Klassifizierung werden nicht die im Einzelnen trainierten Modelle, sondern die
Verfahren an sich verglichen.
1.3 Gliederung der Arbeit
Im ersten Teil dieser Arbeit wird die Kundigungsprognose in ihren betriebs-
wirtschaftlichen Kontext eingeordnet. Als Teil des Churn-Managements ist sie
Teil des Kundenbeziehungsmanagements und wird damit dem Marketingbereich
zugewiesen.
Der zweite Teil beschaftigt sich mit dem Data Mining als Teil des KDD-
Prozesses. Es wird das Referenzmodell, das CRISP-DM – ein industrieuber-6Mit differenzierteren, weniger aggregierten Daten und mehr deskriptiven Variablen.
1.3 GLIEDERUNG DER ARBEIT 4
greifender Standard fur den Data Mining-Prozess – vorgestellt und die elemen-
taren Aufgaben des Data Mining beschrieben. Die grundlegenden Mechanismen
der in dieser Arbeit verwendeten Klassifizierungsmethoden werden dargestellt
und Gutemaße fur die Bewertung dieser Methoden vorgestellt. Schließlich wer-
den drei Software-Produkte beschrieben, die bei der Software-Evaluation in die
engere Wahl gekommen sind.
Anschließend werden Datenbasis, Klassifizierungsaufgaben und der grund-
legende Experimentaufbau dargestellt.
Im praktischen Teil sind die Ergebnisse der Parameteroptimierungen und
die Prognoseguten der verwendeten Klassifizierungsmethoden fur beide Klassi-
fizierungen wiedergegeben.
Im letzten Teil werden schließlich die Schlusse, die aus den Experimenten
gezogen wurden, beschrieben sowie ein Ausblick auf weiterfuhrende Untersu-
chungen gegeben.
2 KUNDENBEZIEHUNGSMANAGEMENT 5
2 Kundenbeziehungsmanagement
2.1 Allgemeines
Wie in der Einfuhrung (s. Abschn. 1.1) erwahnt, setzte ab Mitte der achziger
Jahre in der Marketingwissenschaft die Abkehr vom transaktionsorientierten
Marketing hin zum Relationship Marketing ein. Betrafen vorher die Bemuhun-
gen hauptsachlich die Vorkaufs- und Kaufphase, ruckte von da an die Phase nach
dem Kauf in den Vordergrund. In [28] wird auf Seite 14 auf Studien verwiesen,
die belegen, dass Maßnahmen zur Kundenbindung in vielen Fallen gunstiger
sind, als die Kundenakquisition selbst.
Abbildung 2: CRM-Komponenten [28]
Daraufhin wurden sogenannte Customer Relationship Management Systeme
etabliert, die die langfristige Kundenbindung gewahrleisten sollten. Ein weite-
res Ziel waren die individualisierten Leistungsabstimmungen auf den Kunden.
CRM-Systeme lassen sich hinsichtlich ihrer Aufgabenfelder in strategisches,
operatives und analytisches CRM unterteilen (s. Abb. 2). Im Folgenden wird die
Aufteilung naher beschrieben und diese Arbeit dem Bereich des analytischen
CRM zugeordnet.
Strategisches CRM: Hierbei werden die im analytischen CRM angestellten
Berechnungen und Auswertungen kontrolliert, ggf. uberarbeitet und fur
die Unternehmensplanung verwendet. In der Praxis ist dieser Bereich des
CRMs kaum in CRM-Systeme integriert.
Analytisches CRM: Diese Komponente beschaftigt sich mit dem Sammeln
und Analysieren von kundenbezogenen Daten. Dies sind sowohl Stammda-
2.2 CHURN MANAGEMENT 6
ten zu den Kunden7, wie auch Bewegungsdaten8 und Kundenreaktionen
(wie in dieser Arbeit die Kundigung). Diese Daten werden systematisch
im Data Warehouse gespeichert. Analysiert werden Sie z.B. mittels OLAP
und Data Mining im Rahmen der sogenannten Business Intelligence. Die-
se Auswertungen konnen Churn-Analysen, Kundensegmentierung (Clus-
tering) oder Customer-Lifetime Value Berechnungen sein. Diese Arbeit
uber Kundigungsprognose ist der Churn-Analyse und damit dem analy-
tischen CRM zuzuordnen.
Operatives CRM: Dieser Teil des CRM dient der Unterstutzung der opera-
tiven Prozesse, die direkten Kundenkontakt haben, wie etwa Marketing,
Vertrieb und Kundenservice. Zur Umsetzung dieser Unterstutzung dienen
die Daten und Erkenntnisse des analytischen CRM.
Kommunikatives CRM: Dieser Bereich umfasst das Management aller Kom-
munikationskanale zwischen Kunde und Unternehmen (Mailing, Telefonie,
Internet-Prasenz). Die verschiedenen Kommunikationskanale werden syn-
chronisiert (Multi Channel Management). Einerseits soll der Kunde eine
einheitliche Sicht auf das Unternehmen bekommen, andererseits muss das
Unternehmen eine einheitliche Sicht auf den Kunden bekommen, d.h. ei-
ne komplette Kundenkontakthistorie muss immer aktuell zur Verfugung
stehen.
In der Literatur wird dieser Bereich entweder als eigenstandige CRM-
Komponente [28] oder als Teil des operativen CRM [15] betrachtet. Letz-
teres ist meines Erachtens sinnvoller, da dieser Bereich einen operativen
Prozess darstellt.
Kollaboratives CRM: Dieser Bereich beschreibt die Zusammenarbeit von
Mitarbeitern, Lieferanten und Kunden mit dem Ziel, die Kundenorientie-
rung zu verbessern. Er hat also Schnittmengen mit allen anderen CRM-
Bereichen (s. Abb. 3). [15][28]
2.2 Churn Management
Ein Ziel des CRM ist es, die Kundenprofitabilitat zu erhohen. Einen großen
Beitrag dazu leistet das Churn-Management. Die beiden wesentlichen Teile
sind dabei auf der einen Seite die Erkennung der Kundenwertigkeit und auf
der anderen Seite das Kundigungsrisiko. Beide Bereiche mussen dabei zusam-
men betrachtet werden – bei einem unprofitablen, abwanderungsgefahrdeten
Kunden/Versicherten mussen andere Maßnahmen getroffen werden, als bei ei-
nem profitablen oder einem unprofitablen, aber nicht abwanderungsgefahrde-7Die in dieser Arbeit verwendete Daten sind in Tab. 5 zu sehen.8Mailings, Kampagnen, Telefonate, etc.
2.2 CHURN MANAGEMENT 7
Abbildung 3: Kollaboratives CRM [15]
ten, Kunden (s. Abb. 4). Ziel ist die Konzentration auf profitable Kunden/
Versicherte mit Maßnahmen uber alle Bereiche des Kundenlebenszyklus:
Akquisition: Konzentration auf Kunden mit hoher Bindungs- und Ertrags-
wahrscheinlichkeit. Wie in Abschnitt 1.1 erwahnt, ist diese aktive Risi-
koselektion mit Einfuhrung des morbiditatsorientierten RSA nur noch in
sehr geringem Maße sinnvoll.
Service: Betreiben eines proaktiven Beschwerdemanagements, Differenzierung
der Servicelevel etc..
Kundenbindung: Einfuhrung von Bonusprogrammen.
Prevention/Retention: 9 Vermeidung von Kundigungen, bzw. Ruckgewin-
nung von (profitablen) Kunden.
In dem Bereich der Identifizierung des Abwanderungsrisikos kann das Data
Mining eingesetzt werden. Durch die Identifizierung der abwanderungsgefahrde-
ten Kunden mit großtmoglicher Genauigkeit liefert es die Grundlage fur Kam-
pagnen mit hoher Effizienz und Effektivitat.
9Zum besseren Verstandnis werden vorwiegend die eingefuhrten englischen Begriffe ver-
wendet.
2.2 CHURN MANAGEMENT 8
Abbildung 4: Maßnahmendiversifikation im Churnmanagement [15]
3 DATA MINING 9
3 Data Mining
3.1 Einordnung in den KDD-Prozess
Mit der rasanten Entwicklung der Informationstechnologien erhoht sich nicht
nur die Verarbeitungsgeschwindigkeit von Daten, sondern im Wesentlichen auch
deren Bestand. Es werden immer mehr Daten (meist automatisch) erzeugt,
gesammelt und deren Speicherung immer gunstiger. Damit geht zwangslaufig
die Ubersichtlichkeit verloren – eine manuelle Sichtung der Daten ist praktisch
nicht mehr moglich.
Das war die Motivation fur die Entwicklung des Gebiets Knowledge Disco-
very in Databases. Es ist der Prozess der (semi-)automatischen Extraktion von
Wissen aus Datenbanken, das statistisch gultig, bisher unbekannt und fur eine
gegebene Anwendung potentiell nutzlich ist.
Bei diesem iterativen Prozess lassen sich die funf in Abbildung 5 dargestell-
ten Schritte identifizieren.[10]
Abbildung 5: Schritte des KDD-Prozesses [10]
Das Data Mining im engeren Sinn ist dabei nur ein Schritt in diesem KDD-
Prozess.
3.2 CRISP-DM – industrieubergreifender Standard des Data-
mining-Prozesses
3.2.1 Einfuhrung
1996 begannen die vier Unternehmen DaimlerChrysler, SPSS, NCR und OHRA
einen Standardprozess fur das Data Mining zu entwickeln, der industrie- und
softwareunabhangig ist. Ein Jahr spater einigte man sich hierfur auf das Akro-
nym CRISP-DM (CRoss Industry Standard Process for Data Mining). Im
weiteren Sinn umfasst dieser Data Mining-Prozess auch die Schritte des KDD-
Prozesses, wie Vorverarbeitung und Transformation der Daten und lasst sich
als Lebenszyklus eines Data Mining-Projekts interpretieren.
3.2.2 Referenzmodell
Das entwickelte Modell besteht aus sechs Phasen, die in Abbildung 6 dargestellt
sind.
Die inneren Pfeile in dieser Abbildung symbolisieren lediglich die wichtigsten
und haufigsten Wechsel zwischen den Phasen.
3.2 CRISP-DM – INDUSTRIEUBERGREIFENDER STANDARD DES
DATAMINING-PROZESSES10
Abbildung 6: Phasen des CRISP-DM [6]
Business Understanding: In dieser ersten Phase gilt es, das Ziel des Da-
ta Mining-Projektes aus betriebswirtschaftlicher Sicht zu definieren und
dann als Data Mining-Aufgabe zu formulieren, ein Erfolgskriterium fest-
zulegen und einen Projektplan zu erstellen.
Data Understanding: Die zur Verfugung stehenden Daten und Datenquel-
len werden gesichtet, erste Zusammenhange zwischen den Daten und dem
Problem konnen z.B. durch univariate Datenanalyse (visuell und statis-
tisch) erkannt werden.
Data Preparation: Die ausgewahlten Daten werden entsprechend der Data
Mining-Verfahren konvertiert, fehlende Daten erganzt oder Ausreißer aus-
gefiltert. Irrelevante oder stark korrelierende Daten konnen ausgeschlos-
sen werden. Es konnen auch neue abgeleitete oder aggregierte Attribute
erzeugt werden. Diese Daten werden hier auch physisch fur die Modellie-
rungsphase bereitgestellt (Dateien, Tabellen, Abfragen etc.). Dabei entste-
hen zu den ursprunglichen Daten Redundanzen, derer man sich bewusst
sein muss.
Modeling: Auswahl und Anwendung verschiedener Data Mining Verfahren,
Anpassung ihrer Parameter auf optimale Werte, Trainings- und Testda-
ten werden definiert. Je nach Verfahren mussen die Daten anders prapa-
riert werden, so dass ein Wechsel zwischen der Modellierungs- und der
Praparations-Phase haufig geschieht.
3.3 ELEMENTARE AUFGABEN 11
Evaluation: Nachdem in der vorherigen Phase ein bestimmtes Verfahren ein
gutes Modell erstellt hat, wird es in dieser Phase zum einen noch mal aus-
giebig auf anderen Daten getestet. Zum anderen wird noch einmal gepruft,
ob alle relevanten Daten berucksichtigt wurden und ob nicht nochmal zu
einer anderen Phase (ggf. bis zur ersten) zuruckgegangen werden muss.
Am Ende dieser Phase steht die Entscheidung, ob das gefundene Modell
fur die Data Mining Aufgabe genutzt werden kann.
Deployment: Nachdem ein Modell gefunden und damit Wissen erzeugt wur-
de, muss dieses noch nutzbar gemacht werden. Das kann auf verschiedene
Weisen geschehen, je nachdem was die Aufgabe des Prozesses war. Es kann
ein einfacher Bericht uber die gewonnenen Erkenntnisse sein. Dies kann
aber auch die Integration des Modells in die Ablaufe des Unternehmens
erfolgen. Es muss festgelegt werden, wie lange das Modell gultig sein, also
genutzt werden, soll. Das konnen zeitliche Vorgaben sein oder bestimm-
te Bedingungen (neue Gesetze, neue Produkte, signifikante Anderungen
im Kundenverhalten oder bei verwendeten Technologien).[6] Die zeitli-
che Vorgabe sollte immer gemacht werden, da nicht sichergestellt werden
kann, ob relevante Veranderungen (interne oder externe) erkannt werden
konnen.
3.3 Elementare Aufgaben
Data Mining-Verfahren konnen anhand der Lernart10, mithilfe derer Sie ein
Modell aus den Trainingsdaten erstellen, wie folgt eingeteilt werden:
Uberwachtes Lernen: Dabei sind wahrend des Lern- und Testvorgangs die
zu prognostizierenden Werte bekannt. Zwei Beispiele fur diese Verfahrens-
art sind die Regression und die Klassifikation.
Regression: Zur Vorhersage diskreter Werte (Temperaturen, Borsenkur-
se, Absatzzahlen) konnen Regressions-Methoden eingesetzt werden.
Als einfachstes Beispiel kann hier die lineare Regression genannt wer-
den, die, wie bei jeder funktionalen Regressionsrechnung, durch die
Minimierung der Fehlerquadrate eine Funktion erstellt, welche zu je-
der Merkmalskombination der betrachteten Attribute einen diskre-
ten Wert ausgibt. Entweder muss vorher durch Expertenwissen eine
Verteilung vorgegeben werden (hier eben ein linearer Zusammen-
hang) oder man greift auf nicht parametrische Regressionsmethoden
zuruck, die keine Verteilungsannahmen vorgeben, wie z.B. die Sup-
port Vector Regression.10Zu den Lernarten vgl. Abschn. 3.4.6, S. 17.
3.4 KLASSIFIZIERUNGSMETHODEN 12
Klassifikation: Hier sind die Klassen bekannt (z.B. Tier / Pflanze, Mann
/ Frau oder Hund / Katze / Maus), denen man die Daten zuordnen
will. Das konnen zwei (binare Klassifikation) oder mehr Gruppen
sein. Bei der Bilderkennung konnen die Klassen z.B. Fotos, Irisscans
oder Fingerabdrucke aller Mitarbeiter eines Betrieben sein, die per
Gesichts-, Iris- oder Fingersabdruck-Scan Zutritt zum Betrieb erlan-
gen sollen.
Unuberwachtes Lernen: Hier sind die zu prognostizierenden Werte a priori
nicht bekannt. Es wird also versucht, unbekannte Muster zu erkennen.
Zwei Beispiele fur diese Verfahren sind die Segmentierung und Assoziati-
on.
Segmentierung: In diesem Fall mochte man in den Daten bestimmte
vorher unbekannte Gruppen identifizieren – z.B. zur Marktsegmen-
tierung. Dies ist mit klassischen Methoden moglich, wie der Cluster-
analyse, bei der man mit verschiedenen Ahnlichkeits- oder Distanz-
maßen rechnet. Ein weiteres Beispiel sind sogenannte self organizing
maps oder Kohonennetze. Dabei handelt es sich um kunstliche neu-
ronale Netze, die durch Reduktion der Dimensionen auf eine zweidi-
mensionale Karte (auf der ahnliche Signale nahe beieinander liegen)
mehr oder weniger deutliche Gruppchen erzeugen.
Assoziation: Hier wird versucht, aus Transaktionsfolgen Regeln abzulei-
ten. Ein Beispiel fur die Assoziation ist die Warenkorbanalyse. Ge-
sucht ist ein Muster, das prognostiziert, welches Produkt ein Kunde
zusammen mit anderen kauft. Diese Informationen konnen fur Son-
derangebotsplanung und Cross-Selling genutzt werden.
In dieser Arbeit sind die Klassen vorgegeben, namlich jeweils Kundiger/Nicht-
Kundiger jeweils fur die GKV- und PKV-Kundiger. In dieser Arbeit werden also
Methoden zur Klassifizierung verglichen.
3.4 Klassifizierungsmethoden
3.4.1 Allgemein
Die in dieser Arbeit verwendeten Methoden lassen sich grob in Verfahrensklas-
sen einteilen, die hier kurz beschrieben werden.
3.4.2 ”Lazy Learners“
Die in der Praxis oft als Lazy Learners bezeichneten Verfahren, sind Methoden,
die kein eigentliches Model durch Trainieren erstellen, sondern aus den Trai-
ningsdaten durch einfache Regeln zu jedem zu klassifizierenden Fall eine Klasse
3.4 KLASSIFIZIERUNGSMETHODEN 13
bestimmen. Fur die Klassifizierung wird dabei jedesmal auf die Trainingsdaten
zugegriffen. Das in dieser Arbeit verwendete Verfahren ist gleichzeitig auch das
bekannteste: das k-Nearest-Neighbor-Verfahren. k stellt dabei die Anzahl der
zu betrachtenden Nachbarn des zu klassifizierenden Falles dar – die Zuordnung
geschieht durch eine Mehrheitsentscheidung.
Dieses Verfahren besitzt im wesentlichen zwei Parameter:
Die Anzahl der zu betrachtenden Nachbarn k
Das zur Bestimmung der Nachbarn verwendete Distanz- oder Ahnlich-
keitsmaß
Im Gegensatz zu diesen faulen oder tragen Verfahren gehoren alle weiter
hier beschriebenen Methoden zu den sogenannten Eager Learners, also eifri-
gen Methoden, da sie aus den Trainingsdaten konkrete Regeln bzw. Modelle
erstellen.
3.4.3 Bayes-Klassifikatoren
Bei dieser Art der Klassifikatoren werden Fakten und Regeln mit Hilfe des
Satzes von Thomas Bayes als bedingte Wahrscheinlichkeiten formuliert.
Dabei werden a priori die Wahrscheinlichkeiten der Klassenzugehorigkei-
ten und der Merkmalshaufigkeiten ermittelt und beim Training a posteriori die
Zusammenhange zwischen Klassen und Merkmalen als bedingte Wahrschein-
lichkeiten modelliert. [25]
Der Satz von Bayes zu den bedingten Wahrscheinlichkeiten lautet
P (Ci|M) =P (M|Ci) · P (Ci)
P (M)(1)
=P (M|Ci) · P (Ci)n∑j=1
P (Cj) · P (M|Cj)(2)
Beispiel [25]:
30% der Objekte sind Orangen, die a priori Wahrscheinlichkeit fur die
Klassenzugehorigkeit ist also P (Orange) = 0, 3.
40% der Objekte sind orangefarbig, die a priori Merkmalshaufigkeit ist
also P (orangefarbig) = 0, 4.
90% der Orangen sind orangefarbig, die a posteriori bedingte Wahrschein-
lichkeit fur die Farbe Orange unter der Vorraussetzung, es handelt sich
um eine Orange ist also P (orangefarbig|Orange) = 0, 9.
3.4 KLASSIFIZIERUNGSMETHODEN 14
Wenn man jetzt ein orangefarbiges Objekt klassifizieren mochte, greift man
auf den Satz von Bayes (s. Gl. 1) zuruck:
P (Orange|orangefarbig) =P (orangefarbig|Orange) · P (Orange)
P (orangefarbig)(3)
=0, 9 · 0, 3
0, 4(4)
= 0, 675 (5)
Diesen Wert vergleicht man mit allen anderen bedingten Wahrscheinlichkei-
ten der anderen Klassenzugehorigkeiten, z.B. P (Apfel|orangefarbig) = 0, 1 und
P (Kiwi|orangefarbig) = 0, 225. Da die Summe dieser bedingten Wahrscheinlich-
keiten 1 sein muss, reicht es in diesem Fall schon, dass die Wahrscheinlichkeit
großer als 50% ist, um das Objekt der Klasse Orangen zuzuordnen. In der Pra-
xis nutzt man aus, dass bei allen bedingten Klassenwahrscheinlichkeiten der
Nenner gleich ist (hier also P (orangefarbig)), wobei man nur noch die Zahler
vergleichen muss (dann aber alle). Dabei bestimmt dann ebenfalls das Maxi-
mum die Klassenzugehorigkeit.
In der Praxis wird die Berechnung der bedingten Wahrscheinlichkeiten bei
hoherdimensionalen Attributsvektoren mit vielen Auspragungen sehr schwierig
– es ergeben sich bei d Attributen mit jeweils r Auspragungen rd verschiedene
Merkmalskombinationen. Um aber die Wahrscheinlichkeiten der Merkmalskom-
binationen hinreichend genau schatzen zu konnen, brauchte man deutlich mehr
als diese rd Trainingsdaten.
Bei der Losung dieses Problems macht z.B. der naıve Bayes-Klassifizierer
die Annahme, dass bei jeder Klasse die Merkmale statistisch vollig unabhangig
voneinander sind. Dabei versagt der Klassifikator nicht unbedingt, wenn die
Annahme falsch ist, seine Klassifikationsgute sinkt nur umso starker, je mehr
die Merkmale voneinander abhangig sind. [14]
3.4.4 Lineare/Logistische Regression
Bei der Klassifikation per linearer Regression wird fur jede Klasse eine Regres-
sionsgerade berechnet, wobei fur die Berechnung der jeweiligen Geraden der
Funktionswert auf 1 bei Klassenzugehorigkeit und auf 0 bei nicht Klassenzu-
gehorigkeit gesetzt wird. Bei der Klassifikation wird dann der Regressionswert
fur jede Klasse berechnet – die Regression mit dem hochsten Wert bestimmt die
Klasse. Dabei kommen auch Regressionswerte außerhalb von [0, 1] vor, weshalb
die berechneten Regressionswerte nicht als Wahrscheinlichkeiten interpretiert
werden konnen.
Als Alternative zur Klassifikation per linearer Regression kann auf die lo-
gistische Regression zuruckgegriffen werden. Hier ergibt sich die Wahrschein-
lichkeit der Klassenzugehorigkeit direkt als Regressionswert – bei ihr ist die
3.4 KLASSIFIZIERUNGSMETHODEN 15
abhangige Variable auf den Bereich [0, 1] beschrankt. In ihrer Grundform klas-
sifiziert sie binar, Regressionswerte uber 0,5 weisen dem entsprechenden Fall der
positiven Klasse zu, Werte darunter entsprechend der negativen. Es wird also
nur eine Regressionsgleichung bestimmt, bei der die Koeffizienten per maximum
likelihood Methode geschatzt werden. Sie lautet:
pi = f(xi) =ea+b·xi
1 + ea+b·xi(6)
Die Koeffizienten a und b werden dabei wie bei der linearen Regression
mit Hilfe der Trainingsdaten geschatzt. In Abbildung 7 sind einige Kurven fur
verschiedene Logitkoeffizienten dargestellt.
1Y
1
0.8
0.6
0.4
0.2
exp(5+0.5·x)/(1+exp(5+0.5·x))exp(1+2·x)/(1+exp(1+2·x))(1)/(1+exp(-x))
20 15 10 5 0 -5 -10 -15 -20 0
Xexp(-3+0.4·x)/(1+exp(-3+0.4·x))p( )/( p( ))
Abbildung 7: Logistische Regressionskurven fur unterschiedliche Logit-Koeffizienten
3.4.5 Entscheidungsbaume
Entscheidungsbaume werden erstellt, indem man die gesamten Trainingsdaten
anhand von Regeln rekursiv partitioniert. Sie konnen sowohl fur Regression
als auch fur Klassifikationen verwendet werden – an dieser Stelle werden nur
die Regeln zur Klassifikation beschrieben. Je nachdem welche Regeln benutzt
werden, haben die Algorithmen verschiedenen Bezeichnungen.
In jedem Schritt der Partitionierung wird jeweils ein Attribut (Splitvariable)
und ein Split gesucht, welche die (restlichen) Daten in Bezug auf die Zielvariable
am besten trennt. Ziel ist es, am Ende des Algorithmus moglichst reine Knoten
(Blatter) in Bezug zur Zielvariablen zu erhalten. Zur Bewertung der Splits gibt
es verschiedene Heterogenitatsmaße.
3.4 KLASSIFIZIERUNGSMETHODEN 16
In jedem Schritt werden alle verbliebenen Variablen auf ihre moglichen
Splits gepruft und bewertet. Der Baum wird dann anhand des besten Splits
weiter aufgeteilt.
Bei der binaren Klassifizierung lasst sich an jedem Knoten die geschatzte
Wahrscheinlichkeit berechnen, dass ein Objekt in die Klasse 1 fallt:
pt1 =nt1Nt
(7)
Ubliche Großen fur das Maß der Heterogenitat im Knoten t fur die Klasse 1
sind in Tabelle 1 wiedergegeben. Die vergleichende grafische Darstellung dieser
Maße ist in Abbildung 8 zu sehen.
Gini-Index oder -Koeffizient gt1(pt1) = 2pt1(1− pt1)
Entropie ηt1(pt1) = −pt1 log pt1 − (1− pt1) log pt1 [sic!]
Fehlklassifikationsfehler εt1(pt1) = 1−max(pt1, 1− pt1)
Tabelle 1: Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungsbaum[2]
zu [sic!]: Formel in der Quelle fehlerhaft,
richtig: ηt1(pt1) = −pt1 log pt1 − (1− pt1) log(1− pt1)
0.7Heterogenität
0.6
0.5
0.4
0.3
0.20.2
0.1
1 ( 1 )-x·log(x)-(1-x)·log(1-x)2·x·(1-x)
EntropieGini-IndexFehlklassifikationsfehler
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0
p1-max(x,1-x)
Abbildung 8: Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungsbaum[2]
Die jeweiligen Heterogenitaten sind bei Gleichverteilung im Knoten, d.h.
bei gleichvielen Objekten beider Klassen, am großten. Die Daten werden so
aufgesplittet, dass der Wert des gewahlten Maßes moglichst klein ist.
Wahlt man nur binare Splits und als Heterogenitatsmaß den Gini-Index,
handelt es sich um den CART-Algorithmus, der erstmals 1984 von Breiman
veroffentlicht wurde.[3] Die Idee binarer Splits ist zum einen die, dass multiple
Splits sich auch durch mehrere binaren Splits darstellen lassen. Zum anderen
3.4 KLASSIFIZIERUNGSMETHODEN 17
teilen sich die Objekte bei multiplen Splits sehr schnell auf, so dass rasch kleine
Knoten entstehen und so die Gefahr des Overfittings steigt.
Der ursprungliche ID3-Algorithmus nutzte multiple Splits und als Splitkri-
terium den Informationsgewinn, also den Informationsunterschied vor und nach
dem Split (Entropie vor − Entropie nach Split). Er wurde durch folgende Er-
weiterungen zum C4.5-Algorithmus verbessert:
Als Splitkriterium wurde das Gewinnverhaltnis (gain ratio) eingefuhrt.
Beschneidung (Pruning).
– Das sogenannte Prepruning verhindert bei Baumerstellung das Wei-
terwachsen, wenn die Gute des nachsten Splits nicht ausreichend ist.
Dieser Schwellenwert muss vorgegeben werden.
– Beim Postpruning wird der Baum nachtraglich wieder gestutzt, um
zu spezialisierte Blatter zu vermeiden.
Eine andere Art des Preprunings, die in dieser Arbeit zusatzlich verwendet
wird, ist die Vorgabe der minimalen Blattgroße. Entstunden nach einem Split
Blatter mit weniger als der vorgegebenen Anzahl von Fallen, wird der Split
nicht durchgefuhrt.
Das Beschneiden ist notwendig, da Entscheidungsbaume zum Overfitting
neigen, d.h. es wird zu detailliert gelernt, sodass die Exploration, also die Pro-
gnosegute, auf unbekannte Daten wieder sinkt. Postpruning erzeugt meist bes-
sere Baume, da hier samtliche Informationen bei der Baumerstellung genutzt
werden.
In der Praxis liegen die Vorteile von Entscheidungsbaumen in der verstand-
lichen Darstellung ihrer Klassifikation, dem Abbilden von nichtlinearen Zusam-
menhangen und der Unempfindlichkeit gegenuber korrelierenden deskriptiven
Variablen11.
Nachteile sind die Empfindlichkeit gegenuber minimalen Anderungen der
Splitpoints – eine kleine Anderung an einem Schwellenwert eines Splits kann zu
einem vollig anderen Baum fuhren.
3.4.6 Kunstliche neuronale Netze
Bei kunstlichen neuronalen Netzen werden Nervenzellenstrukturen der Natur
nachgebildet. Ein Netz besteht aus einfachen Recheneinheiten, den Neuronen
(die Nachbildung der Zellkorper) sowie gerichteten, gewichteten Verbindungen
zwischen diesen (die Nachbildung der Axone).
Uber die Verbindungen werden die Daten (Werte) zwischen den Neuronen
ubertragen, wobei die Verbindungsgewichte entweder verstarkend oder hem-
mend wirken. Diese Gewichte werden wahrend des Trainierens mittels entspre-
chendem Lernalgorithmus angepaßt.11Im Gegensatz z.B. zu den Bayes-Verfahren.
3.4 KLASSIFIZIERUNGSMETHODEN 18
Ein Neuron besteht aus der Eingangsfunktion, auch Propagierungsfunktion
genannt, und einer Transferfunktion. Die Eingangsfunktion sammelt alle ge-
wichteten Ausgaben der dem Neuron vorgelagerten Neuronen und bildet aus
ihnen einen Wert – die Netzeingabe net. Das ist meistens die gewichtete Sum-
me. Diese Netzeingabe dient als Eingabe der Transferfunktion, die entscheidet,
ob und zu welcher Ausgabe es kommt. Bei dem Teil der Transferfunktion, die
entscheidet, ob es zu einer Ausgabe kommt, spricht man von der Aktivierungs-
funktion. Diese simuliert den Schwellenwert der naturlichen Nervenzelle, ab
dem sie feuert, also Ihr Aktionspotential auslost. In Abbildung 10 sind einige
mogliche Funktionen abgebildet.
1
Y
0.75
0.5
0.25
0X
0
-0.25
-0.5
-0.75
1/(1+ ( ))tanh(3x)tanh(x)
5 4 3 2 1 0 -1 -2 -3 -4 -5
-1 sgn(x)1/(1+exp(-2x))1/(1+exp(-x))
Abbildung 10: Verschiedene Aktivierungsfunktionen bei kunstlichen Neuronen
Die binare Schwellenwert- oderx1·w =e1,j 1
x2·w =e2,j 2
xn·w =en,j n
…
Eingangs-funktion
),,( 1 neeå
Transfer-funktion
…
Neuron j
anet
)(neta
Abbildung 9: Modell eines kunstlichen Neurons
Heaviside-Funktion wird dabei
fast nie verwendet, da sie nicht
stetig und damit nicht differen-
zierbar ist. Das in der Praxis fur
das Trainieren von kunstlichen
neuronalen Netzen am haufigs-
ten verwendete Verfahren, der
Backpropagation-Algorithmus, erfordert differenzierbare Funktionen. Beispiele
fur geeignete Funktionen sind der Tangens Hyperbolicus oder die Logistische
Funktion (s. Abschn. 3.4.4).
Bei dem Teil der Aktivierungsfunktion, die den Wert der Ausgabe bestimmt,
handelt es sich fast immer um die Identitat, also um f(x) = x. Diese Funktion
wird Ausgabefunktion genannt und ist meist fur das gesamte Netz einheitlich.
3.4 KLASSIFIZIERUNGSMETHODEN 19
Die Neuronen sind meist in Schichten angeordnet. Die Eingabeschicht uber-
nimmt den Input der zu analysierenden Daten. Die Ausgabeschicht reprasen-
tiert die Antwort des Netzes. Bei den Verbindungen unterscheidet man zwi-
schen strikt vorwarts gerichtete Verbindungen und Netzen mit moglichen Ruck-
kopplungen12. Es sind auch sogenannte Shortcuts moglich, wobei Verbindun-
gen Schichten uberspringen konnen. Falls zwischen der Eingabe- und Ausga-
beschicht keine sogenannte verdeckte Schicht, weder Shortcuts noch Ruckkopp-
lungen vorhanden sind, nennt man das Netz Perceptron.
Auch beim Trainieren eines Netzen gibt es verschieden Algorithmen, wobei
die gangigsten nur die Gewichte zwischen den Neuronen verandern. Andere
andern auch die Topologie des Netzes (Erstellen oder Loschen von Schichten
oder Neuronen, Anderungen an den zwei, bzw. drei Neuronenfunktionen). Man
unterscheidet beim Trainieren die folgenden Lernarten:
Unuberwachtes Lernen: Dem Netz werden nur Eingabemuster prasentiert
und es identifiziert nach dem jeweiligen Algorithmus selbsttatig vorhan-
dene Muster oder Klassen (s. Abschn. 3.3).
Bestarkendes Lernen: Dem Netz wird nach jedem Durchlauf lediglich ein
Wahrheitswert geliefert, der dem Netz nur den Grad der Richtigkeit (oder
Falschheit) angibt.
Uberwachtes Lernen: Hier wird nach jedem Durchlauf die Ausgabe mit dem
korrekten Wert verglichen und anhand der Differenz die Gewichte des
Netzes angepasst.
Diese letzte Art des Lernens ist zwar der Natur am entferntesten, aber
exorbitant zielgerichteter als die anderen beiden. Der bekannteste Algo-
rithmus dieser Art ist der Backpropagation-Algorithmus.
Je nach Topologie des Netzes konnen unterschiedliche Zusammenhange ab-
gebildet werden. Ohne verdeckte Schicht kann das sogenannte Singlelayerpercep-
tron nur linear separierbare Zusammenhange abbilden13. Multilayerperceptrons,
also Netze mit mindestens einer verdeckten Schicht (wie in dieser Arbeit verwen-
det), konnen differenziertere Funktionen abbilden. Mit einer verdeckten Schicht
lassen sich konvexe Polygone klassifizieren und ab zwei verdeckten Schichten las-
sen sich beliebige Zusammenhange durch beliebig viele, sich uberschneidende,
konvexe Polygone abbilden. Diese Klassifizierungen sind zur Verdeutlichung in
Abbildung 11 und 12 zusatzlich grafisch dargestellt.[16]
12Direkte Ruckkopplungen sind Verbindungen zuruck zur Eingabeschicht, indirekte Ruck-
kopplungen gehen nur zu verdeckten Schichten zuruck und laterale Ruckkopplungen verbinden
Neuronen innerhalb einer Schicht.13Es bildet, wie die lineare SVM, eine Hyperebene zwischen den Klassen.
3.4 KLASSIFIZIERUNGSMETHODEN 20
D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (DELTA-DE) dkriesel.com
GFED@ABCi1
@@@@@@@@@
**UUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2
@@@@@@@@@
ttjjjjjjjjjjjjjjjjjjjjjjjjj
GFED@ABCh1
''PPPPPPPPPPPPPPPPP GFED@ABCh2
GFED@ABCh3
wwooooooooooooooooo
?>=<89:;Ω
GFED@ABCi1
~~~~~~~~~~~
@@@@@@@@@
'' )) **
GFED@ABCi2
tt uu ww ~~~~~~~~~~~
@@@@@@@@@
GFED@ABCh1
''PPPPPPPPPPPPPPPPP
--
GFED@ABCh2
@@@@@@@@@
,,
GFED@ABCh3
**
GFED@ABCh4
tt
GFED@ABCh5
~~~~~~~~~~~
rr
GFED@ABCh6
wwnnnnnnnnnnnnnnnnn
qqGFED@ABCh7
@@@@@@@@@GFED@ABCh8
~~~~~~~~~
?>=<89:;Ω
Abbildung 5.10: Wie wir wissen, reprasentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichtsschichten kannman mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbarenGewichtsschichten kann man mit mehreren Polygonen beliebige Mengen modellieren (unten).
68
Abbildung 11: Mogliche Klassifizierungen beim Multilayerperceptron mit einer verdeckten Schicht[16]
D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (DELTA-DE) dkriesel.com
GFED@ABCi1
@@@@@@@@@
**UUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2
@@@@@@@@@
ttjjjjjjjjjjjjjjjjjjjjjjjjj
GFED@ABCh1
''PPPPPPPPPPPPPPPPP GFED@ABCh2
GFED@ABCh3
wwooooooooooooooooo
?>=<89:;Ω
GFED@ABCi1
~~~~~~~~~~~
@@@@@@@@@
'' )) **
GFED@ABCi2
tt uu ww ~~~~~~~~~~~
@@@@@@@@@
GFED@ABCh1
''PPPPPPPPPPPPPPPPP
--
GFED@ABCh2
@@@@@@@@@
,,
GFED@ABCh3
**
GFED@ABCh4
tt
GFED@ABCh5
~~~~~~~~~~~
rr
GFED@ABCh6
wwnnnnnnnnnnnnnnnnn
qqGFED@ABCh7
@@@@@@@@@GFED@ABCh8
~~~~~~~~~
?>=<89:;Ω
Abbildung 5.10: Wie wir wissen, reprasentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichtsschichten kannman mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbarenGewichtsschichten kann man mit mehreren Polygonen beliebige Mengen modellieren (unten).
68
Abbildung 12: Mogliche Klassifizierungen beim Multilayerperceptron zwei verdeckten Schichten[16]
3.4 KLASSIFIZIERUNGSMETHODEN 21
3.4.7 Support Vector Machines
Support Vector Machines (SVM) sind in ihrer Grundform binare Klassifikato-
ren. Es ist ein geometrisches Verfahren, bei dem versucht wird, eine Hyperebene
so im Merkmalsraum zu platzieren, dass sie beide Klassen moglichst gut trennt,
d.h. dass deren Abstand zu beiden Klassen maximal ist (s. Abb. 13).
x1
x2
Kündiger
Nicht Kündiger
max
Merkmal 1
Merk
mal 2
x1
x2
Merkmal 1
Merk
mal 2
i
x1
x2
Merkmal 1
Merk
mal 2
i
kleiner Wert für C großer Wert für C
Abbildung 13: SVM-Klassifizierung bei linear trennbaren Daten
Da die meisten Datensatze nicht direkt linear zu trennen sind, kann man
in SVMs spezielle Funktionen verwenden, um die Daten in hoherdimensionale
Raume zu transformieren und um sie dort linear zu separieren. Der Lernalgo-
rithmus bei der linearen Seperation rechnet nur mit dem Skalarprodukt zweier
Eingabevektoren (Objekte) xiyi. Diese werden mit Hilfe einer Funktion Φ in
einen hoherdimensionalen Raum transferiert, z.B. durch folgende Transforma-
tion:
Φ : (x1, x2) 7→(x2
1,√
2x1x2, x22
)Das neue Optimierungsproblem rechnet jetzt mit dem Skalarprodukt Φ(xi)Φ(yi):
〈Φ (~x) ,Φ (~y)〉 =(x2
1,√
2x1x2, x22,) (y21,√
2y1y2, y22,)
= x21y
21 + 2x1y1x2y2 + x2
2y22
= (x1y1 + x2y2)2
= 〈~x, ~y〉2 =: K(~x, ~y)
Es reicht hier also aus, nur das Quadrat von ~x und ~y im R2 zu berechnen,
um die Daten in einem dreidimensionalen Raum linear zu separieren und damit
eine nichtlineare Trennung im zweidimensionalen Raum vornehmen zu konnen.
Funktionen K, fur die gilt K (~xi, ~yi) = Φ (~xi)·Φ (~yi), heißen Kernel. In der Praxis
findet man fast ausschließlich folgende Kernelfunktionen:
3.4 KLASSIFIZIERUNGSMETHODEN 22
linear: K (~xi, ~yi) := 〈~xi, ~yi〉Radial-Basis-Funktion (RBF): K (~xi, ~yi) := e−γ·|~xi−~yi|2
polynomiell: K (~xi, ~yi) := (〈~xi, ~yi〉+ 1)d
sigmoid: K (~xi, ~yi) := tanh (γ · (~xi − ~yi) + c)
Oft ist es nicht der Fall, dass die Trainingsobjekte alle linear trennbar sind,
auch nicht in hoheren Dimensionen. Ursachen konnen, neben einem nichtlinea-
ren Zusammenhang, Messfehler oder einfach Ausreißer sein. Damit trotzdem
eine Klassifikation moglich ist, werden falsche Klassifikationen erlaubt, jedoch
deren Fehler jeweils mit einem Wert (ζi, Abstand zur Trennebene) ”bestraft“.
Dessen Summe wird mit einem Wert C, der frei wahlbar ist, multipliziert und
dem Optimierungsproblem hinzugefugt wird. Je großer der Wert fur C gewahlt
wird, umso mehr werden die Ausreißer berucksichtigt und deren Fehler mi-
nimiert. Die Maximierung des Abstandes bei der Optimierung findet dabei
weniger Berucksichtigung (s. Abb. 14). Damit nimmt mit steigendem C die
Generalisierungsfahigkeit des Modells ab.x1
x2
Kündiger
Nicht Kündiger
max
Merkmal 1
Merk
mal 2
x1
x2
Merkmal 1
Merk
mal 2
i
x1
x2
Merkmal 1
Merk
mal 2
i
kleiner Wert für C großer Wert für C
Abbildung 14: Einfluß des Parameters C bei Ermittlung einer SVM-Losung.∑n
i=1ζi ·C: Je hoher C gewahlt wird, desto starker werden die Abstande der Fehlklassifika-
tionen berucksichtig, d.h. bei der berechneten Hyperebene werden diese Abstande kleiner.
3.4.8 Ensemble-Methoden
Folgende Idee steckt hinter sogenannten Ensemble-Methoden: man erzeugt meh-
rere Modelle und lasst diese abstimmen. Es existieren drei grundsatzliche Ur-
sachen, warum Ensemble-Methoden in der Praxis sehr gute Modelle liefern:
Der erste Grund ist statistischer Natur. Ein Lernalgorithmus kann als Su-
chen in einem Hypothesenraum H nach der besten Hypothese betrachtet
werden. Hat man relativ wenig Trainingsdaten im Vergleich zur Große
des Hypothesenraumes, entsteht ein statistisches Problem. Man kann vie-
le verschiedene Hypothesen mit der gleiche Vorhersagegute finden. Bildet
man ein Ensemble aus all diese Modellen und mittelt deren Vorhersagen,
3.4 KLASSIFIZIERUNGSMETHODEN 23
reduziert man das Risiko, die falsche bzw. eine schlechte Hypothese zu
wahlen.
In dieser Arbeit fallt dieser Grund nicht ins Gewicht, da hier ausreichend
Daten zur Verfugung stehen.
Der zweite Grund ist rechenspezifischer Natur. Viele Algorithmen durch-
suchen nicht den vollstandigen Hypothesenraum, sondern suchen nur an
einigen Stellen mit bestimmten Hyperradien. Dadurch laufen sie Gefahr,
lokale Optima als Modell zu liefern. Neuronale Netze beispielsweise nutzen
wahrend des Trainings ein Gradientenabstiegsverfahren bei der Minimie-
rung der Fehlerfunktion mit dem Risiko, in einem lokalen Optimum zu
landen. Bei dieser Suche starten sie an einem zufalligen Punkt (zufallige
Initialisierung der Gewichte).
Der dritte Grund ist konzeptioneller Natur. Die wahre Funktion/Hypo-
these des Problems ist gar nicht durch den gewahlten Algorithmus auf-
findbar, d.h. sie ist gar nicht in dem Hypothesenraum, der durchsucht
wird, vorhanden. Durch die gewichtete Summe mehrerer gefundener Hy-
pothesen kann der Raum, der durch die einzelnen Hypothesen durchsucht
wird, erweitert werden. Wie in Abschnitt 3.4.6 erwahnt, kann ein Mul-
tilayerperceptron mit zwei verdeckten Schichten jede Hypothese finden.
Der Hypothesenraum ist also unbegrenzt. In der Praxis ist dieser aber
durch die Trainingsmenge begrenzt.
Die drei Grunde sind in Abbildung 15 nochmals visualisiert.
h1
h2
h3
h4
fh1
h2
h3
f
h1
h2
h3
f
a) b) c)
Abbildung 15: Darstellung der drei grundsatzlichen Ursachen fur die Verbesserung von Modellen durch
Ensemble-Methoden, H ist der Hypothesenraum, f stellt die wahre Hypothese dar, hx sind
die gefundenen Hypothesen:
a) statistisch (zu wenig Trainingsdaten)
b) rechenspezifisch (lokale Optima)
c) konzeptionell (wahre Losung nicht im Methoden-Losungsraum)
Vgl. [8]
Vier Beispiele fur Ensemble-Methoden, von denen zwei in dieser Arbeit ver-
wendet werden, sind Bagging, Boosting, Stacking und die Random Forests.
3.5 GUTEMASSE 24
Bagging: Bagging ist ein Akronym fur Bootstrap Aggregation. Bootstrapping
ist eine Methode, Stichproben mit Zurucklegen zu ziehen. Beim Bagging
werden nun per Bootstrapping n Modelle trainiert und dann durch Mehr-
heitsentscheidung die jeweilige Klasse vorrausgesagt. Eine Analogie ware
in der Diagnostik die Befragung mehrerer Arzte, die alle unterschiedliche
Ausbildungen und Erfahrungen gemacht haben.
Boosting: Die Vorgehensweise ist ahnlich dem Bagging, nur dass hier nach je-
der Bildung eines Modells die Vorhersagegute auf den Testdaten ermittelt
wird und die Daten, die falsch vorhergesagt wurden, beim Trainieren des
nachsten Modells hoher gewichtet werden. Die Modelle werden also ite-
rativ gebildet, wahrend bei Bagging die Modelle parallel erstellt werden
konnen. [14]
Stacking: Hierbei werden n− 1 Modelle parallel erstellt und deren Prognosen
bilden n− 1 neue Attribute, die dann das n-te Modell fur seine Prognose
nutzen kann. Hier ist es moglich, Modelle unterschiedlicher Verfahren zu
nutzen, was den durchsuchbaren Hypothesenraum erweitert.
Random Forest: Dies ist eine spezielle Art des Baggings mit unbeschnitte-
nen Entscheidungsbaumen. Zusatzlich zu dem parallelen Erstellen von n
Modellen wird bei der Bildung jedes einzelnen Entscheidungsbaums nur
ein sehr kleiner Teil der Attribute verwendet. Bei M gesamten Attributen
werden in der Praxis meist lg(M) + 1 oder√M Attribute zufallig fur
jeden Baum ausgewahlt.
3.5 Gutemaße
Um die Gute eines Modells oderpositiv negativ
positiv TP FPnegativ FN TN
Wahre Klasse
Vorhergesagte Klasse
Tabelle 2: Konfusionsmatrix
seines zugrunde liegenden Verfahrens
zu quantifizieren, bedarf es eines ge-
eigneten Gutemaßes. Die Auswahl die-
ses Gutemaßes ist durch das Ziel, wel-
ches die Klassifikation erfullen soll, geleitet. Sollen moglichst viele Falle einer
Klasse erkannt werden oder sollen so wenig falsche Klassifizierungen einer Klasse
wie moglich entstehen? Ausschlaggebend sind also zum einen der Nutzen einer
richtigen Klassifizierung und zum anderen die jeweiligen Kosten der Fehlklas-
sifikation. Kosten und Nutzen konnen dabei verschiedener Art sein (Umsatz,
Gesundheit, Wahlerstimmen etc.).
Das Ergebnis einer binaren Klassifikation laßt sich als Konfusionsmatrix
oder Kontingenztabelle darstellen, in der die absoluten (oder relativen) Anzah-
len der vier moglichen Klassifikationen eingetragen werden (s. Tab. 3).
Viele Gutemaße lassen sich aus diesen vier Werten berechnen.
3.5 GUTEMASSE 25
TP True positives, richtig als positiv klassifizierte Falle
TN True negatives, richtig als negativ klassifizierte Falle
FP False positives, falschlicherweise als positiv klassifizierte Falle
FN False negatives, falschlicherweise als negativ klassifizierte Falle
Tabelle 3: Klassifikationsfalle bei binaren Klassifikationen
Sensitivitat se:14 Anteil der als positiv erkannten Falle von allen wirklich
positiven Fallen:
se =TP
TP + FN(8)
Oder durch bedingte Wahrscheinlichkeiten ausgedruckt:
se = P (positive Klassifikation|positiv) (9)
se =P (positive Klassifikation und positiv)
P (positiv)(10)
Spezifitat sp: Anteil der als negativ erkannten Falle von allen wirklich nega-
tiven Fallen:
sp =TN
TN + FP(11)
Durch bedingte Wahrscheinlichkeiten:
sp = P (negative Klassifikation|negativ) (12)
sp =P (negative Klassifikation und negativ)
P (negativ)(13)
Positiver Vorhersagewert ppv:15 Anteil der richtig als positiv erkannten Falle
unter allen als positiv erkannten Fallen:
ppv =TP
TP + FP(14)
Negativer Vorhersagewert npv: Anteil der richtig als negative erkannten
Falle unter allen als negativ erkannten Fallen:
npv =TN
TN + FN(15)
Diese vier Gutemaße haben alleinstehend kaum Aussagekraft. So hat etwa
eine Klassifikation, die alle Falle als positiv einordnet, eine ideale Spezifitat von
1, obwohl sie trivial ist. Gleiches gilt entsprechend fur die anderen drei Maße.
Diese vier Werte sind dafur Bestandteil kombinierter Gutemaße, wobei komple-
mentare Maße wie Sensitivitat mit Spezifitat oder Sensitivitat mit positivem
Vorhersagewert verknupft werden.14Auch Recall (r) oder true positive rate (TPR) genannt.15Auch Prazision (p) genannt.
3.5 GUTEMASSE 26
Youden-Index γ: Er berechnet sich aus der Sensitivitat und Spezifitat und
nimmt Werte zwischen −1 und 1 an. Ein Test gilt als vernunftig, wenn
der Youden-Index großer als Null ist. Er gibt die Verbesserung gegenuber
einer zufalligen Klassifizierung an. In einer ROC-Analyse ist er maximal
am idealen Cutpoint, d.h. an dem Punkt, an dem der Abstand der ROC-
Kurve zur ersten Winkelhalbierenden maximal ist.
γ = se− (1− sp) (16)
γ = se+ sp− 1 (17)
Fα-Maß: Dieses Maß ist das (gewichtete) harmonische Mittel aus Sensitivitat
und positivem Vorhersagewert. Angenommen se wird mit α gewichtet und
ppv mit 1, dann ist das gewichtete F-Maß:
Fα =1
1α+1
(αse + 1
ppv
) (18)
=(α+ 1)se · ppvse+ α · ppv
(19)
In der Praxis wird im Data Mining fast ausschließlich das ungewichtete
(α = 1) F1-Maß (oder F-Maß) verwendet:
F1 =2se · ppvse+ ppv
(20)
Weitere ubliche Gewichte sind α = 0, 5 und α = 2, die jeweils die Sensiti-
vitat oder den positiven Vorhersagewert doppelt gewichten.
Separationsindex psep: Dieses Metamaß kann man aus positivem und nega-
tivem Vorhersagewert bilden. Es gibt an, wie gut die Klassen separiert
werden.
psep = ppv + npv − 1 (21)
AUC: Die AUC ist der Flacheninhalt unter der ROC-Kurve (area under cur-
ve). Die ROC-Kurve ist die receiver operating characteristic-Kurve.
Die AUC ist in dieser Arbeit das Maß, welches fur die Bewertung der Gute
der Verfahren verwendet wird. Die ROC-Kurve ergibt sich, indem in einem kar-
tesischen Koordiantensystem alle moglichen Kombinationen von Spezifitat und
Sensitivitat abgetragen werden. Auf der Ordinate wird dabei se, auf der Ab-
szisse 1−sp abgetragen. Der Punkt (0, 0) gehort zu einer Sensitivitat von 0 und
einer Spezifitat von 1 – hier werden also samtliche Falle der negativen Klasse
zugeordnet. Im Punkt (0, 1) betragen beide Werte 1. Daraus folgt: Sensitivitat
und Spezifitat sind 1, d.h. ein Klassifikator trennt beide Klassen perfekt ohne
Fehler. Oben rechts im Koordinatensystem, im Punkt (1, 1), ist die Spezifitat 1
3.5 GUTEMASSE 27
und die Sensitivitat 0, das bedeutet der Klassifikator erkennt samtliche Falle
als positiv.
Ein Klassifikator, der rein nach der Klassenzugehorigkeitswahrscheinlichkeit
trennt, erscheint im ROC-Graphen auf der Diagonalen zwischen (0, 0) und (1, 1)
– er hat also keinen Vorhersagewert. Ein Klassifikator, der Informationen aus
den Daten extrahieren soll, muss also im Raum uber dieser ersten Winkelhal-
bierenden liegen. Damit sollte auch die Flache unter seiner ROC-Kurve großer
als 0,5 sein, um besser als reines Raten zu sein.
Die ROC-Kurve erhalt man nun, indem fur einen Klassifikator jede Kombi-
nation von Sensitivitat und Spezifitat abgetragen wird und diese Punkte ver-
bunden werden.
Liefert ein Klassifikator die Wahrscheinlichkeit einer Klassenzugehorigkeit,
werden Sensitivitat und Spezifitat des Modells fur jeden Schwellenwert zwischen
0 und 1 ermittelt und in dem ROC-Graph abgetragen. Falls ein Klassifikator
keine Wahrscheinlichkeiten liefert, kann nur ein Punkt im ROC-Raum abgetra-
gen werden. Manchmal konnen die Wahrscheinlichkeiten aber abgeleitet werden.
Ein Beispiel hierfur ist der Entscheidungsbaum. Er liefert als Prognose nur die
Klassenzugehorigkeit. Die Wahrscheinlichkeiten konnen aber durch die Vertei-
lungen in den Blattern dargestellt werden. Sind in einem Blatt 60% der Falle
positiv, prognostiziert das Verfahren bei einem Datensatz, der in diesem Blatt
landet, die positive Klasse. Die Wahrscheinlichkeit betragt somit 0,6, dass es
sich um einen positiven Fall handelt.
Liegt die ROC-Kurve eines Klassifikators nun uber der eines anderen, kann
man diesen als besser bezeichnen. Uberschneiden sich aber die beiden Kurven,
ist die Rangfolge schwieriger zu bestimmen. Ein Weg, diese Klassifikatoren zu
vergleichen, ist der AUC-Wert, also die Flache unter der ROC-Kurve.
Diese Flache hat eine wichtige statistische Eigenschaft. Sie entspricht der
Wahrscheinlichkeit, dass der Klassifikator einen zufallig gezogenen positiven
Fall eher der positiven Klasse zuordnet, als einen zufallig gezogenen negativen
Fall. Das ist gleichbedeutend mit dem Wilcoxon-Rangsummentest oder dem
Mann-Whitney-U-Test. Außerdem entspricht die doppelte Flache zwischen der
Diagonalen und der ROC-Kurve dem Gini-Index:
Gini = 2(AUC − 0, 5) (22)
Gini+ 1 = 2AUC (23)
Der optimale Schwellenwert fur die Wahrscheinlichkeit ist der, welcher den
Punkt, der von der Diagonalen am weitesten entfernt ist, liefert. Dieser Abstand
entspricht dem Youden-Index (s.o.).
Ein großer Vorteil von ROC-Kurven ist deren Unempfindlichkeit gegenuber
ungleichen Klassenverteilungen, wie sie in dieser Arbeit vorliegen
(s. Abschn 4.1.1).[12]
3.5 GUTEMASSE 28
Beispiel: Ein naıver Bayes-Klassifikator klassifiziert zehn Testdaten wie in Ta-
belle 4 angegeben.
Fall Klasse Hypothese P(positiv)
1 + + 0,99999
2 + + 0,99999
3 + + 0,99993
4 + + 0,99986
5 + + 0,99964
6 + + 0,99955
7 - + 0,68139
8 - + 0,50961
9 - - 0,48880
10 - - 0,44951
Tabelle 4: Beispiel ROC-Analyse, Hypothesen eines naıven Bayes-Klassifikators
Offensichtlich trennt dieser Klassifikator nicht optimal; die Trefferrate ist
80%. Wenn man aber den ROC-Graphen erstellt, sieht man, dass man mit
diesem Modell einen perfekten Klassifikator erstellen kann (s. Abb. 16). Die
Ursache ist, dass der Klassifikator bei einem Schwellenwert von 0,5 zwischen
den Klassen trennt und dabei zwei Falle falsch klassifiziert. Andert man diesen
Schwellenwert aber auf 0,7, so trennt das Modell perfekt.
0 6
0,8
1,0
e Ra
tetä
t)
Schwellenwert 0,5
Schwellenwert 0,6
0,2
0,4
0,6
Tru
e po
sitiv
e(S
ensit
ivi
Schwellenwert 0,7
0,0
,
0,0 0,2 0,4 0,6 0,8 1,0False positive rate
(1 Spezifität)(1-Spezifität)
Abbildung 16: Beispiel ROC-Analyse
Ein Beispiel fur drei ROC-Kurven aus dieser Arbeit ist in folgender Abbil-
dung 17 dargestellt.
3.5 GUTEMASSE 29
Abbildung 17: Beispiel drei unterschiedlicher ROC-Graphen
3.6 SOFTWARE-EVALUATION 30
3.6 Software-Evaluation
Vor Beginn der Experimente wurden diverse Open-Source-Software evaluiert.
In die engere Wahl kamen folgende drei:
R: Dies ist das kostenlose Opensource-Pendant zum kommerziellen Statistik-
paket S-Plus, im Weiteren kurz S genannt. Es wurde 1995 unter der Ge-
neral Public License veroffentlicht. R hat eine rasante Entwicklung ge-
nommen, da es weitgehend kompatibel zu S, frei von Lizenzbarrieren und
durch Pakete beliebig erweiterbar ist.
”. . . eine breite Gemeinde von Wissenschaftlern, Studenten
und Firmenanalytikern ist sich einig, dass R heute in der Statis-
tik eine ahnliche Rolle spielt, wie fruher einmal so kostspielige
Anwendungen wie SPSS und SAS.“[24]
Aufgrund der weitgehenden Kompatibilitat von R zu S, hat S mittlerweile
fast vollstandig an Bedeutung verloren.[24]
Die Anzahl der frei verfugbaren Pakete ist exponentiell gewachsen
(s. Abb. 18) und lag am 12. September 2009 bei 1.968.[1]
Abbildung 18: Entwicklung der Anzahl der Pakete fur R[24]
Es werden alle moglichen Gebiete, die mit Zahlen zu tun haben, abgedeckt
(Statistik, Bildbearbeitung, Akustik, Simulationen). Fur die verschiede-
nen Data-Mining-Aufgaben (Variablenselektion, Parameteroptimierung,
Methoden) stehen unterschiedliche Pakete zur Verfugung. Das Paket klass
enthalt z.B. die k-Nearest-Neighbour-Methode, das Paket e1071 bein-
haltet Funktionen zu Support Vector Machines und der Naıve-Bayes-
Klassifikation, aber auch Routinen zur Parameteroptimierung. Im Paket
klaR ist eine verbesserte Implementierung der Naıve-Bayes-Klassifikation
enthalten, aber auch Methoden fur die schrittweise Variablenselektion und
3.6 SOFTWARE-EVALUATION 31
Funktionen fur die Berechnung unterschiedlicher Gutemaße fur Klassifi-
kationen.[17]
Ein Beispiel fur eine Klassifizierung mit einer SVM in R ist in Abbil-
dung 19 zu sehen.
Abbildung 19: Klassifizierung mit einer SVM mit der Software R
Fur R gibt es auch ein Paket (RWeka), das samtliche Methoden des
WEKA-Projektes zuganglich macht. WEKA ist eine Sammlung von Al-
gorithmen maschinellen Lernens, welche ebenfalls quelloffen ist und fur
die ein GUI existiert. Da samtliche Methoden dieses Projektes in den
drei hier evaluierten Produkten zusatzlich zur Verfugung stehen, wurde
WEKA selbst nicht evaluiert.
KNIME: Der Konstanz Information Miner entstand an der Universitat Kon-
stanz und ist eine in Java programmierte Software speziell fur das Data
Mining. Es wurde 2006 zum ersten Mal auf der CeBIT vorgestellt.[11]
Sein Vorteil gegenuber R ist die grafische Oberflache und die Moglichkeit,
komplexe Workflows grafisch zusammenzustellen. Durch Plugins ist auch
diese Software beliebig erweiterbar, insbesondere die bestehende Integra-
tion von R erweitert diese Software um samtliche Moglichkeiten, die R bie-
tet. Wie oben bereits erwahnt, sind hier ebenfalls alle WEKA-Methoden
integriert. Ein Beispiel fur eine Klassifizierung mit einem Multilayerper-
ceptron in KNIME ist in Abbildung 20 dargestellt.
Rapid Miner: Der Rapid Miner entstand 2001 unter dem Namen YALE (”Yet
Another Learning Environment“) an der TU Dortmund.[20] Es han-
delt sich ebenfalls um eine integrierte Entwicklungsumgebung fur Da-
ta Mining-Prozesse mit grafischer Oberflache. Hier werden die Prozesse
nicht als Graph, sondern in einer Baumstruktur mit geschichtetem Da-
tenfluss dargestellt. Das macht die Prozesse weniger ubersichtlich als die
Graphenstruktur, weswegen die Entwickler fur die nachste Version (Ver-
sion 5) ebenfalls diese Darstellung zur Verfugung stellen werden. In dem
Blog der Entwickler gibt einer der Programmierer ein Beispiel dafur, wie
3.6 SOFTWARE-EVALUATION 32
Abbildung 20: Klassifizierung mit einem MLP mit der Software KNIME
Abbildung 21: Beispiel einer Lernkurvenermittlung im Rapid Miner
die Graphenstruktur einen scheinbar linearen Prozesses klarer und eben
teilweise als parallel darstellt. In der Entwicklungsversion sind beide Dar-
stellungsarten integriert und in dem Blog als Screenshots verglichen.[19]
”Clear design, explicit flows, same effort. Looks to me that the
new flow design will turn out to become the winner of the chal-
lenge ,flow vs. tree‘.“
Die Darstellung von Data Mining-Workflows ist im ubrigen auch Standard
in den fuhrenden kommerziellen Produkten (SPSS Clementine, SAS Enterprise-
Miner, etc.).
Die Wahl fur die Data Mining-Experimente dieser Arbeit fiel auf die Soft-
ware Rapid Miner. KNIME ist zwar am intuitivsten zu bedienen, es fehlen aber
Methoden zur Variablenselektion oder Lernkurvenermittlung. Auch bei der Va-
riablenmanipulation bietet die Software weniger Moglichkeiten als der Rapid
3.6 SOFTWARE-EVALUATION 33
Miner und nicht zuletzt sind nativ am wenigsten Data Mining-Methoden vor-
handen. Selbst bei den WEKA-Methoden fehlen einige, andere funktionieren
nicht, wie beispielsweise die libsvm-Implementierung16. Ein weiterer gravieren-
der Nachteil ist, dass die Software beim Speichern die Parameter der WEKA-
Nodes nicht mit abspeichert.
R bietet von sich aus weniger Methoden als z.B. WEKA. So ist beispiels-
weise bei den Entscheidungsbaumen durch das rpart-Paket nur der CART-
Algorithmus implementiert, nicht aber der ID3, bzw. dessen Weiterentwicklung
C4.5. Pakete fur Entscheidungstabellen oder Stacking konnten nicht gefunden
werden. Alle diese Methoden konnen aber, wie erwahnt, uber das RWeka-Paket
angesprochen werden. Bei der Geschwindigkeit wurden zwei der zeitaufwendigs-
ten Methoden getestet: ein Random Forest mit 1.000 Baumen und eine SVM
mit RBF-Kernel.
100
RandomForest1000 Trees, 2 Features, gini-index 1000,0
C‐SVM; gamma=0.1; C=100
70
80
90
R
100,0
50
60
70
ningszeit [s]
KNIME (R, randomForest)
KNIME (Weka)
RM
RM (Weka)
10,0
rain
ings
zeit
[s]
20
30
40Trai
1,0
T
R (e1071)
KNIME
RM (libsvm)
0
10
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000
0,10 5.000 10.000 15.000 20.000 25.000 30.000
Anzahl Samples Anzahl Samples
Abbildung 22: Geschwindigkeitsvergleiche Data-Mining-Software
KNIME war mit großem Abstand am langsamsten – sogar bei den WEKA-
Methoden oder der direkten Nutzung von R innerhalb von KNIME war das
deutlich langsamer als R selbst (s. Abb. 22).
Bei dem Vergleich von R und dem Rapid Miner konnten bei der SVM kei-
ne Unterschiede festgestellt werden. Beide Implementierungen sind die glei-
chen17. Beim Random Forest schließlich war R halb so schnell wie der Ra-
pid Miner, obwohl die verwendete Community-Version des Rapid Miners auf
einen Prozessor-Kern beschrankt ist. R und KNIME standen acht Kerne zur
Verfugung18. Gerade beim Random Forest hatte das zu signifikanten Unter-
schieden fuhren mussen, da dieses Verfahren massiv parallelisierbar ist. R ist16Die JVM konnte den Pfad zu den Java-Klassen nicht finden. Jegliche Manipulation der
Umgebungsvariablen CLASSPATH waren nicht erfolgreich. In diversen Internetforen kann
man Berichte uber dieses Problem finden, aber keine Losung.17libsvm18Intel Core i7-920, also vier echte und vier virtuelle Kerne (Hyperthreading) a 2,66 GHz.
3.6 SOFTWARE-EVALUATION 34
eine universelle Software fur eine anscheinend unbegrenzte Art von Aufgaben,
erfordert aber einen verhaltnismaßig großen Einarbeitungsaufwand. Es besitzt
von sich auch keine grafische Oberflache, sein Schwerpunkt liegt bei statisti-
schen Aufgaben. Das Suchen nach Data Mining-Methoden ist aufwendig – sie
mussen erst im Paket-Repository gefunden und einzeln installiert werden.
Zu diesem Thema interessant, aber keinesfalls einflussnehmend auf die Soft-
wareauswahl, sind Umfragen wie z.B. die von Knowledge Discovery Nuggets.
Seit 2000 werden jedes Jahr Unternehmen nach der eingesetzten Data-Mining-
Software befragt, dabei sind Mehrfachnennungen moglich. Abbildung 23 zeigt
diese Ergebnisse seit 2005. Da die kommerziellen Produkte keine einheitlichen
Kosten verursachen, kann man aus ihrem Ranking nicht direkt auf deren Leis-
tungsfahigkeit schließen. Bei den kostenlosen Losungen ist diese schon eher
moglich, da aber nichts uber die Art, Große und die Verteilung der befrag-
ten Unternehmen bekannt ist und damit auch nichts uber die Einsatzgebiete
der Software, darf deren Ranking keinesfalls Grundlage fur eine Softwareaus-
wahl sein. So arbeitet beispielsweise See519 nur mit Entscheidungsbaumen und
Wenn-Dann-Regeln. Damit ist es offensichtlich nicht fur einen Vergleich unter-
schiedlicher Data Mining-Verfahren geeignet.
19Die Windows-Implementation heißt See5, die fur Linux C5.0.
3.6
SO
FT
WA
RE
-EVA
LU
AT
ION
35
100
120 18% Rapid MinerRWekaKNIME
60
80
14%
16% Andere freie SoftwareOrangeC4.5/C5.0/See5SPSS ClementineSASExcel
20
40
10%
12%
SAS Enterprise MinerIBM I-minerZementisGhostMinerEqubitsSQL-ServerKXEN
0
S C
lem
enti
neR
apid
Min
erSA
SE
xcel
erpr
ise
Min
er RE
igen
er C
ode
Wek
aK
XE
NM
AT
LAB
elle
Sof
twar
eK
NIM
Ere
ie S
oftw
are
SQL-
Serv
erZe
men
tis
Dat
a M
inin
gSt
atis
tica
Tre
eNet
/RF
Ora
nge
Ang
oss
5/C
5.0/
See5
fere
nce
for
Rin
er (
S-P
lus)
Meg
aput
erV
isco
very
Bay
esia
hink
Ana
lyti
csX
elop
esri
o A
naly
tics
SPSS
Min
eset
Gor
nik
IBM
I-m
iner
Equ
bits
Gho
stM
iner
Vis
umap
Tib
eriu
sM
odel
Bui
lder
8%
10% KXENEigener CodeMATLABAndere kommerzielle SoftwareOracle Data MiningStatisticaSalford CART/MARS/TreeNet/RF
SPSS
SAS
Ent
e E
And
ere
kom
mer
zie
And
ere
fr
Ora
cle
D
Salfo
rd C
AR
T/M
AR
S/ C4. In
Insi
ghtf
ul M T
h
Cla
Fair
Isaa
c M
4%
6%
Salford CART/MARS/TreeNet/RFAngossInference for RInsightful Miner (S-Plus)MegaputerViscoveryBayesia
2%
4% BayesiaThinkAnalyticsXelopesClario AnalyticsSPSSMinesetGornik
0%2005 2006 2007 2008 2009
VisumapTiberiusFairIsaac Model Builder
Abbildung 23: Umfrageergebnisse von KDnuggets.com zur eingesetzten Data Mining-Software in Unternehmen.
links: Absolute Anzahl der Unternehmen 2009, die die jeweilige Softwarelosung einsetzen (kostenlose Software grun).
rechts: Relativer Anteil der Software-Losungen im Verlauf von 2005 – 2009 (kostenlose Software fett).
Daten von [13].
4 VERSUCHSTEIL 36
4 Versuchsteil
4.1 Datenbasis
4.1.1 Datenerhebung
Fur diese empirische Studie hat die Techniker Krankenkasse (TK)20 eine Stich-
probe von Mitgliedern im Alter bis 45 Jahren zur Verfugung gestellt, die – zum
Teil aus Datenschutzgrunden – folgende Kriterien erfullt:
Die anonymisierten Daten sind in Gruppen von mindestens funf Mitglie-
dern zusammengefasst.
Am 1. Januar 2006 bestand eine nicht gekundigte TK-Mitgliedschaft.
Die Kundigungsquote ist auf 50% angereichert.
Mannliche und weibliche Mitglieder sind je zur Halfte vertreten.
Der Stichtag zur Ermittlung des Wertes der abhangigen, also zu prognosti-
zierenden, Variablen (Kundigung Ja/Nein) war der 1. Januar 2009. Es wurde
also ermittelt, wer ab dem 1. Januar 2006 innerhalb der nachsten drei Jahre
kundigt (Kundigung Ja) oder zum 1. Januar 2009 weiterhin TK-Mitglied war
(Kundigung Nein).
Um die letzten beiden Anforderungen zu erfullen, wurde folgendes Optimie-
rungsproblem gelost:
a ·MK + b ·WB + c ·MB + d ·WK = V → max (24)
Nebenbedingungen:
a·MK(d·WK+b·WB)d·WK(a·MK+c·MB ) = MK(WK+WB)
WK(MK+MB) konstantes Kundigungs-
quotenverhaltnis
MK+WKV = 0, 5 Kundigungsverhaltnis
von 50%
MK+MBV = 0, 5 Geschlechterverhaltnis
50%
0 ≤ a, b, c, d ≤ 1 Faktoren zwischen 0
und 1Mit den errechneten Gewichten wurden die entsprechenden Datensatze per
Zufallsgenerator ausgesiebt und fur diese Arbeit zur Verfugung gestellt. Es han-
delt sich insgesamt um 202.769 Mitglieder.20Mit ihren aktuell 7,3 Millionen Versicherten ist sie die großte Krankenkasse
Deutschlands.[18]
4.2 VERSUCHSAUFBAU 37
4.1.2 Datenstruktur
Es konnten schließlich neun Variablen verwendet werden (s. Tab. 5).
Variable Typ
Altersgruppe 1–3 numerisch
Berufsgruppe 4 Gruppen nominell
Bildungsniveau 4 Gruppen nominell
Mitgliedschaftsdauer in Monaten 9, 27, 48, 90, 240 numerisch
Anzahl mitversicherte Familienmitglieder 0–3 (3 bedeutet ≥ 3) numerisch
Geschlecht 2 Gruppen nominell
Personengruppe 5 Gruppen nominell
Bundesland 16 Gruppen nominell
Letzter Versicherungstrager 3 Gruppen nominell
Tabelle 5: Verwendete Variablen
4.2 Versuchsaufbau
4.2.1 Prognoseziel
In dieser Arbeit werden mit den ausgewahlten Methoden zwei Klassifikationen
durchgefuhrt.
Die Kundiger wechseln entweder
Bleiber50%
GKV30% PKV
20%
Kündiger50%
Bleiber50%
GKV30% PKV
20%
Kündiger50%
Abbildung 24: Kundigerstruktur
in die private Krankenversicherung
oder zu einer anderen gesetzlichen
Versicherung. Es werden also die bei-
den Klassifikationen GKV-Kundiger
(Wechsel zur GKV) Ja/Nein und PKV-
Kundiger (Wechsel zur PKV) Ja/Nein
durchgefuhrt.
4.2.2 Bestimmung der Trainingsmenge
Da hier fur eine Data Mining-Aufgabe vergleichsweise viele Daten zur Verfugung
standen, war es moglich, durch Lernkurven die optimale Trainingsmenge fur die
verwendeten Verfahren zu ermitteln. Dazu wurden 10% der Daten (20.277 Da-
tensatze) als Testpartition festgelegt und mit den restlichen Daten (182.492 Da-
tensatze) die Modelle trainiert. Dabei wurde die Trainingsmenge von 0,09% in
39 linearen Schritten zu 2,25 Prozentpunkten auf 87,84% (197.903 Datensatze)
erhoht (s. Abb. 25).
Diese Lernkurven wurden fur alle Methoden und beide Klassifikationen er-
mittelt. Gleichzeitig zur Klassifikationsgute AUC wurde auch die Trainingszeit
gemessen (s. Abb. 28 ff.).
4.2 VERSUCHSAUFBAU 38
Trainingsmenge 0,09% –90% (39 Schritte)
Testmenge 10%
Abbildung 25: Versuchsaufbau zur Lernkurvenermittlung
0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
Lernkurven zur Prognose der PKV-Kündiger.
0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
g
Links lineare, rechts logarithmische Trainigsmengenac
0,660
0,680
,RF
DT
MLP
0,660
0,680
,RF
DT
MLP
Trainigsmengenachse.
0,680 Logistic
Bo100 McDSt
0,640
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge
0,640
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge20.00020.000
0,620
0,640
0,660
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
DecisionTable
SVM_RBF
Lernkurven zur Prognose der GKV-Kündiger.
Links lineare
0,640
0,660
0,680 Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
0,540
0,560
0,580
0,600
AU
C
_
LinReg
AODE
AODEsr
RF
DT
MLP
Links lineare, rechts logarithmische Trainigsmengenachse.
0,560
0,580
0,600
0,620
AU
C
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
RF
DT
0,500
0,520
0,540
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge0,500
0,520
0,540
,
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MLP
20.000Stichprobengröße der Trainingsmenge0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge
Abbildung 26: Lernkurven zur PKV-Kundigung, lineare Mengenachse
4.2 VERSUCHSAUFBAU 39
0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
Lernkurven zur Prognose der PKV-Kündiger.
0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
g
Links lineare, rechts logarithmische Trainigsmengenac
0,660
0,680
,RF
DT
MLP
0,660
0,680
,RF
DT
MLP
Trainigsmengenachse.
0,680 Logistic
Bo100 McDSt
0,640
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge
0,640
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge20.00020.000
0,620
0,640
0,660
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
DecisionTable
SVM_RBF
Lernkurven zur Prognose der GKV-Kündiger.
Links lineare
0,640
0,660
0,680 Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
0,540
0,560
0,580
0,600
AU
C
_
LinReg
AODE
AODEsr
RF
DT
MLP
Links lineare, rechts logarithmische Trainigsmengenachse.
0,560
0,580
0,600
0,620
AU
C
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
RF
DT
0,500
0,520
0,540
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge0,500
0,520
0,540
,
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MLP
20.000Stichprobengröße der Trainingsmenge0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge
Abbildung 27: Lernkurven zur PKV-Kundigung, logarithmische Mengenachse
16 00040 Logistic
14.000
16.000
35
Bo100_McDSt
ADTree
FLM
NaiveBayes
10 000
12.000
25
30
MLP
[s]
BayesNetGen
DecisionTable
LinReg
AODE
8.000
10.000
20
M_
RB
F un
d M
aini
ngsd
auer
[s] AODEsr
RF
DT
kNN
4 000
6.000
10
15
auer
kN
N,
SVM
Tra SVM_RBF
MLP
2.000
4.000
5
10
Tra
inin
gsda
00
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge
Abbildung 28: Lernkurven zur PKV-Kundigung, Trainingsdauer
4.2 VERSUCHSAUFBAU 40
0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
Lernkurven zur Prognose der PKV-Kündiger.
0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
g
Links lineare, rechts logarithmische Trainigsmengenac
0,660
0,680
,RF
DT
MLP
0,660
0,680
,RF
DT
MLP
Trainigsmengenachse.
0,680 Logistic
Bo100 McDSt
0,640
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge
0,640
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge20.00020.000
0,620
0,640
0,660
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
DecisionTable
SVM_RBF
Lernkurven zur Prognose der GKV-Kündiger.
Links lineare
0,640
0,660
0,680 Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
0,540
0,560
0,580
0,600
AU
C
_
LinReg
AODE
AODEsr
RF
DT
MLP
Links lineare, rechts logarithmische Trainigsmengenachse.
0,560
0,580
0,600
0,620
AU
C
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
RF
DT
0,500
0,520
0,540
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge0,500
0,520
0,540
,
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MLP
20.000Stichprobengröße der Trainingsmenge0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge20.000Abbildung 29: Lernkurven zur GKV-Kundigung, lineare Mengenachse
0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes0,760
0,780Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
Lernkurven zur Prognose der PKV-Kündiger.
0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr0,700
0,720
0,740
AU
C
kNN
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
g
Links lineare, rechts logarithmische Trainigsmengenac
0,660
0,680
,RF
DT
MLP
0,660
0,680
,RF
DT
MLP
Trainigsmengenachse.
0,680 Logistic
Bo100 McDSt
0,640
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge
0,640
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge20.00020.000
0,620
0,640
0,660
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
DecisionTable
SVM_RBF
Lernkurven zur Prognose der GKV-Kündiger.
Links lineare
0,640
0,660
0,680 Logistic
Bo100_McDSt
ADTree
FLM
NaiveBayes
kNN
BayesNetGen
0,540
0,560
0,580
0,600
AU
C
_
LinReg
AODE
AODEsr
RF
DT
MLP
Links lineare, rechts logarithmische Trainigsmengenachse.
0,560
0,580
0,600
0,620
AU
C
BayesNetGen
DecisionTable
SVM_RBF
LinReg
AODE
AODEsr
RF
DT
0,500
0,520
0,540
100
1.00
0
10.0
00
100.
000
Stichprobengröße der Trainingsmenge0,500
0,520
0,540
,
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MLP
20.000Stichprobengröße der Trainingsmenge0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
Stichprobengröße der Trainingsmenge Abbildung 30: Lernkurven zur GKV-Kundigung, logarithmische Mengenachse
4.2 VERSUCHSAUFBAU 41
16.00040 Logistic
14.00035
Bo100_McDSt
ADTree
FLM
N i B
10.000
12.000
25
30
und
MLP
[s]
NaiveBayes
BayesNetGen
DecisionTable
LinReg
8.00020
N,
SVM
_RB
F
aini
ngsd
auer
[s]
AODE
AODEsr
RF
4 000
6.000
10
15T
rain
ings
zeit
kNTra DT
kNN
SVM_RBF
MLP
2.000
4.000
5
10 T MLP
00
0
10.0
00
20.0
00
30.0
00
40.0
00
50.0
00
60.0
00
70.0
00
80.0
00
90.0
00
100.
000
110.
000
120.
000
130.
000
140.
000
150.
000
160.
000
170.
000
180.
000
190.
000
200.
000
1 1 1 1 1 1 1 1 1 1 2
Stichprobengröße der Trainingsmenge
Abbildung 31: Lernkurven zur GKV-Kundigung, Trainingsdauer
4.2 VERSUCHSAUFBAU 42
Wie die Messwerte zeigen (s. Abb. 26, 27, 29, 30), reicht eine Trainings-
menge von 20.000 Datensatzen aus, um ausreichend nah an das Maximum der
Prognosegute fast aller Methoden zu gelangen. Mit dieser Menge wurden an-
schließend die Parameteroptimierungen durchgefuhrt – außer bei der Support
Vektor Maschine mit RBF-Kernel (libsvm-Implementierung). Bei dieser steigt
die Trainingszeit mit der Trainingsmenge uberproportional an, sodass dort nur
mit 10.000 Datensatzen und einer doppelten Kreuzvalidierung (also Trainings-
und Testdatensatzgroße von 5.000 Datensatzen) die Parameter in angemesse-
ner Zeit optimiert werden konnten. Wie in Abbildung 28 zu sehen, betragt die
Trainingszeit einer SVM mit RBF-Kernel z.B. bei ca. 100.000 Datensatzen hier
fast funf Stunden. Mit anderen Parameterwerten (steigendem C und sinkendem
γ) steigt diese sogar weiter an.
Der gesamte Versuchsaufbau besteht aus dem Bereich der Parameteropti-
mierung, bei dem per funffacher Kreuzvalidierung entsprechend pro Parameter-
kombination funf mal auf 20.000 Datensatzen trainiert und auf ca. 5.000 Da-
tensatzen die Performance ermittelt wird. Aus den ubrigen Daten wurden vier
Testpartitionen erstellt, auf denen die Modelle mit den ermittelten optimalen
Parametern entsprechend angewandt wurden. Der Aufbau ist in Abbildung 32
skizziert.
Trainingsmenge 0,9% –90% (39 Schritte)
Testmenge 10%
Parameter-optimierung
Performance-Messungen
A B C D
5× 5× 5× 5× 5×
≈ 20.000
≈ 25.000
≈ 35.600
≈ 44.500
Abbildung 32: Experimentaufbau
4.2.3 Auswahl der deskriptiven Variablen
Auf die sogenannte Featureselection wurde verzichtet, da diese bei nur neun
unabhangigen Variablen keine signifikante Verbesserung verspricht. Es wurden
diverse Versuche mit Vorwarts- und Ruckwartsselektion sowie der Bruteforce-
Methode mit einigen Verfahren durchgefuhrt, wobei maximal zwei Variablen
herausfielen, ohne dabei wirkliche Verbesserungen zu bewirken.
4.2.4 Grundaufbau
Mit der ermittelten Mindesttrainingsmenge von 20.000 Datensatzen (s. 4.2.2)
wurden die Parameter der verwendeten Verfahren optimiert. Da die Implemen-
tierung der evolutionaren Parameteroptimierung nicht mit nominellen Parame-
4.3 KUNDIGUNGEN ZUR PKV 43
tern funktioniert, wurde fast immer ein Gridsearch verwendet. Die Optimierung
wurde semiautomatisch iterativ durchgefuhrt. Wenn wahrend der Optimierung
Parameterbereiche auffielen, die nicht zu Verbesserungen fuhrten, wurden diese
manuell angepasst.
4.3 Kundigungen zur PKV
4.3.1 kNN – k nearest neighbours
4.3.1.1 Datenmodellierung Obwohl es sich bei diesem Verfahren um ein
geometrisches handelt, erlaubt die Implementierung auch nominelle Merkmale.
In samtlichen Vorversuchen ergab aber die Konvertierung nomineller Attribute
in binominelle (True/False) und anschließend in numerische (0, 1) die besten
Resultate.
4.3.1.2 Parameteroptimierung Bei dem kNN-Verfahren wurden drei Pa-
rameter verwendet:
k (numerisch): Anzahl der benachbarten Punkte, die betrachtet werden sol-
len. Geprufter Bereich: 1 ≤ k ≤ 10.001.
Abstands- oder Ahnlichkeitsmaß (nominell): Maß zur Berechnung des
Abstandes oder der Ahnlichkeit, verwendet wurden folgende Abstands-
maße:
Euclidean distance
Manhattan distance
Canberra distance
Chebyshev distance
Dynamic-time-warping distance
Folgende Ahnlichkeitsmaße wurde verwendet:
Correlation similarity
Cosine similarity
Dice similarity
Jaccard similarity
MaxProduct similarity
Inner product similarity
Overlap similarity
gewichtetet Abstimmung (nominell): Die Stimmen der einzelnen Nach-
barn werden entsprechend ihres Abstandes gewichtet, d.h. weiter entfernte
Nachbarn werden weniger gewichtet.
Werte: True/False.
4.3 KUNDIGUNGEN ZUR PKV 44
Aufgrund der nominellen Parameter konnte nur ein Gridsearch eingesetzt
werden. Die Berechnung der Dynamic-Time-Warping-Abstande wurden wegen
sehr hoher Berechnungszeiten21 und schlechter Performance abgebrochen. Die
Canberra-Ahnlichkeit ließ sich nur ungewichtet berechnen.
Bei fast allen Distanzen erzielte die gewichtete Berechnung hohere AUC-
Werte. Als Beispiel sind hier die Werte der euklidischen Distanz abgebildet
(s. Abb. 33). Daraufhin wurden nur noch die gewichteten Distanzen aller Ab-
stands- und Ahnlichkeitsmaße untersucht.
Euclidean distance
0 75
0,80
0 70
0,75
0,65
0,70
UC
0,60
0,65
A
AUC (gewichtete Distanz)
0,55
AUC (ungewichtete Distanz)
0,501 10 100 1.000 10.000
k
Abbildung 33: AUC-Werte beim kNN-Verfahren mit gewichteten und ungewichteten euklidischen Entfer-
nungen in Abhangigkeit der Anzahl der Nachbarn (PKV)
Das Ergebnis dieser Parameteroptimierung ist in Abbildung 34 zu sehen.
Der euklidische und der Manhattan-Abstand erzielten die besten Werte – der
entscheidende Bereich ist nochmals dataillierter in Abbildung 35 dargestellt.
Der Ubersichtlichkeit halber sind nur die Standardabweichungen der euklid-
schen und des Manhatten-Abstands abgebildet. Die so ermittelten optimalen
Parameter sind in Tabelle 6 dargestellt.
k: 200
Abstands- oder Ahnlichkeitsmaß: Manhattan distance
gewichtete Abstimmung: True
Tabelle 6: Ermittelte optimale Parameter fur die kNN-Methode (PKV)
4.3.1.3 Performance Das Ergebnis auf den Partitionen A–D ist in Abbil-
dung 36 zu sehen.21Ca. 45 Minuten fur eine Berechnung. Bei funffacher Kreuzvalidierung, gewichteten und
ungewichteten Distanzen sowie ca. 240 verschiedener Werte fur k hatte das eine reine Berech-
nungszeit von knapp achzig Tagen bedeutet.
4.3 KUNDIGUNGEN ZUR PKV 45
0,7500
0,8000
Distance Measures
Euclidean distance
Manhatten distance
0,6000
0,6500
0,7000
C
Chebychev distance
Correlation similarity
Dice similarity
Inner product
0 4000
0,4500
0,5000
0,5500A
UC Inner product
similarityJaccard similarity
Max product similarityOverlap similarity
0,3000
0,3500
0,4000
1 10 100 1000 10000
k
Dynamic timewarping distanceCanberra distance
k
0,7850
0,7900Distance Measures
Euclidean distance
Manhatten distance
0,7750
0,7800
AU
C
0,7650
0,7700
0,760030 80 130 180 230 280 330 380 430 480
k
Abbildung 34: Parameteroptimierung kNN – Gesamtdarstellung (PKV)
0,7500
0,8000
Distance Measures
Euclidean distance
Manhatten distance
0,6000
0,6500
0,7000
C
Chebychev distance
Correlation similarity
Dice similarity
Inner product
0 4000
0,4500
0,5000
0,5500
AU
C Inner product similarityJaccard similarity
Max product similarityOverlap similarity
0,3000
0,3500
0,4000
1 10 100 1000 10000
k
Dynamic timewarping distanceCanberra distance
k
0,7850
0,7900Distance Measures Euclidean distance
Manhatten distanceCorrelation similarityCorrelation similarity
0,7750
0,7800
AU
C
Dice similarityInner product similarityJaccard similarityOverlap similarity
0 7600
0,7650
0,7700
0,760030 80 130 180 230 280 330 380 430 480
k
Abbildung 35: Parameteroptimierung kNN – optimaler Bereich (PKV)
0 7850
0,7900
0,7800
0,7850
0,7700
0,7750
0,7600
0,7650
0,7500
0,7550
A B C DAUC 0,7739 0,7708 0,7687 0,7698
0,7500
Standardabweichung 0,0075 0,0038 0,0043 0,0046
Abbildung 36: Performance kNN
Um auszuschließen, dass bei diesem Verfahren der Parameter k von der Trai-
ningsmenge abhangig ist, wurde dieser Parameter noch einmal entsprechend
folgender Uberlegung variiert: bei der Parameteroptimierung wurde mit einer
Trainingsmenge von 20.000 Datensatzen gearbeitet – bei der Anwendung auf
den vier Testpartitionen aber mit ca. 35.600 Datensatzen. Wenn man in beiden
4.3 KUNDIGUNGEN ZUR PKV 46
Fallen mit der gleichen Anzahl von Nachbarn arbeitet, sind im zweiten Fall die
Volumina der Hyperraume (im euklidschem Fall der Hyperspharen) um den zu
klassifizierenden Punkt kleiner als im ersten Fall. Der Merkmalsraum wird nicht
erweitert, sondern seine Dichte nimmt zu. Zwar unterscheiden sich die Volumi-
na um die einzelnen Falle, da die Dichte ja nicht homogen ist, aber im Mittel
ist sie eben optimal fur k = 200 bei einer Dichte, die 20.000 Datensatze errei-
chen. Um sicherzustellen, dass nicht der Radius, sondern wirklich die Anzahl
der Nachbarn des zu klassifizierenden Punktes entscheidend ist, wird der Para-
meter k nochmals der erhohten Dichte entsprechend auf 356 (200 · 3560020000 = 356)
angehoben.
Wie das in Abbildung 37 dargestellte Ergebnis zeigt, ist der Parameter k
nicht in der angesprochenen Weise von der Trainingsmenge abhangig.
0,7900AUC optimiert
0,7800
0,7850p
AUC angepasst
0 7700
0,7750
0,7650
0,7700
0,7550
0,7600
0,7500A B C D
Abbildung 37: Performance kNN mit angepasstem k (PKV)
4.3.2 Entscheidungsbaum
4.3.2.1 Datenmodellierung Die Implementierung dieses Verfahrens er-
laubt nominelle und numerische Merkmale, alle Vorversuche ergaben aber die
besten Resultate mit nominellen Merkmalen. Entsprechend wurden die drei
numerischen Attribute in nominelle konvertiert. Diese Untersuchungen ergaben
auch deutliche Verschlechterungen bei binaren Splits (entsprechen dem CART-
Algorithmus), weswegen diese nicht verwendet wurden, womit das Verfahren
dem C4.5-Algorithmus entspricht.
4.3.2.2 Parameteroptimierung Bei dem Entscheidungsbaum wurde die
Weka-Implementierung J48 verwendet (eine Reimplementierung des C4.5-Algo-
rithmus, Version 8), da diese nicht auf binare Splits beschrankt ist und
M (numerisch): minimale Anzahl von Instanzen pro Blatt: 1 ≤ k ≤ 41.
U (boolsch): Unbeschnittener Baum: True/False.
A (boolsch): Ob die Laplace-Glattung verwendet werden soll: True/False.
4.3 KUNDIGUNGEN ZUR PKV 47
C (numerisch): Konfidenz-Grenzwert (Schwellenwert) bei Beschneidung:
0, 01 ≤ C ≤ 1.
R (boolsch): Ob bei Beschneidung diese reduziert durchgefuhrt werden soll:
True/False.
N (boolsch): Bei reduzierter Beschneidung, wieviele Pruningsets betrachtet
werden sollen: 2, 3, 4, 5, 6.
S (boolsch): Ob bei reduzierter Beschneidung keine Unterbaume gebildet wer-
den sollen: True/False.
Da hier einige Parameter nur in Abhangigkeit von anderen Parametern vari-
iert werden konnten (z.B. kann eine reduzierte Beschneidung nur durchgefuhrt
werden, wenn auch beschnitten wird), mussten hier verschiedene Gridsearches
separat durchgefuhrt werden. Einmal fur unbeschnittene Baume, fur beschnit-
tene und fur reduziert beschnittene Baume.
Die Ergebnisse sind in Abbildung 38 zu sehen. Danach ist der optimale
Baum unbeschnitten. Mit den ermittelten Parametern (s. Tab. 7) erreicht diese
Methode eine AUC zwischen 0, 65 und 0, 69 (s. Abb. 39).
M (minimale Blattgroße): 11
A (Laplaceglattung): True
Tabelle 7: Ermittelte optimale Parameter fur den Entscheidungsbaum (PKV)
Da aber gerade unbeschnittene Baume in der Regel uberangepaßt sind, wur-
de noch ein Versuch mit den optimalen Parametern des beschnittenen Baumes
durchgefuhrt (M = 11, A=True, C = 0, 51).
4.3.2.3 Performance Die Ergebnisse bestatigen diese Vermutung und sind
deutlich besser (s. Abb. 40 und 41).
4.3
KU
ND
IGU
NG
EN
ZU
RP
KV
48
0,76
0,78
0,80
0,62
0,64
0,66
0,68
0,70
0,72
0,74
AU
C
AUC ohne Laplace-Glättung
AUC (mit Laplace-Glättung)
unbeschnitten
0,65
0,70
0,75
0,80
0,65
0,70
0,75
0,80
0,65
0,70
0,75
0,80
0,601 6 11 16 21 26 31 36 41
Minimale Blattgröße
0 30
0,35
0,40
0,45
0,50
0,55
0,60
,
AU
C
0 30
0,35
0,40
0,45
0,50
0,55
0,60
,
AU
C
0 30
0,35
0,40
0,45
0,50
0,55
0,60
,
AU
C
beschnitten
0,300 10 20 30 40
minimale Blattgröße
0,300 0,2 0,4 0,6 0,8 1
Konfidenzgrenzwert für Beschneidung
0,300 1
Laplaceglättung
0,76
0,78
0,80
0,76
0,78
0,80
0,76
0,78
0,80
0,76
0,78
0,80
reduzierteBeschneidung
0 62
0,64
0,66
0,68
0,70
0,72
0,74
AU
C
0 62
0,64
0,66
0,68
0,70
0,72
0,74
AU
C
0,62
0,64
0,66
0,68
0,70
0,72
0,74
AU
C
0 62
0,64
0,66
0,68
0,70
0,72
0,74
AU
C
0,60
0,62
0 10 20 30 40
Minimale Blattgröße
0,60
0,62
2 3 4 5
Betrachtetet Pruningsets
0,60
0,62
0 1kein Wachsen von
Unterbäumen
0,60
0,62
0 1
Laplaceglättung
Abbildung 38: Parameteroptimierung fur Entscheidungsbaume (PKV)
4.3 KUNDIGUNGEN ZUR PKV 49
0,6900
0,7100
0,7300
0,7650
0,7700
0,7750
0,7800
0,6100
0,6300
0,6500
0,6700
0,7450
0,7500
0,7550
0,7600
,
A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055
0,5900A B C D
AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050
0,7400
0,7500
0,7700AUC pruned
0,6700
0,6900
0,7100
0,7300AUC optimiert
A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0 6503 0 6936 0 6523 0 6589
0,6300
0,6500
AUC optimiert 0,6503 0,6936 0,6523 0,6589
Abbildung 39: Performance Entscheidungsbaum unbeschnitten (PKV)
0,6900
0,7100
0,7300
0,7650
0,7700
0,7750
0,7800
0,6100
0,6300
0,6500
0,6700
0,7450
0,7500
0,7550
0,7600
,
A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055
0,5900A B C D
AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050
0,7400
0,7500
0,7700AUC pruned
0,6700
0,6900
0,7100
0,7300AUC optimiert
A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0 6503 0 6936 0 6523 0 6589
0,6300
0,6500
AUC optimiert 0,6503 0,6936 0,6523 0,6589
Abbildung 40: Performance Entscheidungsbaum beschnitten (PKV)
0,6900
0,7100
0,7300
0,7650
0,7700
0,7750
0,7800
0,6100
0,6300
0,6500
0,6700
0,7450
0,7500
0,7550
0,7600
,
A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055
0,5900A B C D
AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050
0,7400
0,7300
0,7500
0,7700AUC pruned
AUC ti i t
0,6500
0,6700
0,6900
0,7100optimiert
A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0,6503 0,6936 0,6523 0,6589
0,6300
Abbildung 41: Performancevergleich beschnittener und unbeschnittener Entscheidungsbaum (PKV)
4.3.3 Lineare Regression
Bei dieser Methode wurde keine Parameteroptimierung durchgefuhrt. Das Er-
gebnis auf den vier Testpartitionen ist in Abbildung 42 dargestellt.
4.3 KUNDIGUNGEN ZUR PKV 50
0,7800
0 7700
0,7750
0,7650
0,7700
0,7600
A B C D0,7500
0,7550
A B C DAUC 0,7647 0,7629 0,7606 0,7647Standardabweichung 0 0042 0 0083 0 0051 0 0056Standardabweichung 0,0042 0,0083 0,0051 0,0056
Abbildung 42: Performance lineare Regression (PKV)
4.3.4 Logistische Regression
Auch bei dieser Methode entfallt die Optimierung der Parameter. Das Ergebnis
auf den vier Testpartitionen ist in Abbildung 43 dargestellt.
0,7750
0,7780
0,7690
0,7720
0,7660
0,7690
A B C D0,7600
0,7630
A B C DAUC 0,7742 0,7702 0,7699 0,7733Standardabweichung 0,0050 0,0086 0,0066 0,0033, , , ,
Abbildung 43: Performance logistische Regression (PKV)
4.3.5 Lineare SVM (Fast Large Margin)
Bei dieser Implementation handelt es sich um eine lineare Support Vector Ma-
chine. Im Gegensatz zur klassischen Losung des dualen Problems wurden hier
vier alternative Losungsverfahren implementiert, die es ermoglichen, auf sehr
großen Datensatzen (in siebenstelligem Bereich) zu arbeiten.
4.3.5.1 Datenmodellierung Das Verfahren benotigt numerische Daten,
die besten Ergebnisse ergaben sich bei Konvertierung der nominellen Attribu-
te in binominelle (True/False) und anschließend in numerische Daten (1, 0).
Danach wurden alle numerischen Werte auf den Bereich zwischen 0 und 1 nor-
miert.
4.3 KUNDIGUNGEN ZUR PKV 51
4.3.5.2 Parameteroptimierung Es wurden die folgenden drei Parameter
per Gridsearch variiert.
Losungsverfahren (nominell): Losungsverfahren fur das duale Problem:
L2 SVM Dual, L2 SVM Primal, L2 Logistic Regression, L1 SVM Dual.
C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden,
Bereich: 1 – 5.001.
Bias (nominell): Berechnung von Zwischenwerten, Werte: True, False.
Die Ergebnisse der Parametervariation sind in Tabelle 8 dargestellt.
Losungsverfahren: L2 SVM Primal
C: 4.501
Bias : False
Tabelle 8: Ermittelte optimale Parameter der linearen SVM (PKV)
4.3
KU
ND
IGU
NG
EN
ZU
RP
KV
52
0,80 0,80 0,80
0,75 0,75 0,75
0 65
0,70
AU
C
0 65
0,70
AU
C
0 65
0,70
AU
C
0,60
0,65
0,60
0,65
0,60
0,65
0,550 1.000 2.000 3.000 4.000 5.000
C
0,551 2 3 4
Solver
0,550 1
Bias
VM
Dua
l
VM
Dua
l
M P
rimal
egre
ssio
n
L2 S
V
L1 S
V
L2 S
VM
L2 L
ogist
icR
e
Abbildung 44: Parameteroptimierung fur die lineare SVM (PKV)
4.3 KUNDIGUNGEN ZUR PKV 53
4.3.5.3 Performance Das Ergebnis auf den vier Testpartitionen ist in Ab-
bildung 73 dargestellt.
0,7750
0,7700
,
0,7650
0,7600
0 7500
0,7550
A B C DAUC optimiert 0,7653 0,7636 0,7610 0,7653
0,7500
Standardabweichung 0,0060 0,0022 0,0035 0,0073
Abbildung 45: Performance lineare SVM (PKV)
4.3.6 SVM mit RBF-Kernel
Hier wurde die libsvm-Implementierung verwendet. Der RBF-Kernel wurde aus
drei Grunden gewahlt. Der lineare Kernel ist ein Spezialfall des RBF-Kernels
und der sigmoide verhalt sich bei bestimmten Parametern ebenfalls wie der
RBF-Kernel. Mit nur zwei Parametern ist der zu durchsuchende Parameter-
raum kleiner als beim sigmoiden oder polynominellen Kernel. Außerdem ist
der Berechnungsaufwand des polynominellen Kernels um einiges hoher, was
umso entscheidender ist, da der RBF-Kernel schon im Rahmen dieser Arbeit
die erwahnten zeitlichen Probleme bereitet. Auch in der Literatur wird dem
RBF-Kernel die Fahigkeit zugeschrieben, eine große flexible Menge an Model-
len bilden zu konnen und in der Praxis der meist verwendete zu sein. [7][27]
4.3.6.1 Datenmodellierung Die Daten wurden entsprechend der linearen
SVM aufbereitet, also Konvertierung der nominellen Attribute in binominelle
(True/False) und anschließend in numerische Daten (1, 0). Danach wurden alle
numerischen Werte auf den Bereich zwischen 0 und 1 normiert.
4.3.6.2 Parameteroptimierung Bei diesem Verfahren konnte die evoluti-
onare Parameteroptimierung (hier als genetischer Algorithmus implementiert)
eingesetzt werden, da keine nominellen Parameter vorhanden waren. Es wurde
mit funf Individuen (SVMs) uber zwanzig Generationen gearbeitet. Die Fit-
ness war die AUC, ermittelt per funffacher Kreuzvalidierung. Es wurden die
folgenden zwei Parameter variiert.
C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden,
Bereich: 0 – 109.
4.3 KUNDIGUNGEN ZUR PKV 54
γ (numerisch): Dieser Parameter wird auch ”Breite“ genannt,
Bereich: 10−9 – 1.
Die Ergebnisse der Parametervariation sind in Tabelle 9 angegeben.
C: 5, 851443463304007 · 108
γ : 0, 8694628282764243
Tabelle 9: Ermittelte optimale Parameter fur die SVM mit RBF-Kernel (PKV)
0,750,75
0,70
C0 65
0,70
C
0,60
0,65A
UC
0,60
0,65
AU
0,550 0,5 1
0,55
+06
+07
+08
+09 ,
5,00
E+
5,00
E+
5,00
E+
5,00
E+
C
Abbildung 46: Parameteroptimierung fur die SVM mit RBF-Kernel (PKV)
4.3.6.3 Performance Das Ergebnis auf den vier Testpartitionen ist in Ab-
bildung 47 dargestellt.
0,7000
0,6750
0,6500
0,6250
A B C D0,6000
A B C DAUC optimiert 0,6666 0,6542 0,6576 0,6680Standardabweichung 0 0078 0 0046 0 0058 0 0099Standardabweichung 0,0078 0,0046 0,0058 0,0099
Abbildung 47: Performance der SVM mit RBF-Kernel (PKV)
4.3 KUNDIGUNGEN ZUR PKV 55
4.3.7 Entscheidungstabelle
4.3.7.1 Datenmodellierung Ahnlich den Verfahren, die auf Entscheidungs-
baumen basieren, erzielt auch dieser Algorithmus die besten Ergebnisse mit
nominellen Attributen, obwohl auch numerische und damit ordinale Attribute
verwendet werden konnen. Dementsprechend wurden auch hier die drei nume-
rischen Attribute konvertiert.
4.3.7.2 Parameteroptimierung Hier wurden zwei Parameter variiert:
X (numerisch): Anzahl der internen Kreuzvalidierungen (1 bedeutet ”leave
one out“) fur die Attributauswahl, Bereich: 1 – 2.001.
I (nominell): Nachste Nachbarn fur die Entscheidung nutzen, oder die globale
Tabellen-Mehrheit, Werte: 0, 1.
X: 1.801
I : 0
Tabelle 10: Ermittelte optimale Parameter der Entscheidungstabelle (PKV)
0 78 0 78
0,77
0,78
0,77
0,78
0,76
AU
C
0,76
AU
C
0,74
0,75
0,74
0,75
0 1.000 2.000
Kreuzvalidierungen1=leave one out
0 1
Nächste Nachbarnstatt globale
Tabellen-Mehrheitverwendenverwenden
Abbildung 48: Parameteroptimierung fur die Entscheidungstabelle (PKV)
4.3.7.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-
bereichen ist in Abbildung 77 dargestellt.
4.3.8 Naıve Bayes-Klassifikator
Auch hier wurden alle Attribute in nominelle umgewandelt. Als Parameter
kann man hier eine Laplace-Korrektur verwenden, welche bei der Menge an
4.3 KUNDIGUNGEN ZUR PKV 56
0 7750
0,7800
0 7650
0,7700
0,7750
0,7600
0,7650
0,7500
0,7550
A B C D0,7400
0,7450
A B C DAUC optimiert 0,7609 0,7622 0,7540 0,7547Standardabweichung 0,0107 0,0063 0,0072 0,0031, , , ,
Abbildung 49: Performance der Entscheidungstabelle (PKV)
Trainingsdaten keine Anderung der Prognosegute erreicht. Diese Korrektur
schwacht Wahrscheinlichkeiten von Null ab. Wenn z.B. bei der Klassifikati-
on Allergie/Erkaltung/Gesund und den Merkmalen Husten/Niesen/Fieber nur
sehr wenige Trainingsdaten vorhanden sind, kann es sein, dass keiner der hus-
tet eine Erkaltung hat. Das hatte zur Folge, dass bei Anwendung des Modells
niemand, der hustet der Klasse Erkaltung zugeordnet wird. Der Test dieses Pa-
rameters bestatigt die Vermutung, dass die große Datenmenge die Verwendung
der Laplace-Korrektur unnotig macht. Mit Korrektur ist die AUC unbedeutend
um 0,0001 schlechter.
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 50 dargestellt.
0,760
0,755
0,750
0,745
A B C D0,740
A B C DAUC optimiert 0,7517 0,7478 0,7477 0,7508Standardabweichung 0,0073 0,0043 0,0044 0,0041, , , ,
Abbildung 50: Performance des naıven Bayes-Klassifikators (PKV)
4.3.9 Bayes-Netz-Generator
4.3.9.1 Datenmodellierung Auch hier wurden die drei numerischen Merk-
male in nominelle umgewandelt.
4.3 KUNDIGUNGEN ZUR PKV 57
4.3.9.2 Parameteroptimierung Folgende vier Parameter wurden bei der
Optimierung per Gridsearch variiert
N (numerisch): Anzahl der Knoten, Bereich: 1 – 101.
A (numerisch): Anzahl der Kanten, Bereich: 1 – 101.
M (numerisch): Anzahl der Instanzen, Bereich: 1 – 101.
C (numerisch): Kardinalitat der Variablen (2, 3, 4; bedeuten binar, ternar,
quartar,. . . ), Werte: 1 – 11
Es zeigt sich, dass keiner der Parameter entscheidenden Einfluß auf das
Ergebniss hat, ermittelt und verwendet wurden die Parameter, wie in Tabelle 11
angegeben.
N : 21
A: 1
M : 81
C: 5
Tabelle 11: Optimale Parameter des Bayes-Netz-Generators (PKV)
0,75640,75640,75640,7564
0,7560
0,7562
0,7560
0,7562
0,7560
0,7562
0,7560
0,7562
0 7554
0,7556
0,7558
AU
C
0 7554
0,7556
0,7558
AU
C
0 7554
0,7556
0,7558
AU
C
0 7554
0,7556
0,7558
AU
C
0,7550
0,7552
0,7554
0,7550
0,7552
0,7554
0,7550
0,7552
0,7554
0,7550
0,7552
0,7554
0,75501 6 11
Kardinalität
0,75501 51 101
Instanzen
0,75501 51 101
Anzahl Kanten
0,75501 51 101
Anzahl Knoten
Abbildung 51: Parameteroptimierung fur den Bayes-Netz-Generator (PKV)
4.3.9.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-
bereichen ist in Abbildung 52 dargestellt.
4.3.10 Random Forest
Der Random Forest ist sicherlich das bekannteste und erfolgreichste Ensemble-
Verfahren.
4.3 KUNDIGUNGEN ZUR PKV 58
0,7600
0,7550
0,7450
0,7500
0,7400
0,7300
0,7350
A B C DAUC optimiert 0,7516 0,7476 0,7475 0,7506Standardabweichung 0 0071 0 0085 0 0080 0 0039
,
Standardabweichung 0,0071 0,0085 0,0080 0,0039
Abbildung 52: Performance des Bayes-Netzes (PKV)
4.3.10.1 Datenmodellierung Wie bei allen hier verwendeten Verfahren,
die auf Entscheidungsbaumen basieren, ergaben sich die besten Ergebnisse mit
nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale
in nominelle konvertiert.
4.3.10.2 Parameteroptimierung Da das Verfahren als Parameter ganz-
zahlige Werte verlangt, konnte auch hier nur die Grid-Suche eingesetzt werden.
Die beiden variierten Parameter sind:
I (numerisch): Anzahl der Baume, die den Wald bilden sollen,
Bereich: 1 – 1.000.
maximale Tiefe (numerisch): Maximale Tiefe, bis zu der die einzelnen
Baume wachsen durfen, Bereich: 1 – 7.
Die Anzahl der zufallig zu berucksichtigenden Merkmale pro Baum wurde
auf dem Standardwert bei M = 9 verwendeten Variablen bei
int (log(M) + 1) = 1
belassen. Die andere gebrauchliche Anzahl von√M = 3 ergab keine Verbesse-
rung. Die optimalen Parameter sind in Tabelle 12 angegeben22.
I: 600
maximale Tiefe : 4
Tabelle 12: Ermittelte optimale Parameter des Random Forests (PKV)
4.3.10.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-
bereichen ist in Abbildung 54 dargestellt.22Im Gegensatz zum ursprunglichen Algorithmus, der die Baume unbegrenzt wachsen lasst,
wird die Tiefe hier begrenzt.
4.3 KUNDIGUNGEN ZUR PKV 59
0 75
0,80
0 75
0,80
0 77
0,78
0,60
0,65
0,70
0,75
0,60
0,65
0,70
0,75
0,76
0,77
AU
C
0,45
0,50
0,55
,
AU
C
0,45
0,50
0,55
0,60
AU
C
0,75
,
0 0 0 0 0 0
0,30
0,35
0,40
0 0 0 0 0 0 0,30
0,35
0,40
,
0
200
400
600
800
1.00
0
Bäume
0
200
400
600
800
1.00
0
Bäume
1 2 3 4 5 6 7
maximaleTiefe
Abbildung 53: Parameteroptimierung fur den Random Forest (PKV)
0,7900
0 7800
0,7850
0,7750
0,7800
0,7650
0,7700
A B C D0,7600
AUC optimiert 0,7818 0,7773 0,7764 0,7789Standardabweichung 0,0061 0,0040 0,0038 0,0070
Abbildung 54: Performance Random Forest (PKV)
4.3.11 Boosting von Entscheidungsbaumstumpfen
Ein Entscheidungsbaumstumpf (Decision stump) ist der erste Teil eines Ent-
scheidungsbaumes. Von der Wurzel gibt es nur eine Stufe mit Verzweigungen,
es handelt sich also um einen Baum mit der Tiefe 1. Diese Stumpfe werden per
AdaBoost-Algorithmus erzeugt und linear kombiniert.
4.3.11.1 Datenmodellierung Wie bei allen hier verwendeten Verfahren,
die auf Entscheidungsbaumen basieren, ergaben sich die besten Ergebnisse bei
nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale
in nominelle konvertiert.
4.3.11.2 Parameteroptimierung Die Werte fur das Split-Kriterium und
die maximale Anzahl der zu boostenden Stumpfe wurden per Gridsearch ermit-
telt.
4.3 KUNDIGUNGEN ZUR PKV 60
Iterationen (numerisch): Maximale Anzahl der Iterationen fur den Boost-
Algorithmus,
Bereich: 1 – 1.000.
Split-Kriterium): Kriterium, welches den optimalen (einzigen) Split bestimmt,
Werte: Entropie, Trefferrate,√TP · FP +
√FN · TN , Gini-Index, χ2-Test.
I: 570
Split-Kriterium: Trefferrate
Tabelle 13: Ermittelte optimale Parameter fur das Boosting von Entscheidungsbaumstumpfen (PKV)
0 800 80
0 70
0,75
0,80
0 70
0,75
0,80
0 60
0,65
0,70
AU
C
0 60
0,65
0,70
AU
C
0 50
0,55
0,60
0 50
0,55
0,60
0,45
0,50
1 2 3 4 5
Split-Kriterium0,45
0,50
0 500 1.000Iterationen tr
opie
erra
te
Inde
x
²-T
est
Iterationen
Ent
Tre
ffe
Gin
i- ²
Abbildung 55: Parameteroptimierung fur das Boosting der Baumstumpfe (PKV)
4.3.11.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-
bereichen ist in Abbildung 56 dargestellt.
0,7800
0,7750
0,7700
0,7650
0,7600A B C D
AUC optimiert 0,7737 0,7695 0,7698 0,7730St d d b i h 4
,
Standardabweichung 0,0051 0,0083 0,0064 0,0033
Abbildung 56: Performance der geboosteten Baumstumpfe (PKV)
4.3 KUNDIGUNGEN ZUR PKV 61
4.3.12 Averaged One-Dependence Estimators – AODE
Da diese Ensemble-Methode auf dem naıven Bayes-Klassifikator beruht, ist es
plausibel, dass auch hier die beste Performance mit nominellen Merkmalen er-
reicht wird. Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in
Abbildung 57 dargestellt.
0,7850
0,7800
0 7700
0,7750
0,7650
0,7700
A B C D0,7600
AUC optimiert 0,7749 0,7714 0,7714 0,7734Standardabweichung 0,0063 0,0031 0,0042 0,0040
Abbildung 57: Performance AODE (PKV)
Eine verbesserte Version des Algorithmus, welcher zusatzlich Beziehungen
zwischen zwei Attributen wahrend des Trainings nutzt, ist der AODEsr23. Die
Klassifizierungsgute auf den vier Testpartitionen ist in Abbildung 58 abgebildet.
0,7850
0,7800
0 7700
0,7750
0,7650
0,7700
A B C D0,7600
,
A B C DAUC optimiert 0,7769 0,7738 0,7735 0,7759Standardabweichung 0 0058 0 0031 0 0050 0 0036Standardabweichung 0,0058 0,0031 0,0050 0,0036
Abbildung 58: Performance AODEsr (PKV)
Vergleicht man die beiden Methoden, ist die Uberlegenheit auf diesem Da-
tensatz offensichtlich (s. Abb. 59).
4.3.13 Alternierende Entscheidungsbaume
4.3.13.1 Datenmodellierung Die enge Verwandtschaft zu Entscheidungs-
baumen laßt dieses Verfahren ebenfalls mit nominellen Parametern am besten
abschneiden.23Averaged One-Dependence Estimators with subsumption resolution
4.3 KUNDIGUNGEN ZUR PKV 62
0,7850
0,7800
0,7750
0,7700
0 7600
0,7650
A B C DAUC AODEsr 0,7769 0,7738 0,7735 0,7759A C AO
0,7600
AUC AODE 0,7749 0,7714 0,7714 0,7734
Abbildung 59: Performancevergleich beider AODE-Methoden (PKV)
4.3.13.2 Parameteroptimierung Bei dieser Methode wurden die folgen-
den zwei Parameter variiert:
B (numerisch): Anzahl der Iterationen, Bereich: 1 – 101.
E (nominell): Methode zur Ermittlung des nachsten zu expandierenden Kno-
tens, Bereich: all, weight, z-pure, random walk.
B: 91
E : z-pure
Tabelle 14: Optimale Parameter fur PKV-Kundiger und den alternierenden Entscheidungsbaum
4.3.13.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-
bereichen ist in Abbildung 61 dargestellt.
4.3 KUNDIGUNGEN ZUR PKV 63
0,790 0,790
0,775
0,780
0,785
0 775
0,780
0,785
0,765
0,770
0,775
AU
C
0,765
0,770
0,775
AU
C0,750
0,755
0,760
0,750
0,755
0,760
ll1 51 101
Iterationen
0 1 2 3
Methode zur Ermittlung des
nächsten zu exp. Knotens
all weight
z-purerandom
Knotens
Abbildung 60: Parameteroptimierung fur den alternierenden Entscheidungsbaum (PKV)
0,7840
0,7800
0,7820
0,7760
0,7780
0,7720
0,7740
,
A B C D0,7700
0,7720
AUC optimiert 0,7819 0,7779 0,7764 0,7791Standardabweichung 0,0046 0,0041 0,0046 0,0029
Abbildung 61: Performance Alternierender Entscheidungsbaum (PKV)
4.3 KUNDIGUNGEN ZUR PKV 64
4.3.14 Vergleich
Vergleicht man nun alle Verfahren auf Basis ihrer AUC uber alle vier Partitio-
nen, so ergibt sich folgende Reihenfolge:
Rang AUC Verfahren
1. 0,7804 (±0, 0045) Multilayerperceptron
2. 0,7788 (±0, 0040) Alternierender Entscheidungsbaum
3. 0,7786 (±0, 0052) Random Forest
4. 0,7750 (±0, 0044) AODEsr
5. 0,7728 (±0, 0044) AODE
6. 0,7719 (±0, 0059) Logistische Regression
7. 0,7715 (±0, 0058) Boosting von Entscheidungsbaumstumpfen
8. 0,7708 (±0, 0051) kNN
9. 0,7638 (±0, 0047) Lineare SVM (Fast Large Margin)
10. 0,7632 (±0, 0058) Lineare Regression
11. 0,7580 (±0, 0068) Entscheidungstabelle
12. 0,7567 (±0, 0042) Entscheidungsbaum, beschnitten
13. 0,7495 (±0, 0050) Naıver Bayes-Klassifikator
14. 0,7493 (±0, 0069) Bayesnetz
15. 0,6638 (±0, 0120) Entscheidungsbaum, unbeschnitten
16. 0,6616 (±0, 0070) SVM RBF-Kernel
Tabelle 15: AUC-Vergleich bei PKV-Kundigung
0,7770
0,7820geboostete StümpfeADTreeDecisiobtableDtree unpruned
0,7600
0,78002
0,7670
0,7720
Dtree unprunedDtree prunedLinRegFLM
kNN0,7200
0,74003
6
0,7570
0,7620 LogRegNaive BayesRandom ForestSVM rbf
0,6800
0,7000
14
6
0,7470
0,7520
1 2 3 4
AODEAODEsrBayesNetGen
MLPerceptron0,6400
0,6600
1 2 3 4A B C D A B C D
5
0,7400
0,7600
0,7800
0,6800
0,7000
0,7200
0,6400
0,6600
eptr
onA
DT
ree
Fore
stO
DE
srA
OD
ELo
gReg
tüm
pfe
kNN
FLM
LinR
egob
tabl
epr
uned
e B
ayes
Net
Gen
prun
edV
M r
bf
MLP
erc A
Ran
dom
A
O A Lge
boos
tete
St L
Dec
isio
Dtr
ee p
Nai
veB
ayes
ND
tree
unp SV
Abbildung 62: AUC-Vergleich bei PKV-Kundigung auf den vier Testpartitionen
Die erste Erkenntnis aus den Versuchsdaten ist offensichtlich: der unbe-
schnittenen Entscheidungsbaum und die Support Vector Machine mit RBF-
Kernel sind fur die Prognose der PKV-Kundigungen auf Basis der hier ver-
4.3 KUNDIGUNGEN ZUR PKV 65
0,7770
0,7820geboostete StümpfeADTreeDecisiobtableDtree unpruned
0,7600
0,7800
0,7670
0,7720
Dtree unprunedDtree prunedLinRegFLM
kNN0,7200
0,7400
0,7570
0,7620 LogRegNaive BayesRandom ForestSVM rbf
0,6800
0,7000
0,7470
0,7520
1 2 3 4
AODEAODEsrBayesNetGen
MLPerceptron0,6400
0,6600
1 2 3 4A B C D A B C D
0,7400
0,7600
0,7800
0,6800
0,7000
0,7200
0,6400
0,6600
eptr
onA
DT
ree
Fore
stO
DE
srA
OD
ELo
gReg
tüm
pfe
kNN
FLM
LinR
egob
tabl
epr
uned
e B
ayes
Net
Gen
prun
edV
M r
bf
MLP
erc A
Ran
dom
A
O A Lge
boos
tete
St L
Dec
isio
Dtr
ee p
Nai
veB
ayes
ND
tree
unp SV
Abbildung 63: AUC-Vergleich bei PKV-Kundigung
wendeten Daten ungeeignet (s. Abb. 62, Punkt 1). Wahrend unbeschnittene
Entscheidungsbaume ohne Probleme ausgeschlossen werden konnen (vgl. Ab-
schn. 4.3.2), mussen SVMs fur die Praxis genauer betrachtet werden. Da sich
SVMs mit RBF-Kernel mit bestimmten Parametern wie lineare SVMs verhal-
ten, hier aber deutlich hinter den linearen SVMs zuruckbleiben, scheint es hier
noch Potential fur bessere Parameter zu geben. Auf der anderen Seite liegen
die Starken von SVMs eher in Modellen, die durch eine Vielzahl von Varia-
blen, aber durch wenige Datensatze erstellt werden. In den Abbildungen zu
den Lernkurven (s. Abb. 26, 27, 29, 30) ist zu sehen, dass die Verfahren unter-
schiedlich auf verschiedenen Trainingsmengen reagieren. So kommen die beiden
verwendeten Bayes-Verfahren mit weniger Trainingsdaten besser zurecht, als
das kNN- oder Entscheidungsbaumverfahren, wahrend diese mit einer großeren
Trainingsmenge deutlich besser prognostizieren.
Betrachtet man die Performance der weiteren Verfahren, fallt die nachste
kleine Grenze nach den ersten drei Verfahren (MLP, Alternierender Entschei-
dungsbaum und Random Forest) auf (s. Abb. 62, Punkt 2), die nachste großere
Grenze liegt nach den weiteren 5 Verfahren (s. Abb. 62, Punkt 3). Nach die-
sen ersten acht Verfahren fallen die ubrigen Methoden weiter ab, die entweder
linear separieren oder auf dem bayes’schem Theorem basieren (mit Ausnahme
der beschnittenen Entscheidungsbaume), die die Unabhangigkeit der Variablen
vorraussetzen.
Die fast identischen Verlaufe der beiden linearen Verfahren (Lineare Regres-
sion, FLM) sowie der bayes’schen Verfahren (Naıve Bayes und Bayesnetze) sind
aufgrund der Ahnlichkeit ihrer Theorien plausibel (s. Abb. 62, Punkt 5 und 6).
4.3 KUNDIGUNGEN ZUR PKV 66
Interessant sind die beiden Verfahren, die im Gegenatz zu allen anderen
Verfahren, andere Verlaufe nehmen (Entscheidungstabelle und der beschnit-
tene Entscheidungsbaum, s. Abb. 62, Punkt 4). Das deutet daraufhin, dass
diese Verfahren andere Informationen in den Daten nutzen. Sollte sich in weite-
ren Analysen bestatigen, dass diese Verfahren andere Kundigungen entdecken,
waren sie Kandidaten fur einen Stacking-Ansatz. Abgeschwacht gilt dies auch
fur die kNN-Methode, die sich nur leicht in ihrem Verlauf unterscheidet.
Unter den besten acht Verfahren gehoren funf zu den Ensemble-Verfahren,
unter den ersten funf sogar vier.
4.4 KUNDIGUNGEN ZUR GKV 67
4.4 Kundigungen zur GKV
4.4.1 Allgemein
Bei dieser Klassifikation wurden bei den Verfahren die Daten entsprechend de-
nen der PKV-Klassifikation modelliert und die gleichen Parameter variiert.
4.4.2 kNN – k nearest neighbours
Datenmodellierung und Parameter siehe Abschnitt 4.3.1.1.
Auch hier erzielten die gewichteten Distanzen hohere AUC-Werte, so dass
nur diese weiter betrachtet wurden. Das Ergebnis dieser Parameteroptimierung
ist in Abbildung 64 zu sehen. Der euklidsche und der Manhattan-Abstand er-
zielten auch hier die besten Werte – der entscheidende Bereich ist nochmal
dataillierter in Abbildung 65 dargestellt. Der Ubersichtlichkeit halber sind nur
die Standardabweichungen des euklidschen und des Manhatten-Abstands abge-
bildet. Die so ermittelten optimalen Parameter sind in Tabelle 16 dargestellt.
0,6500
Distance Measures
Euclidean distance
M h tt di t
0,5000
0,5500
0,6000 Manhatten distance
Chebychev distance
Correlation similarity
Dice similarity
0,4000
0,4500
0,5000
AU
C
Dice similarity
Inner product similarityJaccard similarity
Max product
0,3000
0,3500
psimilarityOverlap similarity
0,250030 300 3.000
k
Distance Measures
0 6400
0,6450
0,6500
0,6550
C
Distance Measures
Euclidean distance
Manhatten distance
Correlation
0,6250
0,6300
0,6350
0,6400
AU similarity
Overlap similarity
Dice similarity
Jaccard similarity30 130 230 330
k
Abbildung 64: Parameteroptimierung kNN – Gesamtdarstellung (GKV)
0,6500
Distance Measures
Euclidean distance
M h tt di t
0,5000
0,5500
0,6000 Manhatten distance
Chebychev distance
Correlation similarity
Dice similarity
0,4000
0,4500
0,5000
AU
C
Dice similarity
Inner product similarityJaccard similarity
Max product
0,3000
0,3500
psimilarityOverlap similarity
0,250030 300 3.000
k
Distance Measures
0 6400
0,6450
0,6500
0,6550
C
Distance Measures
Euclidean distance
Manhatten distance
Correlation
0,6250
0,6300
0,6350
0,6400
AU similarity
Overlap similarity
Dice similarity
Jaccard similarity30 130 230 330
k
Abbildung 65: Parameteroptimierung kNN – optimaler Bereich (GKV)
Das Ergebnis auf den Partitionen A–D ist in Abbildung 66 zu sehen.
4.4 KUNDIGUNGEN ZUR GKV 68
k: 140
Abstands- oder Ahnlichkeitsmaß: euklidscher Abstand
gewichtete Abstimmung: True
Tabelle 16: Ermittelte optimale Parameter fur die kNN-Methode (GKV)
0,6600
0,6550
0,6500
0,6450
A B C D0,6400
A B C DAUC optimiert 0,6533 0,6520 0,6483 0,6519Standardabweichung 0 0041 0 0065 0 0038 0 0052Standardabweichung 0,0041 0,0065 0,0038 0,0052
Abbildung 66: Performance kNN (GKV)
Auch hier wurde gepruft, ob der Parameter k von der Trainingsmenge un-
abhangig ist – er wurde entsprechend der erhohten Dichte auf 249 angehoben24.
Wie in Abbildung 67 zu sehen, ist der Parameter von der Trainingsmenge auch
hier unabhangig.
0,6600AUC ti i t
0,6550
AUC optimiert
AUC angepasst0,6550
0,6500
0,6450
0,6400A B C DA B C D
Abbildung 67: Performance kNN mit angepasstem k (GKV)
4.4.3 Entscheidungsbaum
Datenmodellierung und Parameter siehe Abschnitt 4.3.2.
Die Ergebnisse sind in Abbildung 68 zu sehen. In diesem Fall ergibt die
Parameteroptimierung wie erwartet einen beschnittenen Entscheidungsbaum
(s. Tab. 17), deren Performance in Abbildung 69 dargestellt ist.
24(140 · 35600
20000= 249, 2
)
4.4 KUNDIGUNGEN ZUR GKV 69
M (minimale Blattgroße): 17
A (Laplaceglattung): True
C (Konfidenz-Grenzwert fur Beschneidung): 0,91
Tabelle 17: Ermittelte optimale Parameter fur den Entscheidungsbaum (GKV)
4.4
KU
ND
IGU
NG
EN
ZU
RG
KV
70
0,64
0,65
0,61
0,62
0,63
AU
C
AUC ohne Laplace-Glättung
AUC (mit Laplace-Glättung)
unbeschnitten
0,60
0,65
0,60
0,65
0,60
0,65
0,601 11 21 31 41 51 61
Minimale Blattgröße
0,50
0,55
AU
C
0,50
0,55
AU
C
0,50
0,55
AU
C
beschnitten
0,450 10 20 30 40
minimale Blattgröße
0,450 0,2 0,4 0,6 0,8 1
Konfidenzgrenzwert für Beschneidung
0,450 1
Laplaceglättung
0,64 0,64 0,640,64
reduzierteBeschneidung
0,56
0,58
0,60
0,62
AU
C
0,56
0,58
0,60
0,62
AU
C
0,56
0,58
0,60
0,62
AU
C
0,56
0,58
0,60
0,62
AU
C
0,540 10 20 30 40
Minimale Blattgröße
0,542 3 4 5
Betrachtetet Pruningsets
0,540 1
Laplaceglättunge
0,540 1
kein Wachsen von Unterbäumen
Abbildung 68: Parameteroptimierung fur Entscheidungsbaume (GKV)
4.4 KUNDIGUNGEN ZUR GKV 71
0 6600
0,6550
0,6600
0 6450
0,6500
0,6400
0,6450
0 6300
0,6350
A B C DAUC optimiert 0,6470 0,6434 0,6392 0,6449
0,6300
Standardabweichung 0,0088 0,0045 0,0050 0,0048
Abbildung 69: Performance Entscheidungsbaum (GKV)
4.4.4 Lineare Regression
Das Ergebnis auf den vier Testpartitionen ist in Abbildung 70 dargestellt.
0 6800
0,6750
0,6800
0 6650
0,6700
0,6600
0,6650
0 6500
0,6550
A B C DAUC 0,6673 0,6661 0,6648 0,6656
0,6500
Standardabweichung 0,0052 0,0046 0,0037 0,0057
Abbildung 70: Performance lineare Regression (GKV)
4.4.5 Logistische Regression
Das Ergebnis auf den vier Testpartitionen ist in Abbildung 71 dargestellt.
0,6800
0,67100,67400,6770
0,66500,6680,
0,65600,65900,6620
A B C D0,65000,6530,
CAUC 0,6675 0,6677 0,6658 0,6666Standardabweichung 0,0051 0,0049 0,0038 0,0061
Abbildung 71: Performance logistische Regression (GKV)
4.4 KUNDIGUNGEN ZUR GKV 72
4.4.6 Lineare SVM (Fast Large Margin)
Datenmodellierung und Parameter siehe Abschnitt 4.3.5.
Die Ergebnisse der Parametervariation sind in Tabelle 18 wiedergegeben.
Losungsverfahren: L2 Logistic Regression
C: 501
Bias : True
Tabelle 18: Ermittelte optimale Parameter der linearen SVM (GKV)
4.4
KU
ND
IGU
NG
EN
ZU
RG
KV
73
0,70 0,70 0,70
0,65 0,65 0,65
0,60
AU
C 0,60
AU
C 0,60
AU
C
0,55 0,55 0,55
0,500 1.000 2.000 3.000 4.000 5.000
C
0,501 2 3 4
Solver
0,500 1
Bias
VM
Dua
l
VM
Dua
l
M P
rimal
egre
ssio
n
L2 S
V
L1 S
V
L2 S
VM
L2 L
ogist
icR
e
Abbildung 72: Parameteroptimierung fur die lineare SVM (GKV)
4.4 KUNDIGUNGEN ZUR GKV 74
Das Ergebnis auf den vier Testpartitionen ist in Abbildung 73 dargestellt.
0,6800
0,6700
0,6750
0,6650
0,6700
0 6550
0,6600
A B C D0,6500
0,6550
A B C DAUC optimiert 0,6675 0,6670 0,6652 0,6659Standardabweichung 0,0041 0,0063 0,0056 0,0048, , , ,
Abbildung 73: Performance lineare SVM (GKV)
4.4.7 SVM mit RBF-Kernel
Datenmodellierung und Parameter siehe Abschnitt 4.3.6.
Die Ergebnisse der Parametervariation sind in Tabelle 19 angegeben.
C: 5.851443463014264 · 108
γ : 0.8560883659908978
Tabelle 19: Ermittelte optimale Parameter fur die SVM mit RBF-Kernel (GKV)
0,60 0,60
0,56
0,58
C
0,56
0,58
C
0 52
0,54
AU
0,54
AU
C
0,50
0,52
+06
+07
+08
+09
0,50
0,52
0 0,5 1
5,00
E+
5,00
E+
5,00
E+
5,00
E+
C
,
Abbildung 74: Parameteroptimierung fur die SVM mit RBF-Kernel (GKV)
Das Ergebnis auf den vier Testpartitionen ist in Abbildung 75 dargestellt.
4.4 KUNDIGUNGEN ZUR GKV 75
0,5900
0 5750
0,5800
0,5850
0 5650
0,5700
0,5750
0,5550
0,5600
0,5650
A B C DAUC optimiert 0,5748 0,5712 0,5733 0,5726
0,5500
p 0,5748 0,5712 0,5733 0,5726Standardabweichung 0,0058 0,0005 0,0030 0,0021
Abbildung 75: Performance der SVM mit RBF-Kernel (GKV)
4.4.8 Entscheidungstabelle
Datenmodellierung und Parameter siehe Abschnitt 4.3.7.
X: 1.051
I : 1
Tabelle 20: Ermittelte optimale Parameter der Entscheidungstabelle (GKV)
0 640 64
0,63
0,64
0,63
0,64
0,62
AU
C0,62
AU
C
0,60
0,61
0,60
0,61
0 1
Nächste Nachbarnstatt globale
Tabellen-Mehrheitverwenden
0 1.000 2.000
Kreuzvalidierungen(1=leave one out)
verwenden
Abbildung 76: Parameteroptimierung fur die Entscheidungstabelle (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 77 dargestellt.
4.4.9 Naıver Bayes-Klassifikator
Datenmodellierung und Parameter siehe Abschnitt 4.3.8.
Auch hier ist die Gute mit Laplacekorrektur im Schnitt nur um 0,0005 hoher,
die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbildung 78
dargestellt.
4.4 KUNDIGUNGEN ZUR GKV 76
0 64500,6500
0,63500,64000,6450
0,62500,63000,6350
0 61000,61500,6200
A B C D0,60000,60500,6100
A B C DAUC optimiert 0,6369 0,6217 0,6309 0,6280Standardabweichung 0 0034 0 0095 0 0053 0 0124Standardabweichung 0,0034 0,0095 0,0053 0,0124
Abbildung 77: Performance der Entscheidungstabelle (GKV)
0,670
0 660
0,665
0,655
0,660
0,650
A B C D0,640
0,645
A B C DAUC optimiert 0,6543 0,6550 0,6526 0,6547Standardabweichung 0 0054 0 0041 0 0068 0 0060Standardabweichung 0,0054 0,0041 0,0068 0,0060
Abbildung 78: Performance des naıven Bayes-Klassifikators (GKV)
4.4.10 Bayes-Netz-Generator
Datenmodellierung und Parameter siehe Abschnitt 4.3.9.
Auch hier hat keiner der Parameter entscheidenden Einfluß auf das Ergeb-
niss. Ermittelt und verwendet wurden die Parameter, wie in Tabelle 21 ange-
geben.
N : 61
A: 41
M : 41
C: 5
Tabelle 21: Optimale Parameter des Bayes-Netz-Generators (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 80 dargestellt.
4.4.11 Random Forest
Datenmodellierung und Parameter siehe Abschnitt 4.3.10.
Die optimalen Parameter sind in Tabelle 22 angegeben.
4.4 KUNDIGUNGEN ZUR GKV 77
0 65200 65200 65200 6520
0,6515
0,6520
0,6515
0,6520
0,6515
0,6520
0,6515
0,6520
0,6505
0,6510
AU
C0,6505
0,6510
AU
C0,6505
0,6510
AU
C0,6505
0,6510
AU
C
0,6495
0,6500
0,6495
0,6500
0,6495
0,6500
0,6495
0,6500
0,6490
0,6495
1 6 11Kardinalität
0,6490
0,6495
1 51 101Instanzen
0,6490
0,6495
1 51 101Anzahl Kanten
0,6490
0,6495
1 51 101Anzahl Knoten KardinalitätInstanzenAnzahl KantenAnzahl Knoten
Abbildung 79: Parameteroptimierung fur den Bayes-Netz-Generator (GKV)
0,6700
0 6600
0,6650
0,6550
0,6600
0,6500
A B C D0,6400
0,6450
A B C DAUC optimiert 0,6545 0,6549 0,6526 0,6546Standardabweichung 0 0047 0 0036 0 0095 0 0070Standardabweichung 0,0047 0,0036 0,0095 0,0070
Abbildung 80: Performance des Bayes-Netzes (GKV)
I: 721
maximale Tiefe : 4
Tabelle 22: Ermittelte optimale Parameter des Random Forests (GKV)
0,670,66 0,66
0,67
0 60
0,62
0,64
0 60
0,62
0,640,67
0,66
AU
C
0,56
0,58
0,60
AU
C
0,56
0,58
0,60
AU
C 0,66
AU
C
0,65
0 0 0 0 0 0
0,50
0,52
0,54
0 0 0 0 0 0 0,50
0,52
0,54
0,65
0,66
0
200
400
600
800
1.00
0
Bäume
0
200
400
600
800
1.00
0
Bäume
2 3 4 5 6 7
maximaleTiefe
2 3 4 5 6 7
maximaleTiefe
Abbildung 81: Parameteroptimierung fur den Random Forest (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 82 dargestellt.
4.4 KUNDIGUNGEN ZUR GKV 78
0,6800
0 6700
0,6750
0,6650
0,6700
0 6550
0,6600
A B C D0,6500
0,6550
A B C DAUC optimiert 0,6679 0,6666 0,6645 0,6649Standardabweichung 0 0056 0 0094 0 0063 0 0031Standardabweichung 0,0056 0,0094 0,0063 0,0031
Abbildung 82: Performance Random Forest (GKV)
4.4.12 Boosting von Entscheidungsbaumstumpfen
Datenmodellierung und Parameter siehe Abschnitt 4.3.11.
Ermittelt wurden fur dieses Verfahren und die Klassifikation der GKV-
Kundiger die Parameter, die in der Tabelle 23 angegeben sind.
I: 511
Split-Kriterium: Trefferrate
Tabelle 23: Ermittelte optimale Parameter fur das Boosting von Entscheidungsbaumstumpfen (GKV)
0 700 70
0,60
0,65
0,70
0,60
0,65
0,70
0 45
0,50
0,55
AU
C
0 45
0,50
0,55
AU
C
0,35
0,40
0,45
0,35
0,40
0,45
0,25
0,30
1 2 3 4 5
Split-Kriterium0,25
0,30
0 500 1.000Iterationen tr
opie
erra
te
Inde
x
²-T
est
Iterationen
Ent
Tre
ffe
Gin
i- ²
Abbildung 83: Parameteroptimierung fur das Boosting der Baumstumpfe (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 56 dargestellt.
4.4.13 Averaged One-Dependence Estimators – AODE
Datenmodellierung und Parameter siehe Abschnitt 4.3.12.
4.4 KUNDIGUNGEN ZUR GKV 79
0,6800
0,6750
0,6650
0,6700
0,6600
A B C D0,6500
0,6550
A B C DAUC optimiert 0,6677 0,6678 0,6659 0,6665Standardabweichung 0,0073 0,0027 0,0072 0,0080g , , , ,
Abbildung 84: Performance der geboosteten Baumstumpfe (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 85 dargestellt.
0,6800
0,6750
0,6650
0,6700
0,6600
,
0 6500
0,6550
A B C DAUC optimiert 0,6667 0,6664 0,6631 0,6649
0,6500
Standardabweichung 0,0085 0,0060 0,0071 0,0076
Abbildung 85: Performance AODE (GKV)
Die Klassifizierungsgute des verbesserten Algorithmus AODEsr auf den vier
Testpartitionen ist in Abbildung 86 dargestellt und der Vergleich beider Ver-
fahren ist in Abbildung 87 zu sehen.
0,6800
0,6750
0,6650
0,6700
0,6600
0,6500
0,6550
A B C DAUC optimiert 0,6685 0,6684 0,6652 0,6669S d d b i h
0,6500
Standardabweichung 0,0084 0,0054 0,0068 0,0074
Abbildung 86: Performance AODEsr (GKV)
4.4 KUNDIGUNGEN ZUR GKV 80
0,6800
0,6750
,
0,6650
0,6700
0,6600
0,6650
0 6500
0,6550
A B C DAUC AODEsr 0,6685 0,6684 0,6652 0,6669A A
0,6500
AUC AODE 0,6667 0,6664 0,6631 0,6649
Abbildung 87: Performancevergleich beider AODE-Methoden (GKV)
4.4.14 Alternierende Entscheidungsbaume
Datenmodellierung und Parameter siehe Abschnitt 4.3.13. Die optimalen Para-
meter fur die GKV-Kundiger-Klassifizierung sind in Tabelle 24 wiedergegeben.
B: 71
E : random walk
Tabelle 24: Ermittelte optimale Parameter fur den alternierenden Entscheidungsbaum (GKV)
0,660
0,670
0,600
0,650
0,660
0,670
0,600
0,650
0,650
AU
C
0,450
0,500
0,550
AU
C
0,650
AU
C
0,450
0,500
0,550
AU
C
0,630
0,640
0 300
0,350
0,400
0,630
0,640
0 300
0,350
0,400
0,6200 1 2 3
Methode zur E ittl d
all weight
z-purerandom
0,250
0,300
1 51 101
Iterationen
0,6201 51 101
Iterationen
0,250
0,300
0 1 2 3
Methode zur E ittl d
all weight
z-purerandom
Ermittlung des nächsten zu exp.
Knotens
Ermittlung des nächsten zu exp.
Knotens
Abbildung 88: Parameteroptimierung fur den alternierenden Entscheidungsbaum (GKV)
Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-
dung 89 dargestellt.
4.4 KUNDIGUNGEN ZUR GKV 81
0,6800
0,6750
0,6650
0,6700
0,6600
,
0 6500
0,6550
A B C DAUC optimiert 0,6680 0,6680 0,6653 0,6655S d d b h
0,6500
Standardabweichung 0,0053 0,0054 0,0056 0,0079
Abbildung 89: Performance alternierender Entscheidungsbaum (GKV)
4.4 KUNDIGUNGEN ZUR GKV 82
4.4.15 Vergleich
Vergleicht man nun alle Verfahren auf Basis ihrer AUC uber alle vier Partitio-
nen, so ergibt sich folgende Reihenfolge:
Rang AUC Verfahren
1. 0,6677 (±0, 0064) Multilayerperceptron
2. 0,6672 (±0, 0070) AODEsr
3. 0,6670 (±0, 0063) Boosting von Entscheidungsbaumstumpfen
4. 0,6669 (±0, 0050) Logistische Regression
5. 0,6667 (±0, 0061) Alternierender Entscheidungsbaum
6. 0,6664 (±0, 0052) FLM
7. 0,6660 (±0, 0061) Random Forest
8. 0,6659 (±0, 0048) Lineare Regression
9. 0,6653 (±0, 0073) AODE
10. 0,6541 (±0, 0056) Naıver Bayes-Klassifikator
11. 0,6541 (±0, 0062) Bayesnetz
12. 0,6414 (±0, 0068) kNN
13. 0,6436 (±0, 0057) Entscheidungsbaum, beschnitten
14. 0,6294 (±0, 0077) Entscheidungstabelle
15. 0,5730 (±0, 0029) SVM RBF-Kernel
Tabelle 25: AUC-Vergleich bei GKV-Kundigung
0 6500
0,6600
0,6700
0 6600
0,6700
0,6690
0,6700 geboostete Stümpfe
ADTree
Decisiobtable
0,6200
0,6300
0,6400
0,6500
0,6500
0,6600
0,6670
0,6680Dtree pruned
LinReg
FLM
kNN
2
0,5900
0,6000
0,6100
,
0,6400
0,6650
0,6660
kNN
LogReg
Naive Bayes
Random Forest
SVM bf
0,5600
0,5700
0,5800
0,6200
0,6300
0,6630
0,6640
SVM rbf
AODE
AODEsr
BayesNetGen
1
1 2 3 4 1 2 3 4 1 2 3 4 MLPerceptronA B C D A B C D A B C D
0,6500
0,6800
0,5900
0,6200
0,5600
rcep
tron
AO
DE
srSt
ümpf
eLo
gReg
AD
Tre
eFL
Mm
For
est
LinR
egA
OD
Eve
Bay
esN
etG
enkN
Npr
uned
iobt
able
SVM
rbf
MLP
er Age
boos
tete
S L A
Ran
dom
Nai
vB
ayes
Dtr
ee
Dec
isi S
Abbildung 90: AUC-Vergleich bei GKV-Kundigung auf den vier Testpartitionen
Als erstes fallt hier wieder die SVM mit RBF-Kernel auf, die mit Abstand
am schlechtesten abschneidet (s. Abb. 90, Punkt 1). Es gelten hier aber die
gleichen Einschrankungen bei dieser Bewertung wie unter 4.3.14 beschrieben.
Der nachst großere Abstand ist nach den ersten neun Verfahren (nach dem
AODE-Verfahren) zu identifizieren, wobei hier wie auch bei den PKV-Kundi-
gungen wieder die bayes’schen Verfahren, die Entscheidungstabelle und der be-
5 FAZIT UND AUSBLICK 83
0 6500
0,6600
0,6700
0 6600
0,6700
0,6690
0,6700 geboostete Stümpfe
ADTree
Decisiobtable
0,6200
0,6300
0,6400
0,6500
0,6500
0,6600
0,6670
0,6680Dtree pruned
LinReg
FLM
kNN
0,5900
0,6000
0,6100
,
0,6400
0,6650
0,6660
kNN
LogReg
Naive Bayes
Random Forest
SVM bf
0,5600
0,5700
0,5800
0,6200
0,6300
0,6630
0,6640
SVM rbf
AODE
AODEsr
BayesNetGen0,6800
1 2 3 4 1 2 3 4 1 2 3 4 MLPerceptronA B C D A B C D A B C D
0,6200
0,6500
0,5600
0,5900
,
MLP
erce
ptro
nA
OD
Esr
oste
te S
tüm
pfe
LogR
egA
DT
ree
FLM
Ran
dom
For
est
LinR
egA
OD
EN
aive
Bay
esB
ayes
Net
Gen
kNN
Dtr
ee p
rune
dD
ecis
iobt
able
SVM
rbf
M
gebo
o R
Abbildung 91: AUC-Vergleich bei GKV-Kundigung
schnittene Entscheidungsbaum zu finden sind. Auch hier decken sich die beiden
bayes’schen Verfahren wieder fast komplett (s. Abb. 90, Punkt 2).
Die besten Verfahren sind die gleichen, wie bei der Prognose der PKV-
Kundigungen, wobei diese hier deutlich dichter zusammen liegen und dadurch
deren Rangfolge auf den vier Test-Partitionen nicht immer konstant ist.
5 Fazit und Ausblick
Der Wechsel der Versicherungsart (von der gesetzlichen zur privaten Kranken-
versicherung) ist faktisch ein großerer Schritt, als nur der Wechsel des Versi-
cherungstragers. Das spiegeln auch die Prognoseguten dieser Arbeit wider – die
Kundigungen beim Wechsel in die private Krankenversicherung sind deutlich
besser zu prognostizieren, als die Kundigungen mit anschließendem Wechsel zu
einer anderen gesetzlichen Krankenversicherung. Anscheinend sind die Merk-
male bei der PKV-Kundigungsprognose deutlich trennscharfer. In den Abbil-
dungen 92 und 93 sind die normierten Verteilungen der Merkmale abgebildet25.
Dort ist zu erahnen, dass dies bei den meisten Merkmalen der Fall sein kann
(Geschlecht, Anzahl der Familienversicherten, letzter Versicherungstrager, Be-25Da hier die nominellen Merkmale fur die Darstellung in eine Rangfolge gebracht werden
mussten, ist die Darstellung streng genommen nur fur die drei numerischen Merkmale gultig.
5 FAZIT UND AUSBLICK 84
rufsgruppe, Bildung). Das gleiche wird fur Merkmalskombinationen gelten, die
die unterschiedlichen Verfahren zur Informationsextraktion nutzen.
Die Ensemble-Methoden schneiden mehrheitlich besser ab als einzelne Mo-
delle. In der Praxis ware zu untersuchen, mit welchem Verfahren der großte
Nutzen zu erzielen ist. Es ist also festzustellen, welche Kosten durch Fehlklas-
sifikation entstehen. So ist die Nichtidentifizierung einer Kundigung deutlich
teurer, als die falsche Klassifikation als Kundigung. Hier sind also die Kunden-
werte zu berucksichtigen. Im Data Mining bieten sich dafur zwei Vorgehens-
weisen an. Zum einen kann der Grenzwert der Kundigungswahrscheinlichkeit
fur die Klassifikation angepasst werden und so die Gewichtung von Sensitivitat
und Spezifitat variiert werden. Zum anderen konnen die Fehlklassifikationskos-
ten schon beim Erstellen des Modells berucksichtigt werden (z.B. durch den
Metacost-Algorithmus).
Weiterhin ware zu untersuchen, wie die Verfahren auf deutlich asymmetri-
schere Verteilungen der Klassen reagieren. In der Praxis liegt die Kundigungs-
quote nicht bei 50%, sondern Mitte 2005 in bei 3%.[5]
Das Ensemble-Verfahren des Stackings verspricht hingegen kaum Erfolg, da
die Prognoseguteverlaufe recht parallel verlaufen, was darauf hinweist, dass die
Verfahren die gleichen Informationen extrahieren – das nur eben unterschiedlich
gut.
5 FAZIT UND AUSBLICK 85
Abbildung 92: Normierte Verteilungen der Merkmale bei PKV-Kundigungen,
rot = Kundigungen, blau = nicht Kundigungen
Abbildung 93: Normierte Verteilungen der Merkmale bei GKV-Kundigungen,
rot = Kundigungen, blau = nicht Kundigungen
5 FAZIT UND AUSBLICK 86
Danksagung
Bei Herrn Prof. Dr. G. Bornmuller bedanke ich mich fur die Ubernahme des
Erstgutachtens. Fur die Ubernahme des Zweitgutachtens und seine Hilfe beim
Zustandekommen dieser Arbeit bedanke ich mich bei Herrn Prof. Dr. S. Voß.
Besonderen Dank schulde ich Herrn Dr. S. Lessmann fur seine Betreuung
beim Erstellen dieser Arbeit und die vielen Denkanstoße.
Ich mochte mich bei Herrn Loser von der Techniker Krankenkasse fur hilf-
reiche Tipps und das Zurverfugungstellen der Daten bedanken.
Frau Heidi Albers von der Verwaltung gebuhrt mein spezieller Dank, da sie
mir wahrend des Studiums immer eine große und nette vor allem Hilfe war.
Nicht zuletzt mochte ich meinen Eltern danken, die mich wahrend meines
Studiums stets besonders unterstutzt haben.
LITERATUR 87
Literatur
[1] The Comprehensive R Archive Network.
http://www.cran.r-project.org/,
Abruf: 12. September 2009.
[2] Brandt, Johanna ; Jorgl, Daniela: Entscheidungsbaume.
http://www.stat.uni-muenchen.de/~thomas/studium/semakt/
seminar-sose07/material/Brandt-Joergl_Handout.pdf, Oktober
2007
Abruf: 12. August 2009.
[3] Breiman, L. ; Friedman, J. ; Olshen, J. ; Stone, C.: Classification And
Regression Trees. New York & London: Chapman & Hall, 1984.
[4] Bucknix, Wouter ; Verstraeten, Geert ; Poel, Dirk V.: Predicting
customer loyalty using the internal transactional database. In: Expert Sys-
tems with Applications 32 (2007), S. 125–134.
[5] Buschken, Joachim ; Gropp, Marcus: Kundigungsmanagement in
deutschen Krankenkassen.
http://www.ku-eichstaett.de/Fakultaeten/WWF/Lehrstuehle/MKT/
Forschung/practice/HF_sections/content/Studie.pdf,
Abruf: 17. Juli 2009.
[6] Chapman, Pete ; Clinton, Julian ; Kerber, Randy ; Khabaza, Thomas
; Reinartz, Thomas ; Shearer, Colin ; Wirth, Rudiger: CRISP-DM 1.0
/ Step-by-step data mining guide.
http://www.crisp-dm.org/CRISPWP-0800.pdf,
Abruf: 17. Juli 2009.
[7] Clarke, Bertrand ; Fokoue, Ernest ; Zhang, Hao H.: Principles and
Theory for Data Mining and Machine Learning. Berlin: Springer, 2009.
[8] Dietterich, Thomas G.: Ensemble Methods in Machine Learning. In:
Kittler, J. (Hrsg.) ; Roli, F. (Hrsg.): First International Workshop on
Multiple Classifier Systems, Lecture Notes in Computer Science. New York:
Springer, 2000, S. 1–15.
[9] dpa: Erste Krankenkasse erhebt Zusatzbeitrag.
http://www.weser-kurier.de/Artikel/News/Politik/Inland/19505/
Ministerin+Schmidt%3A+30+bis+50+Kassen+sind+genug.html, August
2009
Abruf: 1. September 2009.
LITERATUR 88
[10] Ester, Martin ; Sander, Jorg: Knowledge Discovery in Databases. Berlin:
Springer, 2000.
[11] Faeke, Nina: Außenkontakte der Universitat Konstanz: Altana-Lehrstuhl
auf der CEBIT 2006.
http://kops.ub.uni-konstanz.de/volltexte/2008/6159/pdf/
unikon23.pdf, Juni 2006
Abruf: 13. September 2009.
[12] Fawcett, Tom: ROC Graphs: Notes and Practical Considerations for
Data Mining Researchers.
http://www.hpl.hp.com/techreports/2003/HPL-2003-4.pdf, Januar
2009
Abruf: 24. Juli 2009.
[13] Gregory Piatetsky-Shapiro, Ph.D.: Data Mining Tools Used Poll.
http://www.kdnuggets.com/polls/2009/data-mining-tools-used.
htm, Juni 2009
Abruf: 12. September 2009.
[14] Han, Jiawei ; Kamber, Micheline: Data Mining: Concepts and Techniques.
Amsterdam: Morgan Kaufmann, 2006.
[15] Hilbert, Prof. Dr. A.: Customer Relationship Management (CRM).
http://www.enzyklopaedie-der-wirtschaftsinformatik.
de/wi-enzyklopaedie/lexikon/informationssysteme/
crm-scm-und-electronic-business/Customer-Relationship-Management/,
Abruf: 6. September 2009.
[16] Kriesel, David: Ein kleiner Uberblick uber Neuronale Netze.
http://www.dkriesel.com/_media/science/
neuronalenetze-de-delta-dkrieselcom.pdf,
Abruf: 12. August 2009.
[17] Ligges, Uwe: Programmieren mit R. Berlin: Springer, 2008.
[18] Techniker Krankenkasse: Basisdaten (TK).
http://www.tk-online.de/tk/unternehmen-und-karriere/
ueber-die-tk/basisdaten/8168,
Abruf: 18. September 2009.
[19] Mierswa, Ingo: Approaching Vega (Episode III: Flow vs. Tree).
http://rapid-i.com/component/option,com_myblog/blogger,Ingo+
Mierswa/Itemid,172/lang,de/, August 2009
Abruf: 1. September 2009.
LITERATUR 89
[20] Mierswa, Ingo ; Wurst, Michael ; Klinkenberg, Ralf ; Scholz, Martin
; Euler, Timm: YALE: Rapid Prototyping for Complex Data Mining
Tasks. In: KDD ’06: Proceedings of the 12th ACM SIGKDD international
conference on Knowledge discovery and data mining, New York: ACM,
2006, S. 935–940.
[21] Mihm, Andreas: Erste Krankenkasse erhebt Zusatzbeitrag.
http://www.faz.net/s/Rub594835B672714A1DB1A121534F010EE1/
Doc~EB18A790F4CA9420EA3B0883F5B20239E~ATpl~Ecommon~Scontent.
html, August 2009
Abruf: 1. September 2009.
[22] Neubauer, G. ; Minartz, C.: Krankenversicherungs- und steuerrechtliche
Weiterungen einer Umwandlung von Krankenkassen in privatrechtliche
Unternehmen.
http://ifg-muenchen.com/Aktuelles/Gutachten_ProGenerika_
Privatisierung_der_Krankenkassen.pdf, Februar 2009
Abruf: 24. Juli 2009.
[23] Nuscheler, Robert: Krankenkassenwettbewerb in der GKV: Evidenz fur
Risikoselektion? In: Vierteljahreshefte zur Wirtschaftsforschung 73 (2004),
S. 528–538.
[24] Rutten, Christian ; Schuler, Peter: R-leuchtung. In: c’t (2009), Juni
2009, Nr. 13, S. 166–168.
[25] Schubert, Dr. M.: Skript zur Vorlesung Knowledge Discovery in Data-
bases, Kapitel 3: Klassifikation.
http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD/WS0809/
skript/kdd-3-klassifikation.pdf,
Abruf: 12. August 2009.
[26] Sexauer, Hagen J.: Entwicklungslinien des Customer Relationship Ma-
nagement (CRM). In: Wirtschaftswissenschaftliches Studium 31 (2002), S.
218–222.
[27] Steinwart, Ingo ; Christmann, Andreas: Support Vector Machines. Ber-
lin: Springer, 2008.
[28] Zellner, Gregor: Leistungsprozesse im Kundenbeziehungsmanagement,
Universitat St. Gallen – Hochschule fur Wirtschafts-, Rechts- und Sozial-
wissenschaften (HSG), Diss., Juni 2003.
top related