UNIVERSITAT HAMBURG TECHNISCHE UNIVERSITAT HAMBURG …net-architekt.de/wp-content/uploads/2013/01/Diplomarbeit.pdf · 6 Ermittelte optimale Parameter f ur die kNN-Methode (PKV)

UNIVERSITAT HAMBURG

HOCHSCHULE FUR ANGEWANDTE WISSENSCHAFTEN HAMBURG

TECHNISCHE UNIVERSITAT HAMBURG-HARBURG

Hochschulubergreifender Studiengang Wirtschaftsingenieurwesen

D I P L O M A R B E I T

gemaß. § 20 der

Prufungsordnung vom 25. Mai 2004

Vergleich ausgewahlter Data Mining-Verfahren zur

Prognose von Kundigungswahrscheinlichkeiten

von Krankenkassenmitgliedschaften

Bereich: Integrationsgebiet, Schwerpunkt Wirtschaftswissenschaften

Verfasser: Tobias Baumgartel, Am Sood 40, 22848 Norderstedt

1. Gutachter: Prof. Dr. Gerd Bornmuller

2. Gutachter: Prof. Dr. Stefan Voß

Vorgelegt am: 23. September 2009

Ich erklare hiermit, dass die vorliegende Diplomarbeit ohne fremde Hilfe

selbstandig verfasst wurde und nur die angegebenen Quellen und Hilfsmittel

benutzt worden sind. Wortlich oder sinngemaß aus anderen Werken entnom-

mene Stellen sind unter Angabe der Quelle kenntlich gemacht.

Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen

digitalen Form verwendet wurden, sind der Arbeit beigefugt.

18. September 2009

Hamburg, den Unterschrift

Zusammenfassung

In dieser Arbeit wird die Notwendigkeit der Etablierung eines Kundigungs-

managements im Bereich des Kundenbeziehungsmanagements von Unterneh-

men – insbesondere im Versicherungssektor – dargelegt und Dataminingver-

fahren zur Prognose von Kundigungen der gesetzlichen Krankenversicherung

evaluiert.

Dabei werden sowohl Kundigungen zu einer anderen gesetzlichen Kranken-

kasse als auch Kundigungen in eine private Krankenversicherung prognostiziert.

Die Kundigung zu einer privaten Krankenversicherung ist dabei deutlich

besser zu prognostizieren. Beide Kundigungsarten lassen sich am besten mit

einem neuronalen Netz voraussagen, wobei die fuhrenden Methoden dicht bei-

einander liegen und der Anteil von Ensemble-Methoden hier hoher ist.

Meinen Eltern

Inhaltsverzeichnis

Abbildungsverzeichnis iv

Tabellenverzeichnis vii

Abkurzungsverzeichnis viii

Symbolverzeichnis ix

1 Einleitung 1

1.1 Einfuhrung und Motivation . . . . . . . . . . . . . . . . . . . . . 1

1.2 Ziel dieser Arbeit – die Kundigungsprognose . . . . . . . . . . . . 3

1.3 Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Kundenbeziehungsmanagement 5

2.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Churn Management . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Data Mining 9

3.1 Einordnung in den KDD-Prozess . . . . . . . . . . . . . . . . . . 9

3.2 CRISP-DM – industrieubergreifender Standard des Datamining-

Prozesses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2.2 Referenzmodell . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Elementare Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4 Klassifizierungsmethoden . . . . . . . . . . . . . . . . . . . . . . 12

3.4.1 Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.4.2 ”Lazy Learners“ . . . . . . . . . . . . . . . . . . . . . . . 12

3.4.3 Bayes-Klassifikatoren . . . . . . . . . . . . . . . . . . . . . 13

3.4.4 Lineare/Logistische Regression . . . . . . . . . . . . . . . 14

3.4.5 Entscheidungsbaume . . . . . . . . . . . . . . . . . . . . . 15

3.4.6 Kunstliche neuronale Netze . . . . . . . . . . . . . . . . . 17

3.4.7 Support Vector Machines . . . . . . . . . . . . . . . . . . 21

3.4.8 Ensemble-Methoden . . . . . . . . . . . . . . . . . . . . . 22

3.5 Gutemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.6 Software-Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Versuchsteil 36

4.1 Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1.1 Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1.2 Datenstruktur . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2.1 Prognoseziel . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2.2 Bestimmung der Trainingsmenge . . . . . . . . . . . . . . 37

4.2.3 Auswahl der deskriptiven Variablen . . . . . . . . . . . . 42

4.2.4 Grundaufbau . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3 Kundigungen zur PKV . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.1 kNN – k nearest neighbours . . . . . . . . . . . . . . . . . 43

4.3.2 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . 46

4.3.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . 49

4.3.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . 50

4.3.5 Lineare SVM (Fast Large Margin) . . . . . . . . . . . . . 50

4.3.6 SVM mit RBF-Kernel . . . . . . . . . . . . . . . . . . . . 53

4.3.7 Entscheidungstabelle . . . . . . . . . . . . . . . . . . . . . 55

4.3.8 Naıve Bayes-Klassifikator . . . . . . . . . . . . . . . . . . 55

4.3.9 Bayes-Netz-Generator . . . . . . . . . . . . . . . . . . . . 56

4.3.10 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3.11 Boosting von Entscheidungsbaumstumpfen . . . . . . . . 59

4.3.12 Averaged One-Dependence Estimators – AODE . . . . . . 61

4.3.13 Alternierende Entscheidungsbaume . . . . . . . . . . . . . 61

4.3.14 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4 Kundigungen zur GKV . . . . . . . . . . . . . . . . . . . . . . . 67

4.4.1 Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.4.2 kNN – k nearest neighbours . . . . . . . . . . . . . . . . . 67

4.4.3 Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . 68

4.4.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . 71

4.4.5 Logistische Regression . . . . . . . . . . . . . . . . . . . . 71

4.4.6 Lineare SVM (Fast Large Margin) . . . . . . . . . . . . . 72

4.4.7 SVM mit RBF-Kernel . . . . . . . . . . . . . . . . . . . . 74

4.4.8 Entscheidungstabelle . . . . . . . . . . . . . . . . . . . . . 75

4.4.9 Naıver Bayes-Klassifikator . . . . . . . . . . . . . . . . . . 75

4.4.10 Bayes-Netz-Generator . . . . . . . . . . . . . . . . . . . . 76

4.4.11 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . 76

4.4.12 Boosting von Entscheidungsbaumstumpfen . . . . . . . . 78

4.4.13 Averaged One-Dependence Estimators – AODE . . . . . . 78

4.4.14 Alternierende Entscheidungsbaume . . . . . . . . . . . . . 80

4.4.15 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5 Fazit und Ausblick 83

Literaturverzeichnis 87

Abbildungsverzeichnis

1 Entwicklung Anzahl Krankenkassen . . . . . . . . . . . . . . . . . 2

2 CRM-Komponenten . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Kollaboratives CRM . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Maßnahmendiversifikation im Churnmanagement . . . . . . . . . 8

5 Schritte des KDD-Prozesses . . . . . . . . . . . . . . . . . . . . . 9

6 Phasen des CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . 10

7 Logistische Regressionskurven fur unterschiedliche Logit-Koeffi-

zienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

8 Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungs-

baum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

10 Verschiedene Aktivierungsfunktionen bei kunstlichen Neuronen . 18

9 Modell eines kunstlichen Neurons . . . . . . . . . . . . . . . . . . 18

11 Mogliche Klassifizierungen beim Multilayerperceptron mit einer

verdeckten Schicht . . . . . . . . . . . . . . . . . . . . . . . . . . 20

12 Mogliche Klassifizierungen beim Multilayerperceptron zwei ver-

deckten Schichten . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

13 SVM-Klassifizierung bei linear trennbaren Daten . . . . . . . . . 21

14 Einfluß des Parameters C bei Ermittlung einer SVM-Losung . . . 22

15 Drei Grunde fur das bessere Performen von Ensemblemethoden . 23

16 Beispiel ROC-Analyse . . . . . . . . . . . . . . . . . . . . . . . . 28

17 Beispiel drei unterschiedlicher ROC-Graphen . . . . . . . . . . . 29

18 Entwicklung der Anzahl der Pakete fur R . . . . . . . . . . . . . 30

19 Klassifizierung mit einer SVM mit der Software R . . . . . . . . 31

20 Klassifizierung mit einem MLP mit der Software KNIME . . . . 32

21 Beispiel einer Lernkurvenermittlung im Rapid Miner . . . . . . . 32

22 Geschwindigkeitsvergleiche Data-Mining-Software . . . . . . . . . 33

23 Umfrageergebnis zu eingesetzten Data Mining-Programmen . . . 35

24 Kundigerstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

25 Versuchsaufbau zur Lernkurvenermittlung . . . . . . . . . . . . . 38

26 Lernkurven zur PKV-Kundigung, lineare Mengenachse . . . . . . 38

27 Lernkurven zur PKV-Kundigung, logarithmische Mengenachse . 39

28 Lernkurven zur PKV-Kundigung, Trainingsdauer . . . . . . . . . 39

29 Lernkurven zur GKV-Kundigung, lineare Mengenachse . . . . . . 40

30 Lernkurven zur GKV-Kundigung, logarithmische Mengenachse . 40

31 Lernkurven zur GKV-Kundigung, Trainingsdauer . . . . . . . . . 41

32 Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . 42

33 AUC-Werte beim kNN-Verfahren mit gewichteten und ungewich-

teten euklidischen Entfernungen in Abhangigkeit der Anzahl der

Nachbarn (PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

34 Parameteroptimierung kNN – Gesamtdarstellung (PKV) . . . . . 45

35 Parameteroptimierung kNN – optimaler Bereich (PKV) . . . . . 45

36 Performance kNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

37 Performance kNN mit angepasstem k (PKV) . . . . . . . . . . . 46

38 Parameteroptimierung fur Entscheidungsbaume (PKV) . . . . . 48

39 Performance Entscheidungsbaum unbeschnitten (PKV) . . . . . 49

40 Performance Entscheidungsbaum beschnitten (PKV) . . . . . . . 49

41 Performancevergleich beschnittener und unbeschnittener Entschei-

dungsbaum (PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . 49

42 Performance lineare Regression (PKV) . . . . . . . . . . . . . . . 50

43 Performance logistische Regression (PKV) . . . . . . . . . . . . . 50

44 Parameteroptimierung fur die lineare SVM (PKV) . . . . . . . . 52

45 Performance lineare SVM (PKV) . . . . . . . . . . . . . . . . . . 53

46 Parameteroptimierung fur die SVM mit RBF-Kernel (PKV) . . . 54

47 Performance der SVM mit RBF-Kernel (PKV) . . . . . . . . . . 54

48 Parameteroptimierung fur die Entscheidungstabelle (PKV) . . . 55

49 Performance der Entscheidungstabelle (PKV) . . . . . . . . . . . 56

50 Performance des naıven Bayes-Klassifikators (PKV) . . . . . . . 56

51 Parameteroptimierung fur den Bayes-Netz-Generator (PKV) . . 57

52 Performance des Bayes-Netzes (PKV) . . . . . . . . . . . . . . . 58

53 Parameteroptimierung fur den Random Forest (PKV) . . . . . . 59

54 Performance Random Forest (PKV) . . . . . . . . . . . . . . . . 59

55 Parameteroptimierung fur das Boosting der Baumstumpfe (PKV) 60

56 Performance der geboosteten Baumstumpfe (PKV) . . . . . . . . 60

57 Performance AODE (PKV) . . . . . . . . . . . . . . . . . . . . . 61

58 Performance AODEsr (PKV) . . . . . . . . . . . . . . . . . . . . 61

59 Performancevergleich beider AODE-Methoden (PKV) . . . . . . 62

60 Parameteroptimierung fur den alternierenden Entscheidungsbaum

(PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

61 Performance Alternierender Entscheidungsbaum (PKV) . . . . . 63

62 AUC-Vergleich bei PKV-Kundigung auf den vier Testpartitionen 64

63 AUC-Vergleich bei PKV-Kundigung . . . . . . . . . . . . . . . . 65

64 Parameteroptimierung kNN – Gesamtdarstellung (GKV) . . . . . 67

65 Parameteroptimierung kNN – optimaler Bereich (GKV) . . . . . 67

66 Performance kNN (GKV) . . . . . . . . . . . . . . . . . . . . . . 68

67 Performance kNN mit angepasstem k (GKV) . . . . . . . . . . . 68

68 Parameteroptimierung fur Entscheidungsbaume (GKV) . . . . . 70

69 Performance Entscheidungsbaum (GKV) . . . . . . . . . . . . . . 71

70 Performance lineare Regression (GKV) . . . . . . . . . . . . . . . 71

71 Performance logistische Regression (GKV) . . . . . . . . . . . . . 71

72 Parameteroptimierung fur die lineare SVM (GKV) . . . . . . . . 73

73 Performance lineare SVM (GKV) . . . . . . . . . . . . . . . . . . 74

74 Parameteroptimierung fur die SVM mit RBF-Kernel (GKV) . . . 74

75 Performance der SVM mit RBF-Kernel (GKV) . . . . . . . . . . 75

76 Parameteroptimierung fur die Entscheidungstabelle (GKV) . . . 75

77 Performance der Entscheidungstabelle (GKV) . . . . . . . . . . . 76

78 Performance des naıven Bayes-Klassifikators (GKV) . . . . . . . 76

79 Parameteroptimierung fur den Bayes-Netz-Generator (GKV) . . 77

80 Performance des Bayes-Netzes (GKV) . . . . . . . . . . . . . . . 77

81 Parameteroptimierung fur den Random Forest (GKV) . . . . . . 77

82 Performance Random Forest (GKV) . . . . . . . . . . . . . . . . 78

83 Parameteroptimierung fur das Boosting der Baumstumpfe (GKV) 78

84 Performance der geboosteten Baumstumpfe (GKV) . . . . . . . . 79

85 Performance AODE (GKV) . . . . . . . . . . . . . . . . . . . . . 79

86 Performance AODEsr (GKV) . . . . . . . . . . . . . . . . . . . . 79

87 Performancevergleich beider AODE-Methoden (GKV) . . . . . . 80

88 Parameteroptimierung fur den alternierenden Entscheidungsbaum

(GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

89 Performance alternierender Entscheidungsbaum (GKV) . . . . . 81

90 AUC-Vergleich bei GKV-Kundigung auf den vier Testpartitionen 82

91 AUC-Vergleich bei GKV-Kundigung . . . . . . . . . . . . . . . . 83

92 Normierte Verteilungen der Merkmale bei PKV-Kundigungen . . 85

93 Verteilungen der Merkmale bei GKV-Kundigungen . . . . . . . . 85

(Alle Abbildungen ohne Quellenangabe sind selbst entworfen)

Tabellenverzeichnis

1 Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungs-

baum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Konfusionsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Klassifikationsfalle bei binaren Klassifikationen . . . . . . . . . . 25

4 Beispiel ROC-Analyse, Hypothesen eines naıven Bayes-Klassifi-

kators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Verwendete Variablen . . . . . . . . . . . . . . . . . . . . . . . . 37

6 Ermittelte optimale Parameter fur die kNN-Methode (PKV) . . 44

7 Ermittelte optimale Parameter fur den Entscheidungsbaum (PKV) 47

8 Ermittelte optimale Parameter der linearen SVM (PKV) . . . . . 51

9 Ermittelte optimale Parameter fur die SVM mit RBF-Kernel

(PKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

10 Ermittelte optimale Parameter der Entscheidungstabelle (PKV) . 55

11 Optimale Parameter des Bayes-Netz-Generators (PKV) . . . . . 57

12 Ermittelte optimale Parameter des Random Forests (PKV) . . . 58

13 Ermittelte optimale Parameter fur das Boosting von Entschei-

dungsbaumstumpfen (PKV) . . . . . . . . . . . . . . . . . . . . . 60

14 Optimale Parameter fur PKV-Kundiger und den alternierenden

Entscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . 62

15 AUC-Vergleich bei PKV-Kundigung . . . . . . . . . . . . . . . . 64

16 Ermittelte optimale Parameter fur die kNN-Methode (GKV) . . 68

17 Ermittelte optimale Parameter fur den Entscheidungsbaum (GKV) 69

18 Ermittelte optimale Parameter der linearen SVM (GKV) . . . . 72

19 Ermittelte optimale Parameter fur die SVM mit RBF-Kernel

(GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

20 Ermittelte optimale Parameter der Entscheidungstabelle (GKV) 75

21 Optimale Parameter des Bayes-Netz-Generators (GKV) . . . . . 76

22 Ermittelte optimale Parameter des Random Forests (GKV) . . . 77

23 Ermittelte optimale Parameter fur das Boosting von Entschei-

dungsbaumstumpfen (GKV) . . . . . . . . . . . . . . . . . . . . . 78

24 Ermittelte optimale Parameter fur den alternierenden Entschei-

dungsbaum (GKV) . . . . . . . . . . . . . . . . . . . . . . . . . . 80

25 AUC-Vergleich bei GKV-Kundigung . . . . . . . . . . . . . . . . 82

Abkurzungsverzeichnis

AUC Area under Curve, hier die Flache unter der ROC-Kurve

CART Classification And Regression Trees, Entscheidungsbaumalgorithmus

CHURN Kunstwort aus change und turn, Kundenabwanderung

CRISP-DM Cross-Industry Standard process for Data-Mining

CRM Customer Relationship Management / Kundenbeziehungsmanagement

FLM Fast Large Margin – ein Algorithmus einer linearen SVM

GKV Gesetzliche Krankenversicherung

GUI Graphical User Interface – Grafische Benutzeroberflache

ID3 Iterativer Dichotomiser 3, Entscheidungsbaumalgorithmus

JVM Java Virtual Machine

KDD Knowledge Discovery in Databases

MLP Multilayerperzeptron

OLAP Online Analytical Processing / Systematisches Auswerten von Daten im

Data Warehouse mittels Slicing/Dicing, Drill Down/Roll Up

PKV Private Krankenversicherung

RBF Radiale Basisfunktion

ROC Receiver Operating Characteristic

RSA Risikostrukturausgleich

SVM Support Vector Machine

TK Techniker Krankenkasse

Symbolverzeichnis

δmax Maximaler Abstand bei einer SVM von der Trennungshyperebene zu

beiden Merkmalsgruppen

γ Parameter der Radial-Basis-Funktion, bzw. der sigmoiden Funktion

γ Youden-Index

pt1 geschatzte Wahrscheinlichkeit, dass beim Entscheidungsbaum ein Ob-

jekt im Knoten t zur Klasse 1 gehort

M Merkmalsvektor

ζ Abstand zur Hyperebene bei falsch klassifizierten Objekten wahrend des

Trainings einer SVM

a, b Logit- oder Regressionskoeffizienten bei der logistischen Regression

Ci Zugehorigkeit zur Klasse i

d Anzahl Attribute/Dimensionen

Fα F-Maß

FN False negatives, falschlicherweise als negativ klassifizierte Daten der po-

sitiven Klasse

FP False positives, falschlicherweise als positiv klassifizierte Daten der ne-

gativen Klasse

k Anzahl der zu betrachtenden Nachbarn bei der kNN-Methode

M Anzahl verwendeter Merkmale

MB Anzahl mannlicher Bleiber

MK Anzahl mannlicher Kundiger

n Anzahl Klassen

Nt Gesamtanzahl der Objekte im Knoten t beim Entscheidungsbaum

nt1 Anzahl der Objekte der Klasse 1 im Knoten t beim Entscheidungsbaum

npv Negative predictive value, Negativer Vorhersagewert

P (. . .), p(. . .) Wahrscheinlichkeit

ppv Positive predictive value, Positiver Vorhersagewert

r Anzahl Auspragungen

se Sensitivity, Sensitivitat

sp Specificity, Spezifitat

TN True negatives, richtig klassifizierte Daten der negativen Klasse

TP True positives, richtig klassifizierte Daten der positiven Klasse

TPR True Positive Rate

V Anzahl Versicherte

WB Anzahl weiblicher Bleiber

WK Anzahl weiblicher Kundiger

C Faktor fur die Gewichtung der Klassifizierungsfehler beim Training einer

SVM

1 EINLEITUNG 1

1 Einleitung

1.1 Einfuhrung und Motivation fur die Kundigungsprognose

bei gesetzlichen Krankenversicherungen

Das Thema dieser Arbeit basiert auf den Tendenzen unterschiedlicher wissen-

schaftlicher Gebiete. Auf dem Gebiet des Marketings setzte Mitte der achtzi-

ger Jahre ein Wandel ein. Die Steigerung der Unternehmensprofitabilitat allein

durch transaktionsorientiertes Marketing1 war nicht mehr zielfuhrend.[26] Ur-

sachen dafur waren z.B. zunehmende Sattigung und Transparenz der Markte.

Es begann die Entwicklung des kundenbeziehungsorientierten Marketings. Dem

liegt die Annahme zugrunde, dass es weniger aufwendig ist, einem bereits ge-

wonnenen Kunden ein Produkt zu verkaufen, als einen Neukunden zu gewinnen.

In diesem Zusammenhang wurde der Faktor Kundentreue einer der wichtigsten

im Marketing.[4] Fur Unternehmen, die Produkte mit einer Laufzeit2 verkau-

fen, ist diese Kostendifferenz noch bedeutender. Hier ist es deutlich gunstiger,

einen kundigungswilligen (profitablen) Kunden zum Bleiben zu bewegen, als

einen Neukunden zu akquirieren.

Beispielsweise rechnen Buschkens und Gropp in Ihrer Fallstudie uber Effekte

der Kundenabwanderung einer Gesetzlichen Krankenkasse an einem fiktiven,

aber realistischen Beispiel vor, wie die Vermeidung von 600 Kundigungen einem

Ergebnisbeitrag von ¤ 400.000,- p.a. entsprechen kann.[5]

Ein weiterer Wandel vollzieht sich in den gesetzlichen Rahmenbedingungen

der Krankenkassen, der den Wettbewerb unter Ihnen fordern soll. Seit 1996

konnen Versicherte der GKV ihre Krankenkasse frei wahlen3.[23] Die Kran-

kenkassen konnen eine sogenannte aktive Risikoselektion betreiben, indem sie

sich bei der Akquisition um einen gunstigen Risikopool bemuhen. Um aber

diese Entmischung der Risikostrukturen4 auszugleichen, wurde der (nicht mor-

biditatsorientierte) Risikostrukturausgleich 1994 eingefuhrt (§266 SGB V).[23]1Die Maximierung der Anzahl einzelner Verkaufsabschlusse. Eine Definition findet sich

in [28]:”Transaktionsmarketing ist ein Ansatz der Marketingtheorie mit dem Ziel, einseitige

Transaktionen mit anonymen Kunden – zu denen keine Abhangigkeiten (Wiederholkaufe)

bestehen – mit dem Erfolgskriterium ,Verkauf‘ zu bewirken.“2Man unterscheidet zwischen bestimmten (z.B. Kreditvertrag) oder unbestimmten (z.B.

Versicherungsvertrag) Laufzeiten.3§175, Abs. 1 SGB V:

”Die Ausubung des Wahlrechts ist gegenuber der gewahlten Kran-

kenkasse zu erklaren. Diese darf die Mitgliedschaft nicht ablehnen.[. . . ]“4Es tritt auch passive Risikoselektion auf, vgl. [23].

1.1 EINFUHRUNG UND MOTIVATION 2

2002 wurde der RSA dahingehend reformiert, dass zusatzlich zu den Merk-

malen Alter und Geschlecht auch die Disease-Management-Programme fur die

Versorgung chronisch Kranker bei den Ausgleichzahlungen berucksichtigt wur-

den. Dieser Ausgleich wurde 2009 mit Einfuhrung des morbiditatsorientierten

RSA drastisch verfeinert.

Seit Januar 2009 zahlen alle Beitragszahler den gleichen Beitragssatz. Da-

durch ist der Wettbewerb uber unterschiedliche Beitrage durch die Einfuhrung

des Gesundheitsfonds praktisch weggefallen, sodass sich die Differenzierung der

Krankenkassen verstarkt uber Qualitat und Leistung vollzieht. Krankenkassen,

die mit den Zuweisungen aus diesem Fond nicht auskommen und damit schlech-

ter wirtschaften als andere, konnen von ihren Mitgliedern Zusatzbeitrage erhe-

ben, wobei diese dabei auf ihr Wechselrecht hingewiesen werden mussen.

Die Beitragsdifferenzen zwischen zwei Krankenkassen – der Hauptgrund fur

Wechsel5 – mussen nicht mehr selbst umgerechnet werden, sodass die Transpa-

renz erhoht und die Hurde fur einen Wechsel gesenkt wurde.[23]

400

600

800

1.000

1.200

1.400

Sonstige

BKK

Ersatzkassen

IKK

AOK

0

200

400

600

800

1.000

1.200

1.400

1991 1996 2002 2005 2006 2007 2008 2009(Januar)

Sonstige

BKK

Ersatzkassen

IKK

AOK

Abbildung 1: Entwicklung Anzahl Krankenkassen[22]

Durch diese Verscharfungen des Wettbewerbs setzte eine (von Seiten des

Gesetzgebers erwunschte) Konsolidierung des Marktes ein – unwirtschaftliche

und kleinere Kassen mussten mit anderen fusionieren. Ab 2010 konnen auch ge-

setzliche Krankenkassen Insolvenz anmelden. So ist die Zahl der Krankenkassen

von 1991 bis Anfang 2009 von uber 1.200 auf 202 gesunken (s. Abb. 1).

Am 15. August dieses Jahres hat Bundesgesundheitsministerin Ulla Schmidt

dem Weser Kurier noch einmal ihr Ziel verdeutlicht: die Zahl der Krankenkas-

sen soll sich weiter verringern. Von den zu diesem Zeitpunkt noch etwa 1875Die weiteren Grunde sind dann Arbeitgeberwechsel, Leistungserstattung, Umzug oder

Service.[5]

1.2 ZIEL DIESER ARBEIT – DIE KUNDIGUNGSPROGNOSE 3

Kassen wurden 30–50 Kassen ausreichen, um den Menschen genugend Wech-

selmoglichkeiten zu bieten.[9]

Am 18. August berichtete die Frankfurter Allgemeine Zeitung, dass die Ge-

meinsame Betriebskrankenkasse Koln (GBK) ruckwirkend zum 1. Juli als erste

Kasse einen Zusatzbeitrag von acht Euro pro Monat erhebe – obwohl diese schon

vom Landesverband der Betriebskassen gestutzt werde.[21] Diese acht Euro sind

der Hochstbetrag, der ohne Einkommensprufung erhoben werden kann.

Die dritte Entwicklung, durch die diese Arbeit motiviert ist, sind die ste-

tigen Fortschritte auf dem Gebiet des Data Minings, insbesondere die vielver-

sprechenden Tendenzen auf dem Teilgebiet der Ensemble-Methoden, wie z.B.

random forests oder Boosting schwacher Klassifikatoren.

1.2 Ziel dieser Arbeit – die Kundigungsprognose

Das Ziel dieser Arbeit ist es einerseits, einen Weg zur Identifizierung einer Me-

thode fur die Prognose von Kundigungen von Krankenkassenmitgliedschaften

zu skizzieren. Durch verbesserte Kundigungsprognosen lassen sich signifikante

Einsparungen u.a. im Bereich des Marketings erzielen. Die prazisere Ansprache

von potentiellen Kundigern ermoglicht eine Senkung der Kundigungsrate und

damit einen geringeren Aufwand bei der Akquisition von Neukunden. Dies ist

ebenfalls bei der Finanzplanung durch geringere Schwankungen bei den Ein-

nahmen von Nutzen.

Die Identifizierung der besten Methode ist dabei so wichtig, da schon bei

nur einer nicht erkannten Kundigung gerade bei Krankenkassen deutliche Ein-

nahmeverluste die Folge sind.

Da die verwendeten Daten stark aggregiert sind (s. Abschn. 4.1.1), lasst sich

nicht ausschließen, dass in der Praxis6 ein anderes Verfahren bessere Ergebnisse

erzielen wird.

Es werden die unterschiedlichen Methoden untereinander verglichen und

in eine Rangfolge gebracht. Durch die Wahl der AUC als Gutemaß fur die

Klassifizierung werden nicht die im Einzelnen trainierten Modelle, sondern die

Verfahren an sich verglichen.

1.3 Gliederung der Arbeit

Im ersten Teil dieser Arbeit wird die Kundigungsprognose in ihren betriebs-

wirtschaftlichen Kontext eingeordnet. Als Teil des Churn-Managements ist sie

Teil des Kundenbeziehungsmanagements und wird damit dem Marketingbereich

zugewiesen.

Der zweite Teil beschaftigt sich mit dem Data Mining als Teil des KDD-

Prozesses. Es wird das Referenzmodell, das CRISP-DM – ein industrieuber-6Mit differenzierteren, weniger aggregierten Daten und mehr deskriptiven Variablen.

1.3 GLIEDERUNG DER ARBEIT 4

greifender Standard fur den Data Mining-Prozess – vorgestellt und die elemen-

taren Aufgaben des Data Mining beschrieben. Die grundlegenden Mechanismen

der in dieser Arbeit verwendeten Klassifizierungsmethoden werden dargestellt

und Gutemaße fur die Bewertung dieser Methoden vorgestellt. Schließlich wer-

den drei Software-Produkte beschrieben, die bei der Software-Evaluation in die

engere Wahl gekommen sind.

Anschließend werden Datenbasis, Klassifizierungsaufgaben und der grund-

legende Experimentaufbau dargestellt.

Im praktischen Teil sind die Ergebnisse der Parameteroptimierungen und

die Prognoseguten der verwendeten Klassifizierungsmethoden fur beide Klassi-

fizierungen wiedergegeben.

Im letzten Teil werden schließlich die Schlusse, die aus den Experimenten

gezogen wurden, beschrieben sowie ein Ausblick auf weiterfuhrende Untersu-

chungen gegeben.

2 KUNDENBEZIEHUNGSMANAGEMENT 5

2 Kundenbeziehungsmanagement

2.1 Allgemeines

Wie in der Einfuhrung (s. Abschn. 1.1) erwahnt, setzte ab Mitte der achziger

Jahre in der Marketingwissenschaft die Abkehr vom transaktionsorientierten

Marketing hin zum Relationship Marketing ein. Betrafen vorher die Bemuhun-

gen hauptsachlich die Vorkaufs- und Kaufphase, ruckte von da an die Phase nach

dem Kauf in den Vordergrund. In [28] wird auf Seite 14 auf Studien verwiesen,

die belegen, dass Maßnahmen zur Kundenbindung in vielen Fallen gunstiger

sind, als die Kundenakquisition selbst.

Abbildung 2: CRM-Komponenten [28]

Daraufhin wurden sogenannte Customer Relationship Management Systeme

etabliert, die die langfristige Kundenbindung gewahrleisten sollten. Ein weite-

res Ziel waren die individualisierten Leistungsabstimmungen auf den Kunden.

CRM-Systeme lassen sich hinsichtlich ihrer Aufgabenfelder in strategisches,

operatives und analytisches CRM unterteilen (s. Abb. 2). Im Folgenden wird die

Aufteilung naher beschrieben und diese Arbeit dem Bereich des analytischen

CRM zugeordnet.

Strategisches CRM: Hierbei werden die im analytischen CRM angestellten

Berechnungen und Auswertungen kontrolliert, ggf. uberarbeitet und fur

die Unternehmensplanung verwendet. In der Praxis ist dieser Bereich des

CRMs kaum in CRM-Systeme integriert.

Analytisches CRM: Diese Komponente beschaftigt sich mit dem Sammeln

und Analysieren von kundenbezogenen Daten. Dies sind sowohl Stammda-

2.2 CHURN MANAGEMENT 6

ten zu den Kunden7, wie auch Bewegungsdaten8 und Kundenreaktionen

(wie in dieser Arbeit die Kundigung). Diese Daten werden systematisch

im Data Warehouse gespeichert. Analysiert werden Sie z.B. mittels OLAP

und Data Mining im Rahmen der sogenannten Business Intelligence. Die-

se Auswertungen konnen Churn-Analysen, Kundensegmentierung (Clus-

tering) oder Customer-Lifetime Value Berechnungen sein. Diese Arbeit

uber Kundigungsprognose ist der Churn-Analyse und damit dem analy-

tischen CRM zuzuordnen.

Operatives CRM: Dieser Teil des CRM dient der Unterstutzung der opera-

tiven Prozesse, die direkten Kundenkontakt haben, wie etwa Marketing,

Vertrieb und Kundenservice. Zur Umsetzung dieser Unterstutzung dienen

die Daten und Erkenntnisse des analytischen CRM.

Kommunikatives CRM: Dieser Bereich umfasst das Management aller Kom-

munikationskanale zwischen Kunde und Unternehmen (Mailing, Telefonie,

Internet-Prasenz). Die verschiedenen Kommunikationskanale werden syn-

chronisiert (Multi Channel Management). Einerseits soll der Kunde eine

einheitliche Sicht auf das Unternehmen bekommen, andererseits muss das

Unternehmen eine einheitliche Sicht auf den Kunden bekommen, d.h. ei-

ne komplette Kundenkontakthistorie muss immer aktuell zur Verfugung

stehen.

In der Literatur wird dieser Bereich entweder als eigenstandige CRM-

Komponente [28] oder als Teil des operativen CRM [15] betrachtet. Letz-

teres ist meines Erachtens sinnvoller, da dieser Bereich einen operativen

Prozess darstellt.

Kollaboratives CRM: Dieser Bereich beschreibt die Zusammenarbeit von

Mitarbeitern, Lieferanten und Kunden mit dem Ziel, die Kundenorientie-

rung zu verbessern. Er hat also Schnittmengen mit allen anderen CRM-

Bereichen (s. Abb. 3). [15][28]

2.2 Churn Management

Ein Ziel des CRM ist es, die Kundenprofitabilitat zu erhohen. Einen großen

Beitrag dazu leistet das Churn-Management. Die beiden wesentlichen Teile

sind dabei auf der einen Seite die Erkennung der Kundenwertigkeit und auf

der anderen Seite das Kundigungsrisiko. Beide Bereiche mussen dabei zusam-

men betrachtet werden – bei einem unprofitablen, abwanderungsgefahrdeten

Kunden/Versicherten mussen andere Maßnahmen getroffen werden, als bei ei-

nem profitablen oder einem unprofitablen, aber nicht abwanderungsgefahrde-7Die in dieser Arbeit verwendete Daten sind in Tab. 5 zu sehen.8Mailings, Kampagnen, Telefonate, etc.

2.2 CHURN MANAGEMENT 7

Abbildung 3: Kollaboratives CRM [15]

ten, Kunden (s. Abb. 4). Ziel ist die Konzentration auf profitable Kunden/

Versicherte mit Maßnahmen uber alle Bereiche des Kundenlebenszyklus:

Akquisition: Konzentration auf Kunden mit hoher Bindungs- und Ertrags-

wahrscheinlichkeit. Wie in Abschnitt 1.1 erwahnt, ist diese aktive Risi-

koselektion mit Einfuhrung des morbiditatsorientierten RSA nur noch in

sehr geringem Maße sinnvoll.

Service: Betreiben eines proaktiven Beschwerdemanagements, Differenzierung

der Servicelevel etc..

Kundenbindung: Einfuhrung von Bonusprogrammen.

Prevention/Retention: 9 Vermeidung von Kundigungen, bzw. Ruckgewin-

nung von (profitablen) Kunden.

In dem Bereich der Identifizierung des Abwanderungsrisikos kann das Data

Mining eingesetzt werden. Durch die Identifizierung der abwanderungsgefahrde-

ten Kunden mit großtmoglicher Genauigkeit liefert es die Grundlage fur Kam-

pagnen mit hoher Effizienz und Effektivitat.

9Zum besseren Verstandnis werden vorwiegend die eingefuhrten englischen Begriffe ver-

wendet.

2.2 CHURN MANAGEMENT 8

Abbildung 4: Maßnahmendiversifikation im Churnmanagement [15]

3 DATA MINING 9

3 Data Mining

3.1 Einordnung in den KDD-Prozess

Mit der rasanten Entwicklung der Informationstechnologien erhoht sich nicht

nur die Verarbeitungsgeschwindigkeit von Daten, sondern im Wesentlichen auch

deren Bestand. Es werden immer mehr Daten (meist automatisch) erzeugt,

gesammelt und deren Speicherung immer gunstiger. Damit geht zwangslaufig

die Ubersichtlichkeit verloren – eine manuelle Sichtung der Daten ist praktisch

nicht mehr moglich.

Das war die Motivation fur die Entwicklung des Gebiets Knowledge Disco-

very in Databases. Es ist der Prozess der (semi-)automatischen Extraktion von

Wissen aus Datenbanken, das statistisch gultig, bisher unbekannt und fur eine

gegebene Anwendung potentiell nutzlich ist.

Bei diesem iterativen Prozess lassen sich die funf in Abbildung 5 dargestell-

ten Schritte identifizieren.[10]

Abbildung 5: Schritte des KDD-Prozesses [10]

Das Data Mining im engeren Sinn ist dabei nur ein Schritt in diesem KDD-

Prozess.

3.2 CRISP-DM – industrieubergreifender Standard des Data-

mining-Prozesses

3.2.1 Einfuhrung

1996 begannen die vier Unternehmen DaimlerChrysler, SPSS, NCR und OHRA

einen Standardprozess fur das Data Mining zu entwickeln, der industrie- und

softwareunabhangig ist. Ein Jahr spater einigte man sich hierfur auf das Akro-

nym CRISP-DM (CRoss Industry Standard Process for Data Mining). Im

weiteren Sinn umfasst dieser Data Mining-Prozess auch die Schritte des KDD-

Prozesses, wie Vorverarbeitung und Transformation der Daten und lasst sich

als Lebenszyklus eines Data Mining-Projekts interpretieren.

3.2.2 Referenzmodell

Das entwickelte Modell besteht aus sechs Phasen, die in Abbildung 6 dargestellt

sind.

Die inneren Pfeile in dieser Abbildung symbolisieren lediglich die wichtigsten

und haufigsten Wechsel zwischen den Phasen.

3.2 CRISP-DM – INDUSTRIEUBERGREIFENDER STANDARD DES

DATAMINING-PROZESSES10

Abbildung 6: Phasen des CRISP-DM [6]

Business Understanding: In dieser ersten Phase gilt es, das Ziel des Da-

ta Mining-Projektes aus betriebswirtschaftlicher Sicht zu definieren und

dann als Data Mining-Aufgabe zu formulieren, ein Erfolgskriterium fest-

zulegen und einen Projektplan zu erstellen.

Data Understanding: Die zur Verfugung stehenden Daten und Datenquel-

len werden gesichtet, erste Zusammenhange zwischen den Daten und dem

Problem konnen z.B. durch univariate Datenanalyse (visuell und statis-

tisch) erkannt werden.

Data Preparation: Die ausgewahlten Daten werden entsprechend der Data

Mining-Verfahren konvertiert, fehlende Daten erganzt oder Ausreißer aus-

gefiltert. Irrelevante oder stark korrelierende Daten konnen ausgeschlos-

sen werden. Es konnen auch neue abgeleitete oder aggregierte Attribute

erzeugt werden. Diese Daten werden hier auch physisch fur die Modellie-

rungsphase bereitgestellt (Dateien, Tabellen, Abfragen etc.). Dabei entste-

hen zu den ursprunglichen Daten Redundanzen, derer man sich bewusst

sein muss.

Modeling: Auswahl und Anwendung verschiedener Data Mining Verfahren,

Anpassung ihrer Parameter auf optimale Werte, Trainings- und Testda-

ten werden definiert. Je nach Verfahren mussen die Daten anders prapa-

riert werden, so dass ein Wechsel zwischen der Modellierungs- und der

Praparations-Phase haufig geschieht.

3.3 ELEMENTARE AUFGABEN 11

Evaluation: Nachdem in der vorherigen Phase ein bestimmtes Verfahren ein

gutes Modell erstellt hat, wird es in dieser Phase zum einen noch mal aus-

giebig auf anderen Daten getestet. Zum anderen wird noch einmal gepruft,

ob alle relevanten Daten berucksichtigt wurden und ob nicht nochmal zu

einer anderen Phase (ggf. bis zur ersten) zuruckgegangen werden muss.

Am Ende dieser Phase steht die Entscheidung, ob das gefundene Modell

fur die Data Mining Aufgabe genutzt werden kann.

Deployment: Nachdem ein Modell gefunden und damit Wissen erzeugt wur-

de, muss dieses noch nutzbar gemacht werden. Das kann auf verschiedene

Weisen geschehen, je nachdem was die Aufgabe des Prozesses war. Es kann

ein einfacher Bericht uber die gewonnenen Erkenntnisse sein. Dies kann

aber auch die Integration des Modells in die Ablaufe des Unternehmens

erfolgen. Es muss festgelegt werden, wie lange das Modell gultig sein, also

genutzt werden, soll. Das konnen zeitliche Vorgaben sein oder bestimm-

te Bedingungen (neue Gesetze, neue Produkte, signifikante Anderungen

im Kundenverhalten oder bei verwendeten Technologien).[6] Die zeitli-

che Vorgabe sollte immer gemacht werden, da nicht sichergestellt werden

kann, ob relevante Veranderungen (interne oder externe) erkannt werden

konnen.

3.3 Elementare Aufgaben

Data Mining-Verfahren konnen anhand der Lernart10, mithilfe derer Sie ein

Modell aus den Trainingsdaten erstellen, wie folgt eingeteilt werden:

Uberwachtes Lernen: Dabei sind wahrend des Lern- und Testvorgangs die

zu prognostizierenden Werte bekannt. Zwei Beispiele fur diese Verfahrens-

art sind die Regression und die Klassifikation.

Regression: Zur Vorhersage diskreter Werte (Temperaturen, Borsenkur-

se, Absatzzahlen) konnen Regressions-Methoden eingesetzt werden.

Als einfachstes Beispiel kann hier die lineare Regression genannt wer-

den, die, wie bei jeder funktionalen Regressionsrechnung, durch die

Minimierung der Fehlerquadrate eine Funktion erstellt, welche zu je-

der Merkmalskombination der betrachteten Attribute einen diskre-

ten Wert ausgibt. Entweder muss vorher durch Expertenwissen eine

Verteilung vorgegeben werden (hier eben ein linearer Zusammen-

hang) oder man greift auf nicht parametrische Regressionsmethoden

zuruck, die keine Verteilungsannahmen vorgeben, wie z.B. die Sup-

port Vector Regression.10Zu den Lernarten vgl. Abschn. 3.4.6, S. 17.

3.4 KLASSIFIZIERUNGSMETHODEN 12

Klassifikation: Hier sind die Klassen bekannt (z.B. Tier / Pflanze, Mann

/ Frau oder Hund / Katze / Maus), denen man die Daten zuordnen

will. Das konnen zwei (binare Klassifikation) oder mehr Gruppen

sein. Bei der Bilderkennung konnen die Klassen z.B. Fotos, Irisscans

oder Fingerabdrucke aller Mitarbeiter eines Betrieben sein, die per

Gesichts-, Iris- oder Fingersabdruck-Scan Zutritt zum Betrieb erlan-

gen sollen.

Unuberwachtes Lernen: Hier sind die zu prognostizierenden Werte a priori

nicht bekannt. Es wird also versucht, unbekannte Muster zu erkennen.

Zwei Beispiele fur diese Verfahren sind die Segmentierung und Assoziati-

on.

Segmentierung: In diesem Fall mochte man in den Daten bestimmte

vorher unbekannte Gruppen identifizieren – z.B. zur Marktsegmen-

tierung. Dies ist mit klassischen Methoden moglich, wie der Cluster-

analyse, bei der man mit verschiedenen Ahnlichkeits- oder Distanz-

maßen rechnet. Ein weiteres Beispiel sind sogenannte self organizing

maps oder Kohonennetze. Dabei handelt es sich um kunstliche neu-

ronale Netze, die durch Reduktion der Dimensionen auf eine zweidi-

mensionale Karte (auf der ahnliche Signale nahe beieinander liegen)

mehr oder weniger deutliche Gruppchen erzeugen.

Assoziation: Hier wird versucht, aus Transaktionsfolgen Regeln abzulei-

ten. Ein Beispiel fur die Assoziation ist die Warenkorbanalyse. Ge-

sucht ist ein Muster, das prognostiziert, welches Produkt ein Kunde

zusammen mit anderen kauft. Diese Informationen konnen fur Son-

derangebotsplanung und Cross-Selling genutzt werden.

In dieser Arbeit sind die Klassen vorgegeben, namlich jeweils Kundiger/Nicht-

Kundiger jeweils fur die GKV- und PKV-Kundiger. In dieser Arbeit werden also

Methoden zur Klassifizierung verglichen.

3.4 Klassifizierungsmethoden

3.4.1 Allgemein

Die in dieser Arbeit verwendeten Methoden lassen sich grob in Verfahrensklas-

sen einteilen, die hier kurz beschrieben werden.

3.4.2 ”Lazy Learners“

Die in der Praxis oft als Lazy Learners bezeichneten Verfahren, sind Methoden,

die kein eigentliches Model durch Trainieren erstellen, sondern aus den Trai-

ningsdaten durch einfache Regeln zu jedem zu klassifizierenden Fall eine Klasse

3.4 KLASSIFIZIERUNGSMETHODEN 13

bestimmen. Fur die Klassifizierung wird dabei jedesmal auf die Trainingsdaten

zugegriffen. Das in dieser Arbeit verwendete Verfahren ist gleichzeitig auch das

bekannteste: das k-Nearest-Neighbor-Verfahren. k stellt dabei die Anzahl der

zu betrachtenden Nachbarn des zu klassifizierenden Falles dar – die Zuordnung

geschieht durch eine Mehrheitsentscheidung.

Dieses Verfahren besitzt im wesentlichen zwei Parameter:

Die Anzahl der zu betrachtenden Nachbarn k

Das zur Bestimmung der Nachbarn verwendete Distanz- oder Ahnlich-

keitsmaß

Im Gegensatz zu diesen faulen oder tragen Verfahren gehoren alle weiter

hier beschriebenen Methoden zu den sogenannten Eager Learners, also eifri-

gen Methoden, da sie aus den Trainingsdaten konkrete Regeln bzw. Modelle

erstellen.

3.4.3 Bayes-Klassifikatoren

Bei dieser Art der Klassifikatoren werden Fakten und Regeln mit Hilfe des

Satzes von Thomas Bayes als bedingte Wahrscheinlichkeiten formuliert.

Dabei werden a priori die Wahrscheinlichkeiten der Klassenzugehorigkei-

ten und der Merkmalshaufigkeiten ermittelt und beim Training a posteriori die

Zusammenhange zwischen Klassen und Merkmalen als bedingte Wahrschein-

lichkeiten modelliert. [25]

Der Satz von Bayes zu den bedingten Wahrscheinlichkeiten lautet

P (Ci|M) =P (M|Ci) · P (Ci)

P (M)(1)

=P (M|Ci) · P (Ci)n∑j=1

P (Cj) · P (M|Cj)(2)

Beispiel [25]:

30% der Objekte sind Orangen, die a priori Wahrscheinlichkeit fur die

Klassenzugehorigkeit ist also P (Orange) = 0, 3.

40% der Objekte sind orangefarbig, die a priori Merkmalshaufigkeit ist

also P (orangefarbig) = 0, 4.

90% der Orangen sind orangefarbig, die a posteriori bedingte Wahrschein-

lichkeit fur die Farbe Orange unter der Vorraussetzung, es handelt sich

um eine Orange ist also P (orangefarbig|Orange) = 0, 9.

3.4 KLASSIFIZIERUNGSMETHODEN 14

Wenn man jetzt ein orangefarbiges Objekt klassifizieren mochte, greift man

auf den Satz von Bayes (s. Gl. 1) zuruck:

P (Orange|orangefarbig) =P (orangefarbig|Orange) · P (Orange)

P (orangefarbig)(3)

=0, 9 · 0, 3

0, 4(4)

= 0, 675 (5)

Diesen Wert vergleicht man mit allen anderen bedingten Wahrscheinlichkei-

ten der anderen Klassenzugehorigkeiten, z.B. P (Apfel|orangefarbig) = 0, 1 und

P (Kiwi|orangefarbig) = 0, 225. Da die Summe dieser bedingten Wahrscheinlich-

keiten 1 sein muss, reicht es in diesem Fall schon, dass die Wahrscheinlichkeit

großer als 50% ist, um das Objekt der Klasse Orangen zuzuordnen. In der Pra-

xis nutzt man aus, dass bei allen bedingten Klassenwahrscheinlichkeiten der

Nenner gleich ist (hier also P (orangefarbig)), wobei man nur noch die Zahler

vergleichen muss (dann aber alle). Dabei bestimmt dann ebenfalls das Maxi-

mum die Klassenzugehorigkeit.

In der Praxis wird die Berechnung der bedingten Wahrscheinlichkeiten bei

hoherdimensionalen Attributsvektoren mit vielen Auspragungen sehr schwierig

– es ergeben sich bei d Attributen mit jeweils r Auspragungen rd verschiedene

Merkmalskombinationen. Um aber die Wahrscheinlichkeiten der Merkmalskom-

binationen hinreichend genau schatzen zu konnen, brauchte man deutlich mehr

als diese rd Trainingsdaten.

Bei der Losung dieses Problems macht z.B. der naıve Bayes-Klassifizierer

die Annahme, dass bei jeder Klasse die Merkmale statistisch vollig unabhangig

voneinander sind. Dabei versagt der Klassifikator nicht unbedingt, wenn die

Annahme falsch ist, seine Klassifikationsgute sinkt nur umso starker, je mehr

die Merkmale voneinander abhangig sind. [14]

3.4.4 Lineare/Logistische Regression

Bei der Klassifikation per linearer Regression wird fur jede Klasse eine Regres-

sionsgerade berechnet, wobei fur die Berechnung der jeweiligen Geraden der

Funktionswert auf 1 bei Klassenzugehorigkeit und auf 0 bei nicht Klassenzu-

gehorigkeit gesetzt wird. Bei der Klassifikation wird dann der Regressionswert

fur jede Klasse berechnet – die Regression mit dem hochsten Wert bestimmt die

Klasse. Dabei kommen auch Regressionswerte außerhalb von [0, 1] vor, weshalb

die berechneten Regressionswerte nicht als Wahrscheinlichkeiten interpretiert

werden konnen.

Als Alternative zur Klassifikation per linearer Regression kann auf die lo-

gistische Regression zuruckgegriffen werden. Hier ergibt sich die Wahrschein-

lichkeit der Klassenzugehorigkeit direkt als Regressionswert – bei ihr ist die

3.4 KLASSIFIZIERUNGSMETHODEN 15

abhangige Variable auf den Bereich [0, 1] beschrankt. In ihrer Grundform klas-

sifiziert sie binar, Regressionswerte uber 0,5 weisen dem entsprechenden Fall der

positiven Klasse zu, Werte darunter entsprechend der negativen. Es wird also

nur eine Regressionsgleichung bestimmt, bei der die Koeffizienten per maximum

likelihood Methode geschatzt werden. Sie lautet:

pi = f(xi) =ea+b·xi

1 + ea+b·xi(6)

Die Koeffizienten a und b werden dabei wie bei der linearen Regression

mit Hilfe der Trainingsdaten geschatzt. In Abbildung 7 sind einige Kurven fur

verschiedene Logitkoeffizienten dargestellt.

1Y

1

0.8

0.6

0.4

0.2

exp(5+0.5·x)/(1+exp(5+0.5·x))exp(1+2·x)/(1+exp(1+2·x))(1)/(1+exp(-x))

20 15 10 5 0 -5 -10 -15 -20 0

Xexp(-3+0.4·x)/(1+exp(-3+0.4·x))p( )/( p( ))

Abbildung 7: Logistische Regressionskurven fur unterschiedliche Logit-Koeffizienten

3.4.5 Entscheidungsbaume

Entscheidungsbaume werden erstellt, indem man die gesamten Trainingsdaten

anhand von Regeln rekursiv partitioniert. Sie konnen sowohl fur Regression

als auch fur Klassifikationen verwendet werden – an dieser Stelle werden nur

die Regeln zur Klassifikation beschrieben. Je nachdem welche Regeln benutzt

werden, haben die Algorithmen verschiedenen Bezeichnungen.

In jedem Schritt der Partitionierung wird jeweils ein Attribut (Splitvariable)

und ein Split gesucht, welche die (restlichen) Daten in Bezug auf die Zielvariable

am besten trennt. Ziel ist es, am Ende des Algorithmus moglichst reine Knoten

(Blatter) in Bezug zur Zielvariablen zu erhalten. Zur Bewertung der Splits gibt

es verschiedene Heterogenitatsmaße.

3.4 KLASSIFIZIERUNGSMETHODEN 16

In jedem Schritt werden alle verbliebenen Variablen auf ihre moglichen

Splits gepruft und bewertet. Der Baum wird dann anhand des besten Splits

weiter aufgeteilt.

Bei der binaren Klassifizierung lasst sich an jedem Knoten die geschatzte

Wahrscheinlichkeit berechnen, dass ein Objekt in die Klasse 1 fallt:

pt1 =nt1Nt

(7)

Ubliche Großen fur das Maß der Heterogenitat im Knoten t fur die Klasse 1

sind in Tabelle 1 wiedergegeben. Die vergleichende grafische Darstellung dieser

Maße ist in Abbildung 8 zu sehen.

Gini-Index oder -Koeffizient gt1(pt1) = 2pt1(1− pt1)

Entropie ηt1(pt1) = −pt1 log pt1 − (1− pt1) log pt1 [sic!]

Fehlklassifikationsfehler εt1(pt1) = 1−max(pt1, 1− pt1)

Tabelle 1: Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungsbaum[2]

zu [sic!]: Formel in der Quelle fehlerhaft,

richtig: ηt1(pt1) = −pt1 log pt1 − (1− pt1) log(1− pt1)

0.7Heterogenität

0.6

0.5

0.4

0.3

0.20.2

0.1

1 ( 1 )-x·log(x)-(1-x)·log(1-x)2·x·(1-x)

EntropieGini-IndexFehlklassifikationsfehler

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0

p1-max(x,1-x)

Abbildung 8: Heterogenitatsmaße bei binarer Klassifikation mittels Entscheidungsbaum[2]

Die jeweiligen Heterogenitaten sind bei Gleichverteilung im Knoten, d.h.

bei gleichvielen Objekten beider Klassen, am großten. Die Daten werden so

aufgesplittet, dass der Wert des gewahlten Maßes moglichst klein ist.

Wahlt man nur binare Splits und als Heterogenitatsmaß den Gini-Index,

handelt es sich um den CART-Algorithmus, der erstmals 1984 von Breiman

veroffentlicht wurde.[3] Die Idee binarer Splits ist zum einen die, dass multiple

Splits sich auch durch mehrere binaren Splits darstellen lassen. Zum anderen

3.4 KLASSIFIZIERUNGSMETHODEN 17

teilen sich die Objekte bei multiplen Splits sehr schnell auf, so dass rasch kleine

Knoten entstehen und so die Gefahr des Overfittings steigt.

Der ursprungliche ID3-Algorithmus nutzte multiple Splits und als Splitkri-

terium den Informationsgewinn, also den Informationsunterschied vor und nach

dem Split (Entropie vor − Entropie nach Split). Er wurde durch folgende Er-

weiterungen zum C4.5-Algorithmus verbessert:

Als Splitkriterium wurde das Gewinnverhaltnis (gain ratio) eingefuhrt.

Beschneidung (Pruning).

– Das sogenannte Prepruning verhindert bei Baumerstellung das Wei-

terwachsen, wenn die Gute des nachsten Splits nicht ausreichend ist.

Dieser Schwellenwert muss vorgegeben werden.

– Beim Postpruning wird der Baum nachtraglich wieder gestutzt, um

zu spezialisierte Blatter zu vermeiden.

Eine andere Art des Preprunings, die in dieser Arbeit zusatzlich verwendet

wird, ist die Vorgabe der minimalen Blattgroße. Entstunden nach einem Split

Blatter mit weniger als der vorgegebenen Anzahl von Fallen, wird der Split

nicht durchgefuhrt.

Das Beschneiden ist notwendig, da Entscheidungsbaume zum Overfitting

neigen, d.h. es wird zu detailliert gelernt, sodass die Exploration, also die Pro-

gnosegute, auf unbekannte Daten wieder sinkt. Postpruning erzeugt meist bes-

sere Baume, da hier samtliche Informationen bei der Baumerstellung genutzt

werden.

In der Praxis liegen die Vorteile von Entscheidungsbaumen in der verstand-

lichen Darstellung ihrer Klassifikation, dem Abbilden von nichtlinearen Zusam-

menhangen und der Unempfindlichkeit gegenuber korrelierenden deskriptiven

Variablen11.

Nachteile sind die Empfindlichkeit gegenuber minimalen Anderungen der

Splitpoints – eine kleine Anderung an einem Schwellenwert eines Splits kann zu

einem vollig anderen Baum fuhren.

3.4.6 Kunstliche neuronale Netze

Bei kunstlichen neuronalen Netzen werden Nervenzellenstrukturen der Natur

nachgebildet. Ein Netz besteht aus einfachen Recheneinheiten, den Neuronen

(die Nachbildung der Zellkorper) sowie gerichteten, gewichteten Verbindungen

zwischen diesen (die Nachbildung der Axone).

Uber die Verbindungen werden die Daten (Werte) zwischen den Neuronen

ubertragen, wobei die Verbindungsgewichte entweder verstarkend oder hem-

mend wirken. Diese Gewichte werden wahrend des Trainierens mittels entspre-

chendem Lernalgorithmus angepaßt.11Im Gegensatz z.B. zu den Bayes-Verfahren.

3.4 KLASSIFIZIERUNGSMETHODEN 18

Ein Neuron besteht aus der Eingangsfunktion, auch Propagierungsfunktion

genannt, und einer Transferfunktion. Die Eingangsfunktion sammelt alle ge-

wichteten Ausgaben der dem Neuron vorgelagerten Neuronen und bildet aus

ihnen einen Wert – die Netzeingabe net. Das ist meistens die gewichtete Sum-

me. Diese Netzeingabe dient als Eingabe der Transferfunktion, die entscheidet,

ob und zu welcher Ausgabe es kommt. Bei dem Teil der Transferfunktion, die

entscheidet, ob es zu einer Ausgabe kommt, spricht man von der Aktivierungs-

funktion. Diese simuliert den Schwellenwert der naturlichen Nervenzelle, ab

dem sie feuert, also Ihr Aktionspotential auslost. In Abbildung 10 sind einige

mogliche Funktionen abgebildet.

1

Y

0.75

0.5

0.25

0X

0

-0.25

-0.5

-0.75

1/(1+ ( ))tanh(3x)tanh(x)

5 4 3 2 1 0 -1 -2 -3 -4 -5

-1 sgn(x)1/(1+exp(-2x))1/(1+exp(-x))

Abbildung 10: Verschiedene Aktivierungsfunktionen bei kunstlichen Neuronen

Die binare Schwellenwert- oderx1·w =e1,j 1

x2·w =e2,j 2

xn·w =en,j n

…

Eingangs-funktion

),,( 1 neeå

Transfer-funktion

…

Neuron j

anet

)(neta

Abbildung 9: Modell eines kunstlichen Neurons

Heaviside-Funktion wird dabei

fast nie verwendet, da sie nicht

stetig und damit nicht differen-

zierbar ist. Das in der Praxis fur

das Trainieren von kunstlichen

neuronalen Netzen am haufigs-

ten verwendete Verfahren, der

Backpropagation-Algorithmus, erfordert differenzierbare Funktionen. Beispiele

fur geeignete Funktionen sind der Tangens Hyperbolicus oder die Logistische

Funktion (s. Abschn. 3.4.4).

Bei dem Teil der Aktivierungsfunktion, die den Wert der Ausgabe bestimmt,

handelt es sich fast immer um die Identitat, also um f(x) = x. Diese Funktion

wird Ausgabefunktion genannt und ist meist fur das gesamte Netz einheitlich.

3.4 KLASSIFIZIERUNGSMETHODEN 19

Die Neuronen sind meist in Schichten angeordnet. Die Eingabeschicht uber-

nimmt den Input der zu analysierenden Daten. Die Ausgabeschicht reprasen-

tiert die Antwort des Netzes. Bei den Verbindungen unterscheidet man zwi-

schen strikt vorwarts gerichtete Verbindungen und Netzen mit moglichen Ruck-

kopplungen12. Es sind auch sogenannte Shortcuts moglich, wobei Verbindun-

gen Schichten uberspringen konnen. Falls zwischen der Eingabe- und Ausga-

beschicht keine sogenannte verdeckte Schicht, weder Shortcuts noch Ruckkopp-

lungen vorhanden sind, nennt man das Netz Perceptron.

Auch beim Trainieren eines Netzen gibt es verschieden Algorithmen, wobei

die gangigsten nur die Gewichte zwischen den Neuronen verandern. Andere

andern auch die Topologie des Netzes (Erstellen oder Loschen von Schichten

oder Neuronen, Anderungen an den zwei, bzw. drei Neuronenfunktionen). Man

unterscheidet beim Trainieren die folgenden Lernarten:

Unuberwachtes Lernen: Dem Netz werden nur Eingabemuster prasentiert

und es identifiziert nach dem jeweiligen Algorithmus selbsttatig vorhan-

dene Muster oder Klassen (s. Abschn. 3.3).

Bestarkendes Lernen: Dem Netz wird nach jedem Durchlauf lediglich ein

Wahrheitswert geliefert, der dem Netz nur den Grad der Richtigkeit (oder

Falschheit) angibt.

Uberwachtes Lernen: Hier wird nach jedem Durchlauf die Ausgabe mit dem

korrekten Wert verglichen und anhand der Differenz die Gewichte des

Netzes angepasst.

Diese letzte Art des Lernens ist zwar der Natur am entferntesten, aber

exorbitant zielgerichteter als die anderen beiden. Der bekannteste Algo-

rithmus dieser Art ist der Backpropagation-Algorithmus.

Je nach Topologie des Netzes konnen unterschiedliche Zusammenhange ab-

gebildet werden. Ohne verdeckte Schicht kann das sogenannte Singlelayerpercep-

tron nur linear separierbare Zusammenhange abbilden13. Multilayerperceptrons,

also Netze mit mindestens einer verdeckten Schicht (wie in dieser Arbeit verwen-

det), konnen differenziertere Funktionen abbilden. Mit einer verdeckten Schicht

lassen sich konvexe Polygone klassifizieren und ab zwei verdeckten Schichten las-

sen sich beliebige Zusammenhange durch beliebig viele, sich uberschneidende,

konvexe Polygone abbilden. Diese Klassifizierungen sind zur Verdeutlichung in

Abbildung 11 und 12 zusatzlich grafisch dargestellt.[16]

12Direkte Ruckkopplungen sind Verbindungen zuruck zur Eingabeschicht, indirekte Ruck-

kopplungen gehen nur zu verdeckten Schichten zuruck und laterale Ruckkopplungen verbinden

Neuronen innerhalb einer Schicht.13Es bildet, wie die lineare SVM, eine Hyperebene zwischen den Klassen.

3.4 KLASSIFIZIERUNGSMETHODEN 20

D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (DELTA-DE) dkriesel.com

GFED@ABCi1

@@@@@@@@@

**UUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2

@@@@@@@@@

ttjjjjjjjjjjjjjjjjjjjjjjjjj

GFED@ABCh1

''PPPPPPPPPPPPPPPPP GFED@ABCh2

GFED@ABCh3

wwooooooooooooooooo

?>=<89:;Ω

GFED@ABCi1

~~~~~~~~~~~

@@@@@@@@@

'' )) **

GFED@ABCi2

tt uu ww ~~~~~~~~~~~

@@@@@@@@@

GFED@ABCh1

''PPPPPPPPPPPPPPPPP

--

GFED@ABCh2

@@@@@@@@@

,,

GFED@ABCh3

**

GFED@ABCh4

tt

GFED@ABCh5

~~~~~~~~~~~

rr

GFED@ABCh6

wwnnnnnnnnnnnnnnnnn

qqGFED@ABCh7

@@@@@@@@@GFED@ABCh8

~~~~~~~~~

?>=<89:;Ω

Abbildung 5.10: Wie wir wissen, reprasentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichtsschichten kannman mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbarenGewichtsschichten kann man mit mehreren Polygonen beliebige Mengen modellieren (unten).

68

Abbildung 11: Mogliche Klassifizierungen beim Multilayerperceptron mit einer verdeckten Schicht[16]

D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (DELTA-DE) dkriesel.com

GFED@ABCi1

@@@@@@@@@

**UUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2

@@@@@@@@@

ttjjjjjjjjjjjjjjjjjjjjjjjjj

GFED@ABCh1

''PPPPPPPPPPPPPPPPP GFED@ABCh2

GFED@ABCh3

wwooooooooooooooooo

?>=<89:;Ω

GFED@ABCi1

~~~~~~~~~~~

@@@@@@@@@

'' )) **

GFED@ABCi2

tt uu ww ~~~~~~~~~~~

@@@@@@@@@

GFED@ABCh1

''PPPPPPPPPPPPPPPPP

--

GFED@ABCh2

@@@@@@@@@

,,

GFED@ABCh3

**

GFED@ABCh4

tt

GFED@ABCh5

~~~~~~~~~~~

rr

GFED@ABCh6

wwnnnnnnnnnnnnnnnnn

qqGFED@ABCh7

@@@@@@@@@GFED@ABCh8

~~~~~~~~~

?>=<89:;Ω

Abbildung 5.10: Wie wir wissen, reprasentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichtsschichten kannman mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbarenGewichtsschichten kann man mit mehreren Polygonen beliebige Mengen modellieren (unten).

68

Abbildung 12: Mogliche Klassifizierungen beim Multilayerperceptron zwei verdeckten Schichten[16]

3.4 KLASSIFIZIERUNGSMETHODEN 21

3.4.7 Support Vector Machines

Support Vector Machines (SVM) sind in ihrer Grundform binare Klassifikato-

ren. Es ist ein geometrisches Verfahren, bei dem versucht wird, eine Hyperebene

so im Merkmalsraum zu platzieren, dass sie beide Klassen moglichst gut trennt,

d.h. dass deren Abstand zu beiden Klassen maximal ist (s. Abb. 13).

x1

x2

Kündiger

Nicht Kündiger

max

Merkmal 1

Merk

mal 2

x1

x2

Merkmal 1

Merk

mal 2

i

x1

x2

Merkmal 1

Merk

mal 2

i

kleiner Wert für C großer Wert für C

Abbildung 13: SVM-Klassifizierung bei linear trennbaren Daten

Da die meisten Datensatze nicht direkt linear zu trennen sind, kann man

in SVMs spezielle Funktionen verwenden, um die Daten in hoherdimensionale

Raume zu transformieren und um sie dort linear zu separieren. Der Lernalgo-

rithmus bei der linearen Seperation rechnet nur mit dem Skalarprodukt zweier

Eingabevektoren (Objekte) xiyi. Diese werden mit Hilfe einer Funktion Φ in

einen hoherdimensionalen Raum transferiert, z.B. durch folgende Transforma-

tion:

Φ : (x1, x2) 7→(x2

1,√

2x1x2, x22

)Das neue Optimierungsproblem rechnet jetzt mit dem Skalarprodukt Φ(xi)Φ(yi):

〈Φ (~x) ,Φ (~y)〉 =(x2

1,√

2x1x2, x22,) (y21,√

2y1y2, y22,)

= x21y

21 + 2x1y1x2y2 + x2

2y22

= (x1y1 + x2y2)2

= 〈~x, ~y〉2 =: K(~x, ~y)

Es reicht hier also aus, nur das Quadrat von ~x und ~y im R2 zu berechnen,

um die Daten in einem dreidimensionalen Raum linear zu separieren und damit

eine nichtlineare Trennung im zweidimensionalen Raum vornehmen zu konnen.

Funktionen K, fur die gilt K (~xi, ~yi) = Φ (~xi)·Φ (~yi), heißen Kernel. In der Praxis

findet man fast ausschließlich folgende Kernelfunktionen:

3.4 KLASSIFIZIERUNGSMETHODEN 22

linear: K (~xi, ~yi) := 〈~xi, ~yi〉Radial-Basis-Funktion (RBF): K (~xi, ~yi) := e−γ·|~xi−~yi|2

polynomiell: K (~xi, ~yi) := (〈~xi, ~yi〉+ 1)d

sigmoid: K (~xi, ~yi) := tanh (γ · (~xi − ~yi) + c)

Oft ist es nicht der Fall, dass die Trainingsobjekte alle linear trennbar sind,

auch nicht in hoheren Dimensionen. Ursachen konnen, neben einem nichtlinea-

ren Zusammenhang, Messfehler oder einfach Ausreißer sein. Damit trotzdem

eine Klassifikation moglich ist, werden falsche Klassifikationen erlaubt, jedoch

deren Fehler jeweils mit einem Wert (ζi, Abstand zur Trennebene) ”bestraft“.

Dessen Summe wird mit einem Wert C, der frei wahlbar ist, multipliziert und

dem Optimierungsproblem hinzugefugt wird. Je großer der Wert fur C gewahlt

wird, umso mehr werden die Ausreißer berucksichtigt und deren Fehler mi-

nimiert. Die Maximierung des Abstandes bei der Optimierung findet dabei

weniger Berucksichtigung (s. Abb. 14). Damit nimmt mit steigendem C die

Generalisierungsfahigkeit des Modells ab.x1

x2

Kündiger

Nicht Kündiger

max

Merkmal 1

Merk

mal 2

x1

x2

Merkmal 1

Merk

mal 2

i

x1

x2

Merkmal 1

Merk

mal 2

i

kleiner Wert für C großer Wert für C

Abbildung 14: Einfluß des Parameters C bei Ermittlung einer SVM-Losung.∑n

i=1ζi ·C: Je hoher C gewahlt wird, desto starker werden die Abstande der Fehlklassifika-

tionen berucksichtig, d.h. bei der berechneten Hyperebene werden diese Abstande kleiner.

3.4.8 Ensemble-Methoden

Folgende Idee steckt hinter sogenannten Ensemble-Methoden: man erzeugt meh-

rere Modelle und lasst diese abstimmen. Es existieren drei grundsatzliche Ur-

sachen, warum Ensemble-Methoden in der Praxis sehr gute Modelle liefern:

Der erste Grund ist statistischer Natur. Ein Lernalgorithmus kann als Su-

chen in einem Hypothesenraum H nach der besten Hypothese betrachtet

werden. Hat man relativ wenig Trainingsdaten im Vergleich zur Große

des Hypothesenraumes, entsteht ein statistisches Problem. Man kann vie-

le verschiedene Hypothesen mit der gleiche Vorhersagegute finden. Bildet

man ein Ensemble aus all diese Modellen und mittelt deren Vorhersagen,

3.4 KLASSIFIZIERUNGSMETHODEN 23

reduziert man das Risiko, die falsche bzw. eine schlechte Hypothese zu

wahlen.

In dieser Arbeit fallt dieser Grund nicht ins Gewicht, da hier ausreichend

Daten zur Verfugung stehen.

Der zweite Grund ist rechenspezifischer Natur. Viele Algorithmen durch-

suchen nicht den vollstandigen Hypothesenraum, sondern suchen nur an

einigen Stellen mit bestimmten Hyperradien. Dadurch laufen sie Gefahr,

lokale Optima als Modell zu liefern. Neuronale Netze beispielsweise nutzen

wahrend des Trainings ein Gradientenabstiegsverfahren bei der Minimie-

rung der Fehlerfunktion mit dem Risiko, in einem lokalen Optimum zu

landen. Bei dieser Suche starten sie an einem zufalligen Punkt (zufallige

Initialisierung der Gewichte).

Der dritte Grund ist konzeptioneller Natur. Die wahre Funktion/Hypo-

these des Problems ist gar nicht durch den gewahlten Algorithmus auf-

findbar, d.h. sie ist gar nicht in dem Hypothesenraum, der durchsucht

wird, vorhanden. Durch die gewichtete Summe mehrerer gefundener Hy-

pothesen kann der Raum, der durch die einzelnen Hypothesen durchsucht

wird, erweitert werden. Wie in Abschnitt 3.4.6 erwahnt, kann ein Mul-

tilayerperceptron mit zwei verdeckten Schichten jede Hypothese finden.

Der Hypothesenraum ist also unbegrenzt. In der Praxis ist dieser aber

durch die Trainingsmenge begrenzt.

Die drei Grunde sind in Abbildung 15 nochmals visualisiert.

h1

h2

h3

h4

fh1

h2

h3

f

h1

h2

h3

f

a) b) c)

Abbildung 15: Darstellung der drei grundsatzlichen Ursachen fur die Verbesserung von Modellen durch

Ensemble-Methoden, H ist der Hypothesenraum, f stellt die wahre Hypothese dar, hx sind

die gefundenen Hypothesen:

a) statistisch (zu wenig Trainingsdaten)

b) rechenspezifisch (lokale Optima)

c) konzeptionell (wahre Losung nicht im Methoden-Losungsraum)

Vgl. [8]

Vier Beispiele fur Ensemble-Methoden, von denen zwei in dieser Arbeit ver-

wendet werden, sind Bagging, Boosting, Stacking und die Random Forests.

3.5 GUTEMASSE 24

Bagging: Bagging ist ein Akronym fur Bootstrap Aggregation. Bootstrapping

ist eine Methode, Stichproben mit Zurucklegen zu ziehen. Beim Bagging

werden nun per Bootstrapping n Modelle trainiert und dann durch Mehr-

heitsentscheidung die jeweilige Klasse vorrausgesagt. Eine Analogie ware

in der Diagnostik die Befragung mehrerer Arzte, die alle unterschiedliche

Ausbildungen und Erfahrungen gemacht haben.

Boosting: Die Vorgehensweise ist ahnlich dem Bagging, nur dass hier nach je-

der Bildung eines Modells die Vorhersagegute auf den Testdaten ermittelt

wird und die Daten, die falsch vorhergesagt wurden, beim Trainieren des

nachsten Modells hoher gewichtet werden. Die Modelle werden also ite-

rativ gebildet, wahrend bei Bagging die Modelle parallel erstellt werden

konnen. [14]

Stacking: Hierbei werden n− 1 Modelle parallel erstellt und deren Prognosen

bilden n− 1 neue Attribute, die dann das n-te Modell fur seine Prognose

nutzen kann. Hier ist es moglich, Modelle unterschiedlicher Verfahren zu

nutzen, was den durchsuchbaren Hypothesenraum erweitert.

Random Forest: Dies ist eine spezielle Art des Baggings mit unbeschnitte-

nen Entscheidungsbaumen. Zusatzlich zu dem parallelen Erstellen von n

Modellen wird bei der Bildung jedes einzelnen Entscheidungsbaums nur

ein sehr kleiner Teil der Attribute verwendet. Bei M gesamten Attributen

werden in der Praxis meist lg(M) + 1 oder√M Attribute zufallig fur

jeden Baum ausgewahlt.

3.5 Gutemaße

Um die Gute eines Modells oderpositiv negativ

positiv TP FPnegativ FN TN

Wahre Klasse

Vorhergesagte Klasse

Tabelle 2: Konfusionsmatrix

seines zugrunde liegenden Verfahrens

zu quantifizieren, bedarf es eines ge-

eigneten Gutemaßes. Die Auswahl die-

ses Gutemaßes ist durch das Ziel, wel-

ches die Klassifikation erfullen soll, geleitet. Sollen moglichst viele Falle einer

Klasse erkannt werden oder sollen so wenig falsche Klassifizierungen einer Klasse

wie moglich entstehen? Ausschlaggebend sind also zum einen der Nutzen einer

richtigen Klassifizierung und zum anderen die jeweiligen Kosten der Fehlklas-

sifikation. Kosten und Nutzen konnen dabei verschiedener Art sein (Umsatz,

Gesundheit, Wahlerstimmen etc.).

Das Ergebnis einer binaren Klassifikation laßt sich als Konfusionsmatrix

oder Kontingenztabelle darstellen, in der die absoluten (oder relativen) Anzah-

len der vier moglichen Klassifikationen eingetragen werden (s. Tab. 3).

Viele Gutemaße lassen sich aus diesen vier Werten berechnen.

3.5 GUTEMASSE 25

TP True positives, richtig als positiv klassifizierte Falle

TN True negatives, richtig als negativ klassifizierte Falle

FP False positives, falschlicherweise als positiv klassifizierte Falle

FN False negatives, falschlicherweise als negativ klassifizierte Falle

Tabelle 3: Klassifikationsfalle bei binaren Klassifikationen

Sensitivitat se:14 Anteil der als positiv erkannten Falle von allen wirklich

positiven Fallen:

se =TP

TP + FN(8)

Oder durch bedingte Wahrscheinlichkeiten ausgedruckt:

se = P (positive Klassifikation|positiv) (9)

se =P (positive Klassifikation und positiv)

P (positiv)(10)

Spezifitat sp: Anteil der als negativ erkannten Falle von allen wirklich nega-

tiven Fallen:

sp =TN

TN + FP(11)

Durch bedingte Wahrscheinlichkeiten:

sp = P (negative Klassifikation|negativ) (12)

sp =P (negative Klassifikation und negativ)

P (negativ)(13)

Positiver Vorhersagewert ppv:15 Anteil der richtig als positiv erkannten Falle

unter allen als positiv erkannten Fallen:

ppv =TP

TP + FP(14)

Negativer Vorhersagewert npv: Anteil der richtig als negative erkannten

Falle unter allen als negativ erkannten Fallen:

npv =TN

TN + FN(15)

Diese vier Gutemaße haben alleinstehend kaum Aussagekraft. So hat etwa

eine Klassifikation, die alle Falle als positiv einordnet, eine ideale Spezifitat von

1, obwohl sie trivial ist. Gleiches gilt entsprechend fur die anderen drei Maße.

Diese vier Werte sind dafur Bestandteil kombinierter Gutemaße, wobei komple-

mentare Maße wie Sensitivitat mit Spezifitat oder Sensitivitat mit positivem

Vorhersagewert verknupft werden.14Auch Recall (r) oder true positive rate (TPR) genannt.15Auch Prazision (p) genannt.

3.5 GUTEMASSE 26

Youden-Index γ: Er berechnet sich aus der Sensitivitat und Spezifitat und

nimmt Werte zwischen −1 und 1 an. Ein Test gilt als vernunftig, wenn

der Youden-Index großer als Null ist. Er gibt die Verbesserung gegenuber

einer zufalligen Klassifizierung an. In einer ROC-Analyse ist er maximal

am idealen Cutpoint, d.h. an dem Punkt, an dem der Abstand der ROC-

Kurve zur ersten Winkelhalbierenden maximal ist.

γ = se− (1− sp) (16)

γ = se+ sp− 1 (17)

Fα-Maß: Dieses Maß ist das (gewichtete) harmonische Mittel aus Sensitivitat

und positivem Vorhersagewert. Angenommen se wird mit α gewichtet und

ppv mit 1, dann ist das gewichtete F-Maß:

Fα =1

1α+1

(αse + 1

ppv

) (18)

=(α+ 1)se · ppvse+ α · ppv

(19)

In der Praxis wird im Data Mining fast ausschließlich das ungewichtete

(α = 1) F1-Maß (oder F-Maß) verwendet:

F1 =2se · ppvse+ ppv

(20)

Weitere ubliche Gewichte sind α = 0, 5 und α = 2, die jeweils die Sensiti-

vitat oder den positiven Vorhersagewert doppelt gewichten.

Separationsindex psep: Dieses Metamaß kann man aus positivem und nega-

tivem Vorhersagewert bilden. Es gibt an, wie gut die Klassen separiert

werden.

psep = ppv + npv − 1 (21)

AUC: Die AUC ist der Flacheninhalt unter der ROC-Kurve (area under cur-

ve). Die ROC-Kurve ist die receiver operating characteristic-Kurve.

Die AUC ist in dieser Arbeit das Maß, welches fur die Bewertung der Gute

der Verfahren verwendet wird. Die ROC-Kurve ergibt sich, indem in einem kar-

tesischen Koordiantensystem alle moglichen Kombinationen von Spezifitat und

Sensitivitat abgetragen werden. Auf der Ordinate wird dabei se, auf der Ab-

szisse 1−sp abgetragen. Der Punkt (0, 0) gehort zu einer Sensitivitat von 0 und

einer Spezifitat von 1 – hier werden also samtliche Falle der negativen Klasse

zugeordnet. Im Punkt (0, 1) betragen beide Werte 1. Daraus folgt: Sensitivitat

und Spezifitat sind 1, d.h. ein Klassifikator trennt beide Klassen perfekt ohne

Fehler. Oben rechts im Koordinatensystem, im Punkt (1, 1), ist die Spezifitat 1

3.5 GUTEMASSE 27

und die Sensitivitat 0, das bedeutet der Klassifikator erkennt samtliche Falle

als positiv.

Ein Klassifikator, der rein nach der Klassenzugehorigkeitswahrscheinlichkeit

trennt, erscheint im ROC-Graphen auf der Diagonalen zwischen (0, 0) und (1, 1)

– er hat also keinen Vorhersagewert. Ein Klassifikator, der Informationen aus

den Daten extrahieren soll, muss also im Raum uber dieser ersten Winkelhal-

bierenden liegen. Damit sollte auch die Flache unter seiner ROC-Kurve großer

als 0,5 sein, um besser als reines Raten zu sein.

Die ROC-Kurve erhalt man nun, indem fur einen Klassifikator jede Kombi-

nation von Sensitivitat und Spezifitat abgetragen wird und diese Punkte ver-

bunden werden.

Liefert ein Klassifikator die Wahrscheinlichkeit einer Klassenzugehorigkeit,

werden Sensitivitat und Spezifitat des Modells fur jeden Schwellenwert zwischen

0 und 1 ermittelt und in dem ROC-Graph abgetragen. Falls ein Klassifikator

keine Wahrscheinlichkeiten liefert, kann nur ein Punkt im ROC-Raum abgetra-

gen werden. Manchmal konnen die Wahrscheinlichkeiten aber abgeleitet werden.

Ein Beispiel hierfur ist der Entscheidungsbaum. Er liefert als Prognose nur die

Klassenzugehorigkeit. Die Wahrscheinlichkeiten konnen aber durch die Vertei-

lungen in den Blattern dargestellt werden. Sind in einem Blatt 60% der Falle

positiv, prognostiziert das Verfahren bei einem Datensatz, der in diesem Blatt

landet, die positive Klasse. Die Wahrscheinlichkeit betragt somit 0,6, dass es

sich um einen positiven Fall handelt.

Liegt die ROC-Kurve eines Klassifikators nun uber der eines anderen, kann

man diesen als besser bezeichnen. Uberschneiden sich aber die beiden Kurven,

ist die Rangfolge schwieriger zu bestimmen. Ein Weg, diese Klassifikatoren zu

vergleichen, ist der AUC-Wert, also die Flache unter der ROC-Kurve.

Diese Flache hat eine wichtige statistische Eigenschaft. Sie entspricht der

Wahrscheinlichkeit, dass der Klassifikator einen zufallig gezogenen positiven

Fall eher der positiven Klasse zuordnet, als einen zufallig gezogenen negativen

Fall. Das ist gleichbedeutend mit dem Wilcoxon-Rangsummentest oder dem

Mann-Whitney-U-Test. Außerdem entspricht die doppelte Flache zwischen der

Diagonalen und der ROC-Kurve dem Gini-Index:

Gini = 2(AUC − 0, 5) (22)

Gini+ 1 = 2AUC (23)

Der optimale Schwellenwert fur die Wahrscheinlichkeit ist der, welcher den

Punkt, der von der Diagonalen am weitesten entfernt ist, liefert. Dieser Abstand

entspricht dem Youden-Index (s.o.).

Ein großer Vorteil von ROC-Kurven ist deren Unempfindlichkeit gegenuber

ungleichen Klassenverteilungen, wie sie in dieser Arbeit vorliegen

(s. Abschn 4.1.1).[12]

3.5 GUTEMASSE 28

Beispiel: Ein naıver Bayes-Klassifikator klassifiziert zehn Testdaten wie in Ta-

belle 4 angegeben.

Fall Klasse Hypothese P(positiv)

1 + + 0,99999

2 + + 0,99999

3 + + 0,99993

4 + + 0,99986

5 + + 0,99964

6 + + 0,99955

7 - + 0,68139

8 - + 0,50961

9 - - 0,48880

10 - - 0,44951

Tabelle 4: Beispiel ROC-Analyse, Hypothesen eines naıven Bayes-Klassifikators

Offensichtlich trennt dieser Klassifikator nicht optimal; die Trefferrate ist

80%. Wenn man aber den ROC-Graphen erstellt, sieht man, dass man mit

diesem Modell einen perfekten Klassifikator erstellen kann (s. Abb. 16). Die

Ursache ist, dass der Klassifikator bei einem Schwellenwert von 0,5 zwischen

den Klassen trennt und dabei zwei Falle falsch klassifiziert. Andert man diesen

Schwellenwert aber auf 0,7, so trennt das Modell perfekt.

0 6

0,8

1,0

e Ra

tetä

t)

Schwellenwert 0,5

Schwellenwert 0,6

0,2

0,4

0,6

Tru

e po

sitiv

e(S

ensit

ivi

Schwellenwert 0,7

0,0

,

0,0 0,2 0,4 0,6 0,8 1,0False positive rate

(1 Spezifität)(1-Spezifität)

Abbildung 16: Beispiel ROC-Analyse

Ein Beispiel fur drei ROC-Kurven aus dieser Arbeit ist in folgender Abbil-

dung 17 dargestellt.

3.5 GUTEMASSE 29

Abbildung 17: Beispiel drei unterschiedlicher ROC-Graphen

3.6 SOFTWARE-EVALUATION 30

3.6 Software-Evaluation

Vor Beginn der Experimente wurden diverse Open-Source-Software evaluiert.

In die engere Wahl kamen folgende drei:

R: Dies ist das kostenlose Opensource-Pendant zum kommerziellen Statistik-

paket S-Plus, im Weiteren kurz S genannt. Es wurde 1995 unter der Ge-

neral Public License veroffentlicht. R hat eine rasante Entwicklung ge-

nommen, da es weitgehend kompatibel zu S, frei von Lizenzbarrieren und

durch Pakete beliebig erweiterbar ist.

”. . . eine breite Gemeinde von Wissenschaftlern, Studenten

und Firmenanalytikern ist sich einig, dass R heute in der Statis-

tik eine ahnliche Rolle spielt, wie fruher einmal so kostspielige

Anwendungen wie SPSS und SAS.“[24]

Aufgrund der weitgehenden Kompatibilitat von R zu S, hat S mittlerweile

fast vollstandig an Bedeutung verloren.[24]

Die Anzahl der frei verfugbaren Pakete ist exponentiell gewachsen

(s. Abb. 18) und lag am 12. September 2009 bei 1.968.[1]

Abbildung 18: Entwicklung der Anzahl der Pakete fur R[24]

Es werden alle moglichen Gebiete, die mit Zahlen zu tun haben, abgedeckt

(Statistik, Bildbearbeitung, Akustik, Simulationen). Fur die verschiede-

nen Data-Mining-Aufgaben (Variablenselektion, Parameteroptimierung,

Methoden) stehen unterschiedliche Pakete zur Verfugung. Das Paket klass

enthalt z.B. die k-Nearest-Neighbour-Methode, das Paket e1071 bein-

haltet Funktionen zu Support Vector Machines und der Naıve-Bayes-

Klassifikation, aber auch Routinen zur Parameteroptimierung. Im Paket

klaR ist eine verbesserte Implementierung der Naıve-Bayes-Klassifikation

enthalten, aber auch Methoden fur die schrittweise Variablenselektion und

3.6 SOFTWARE-EVALUATION 31

Funktionen fur die Berechnung unterschiedlicher Gutemaße fur Klassifi-

kationen.[17]

Ein Beispiel fur eine Klassifizierung mit einer SVM in R ist in Abbil-

dung 19 zu sehen.

Abbildung 19: Klassifizierung mit einer SVM mit der Software R

Fur R gibt es auch ein Paket (RWeka), das samtliche Methoden des

WEKA-Projektes zuganglich macht. WEKA ist eine Sammlung von Al-

gorithmen maschinellen Lernens, welche ebenfalls quelloffen ist und fur

die ein GUI existiert. Da samtliche Methoden dieses Projektes in den

drei hier evaluierten Produkten zusatzlich zur Verfugung stehen, wurde

WEKA selbst nicht evaluiert.

KNIME: Der Konstanz Information Miner entstand an der Universitat Kon-

stanz und ist eine in Java programmierte Software speziell fur das Data

Mining. Es wurde 2006 zum ersten Mal auf der CeBIT vorgestellt.[11]

Sein Vorteil gegenuber R ist die grafische Oberflache und die Moglichkeit,

komplexe Workflows grafisch zusammenzustellen. Durch Plugins ist auch

diese Software beliebig erweiterbar, insbesondere die bestehende Integra-

tion von R erweitert diese Software um samtliche Moglichkeiten, die R bie-

tet. Wie oben bereits erwahnt, sind hier ebenfalls alle WEKA-Methoden

integriert. Ein Beispiel fur eine Klassifizierung mit einem Multilayerper-

ceptron in KNIME ist in Abbildung 20 dargestellt.

Rapid Miner: Der Rapid Miner entstand 2001 unter dem Namen YALE (”Yet

Another Learning Environment“) an der TU Dortmund.[20] Es han-

delt sich ebenfalls um eine integrierte Entwicklungsumgebung fur Da-

ta Mining-Prozesse mit grafischer Oberflache. Hier werden die Prozesse

nicht als Graph, sondern in einer Baumstruktur mit geschichtetem Da-

tenfluss dargestellt. Das macht die Prozesse weniger ubersichtlich als die

Graphenstruktur, weswegen die Entwickler fur die nachste Version (Ver-

sion 5) ebenfalls diese Darstellung zur Verfugung stellen werden. In dem

Blog der Entwickler gibt einer der Programmierer ein Beispiel dafur, wie

3.6 SOFTWARE-EVALUATION 32

Abbildung 20: Klassifizierung mit einem MLP mit der Software KNIME

Abbildung 21: Beispiel einer Lernkurvenermittlung im Rapid Miner

die Graphenstruktur einen scheinbar linearen Prozesses klarer und eben

teilweise als parallel darstellt. In der Entwicklungsversion sind beide Dar-

stellungsarten integriert und in dem Blog als Screenshots verglichen.[19]

”Clear design, explicit flows, same effort. Looks to me that the

new flow design will turn out to become the winner of the chal-

lenge ,flow vs. tree‘.“

Die Darstellung von Data Mining-Workflows ist im ubrigen auch Standard

in den fuhrenden kommerziellen Produkten (SPSS Clementine, SAS Enterprise-

Miner, etc.).

Die Wahl fur die Data Mining-Experimente dieser Arbeit fiel auf die Soft-

ware Rapid Miner. KNIME ist zwar am intuitivsten zu bedienen, es fehlen aber

Methoden zur Variablenselektion oder Lernkurvenermittlung. Auch bei der Va-

riablenmanipulation bietet die Software weniger Moglichkeiten als der Rapid

3.6 SOFTWARE-EVALUATION 33

Miner und nicht zuletzt sind nativ am wenigsten Data Mining-Methoden vor-

handen. Selbst bei den WEKA-Methoden fehlen einige, andere funktionieren

nicht, wie beispielsweise die libsvm-Implementierung16. Ein weiterer gravieren-

der Nachteil ist, dass die Software beim Speichern die Parameter der WEKA-

Nodes nicht mit abspeichert.

R bietet von sich aus weniger Methoden als z.B. WEKA. So ist beispiels-

weise bei den Entscheidungsbaumen durch das rpart-Paket nur der CART-

Algorithmus implementiert, nicht aber der ID3, bzw. dessen Weiterentwicklung

C4.5. Pakete fur Entscheidungstabellen oder Stacking konnten nicht gefunden

werden. Alle diese Methoden konnen aber, wie erwahnt, uber das RWeka-Paket

angesprochen werden. Bei der Geschwindigkeit wurden zwei der zeitaufwendigs-

ten Methoden getestet: ein Random Forest mit 1.000 Baumen und eine SVM

mit RBF-Kernel.

100

RandomForest1000 Trees, 2 Features, gini-index 1000,0

C‐SVM; gamma=0.1; C=100

70

80

90

R

100,0

50

60

70

ningszeit [s]

KNIME (R, randomForest)

KNIME (Weka)

RM

RM (Weka)

10,0

rain

ings

zeit

[s]

20

30

40Trai

1,0

T

R (e1071)

KNIME

RM (libsvm)

0

10

0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000

0,10 5.000 10.000 15.000 20.000 25.000 30.000

Anzahl Samples Anzahl Samples

Abbildung 22: Geschwindigkeitsvergleiche Data-Mining-Software

KNIME war mit großem Abstand am langsamsten – sogar bei den WEKA-

Methoden oder der direkten Nutzung von R innerhalb von KNIME war das

deutlich langsamer als R selbst (s. Abb. 22).

Bei dem Vergleich von R und dem Rapid Miner konnten bei der SVM kei-

ne Unterschiede festgestellt werden. Beide Implementierungen sind die glei-

chen17. Beim Random Forest schließlich war R halb so schnell wie der Ra-

pid Miner, obwohl die verwendete Community-Version des Rapid Miners auf

einen Prozessor-Kern beschrankt ist. R und KNIME standen acht Kerne zur

Verfugung18. Gerade beim Random Forest hatte das zu signifikanten Unter-

schieden fuhren mussen, da dieses Verfahren massiv parallelisierbar ist. R ist16Die JVM konnte den Pfad zu den Java-Klassen nicht finden. Jegliche Manipulation der

Umgebungsvariablen CLASSPATH waren nicht erfolgreich. In diversen Internetforen kann

man Berichte uber dieses Problem finden, aber keine Losung.17libsvm18Intel Core i7-920, also vier echte und vier virtuelle Kerne (Hyperthreading) a 2,66 GHz.

3.6 SOFTWARE-EVALUATION 34

eine universelle Software fur eine anscheinend unbegrenzte Art von Aufgaben,

erfordert aber einen verhaltnismaßig großen Einarbeitungsaufwand. Es besitzt

von sich auch keine grafische Oberflache, sein Schwerpunkt liegt bei statisti-

schen Aufgaben. Das Suchen nach Data Mining-Methoden ist aufwendig – sie

mussen erst im Paket-Repository gefunden und einzeln installiert werden.

Zu diesem Thema interessant, aber keinesfalls einflussnehmend auf die Soft-

wareauswahl, sind Umfragen wie z.B. die von Knowledge Discovery Nuggets.

Seit 2000 werden jedes Jahr Unternehmen nach der eingesetzten Data-Mining-

Software befragt, dabei sind Mehrfachnennungen moglich. Abbildung 23 zeigt

diese Ergebnisse seit 2005. Da die kommerziellen Produkte keine einheitlichen

Kosten verursachen, kann man aus ihrem Ranking nicht direkt auf deren Leis-

tungsfahigkeit schließen. Bei den kostenlosen Losungen ist diese schon eher

moglich, da aber nichts uber die Art, Große und die Verteilung der befrag-

ten Unternehmen bekannt ist und damit auch nichts uber die Einsatzgebiete

der Software, darf deren Ranking keinesfalls Grundlage fur eine Softwareaus-

wahl sein. So arbeitet beispielsweise See519 nur mit Entscheidungsbaumen und

Wenn-Dann-Regeln. Damit ist es offensichtlich nicht fur einen Vergleich unter-

schiedlicher Data Mining-Verfahren geeignet.

19Die Windows-Implementation heißt See5, die fur Linux C5.0.

3.6

SO

FT

WA

RE

-EVA

LU

AT

ION

35

100

120 18% Rapid MinerRWekaKNIME

60

80

14%

16% Andere freie SoftwareOrangeC4.5/C5.0/See5SPSS ClementineSASExcel

20

40

10%

12%

SAS Enterprise MinerIBM I-minerZementisGhostMinerEqubitsSQL-ServerKXEN

0

S C

lem

enti

neR

apid

Min

erSA

SE

xcel

erpr

ise

Min

er RE

igen

er C

ode

Wek

aK

XE

NM

AT

LAB

elle

Sof

twar

eK

NIM

Ere

ie S

oftw

are

SQL-

Serv

erZe

men

tis

Dat

a M

inin

gSt

atis

tica

Tre

eNet

/RF

Ora

nge

Ang

oss

5/C

5.0/

See5

fere

nce

for

Rin

er (

S-P

lus)

Meg

aput

erV

isco

very

Bay

esia

hink

Ana

lyti

csX

elop

esri

o A

naly

tics

SPSS

Min

eset

Gor

nik

IBM

I-m

iner

Equ

bits

Gho

stM

iner

Vis

umap

Tib

eriu

sM

odel

Bui

lder

8%

10% KXENEigener CodeMATLABAndere kommerzielle SoftwareOracle Data MiningStatisticaSalford CART/MARS/TreeNet/RF

SPSS

SAS

Ent

e E

And

ere

kom

mer

zie

And

ere

fr

Ora

cle

D

Salfo

rd C

AR

T/M

AR

S/ C4. In

Insi

ghtf

ul M T

h

Cla

Fair

Isaa

c M

4%

6%

Salford CART/MARS/TreeNet/RFAngossInference for RInsightful Miner (S-Plus)MegaputerViscoveryBayesia

2%

4% BayesiaThinkAnalyticsXelopesClario AnalyticsSPSSMinesetGornik

0%2005 2006 2007 2008 2009

VisumapTiberiusFairIsaac Model Builder

Abbildung 23: Umfrageergebnisse von KDnuggets.com zur eingesetzten Data Mining-Software in Unternehmen.

links: Absolute Anzahl der Unternehmen 2009, die die jeweilige Softwarelosung einsetzen (kostenlose Software grun).

rechts: Relativer Anteil der Software-Losungen im Verlauf von 2005 – 2009 (kostenlose Software fett).

Daten von [13].

4 VERSUCHSTEIL 36

4 Versuchsteil

4.1 Datenbasis

4.1.1 Datenerhebung

Fur diese empirische Studie hat die Techniker Krankenkasse (TK)20 eine Stich-

probe von Mitgliedern im Alter bis 45 Jahren zur Verfugung gestellt, die – zum

Teil aus Datenschutzgrunden – folgende Kriterien erfullt:

Die anonymisierten Daten sind in Gruppen von mindestens funf Mitglie-

dern zusammengefasst.

Am 1. Januar 2006 bestand eine nicht gekundigte TK-Mitgliedschaft.

Die Kundigungsquote ist auf 50% angereichert.

Mannliche und weibliche Mitglieder sind je zur Halfte vertreten.

Der Stichtag zur Ermittlung des Wertes der abhangigen, also zu prognosti-

zierenden, Variablen (Kundigung Ja/Nein) war der 1. Januar 2009. Es wurde

also ermittelt, wer ab dem 1. Januar 2006 innerhalb der nachsten drei Jahre

kundigt (Kundigung Ja) oder zum 1. Januar 2009 weiterhin TK-Mitglied war

(Kundigung Nein).

Um die letzten beiden Anforderungen zu erfullen, wurde folgendes Optimie-

rungsproblem gelost:

a ·MK + b ·WB + c ·MB + d ·WK = V → max (24)

Nebenbedingungen:

a·MK(d·WK+b·WB)d·WK(a·MK+c·MB ) = MK(WK+WB)

WK(MK+MB) konstantes Kundigungs-

quotenverhaltnis

MK+WKV = 0, 5 Kundigungsverhaltnis

von 50%

MK+MBV = 0, 5 Geschlechterverhaltnis

50%

0 ≤ a, b, c, d ≤ 1 Faktoren zwischen 0

und 1Mit den errechneten Gewichten wurden die entsprechenden Datensatze per

Zufallsgenerator ausgesiebt und fur diese Arbeit zur Verfugung gestellt. Es han-

delt sich insgesamt um 202.769 Mitglieder.20Mit ihren aktuell 7,3 Millionen Versicherten ist sie die großte Krankenkasse

Deutschlands.[18]

4.2 VERSUCHSAUFBAU 37

4.1.2 Datenstruktur

Es konnten schließlich neun Variablen verwendet werden (s. Tab. 5).

Variable Typ

Altersgruppe 1–3 numerisch

Berufsgruppe 4 Gruppen nominell

Bildungsniveau 4 Gruppen nominell

Mitgliedschaftsdauer in Monaten 9, 27, 48, 90, 240 numerisch

Anzahl mitversicherte Familienmitglieder 0–3 (3 bedeutet ≥ 3) numerisch

Geschlecht 2 Gruppen nominell

Personengruppe 5 Gruppen nominell

Bundesland 16 Gruppen nominell

Letzter Versicherungstrager 3 Gruppen nominell

Tabelle 5: Verwendete Variablen

4.2 Versuchsaufbau

4.2.1 Prognoseziel

In dieser Arbeit werden mit den ausgewahlten Methoden zwei Klassifikationen

durchgefuhrt.

Die Kundiger wechseln entweder

Bleiber50%

GKV30% PKV

20%

Kündiger50%

Bleiber50%

GKV30% PKV

20%

Kündiger50%

Abbildung 24: Kundigerstruktur

in die private Krankenversicherung

oder zu einer anderen gesetzlichen

Versicherung. Es werden also die bei-

den Klassifikationen GKV-Kundiger

(Wechsel zur GKV) Ja/Nein und PKV-

Kundiger (Wechsel zur PKV) Ja/Nein

durchgefuhrt.

4.2.2 Bestimmung der Trainingsmenge

Da hier fur eine Data Mining-Aufgabe vergleichsweise viele Daten zur Verfugung

standen, war es moglich, durch Lernkurven die optimale Trainingsmenge fur die

verwendeten Verfahren zu ermitteln. Dazu wurden 10% der Daten (20.277 Da-

tensatze) als Testpartition festgelegt und mit den restlichen Daten (182.492 Da-

tensatze) die Modelle trainiert. Dabei wurde die Trainingsmenge von 0,09% in

39 linearen Schritten zu 2,25 Prozentpunkten auf 87,84% (197.903 Datensatze)

erhoht (s. Abb. 25).

Diese Lernkurven wurden fur alle Methoden und beide Klassifikationen er-

mittelt. Gleichzeitig zur Klassifikationsgute AUC wurde auch die Trainingszeit

gemessen (s. Abb. 28 ff.).

4.2 VERSUCHSAUFBAU 38

Trainingsmenge 0,09% –90% (39 Schritte)

Testmenge 10%

Abbildung 25: Versuchsaufbau zur Lernkurvenermittlung

0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

Lernkurven zur Prognose der PKV-Kündiger.

0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

g

Links lineare, rechts logarithmische Trainigsmengenac

0,660

0,680

,RF

DT

MLP

0,660

0,680

,RF

DT

MLP

Trainigsmengenachse.

0,680 Logistic

Bo100 McDSt

0,640

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge

0,640

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge20.00020.000

0,620

0,640

0,660

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

DecisionTable

SVM_RBF

Lernkurven zur Prognose der GKV-Kündiger.

Links lineare

0,640

0,660

0,680 Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

0,540

0,560

0,580

0,600

AU

C

_

LinReg

AODE

AODEsr

RF

DT

MLP

Links lineare, rechts logarithmische Trainigsmengenachse.

0,560

0,580

0,600

0,620

AU

C

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

RF

DT

0,500

0,520

0,540

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge0,500

0,520

0,540

,

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

MLP

20.000Stichprobengröße der Trainingsmenge0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge

Abbildung 26: Lernkurven zur PKV-Kundigung, lineare Mengenachse

4.2 VERSUCHSAUFBAU 39

0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

Lernkurven zur Prognose der PKV-Kündiger.

0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

g

Links lineare, rechts logarithmische Trainigsmengenac

0,660

0,680

,RF

DT

MLP

0,660

0,680

,RF

DT

MLP

Trainigsmengenachse.

0,680 Logistic

Bo100 McDSt

0,640

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge

0,640

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge20.00020.000

0,620

0,640

0,660

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

DecisionTable

SVM_RBF

Lernkurven zur Prognose der GKV-Kündiger.

Links lineare

0,640

0,660

0,680 Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

0,540

0,560

0,580

0,600

AU

C

_

LinReg

AODE

AODEsr

RF

DT

MLP

Links lineare, rechts logarithmische Trainigsmengenachse.

0,560

0,580

0,600

0,620

AU

C

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

RF

DT

0,500

0,520

0,540

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge0,500

0,520

0,540

,

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

MLP

20.000Stichprobengröße der Trainingsmenge0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge

Abbildung 27: Lernkurven zur PKV-Kundigung, logarithmische Mengenachse

16 00040 Logistic

14.000

16.000

35

Bo100_McDSt

ADTree

FLM

NaiveBayes

10 000

12.000

25

30

MLP

[s]

BayesNetGen

DecisionTable

LinReg

AODE

8.000

10.000

20

M_

RB

F un

d M

aini

ngsd

auer

[s] AODEsr

RF

DT

kNN

4 000

6.000

10

15

auer

kN

N,

SVM

Tra SVM_RBF

MLP

2.000

4.000

5

10

Tra

inin

gsda

00

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge

Abbildung 28: Lernkurven zur PKV-Kundigung, Trainingsdauer

4.2 VERSUCHSAUFBAU 40

0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

Lernkurven zur Prognose der PKV-Kündiger.

0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

g

Links lineare, rechts logarithmische Trainigsmengenac

0,660

0,680

,RF

DT

MLP

0,660

0,680

,RF

DT

MLP

Trainigsmengenachse.

0,680 Logistic

Bo100 McDSt

0,640

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge

0,640

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge20.00020.000

0,620

0,640

0,660

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

DecisionTable

SVM_RBF

Lernkurven zur Prognose der GKV-Kündiger.

Links lineare

0,640

0,660

0,680 Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

0,540

0,560

0,580

0,600

AU

C

_

LinReg

AODE

AODEsr

RF

DT

MLP

Links lineare, rechts logarithmische Trainigsmengenachse.

0,560

0,580

0,600

0,620

AU

C

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

RF

DT

0,500

0,520

0,540

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge0,500

0,520

0,540

,

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

MLP

20.000Stichprobengröße der Trainingsmenge0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge20.000Abbildung 29: Lernkurven zur GKV-Kundigung, lineare Mengenachse

0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes0,760

0,780Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

Lernkurven zur Prognose der PKV-Kündiger.

0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr0,700

0,720

0,740

AU

C

kNN

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

g

Links lineare, rechts logarithmische Trainigsmengenac

0,660

0,680

,RF

DT

MLP

0,660

0,680

,RF

DT

MLP

Trainigsmengenachse.

0,680 Logistic

Bo100 McDSt

0,640

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge

0,640

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge20.00020.000

0,620

0,640

0,660

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

DecisionTable

SVM_RBF

Lernkurven zur Prognose der GKV-Kündiger.

Links lineare

0,640

0,660

0,680 Logistic

Bo100_McDSt

ADTree

FLM

NaiveBayes

kNN

BayesNetGen

0,540

0,560

0,580

0,600

AU

C

_

LinReg

AODE

AODEsr

RF

DT

MLP

Links lineare, rechts logarithmische Trainigsmengenachse.

0,560

0,580

0,600

0,620

AU

C

BayesNetGen

DecisionTable

SVM_RBF

LinReg

AODE

AODEsr

RF

DT

0,500

0,520

0,540

100

1.00

0

10.0

00

100.

000

Stichprobengröße der Trainingsmenge0,500

0,520

0,540

,

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

MLP

20.000Stichprobengröße der Trainingsmenge0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

Stichprobengröße der Trainingsmenge Abbildung 30: Lernkurven zur GKV-Kundigung, logarithmische Mengenachse

4.2 VERSUCHSAUFBAU 41

16.00040 Logistic

14.00035

Bo100_McDSt

ADTree

FLM

N i B

10.000

12.000

25

30

und

MLP

[s]

NaiveBayes

BayesNetGen

DecisionTable

LinReg

8.00020

N,

SVM

_RB

F

aini

ngsd

auer

[s]

AODE

AODEsr

RF

4 000

6.000

10

15T

rain

ings

zeit

kNTra DT

kNN

SVM_RBF

MLP

2.000

4.000

5

10 T MLP

00

0

10.0

00

20.0

00

30.0

00

40.0

00

50.0

00

60.0

00

70.0

00

80.0

00

90.0

00

100.

000

110.

000

120.

000

130.

000

140.

000

150.

000

160.

000

170.

000

180.

000

190.

000

200.

000

1 1 1 1 1 1 1 1 1 1 2

Stichprobengröße der Trainingsmenge

Abbildung 31: Lernkurven zur GKV-Kundigung, Trainingsdauer

4.2 VERSUCHSAUFBAU 42

Wie die Messwerte zeigen (s. Abb. 26, 27, 29, 30), reicht eine Trainings-

menge von 20.000 Datensatzen aus, um ausreichend nah an das Maximum der

Prognosegute fast aller Methoden zu gelangen. Mit dieser Menge wurden an-

schließend die Parameteroptimierungen durchgefuhrt – außer bei der Support

Vektor Maschine mit RBF-Kernel (libsvm-Implementierung). Bei dieser steigt

die Trainingszeit mit der Trainingsmenge uberproportional an, sodass dort nur

mit 10.000 Datensatzen und einer doppelten Kreuzvalidierung (also Trainings-

und Testdatensatzgroße von 5.000 Datensatzen) die Parameter in angemesse-

ner Zeit optimiert werden konnten. Wie in Abbildung 28 zu sehen, betragt die

Trainingszeit einer SVM mit RBF-Kernel z.B. bei ca. 100.000 Datensatzen hier

fast funf Stunden. Mit anderen Parameterwerten (steigendem C und sinkendem

γ) steigt diese sogar weiter an.

Der gesamte Versuchsaufbau besteht aus dem Bereich der Parameteropti-

mierung, bei dem per funffacher Kreuzvalidierung entsprechend pro Parameter-

kombination funf mal auf 20.000 Datensatzen trainiert und auf ca. 5.000 Da-

tensatzen die Performance ermittelt wird. Aus den ubrigen Daten wurden vier

Testpartitionen erstellt, auf denen die Modelle mit den ermittelten optimalen

Parametern entsprechend angewandt wurden. Der Aufbau ist in Abbildung 32

skizziert.

Trainingsmenge 0,9% –90% (39 Schritte)

Testmenge 10%

Parameter-optimierung

Performance-Messungen

A B C D

5× 5× 5× 5× 5×

≈ 20.000

≈ 25.000

≈ 35.600

≈ 44.500

Abbildung 32: Experimentaufbau

4.2.3 Auswahl der deskriptiven Variablen

Auf die sogenannte Featureselection wurde verzichtet, da diese bei nur neun

unabhangigen Variablen keine signifikante Verbesserung verspricht. Es wurden

diverse Versuche mit Vorwarts- und Ruckwartsselektion sowie der Bruteforce-

Methode mit einigen Verfahren durchgefuhrt, wobei maximal zwei Variablen

herausfielen, ohne dabei wirkliche Verbesserungen zu bewirken.

4.2.4 Grundaufbau

Mit der ermittelten Mindesttrainingsmenge von 20.000 Datensatzen (s. 4.2.2)

wurden die Parameter der verwendeten Verfahren optimiert. Da die Implemen-

tierung der evolutionaren Parameteroptimierung nicht mit nominellen Parame-

4.3 KUNDIGUNGEN ZUR PKV 43

tern funktioniert, wurde fast immer ein Gridsearch verwendet. Die Optimierung

wurde semiautomatisch iterativ durchgefuhrt. Wenn wahrend der Optimierung

Parameterbereiche auffielen, die nicht zu Verbesserungen fuhrten, wurden diese

manuell angepasst.

4.3 Kundigungen zur PKV

4.3.1 kNN – k nearest neighbours

4.3.1.1 Datenmodellierung Obwohl es sich bei diesem Verfahren um ein

geometrisches handelt, erlaubt die Implementierung auch nominelle Merkmale.

In samtlichen Vorversuchen ergab aber die Konvertierung nomineller Attribute

in binominelle (True/False) und anschließend in numerische (0, 1) die besten

Resultate.

4.3.1.2 Parameteroptimierung Bei dem kNN-Verfahren wurden drei Pa-

rameter verwendet:

k (numerisch): Anzahl der benachbarten Punkte, die betrachtet werden sol-

len. Geprufter Bereich: 1 ≤ k ≤ 10.001.

Abstands- oder Ahnlichkeitsmaß (nominell): Maß zur Berechnung des

Abstandes oder der Ahnlichkeit, verwendet wurden folgende Abstands-

maße:

Euclidean distance

Manhattan distance

Canberra distance

Chebyshev distance

Dynamic-time-warping distance

Folgende Ahnlichkeitsmaße wurde verwendet:

Correlation similarity

Cosine similarity

Dice similarity

Jaccard similarity

MaxProduct similarity

Inner product similarity

Overlap similarity

gewichtetet Abstimmung (nominell): Die Stimmen der einzelnen Nach-

barn werden entsprechend ihres Abstandes gewichtet, d.h. weiter entfernte

Nachbarn werden weniger gewichtet.

Werte: True/False.

4.3 KUNDIGUNGEN ZUR PKV 44

Aufgrund der nominellen Parameter konnte nur ein Gridsearch eingesetzt

werden. Die Berechnung der Dynamic-Time-Warping-Abstande wurden wegen

sehr hoher Berechnungszeiten21 und schlechter Performance abgebrochen. Die

Canberra-Ahnlichkeit ließ sich nur ungewichtet berechnen.

Bei fast allen Distanzen erzielte die gewichtete Berechnung hohere AUC-

Werte. Als Beispiel sind hier die Werte der euklidischen Distanz abgebildet

(s. Abb. 33). Daraufhin wurden nur noch die gewichteten Distanzen aller Ab-

stands- und Ahnlichkeitsmaße untersucht.

Euclidean distance

0 75

0,80

0 70

0,75

0,65

0,70

UC

0,60

0,65

A

AUC (gewichtete Distanz)

0,55

AUC (ungewichtete Distanz)

0,501 10 100 1.000 10.000

k

Abbildung 33: AUC-Werte beim kNN-Verfahren mit gewichteten und ungewichteten euklidischen Entfer-

nungen in Abhangigkeit der Anzahl der Nachbarn (PKV)

Das Ergebnis dieser Parameteroptimierung ist in Abbildung 34 zu sehen.

Der euklidische und der Manhattan-Abstand erzielten die besten Werte – der

entscheidende Bereich ist nochmals dataillierter in Abbildung 35 dargestellt.

Der Ubersichtlichkeit halber sind nur die Standardabweichungen der euklid-

schen und des Manhatten-Abstands abgebildet. Die so ermittelten optimalen

Parameter sind in Tabelle 6 dargestellt.

k: 200

Abstands- oder Ahnlichkeitsmaß: Manhattan distance

gewichtete Abstimmung: True

Tabelle 6: Ermittelte optimale Parameter fur die kNN-Methode (PKV)

4.3.1.3 Performance Das Ergebnis auf den Partitionen A–D ist in Abbil-

dung 36 zu sehen.21Ca. 45 Minuten fur eine Berechnung. Bei funffacher Kreuzvalidierung, gewichteten und

ungewichteten Distanzen sowie ca. 240 verschiedener Werte fur k hatte das eine reine Berech-

nungszeit von knapp achzig Tagen bedeutet.

4.3 KUNDIGUNGEN ZUR PKV 45

0,7500

0,8000

Distance Measures

Euclidean distance

Manhatten distance

0,6000

0,6500

0,7000

C

Chebychev distance

Correlation similarity

Dice similarity

Inner product

0 4000

0,4500

0,5000

0,5500A

UC Inner product

similarityJaccard similarity

Max product similarityOverlap similarity

0,3000

0,3500

0,4000

1 10 100 1000 10000

k

Dynamic timewarping distanceCanberra distance

k

0,7850

0,7900Distance Measures

Euclidean distance

Manhatten distance

0,7750

0,7800

AU

C

0,7650

0,7700

0,760030 80 130 180 230 280 330 380 430 480

k

Abbildung 34: Parameteroptimierung kNN – Gesamtdarstellung (PKV)

0,7500

0,8000

Distance Measures

Euclidean distance

Manhatten distance

0,6000

0,6500

0,7000

C

Chebychev distance

Correlation similarity

Dice similarity

Inner product

0 4000

0,4500

0,5000

0,5500

AU

C Inner product similarityJaccard similarity

Max product similarityOverlap similarity

0,3000

0,3500

0,4000

1 10 100 1000 10000

k

Dynamic timewarping distanceCanberra distance

k

0,7850

0,7900Distance Measures Euclidean distance

Manhatten distanceCorrelation similarityCorrelation similarity

0,7750

0,7800

AU

C

Dice similarityInner product similarityJaccard similarityOverlap similarity

0 7600

0,7650

0,7700

0,760030 80 130 180 230 280 330 380 430 480

k

Abbildung 35: Parameteroptimierung kNN – optimaler Bereich (PKV)

0 7850

0,7900

0,7800

0,7850

0,7700

0,7750

0,7600

0,7650

0,7500

0,7550

A B C DAUC 0,7739 0,7708 0,7687 0,7698

0,7500

Standardabweichung 0,0075 0,0038 0,0043 0,0046

Abbildung 36: Performance kNN

Um auszuschließen, dass bei diesem Verfahren der Parameter k von der Trai-

ningsmenge abhangig ist, wurde dieser Parameter noch einmal entsprechend

folgender Uberlegung variiert: bei der Parameteroptimierung wurde mit einer

Trainingsmenge von 20.000 Datensatzen gearbeitet – bei der Anwendung auf

den vier Testpartitionen aber mit ca. 35.600 Datensatzen. Wenn man in beiden

4.3 KUNDIGUNGEN ZUR PKV 46

Fallen mit der gleichen Anzahl von Nachbarn arbeitet, sind im zweiten Fall die

Volumina der Hyperraume (im euklidschem Fall der Hyperspharen) um den zu

klassifizierenden Punkt kleiner als im ersten Fall. Der Merkmalsraum wird nicht

erweitert, sondern seine Dichte nimmt zu. Zwar unterscheiden sich die Volumi-

na um die einzelnen Falle, da die Dichte ja nicht homogen ist, aber im Mittel

ist sie eben optimal fur k = 200 bei einer Dichte, die 20.000 Datensatze errei-

chen. Um sicherzustellen, dass nicht der Radius, sondern wirklich die Anzahl

der Nachbarn des zu klassifizierenden Punktes entscheidend ist, wird der Para-

meter k nochmals der erhohten Dichte entsprechend auf 356 (200 · 3560020000 = 356)

angehoben.

Wie das in Abbildung 37 dargestellte Ergebnis zeigt, ist der Parameter k

nicht in der angesprochenen Weise von der Trainingsmenge abhangig.

0,7900AUC optimiert

0,7800

0,7850p

AUC angepasst

0 7700

0,7750

0,7650

0,7700

0,7550

0,7600

0,7500A B C D

Abbildung 37: Performance kNN mit angepasstem k (PKV)

4.3.2 Entscheidungsbaum

4.3.2.1 Datenmodellierung Die Implementierung dieses Verfahrens er-

laubt nominelle und numerische Merkmale, alle Vorversuche ergaben aber die

besten Resultate mit nominellen Merkmalen. Entsprechend wurden die drei

numerischen Attribute in nominelle konvertiert. Diese Untersuchungen ergaben

auch deutliche Verschlechterungen bei binaren Splits (entsprechen dem CART-

Algorithmus), weswegen diese nicht verwendet wurden, womit das Verfahren

dem C4.5-Algorithmus entspricht.

4.3.2.2 Parameteroptimierung Bei dem Entscheidungsbaum wurde die

Weka-Implementierung J48 verwendet (eine Reimplementierung des C4.5-Algo-

rithmus, Version 8), da diese nicht auf binare Splits beschrankt ist und

M (numerisch): minimale Anzahl von Instanzen pro Blatt: 1 ≤ k ≤ 41.

U (boolsch): Unbeschnittener Baum: True/False.

A (boolsch): Ob die Laplace-Glattung verwendet werden soll: True/False.

4.3 KUNDIGUNGEN ZUR PKV 47

C (numerisch): Konfidenz-Grenzwert (Schwellenwert) bei Beschneidung:

0, 01 ≤ C ≤ 1.

R (boolsch): Ob bei Beschneidung diese reduziert durchgefuhrt werden soll:

True/False.

N (boolsch): Bei reduzierter Beschneidung, wieviele Pruningsets betrachtet

werden sollen: 2, 3, 4, 5, 6.

S (boolsch): Ob bei reduzierter Beschneidung keine Unterbaume gebildet wer-

den sollen: True/False.

Da hier einige Parameter nur in Abhangigkeit von anderen Parametern vari-

iert werden konnten (z.B. kann eine reduzierte Beschneidung nur durchgefuhrt

werden, wenn auch beschnitten wird), mussten hier verschiedene Gridsearches

separat durchgefuhrt werden. Einmal fur unbeschnittene Baume, fur beschnit-

tene und fur reduziert beschnittene Baume.

Die Ergebnisse sind in Abbildung 38 zu sehen. Danach ist der optimale

Baum unbeschnitten. Mit den ermittelten Parametern (s. Tab. 7) erreicht diese

Methode eine AUC zwischen 0, 65 und 0, 69 (s. Abb. 39).

M (minimale Blattgroße): 11

A (Laplaceglattung): True

Tabelle 7: Ermittelte optimale Parameter fur den Entscheidungsbaum (PKV)

Da aber gerade unbeschnittene Baume in der Regel uberangepaßt sind, wur-

de noch ein Versuch mit den optimalen Parametern des beschnittenen Baumes

durchgefuhrt (M = 11, A=True, C = 0, 51).

4.3.2.3 Performance Die Ergebnisse bestatigen diese Vermutung und sind

deutlich besser (s. Abb. 40 und 41).

4.3

KU

ND

IGU

NG

EN

ZU

RP

KV

48

0,76

0,78

0,80

0,62

0,64

0,66

0,68

0,70

0,72

0,74

AU

C

AUC ohne Laplace-Glättung

AUC (mit Laplace-Glättung)

unbeschnitten

0,65

0,70

0,75

0,80

0,65

0,70

0,75

0,80

0,65

0,70

0,75

0,80

0,601 6 11 16 21 26 31 36 41

Minimale Blattgröße

0 30

0,35

0,40

0,45

0,50

0,55

0,60

,

AU

C

0 30

0,35

0,40

0,45

0,50

0,55

0,60

,

AU

C

0 30

0,35

0,40

0,45

0,50

0,55

0,60

,

AU

C

beschnitten

0,300 10 20 30 40

minimale Blattgröße

0,300 0,2 0,4 0,6 0,8 1

Konfidenzgrenzwert für Beschneidung

0,300 1

Laplaceglättung

0,76

0,78

0,80

0,76

0,78

0,80

0,76

0,78

0,80

0,76

0,78

0,80

reduzierteBeschneidung

0 62

0,64

0,66

0,68

0,70

0,72

0,74

AU

C

0 62

0,64

0,66

0,68

0,70

0,72

0,74

AU

C

0,62

0,64

0,66

0,68

0,70

0,72

0,74

AU

C

0 62

0,64

0,66

0,68

0,70

0,72

0,74

AU

C

0,60

0,62

0 10 20 30 40

Minimale Blattgröße

0,60

0,62

2 3 4 5

Betrachtetet Pruningsets

0,60

0,62

0 1kein Wachsen von

Unterbäumen

0,60

0,62

0 1

Laplaceglättung

Abbildung 38: Parameteroptimierung fur Entscheidungsbaume (PKV)

4.3 KUNDIGUNGEN ZUR PKV 49

0,6900

0,7100

0,7300

0,7650

0,7700

0,7750

0,7800

0,6100

0,6300

0,6500

0,6700

0,7450

0,7500

0,7550

0,7600

,

A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055

0,5900A B C D

AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050

0,7400

0,7500

0,7700AUC pruned

0,6700

0,6900

0,7100

0,7300AUC optimiert

A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0 6503 0 6936 0 6523 0 6589

0,6300

0,6500

AUC optimiert 0,6503 0,6936 0,6523 0,6589

Abbildung 39: Performance Entscheidungsbaum unbeschnitten (PKV)

0,6900

0,7100

0,7300

0,7650

0,7700

0,7750

0,7800

0,6100

0,6300

0,6500

0,6700

0,7450

0,7500

0,7550

0,7600

,

A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055

0,5900A B C D

AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050

0,7400

0,7500

0,7700AUC pruned

0,6700

0,6900

0,7100

0,7300AUC optimiert

A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0 6503 0 6936 0 6523 0 6589

0,6300

0,6500

AUC optimiert 0,6503 0,6936 0,6523 0,6589

Abbildung 40: Performance Entscheidungsbaum beschnitten (PKV)

0,6900

0,7100

0,7300

0,7650

0,7700

0,7750

0,7800

0,6100

0,6300

0,6500

0,6700

0,7450

0,7500

0,7550

0,7600

,

A B C DAUC optimiert 0,6503 0,6936 0,6523 0,6589Standardabweichung 0,0108 0,0248 0,0071 0,0055

0,5900A B C D

AUC pruned 0,7591 0,7538 0,7575 0,7563Standardabweichung 0,0047 0,0034 0,0037 0,0050

0,7400

0,7300

0,7500

0,7700AUC pruned

AUC ti i t

0,6500

0,6700

0,6900

0,7100optimiert

A B C DAUC pruned 0,7591 0,7538 0,7575 0,7563AUC optimiert 0,6503 0,6936 0,6523 0,6589

0,6300

Abbildung 41: Performancevergleich beschnittener und unbeschnittener Entscheidungsbaum (PKV)

4.3.3 Lineare Regression

Bei dieser Methode wurde keine Parameteroptimierung durchgefuhrt. Das Er-

gebnis auf den vier Testpartitionen ist in Abbildung 42 dargestellt.

4.3 KUNDIGUNGEN ZUR PKV 50

0,7800

0 7700

0,7750

0,7650

0,7700

0,7600

A B C D0,7500

0,7550

A B C DAUC 0,7647 0,7629 0,7606 0,7647Standardabweichung 0 0042 0 0083 0 0051 0 0056Standardabweichung 0,0042 0,0083 0,0051 0,0056

Abbildung 42: Performance lineare Regression (PKV)

4.3.4 Logistische Regression

Auch bei dieser Methode entfallt die Optimierung der Parameter. Das Ergebnis

auf den vier Testpartitionen ist in Abbildung 43 dargestellt.

0,7750

0,7780

0,7690

0,7720

0,7660

0,7690

A B C D0,7600

0,7630

A B C DAUC 0,7742 0,7702 0,7699 0,7733Standardabweichung 0,0050 0,0086 0,0066 0,0033, , , ,

Abbildung 43: Performance logistische Regression (PKV)

4.3.5 Lineare SVM (Fast Large Margin)

Bei dieser Implementation handelt es sich um eine lineare Support Vector Ma-

chine. Im Gegensatz zur klassischen Losung des dualen Problems wurden hier

vier alternative Losungsverfahren implementiert, die es ermoglichen, auf sehr

großen Datensatzen (in siebenstelligem Bereich) zu arbeiten.

4.3.5.1 Datenmodellierung Das Verfahren benotigt numerische Daten,

die besten Ergebnisse ergaben sich bei Konvertierung der nominellen Attribu-

te in binominelle (True/False) und anschließend in numerische Daten (1, 0).

Danach wurden alle numerischen Werte auf den Bereich zwischen 0 und 1 nor-

miert.

4.3 KUNDIGUNGEN ZUR PKV 51

4.3.5.2 Parameteroptimierung Es wurden die folgenden drei Parameter

per Gridsearch variiert.

Losungsverfahren (nominell): Losungsverfahren fur das duale Problem:

L2 SVM Dual, L2 SVM Primal, L2 Logistic Regression, L1 SVM Dual.

C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden,

Bereich: 1 – 5.001.

Bias (nominell): Berechnung von Zwischenwerten, Werte: True, False.

Die Ergebnisse der Parametervariation sind in Tabelle 8 dargestellt.

Losungsverfahren: L2 SVM Primal

C: 4.501

Bias : False

Tabelle 8: Ermittelte optimale Parameter der linearen SVM (PKV)

4.3

KU

ND

IGU

NG

EN

ZU

RP

KV

52

0,80 0,80 0,80

0,75 0,75 0,75

0 65

0,70

AU

C

0 65

0,70

AU

C

0 65

0,70

AU

C

0,60

0,65

0,60

0,65

0,60

0,65

0,550 1.000 2.000 3.000 4.000 5.000

C

0,551 2 3 4

Solver

0,550 1

Bias

VM

Dua

l

VM

Dua

l

M P

rimal

egre

ssio

n

L2 S

V

L1 S

V

L2 S

VM

L2 L

ogist

icR

e

Abbildung 44: Parameteroptimierung fur die lineare SVM (PKV)

4.3 KUNDIGUNGEN ZUR PKV 53

4.3.5.3 Performance Das Ergebnis auf den vier Testpartitionen ist in Ab-

bildung 73 dargestellt.

0,7750

0,7700

,

0,7650

0,7600

0 7500

0,7550

A B C DAUC optimiert 0,7653 0,7636 0,7610 0,7653

0,7500

Standardabweichung 0,0060 0,0022 0,0035 0,0073

Abbildung 45: Performance lineare SVM (PKV)

4.3.6 SVM mit RBF-Kernel

Hier wurde die libsvm-Implementierung verwendet. Der RBF-Kernel wurde aus

drei Grunden gewahlt. Der lineare Kernel ist ein Spezialfall des RBF-Kernels

und der sigmoide verhalt sich bei bestimmten Parametern ebenfalls wie der

RBF-Kernel. Mit nur zwei Parametern ist der zu durchsuchende Parameter-

raum kleiner als beim sigmoiden oder polynominellen Kernel. Außerdem ist

der Berechnungsaufwand des polynominellen Kernels um einiges hoher, was

umso entscheidender ist, da der RBF-Kernel schon im Rahmen dieser Arbeit

die erwahnten zeitlichen Probleme bereitet. Auch in der Literatur wird dem

RBF-Kernel die Fahigkeit zugeschrieben, eine große flexible Menge an Model-

len bilden zu konnen und in der Praxis der meist verwendete zu sein. [7][27]

4.3.6.1 Datenmodellierung Die Daten wurden entsprechend der linearen

SVM aufbereitet, also Konvertierung der nominellen Attribute in binominelle

(True/False) und anschließend in numerische Daten (1, 0). Danach wurden alle

numerischen Werte auf den Bereich zwischen 0 und 1 normiert.

4.3.6.2 Parameteroptimierung Bei diesem Verfahren konnte die evoluti-

onare Parameteroptimierung (hier als genetischer Algorithmus implementiert)

eingesetzt werden, da keine nominellen Parameter vorhanden waren. Es wurde

mit funf Individuen (SVMs) uber zwanzig Generationen gearbeitet. Die Fit-

ness war die AUC, ermittelt per funffacher Kreuzvalidierung. Es wurden die

folgenden zwei Parameter variiert.

C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden,

Bereich: 0 – 109.

4.3 KUNDIGUNGEN ZUR PKV 54

γ (numerisch): Dieser Parameter wird auch ”Breite“ genannt,

Bereich: 10−9 – 1.

Die Ergebnisse der Parametervariation sind in Tabelle 9 angegeben.

C: 5, 851443463304007 · 108

γ : 0, 8694628282764243

Tabelle 9: Ermittelte optimale Parameter fur die SVM mit RBF-Kernel (PKV)

0,750,75

0,70

C0 65

0,70

C

0,60

0,65A

UC

0,60

0,65

AU

0,550 0,5 1

0,55

+06

+07

+08

+09 ,

5,00

E+

5,00

E+

5,00

E+

5,00

E+

C

Abbildung 46: Parameteroptimierung fur die SVM mit RBF-Kernel (PKV)

4.3.6.3 Performance Das Ergebnis auf den vier Testpartitionen ist in Ab-

bildung 47 dargestellt.

0,7000

0,6750

0,6500

0,6250

A B C D0,6000

A B C DAUC optimiert 0,6666 0,6542 0,6576 0,6680Standardabweichung 0 0078 0 0046 0 0058 0 0099Standardabweichung 0,0078 0,0046 0,0058 0,0099

Abbildung 47: Performance der SVM mit RBF-Kernel (PKV)

4.3 KUNDIGUNGEN ZUR PKV 55

4.3.7 Entscheidungstabelle

4.3.7.1 Datenmodellierung Ahnlich den Verfahren, die auf Entscheidungs-

baumen basieren, erzielt auch dieser Algorithmus die besten Ergebnisse mit

nominellen Attributen, obwohl auch numerische und damit ordinale Attribute

verwendet werden konnen. Dementsprechend wurden auch hier die drei nume-

rischen Attribute konvertiert.

4.3.7.2 Parameteroptimierung Hier wurden zwei Parameter variiert:

X (numerisch): Anzahl der internen Kreuzvalidierungen (1 bedeutet ”leave

one out“) fur die Attributauswahl, Bereich: 1 – 2.001.

I (nominell): Nachste Nachbarn fur die Entscheidung nutzen, oder die globale

Tabellen-Mehrheit, Werte: 0, 1.

X: 1.801

I : 0

Tabelle 10: Ermittelte optimale Parameter der Entscheidungstabelle (PKV)

0 78 0 78

0,77

0,78

0,77

0,78

0,76

AU

C

0,76

AU

C

0,74

0,75

0,74

0,75

0 1.000 2.000

Kreuzvalidierungen1=leave one out

0 1

Nächste Nachbarnstatt globale

Tabellen-Mehrheitverwendenverwenden

Abbildung 48: Parameteroptimierung fur die Entscheidungstabelle (PKV)

4.3.7.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-

bereichen ist in Abbildung 77 dargestellt.

4.3.8 Naıve Bayes-Klassifikator

Auch hier wurden alle Attribute in nominelle umgewandelt. Als Parameter

kann man hier eine Laplace-Korrektur verwenden, welche bei der Menge an

4.3 KUNDIGUNGEN ZUR PKV 56

0 7750

0,7800

0 7650

0,7700

0,7750

0,7600

0,7650

0,7500

0,7550

A B C D0,7400

0,7450

A B C DAUC optimiert 0,7609 0,7622 0,7540 0,7547Standardabweichung 0,0107 0,0063 0,0072 0,0031, , , ,

Abbildung 49: Performance der Entscheidungstabelle (PKV)

Trainingsdaten keine Anderung der Prognosegute erreicht. Diese Korrektur

schwacht Wahrscheinlichkeiten von Null ab. Wenn z.B. bei der Klassifikati-

on Allergie/Erkaltung/Gesund und den Merkmalen Husten/Niesen/Fieber nur

sehr wenige Trainingsdaten vorhanden sind, kann es sein, dass keiner der hus-

tet eine Erkaltung hat. Das hatte zur Folge, dass bei Anwendung des Modells

niemand, der hustet der Klasse Erkaltung zugeordnet wird. Der Test dieses Pa-

rameters bestatigt die Vermutung, dass die große Datenmenge die Verwendung

der Laplace-Korrektur unnotig macht. Mit Korrektur ist die AUC unbedeutend

um 0,0001 schlechter.

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 50 dargestellt.

0,760

0,755

0,750

0,745

A B C D0,740

A B C DAUC optimiert 0,7517 0,7478 0,7477 0,7508Standardabweichung 0,0073 0,0043 0,0044 0,0041, , , ,

Abbildung 50: Performance des naıven Bayes-Klassifikators (PKV)

4.3.9 Bayes-Netz-Generator

4.3.9.1 Datenmodellierung Auch hier wurden die drei numerischen Merk-

male in nominelle umgewandelt.

4.3 KUNDIGUNGEN ZUR PKV 57

4.3.9.2 Parameteroptimierung Folgende vier Parameter wurden bei der

Optimierung per Gridsearch variiert

N (numerisch): Anzahl der Knoten, Bereich: 1 – 101.

A (numerisch): Anzahl der Kanten, Bereich: 1 – 101.

M (numerisch): Anzahl der Instanzen, Bereich: 1 – 101.

C (numerisch): Kardinalitat der Variablen (2, 3, 4; bedeuten binar, ternar,

quartar,. . . ), Werte: 1 – 11

Es zeigt sich, dass keiner der Parameter entscheidenden Einfluß auf das

Ergebniss hat, ermittelt und verwendet wurden die Parameter, wie in Tabelle 11

angegeben.

N : 21

A: 1

M : 81

C: 5

Tabelle 11: Optimale Parameter des Bayes-Netz-Generators (PKV)

0,75640,75640,75640,7564

0,7560

0,7562

0,7560

0,7562

0,7560

0,7562

0,7560

0,7562

0 7554

0,7556

0,7558

AU

C

0 7554

0,7556

0,7558

AU

C

0 7554

0,7556

0,7558

AU

C

0 7554

0,7556

0,7558

AU

C

0,7550

0,7552

0,7554

0,7550

0,7552

0,7554

0,7550

0,7552

0,7554

0,7550

0,7552

0,7554

0,75501 6 11

Kardinalität

0,75501 51 101

Instanzen

0,75501 51 101

Anzahl Kanten

0,75501 51 101

Anzahl Knoten

Abbildung 51: Parameteroptimierung fur den Bayes-Netz-Generator (PKV)

4.3.9.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-

bereichen ist in Abbildung 52 dargestellt.

4.3.10 Random Forest

Der Random Forest ist sicherlich das bekannteste und erfolgreichste Ensemble-

Verfahren.

4.3 KUNDIGUNGEN ZUR PKV 58

0,7600

0,7550

0,7450

0,7500

0,7400

0,7300

0,7350

A B C DAUC optimiert 0,7516 0,7476 0,7475 0,7506Standardabweichung 0 0071 0 0085 0 0080 0 0039

,

Standardabweichung 0,0071 0,0085 0,0080 0,0039

Abbildung 52: Performance des Bayes-Netzes (PKV)

4.3.10.1 Datenmodellierung Wie bei allen hier verwendeten Verfahren,

die auf Entscheidungsbaumen basieren, ergaben sich die besten Ergebnisse mit

nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale

in nominelle konvertiert.

4.3.10.2 Parameteroptimierung Da das Verfahren als Parameter ganz-

zahlige Werte verlangt, konnte auch hier nur die Grid-Suche eingesetzt werden.

Die beiden variierten Parameter sind:

I (numerisch): Anzahl der Baume, die den Wald bilden sollen,

Bereich: 1 – 1.000.

maximale Tiefe (numerisch): Maximale Tiefe, bis zu der die einzelnen

Baume wachsen durfen, Bereich: 1 – 7.

Die Anzahl der zufallig zu berucksichtigenden Merkmale pro Baum wurde

auf dem Standardwert bei M = 9 verwendeten Variablen bei

int (log(M) + 1) = 1

belassen. Die andere gebrauchliche Anzahl von√M = 3 ergab keine Verbesse-

rung. Die optimalen Parameter sind in Tabelle 12 angegeben22.

I: 600

maximale Tiefe : 4

Tabelle 12: Ermittelte optimale Parameter des Random Forests (PKV)

4.3.10.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-

bereichen ist in Abbildung 54 dargestellt.22Im Gegensatz zum ursprunglichen Algorithmus, der die Baume unbegrenzt wachsen lasst,

wird die Tiefe hier begrenzt.

4.3 KUNDIGUNGEN ZUR PKV 59

0 75

0,80

0 75

0,80

0 77

0,78

0,60

0,65

0,70

0,75

0,60

0,65

0,70

0,75

0,76

0,77

AU

C

0,45

0,50

0,55

,

AU

C

0,45

0,50

0,55

0,60

AU

C

0,75

,

0 0 0 0 0 0

0,30

0,35

0,40

0 0 0 0 0 0 0,30

0,35

0,40

,

0

200

400

600

800

1.00

0

Bäume

0

200

400

600

800

1.00

0

Bäume

1 2 3 4 5 6 7

maximaleTiefe

Abbildung 53: Parameteroptimierung fur den Random Forest (PKV)

0,7900

0 7800

0,7850

0,7750

0,7800

0,7650

0,7700

A B C D0,7600

AUC optimiert 0,7818 0,7773 0,7764 0,7789Standardabweichung 0,0061 0,0040 0,0038 0,0070

Abbildung 54: Performance Random Forest (PKV)

4.3.11 Boosting von Entscheidungsbaumstumpfen

Ein Entscheidungsbaumstumpf (Decision stump) ist der erste Teil eines Ent-

scheidungsbaumes. Von der Wurzel gibt es nur eine Stufe mit Verzweigungen,

es handelt sich also um einen Baum mit der Tiefe 1. Diese Stumpfe werden per

AdaBoost-Algorithmus erzeugt und linear kombiniert.

4.3.11.1 Datenmodellierung Wie bei allen hier verwendeten Verfahren,

die auf Entscheidungsbaumen basieren, ergaben sich die besten Ergebnisse bei

nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale

in nominelle konvertiert.

4.3.11.2 Parameteroptimierung Die Werte fur das Split-Kriterium und

die maximale Anzahl der zu boostenden Stumpfe wurden per Gridsearch ermit-

telt.

4.3 KUNDIGUNGEN ZUR PKV 60

Iterationen (numerisch): Maximale Anzahl der Iterationen fur den Boost-

Algorithmus,

Bereich: 1 – 1.000.

Split-Kriterium): Kriterium, welches den optimalen (einzigen) Split bestimmt,

Werte: Entropie, Trefferrate,√TP · FP +

√FN · TN , Gini-Index, χ2-Test.

I: 570

Split-Kriterium: Trefferrate

Tabelle 13: Ermittelte optimale Parameter fur das Boosting von Entscheidungsbaumstumpfen (PKV)

0 800 80

0 70

0,75

0,80

0 70

0,75

0,80

0 60

0,65

0,70

AU

C

0 60

0,65

0,70

AU

C

0 50

0,55

0,60

0 50

0,55

0,60

0,45

0,50

1 2 3 4 5

Split-Kriterium0,45

0,50

0 500 1.000Iterationen tr

opie

erra

te

Inde

x

²-T

est

Iterationen

Ent

Tre

ffe

Gin

i- ²

Abbildung 55: Parameteroptimierung fur das Boosting der Baumstumpfe (PKV)

4.3.11.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-

bereichen ist in Abbildung 56 dargestellt.

0,7800

0,7750

0,7700

0,7650

0,7600A B C D

AUC optimiert 0,7737 0,7695 0,7698 0,7730St d d b i h 4

,

Standardabweichung 0,0051 0,0083 0,0064 0,0033

Abbildung 56: Performance der geboosteten Baumstumpfe (PKV)

4.3 KUNDIGUNGEN ZUR PKV 61

4.3.12 Averaged One-Dependence Estimators – AODE

Da diese Ensemble-Methode auf dem naıven Bayes-Klassifikator beruht, ist es

plausibel, dass auch hier die beste Performance mit nominellen Merkmalen er-

reicht wird. Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in

Abbildung 57 dargestellt.

0,7850

0,7800

0 7700

0,7750

0,7650

0,7700

A B C D0,7600

AUC optimiert 0,7749 0,7714 0,7714 0,7734Standardabweichung 0,0063 0,0031 0,0042 0,0040

Abbildung 57: Performance AODE (PKV)

Eine verbesserte Version des Algorithmus, welcher zusatzlich Beziehungen

zwischen zwei Attributen wahrend des Trainings nutzt, ist der AODEsr23. Die

Klassifizierungsgute auf den vier Testpartitionen ist in Abbildung 58 abgebildet.

0,7850

0,7800

0 7700

0,7750

0,7650

0,7700

A B C D0,7600

,

A B C DAUC optimiert 0,7769 0,7738 0,7735 0,7759Standardabweichung 0 0058 0 0031 0 0050 0 0036Standardabweichung 0,0058 0,0031 0,0050 0,0036

Abbildung 58: Performance AODEsr (PKV)

Vergleicht man die beiden Methoden, ist die Uberlegenheit auf diesem Da-

tensatz offensichtlich (s. Abb. 59).

4.3.13 Alternierende Entscheidungsbaume

4.3.13.1 Datenmodellierung Die enge Verwandtschaft zu Entscheidungs-

baumen laßt dieses Verfahren ebenfalls mit nominellen Parametern am besten

abschneiden.23Averaged One-Dependence Estimators with subsumption resolution

4.3 KUNDIGUNGEN ZUR PKV 62

0,7850

0,7800

0,7750

0,7700

0 7600

0,7650

A B C DAUC AODEsr 0,7769 0,7738 0,7735 0,7759A C AO

0,7600

AUC AODE 0,7749 0,7714 0,7714 0,7734

Abbildung 59: Performancevergleich beider AODE-Methoden (PKV)

4.3.13.2 Parameteroptimierung Bei dieser Methode wurden die folgen-

den zwei Parameter variiert:

B (numerisch): Anzahl der Iterationen, Bereich: 1 – 101.

E (nominell): Methode zur Ermittlung des nachsten zu expandierenden Kno-

tens, Bereich: all, weight, z-pure, random walk.

B: 91

E : z-pure

Tabelle 14: Optimale Parameter fur PKV-Kundiger und den alternierenden Entscheidungsbaum

4.3.13.3 Performance Die erreichte Klassifizierungsgute auf den vier Test-

bereichen ist in Abbildung 61 dargestellt.

4.3 KUNDIGUNGEN ZUR PKV 63

0,790 0,790

0,775

0,780

0,785

0 775

0,780

0,785

0,765

0,770

0,775

AU

C

0,765

0,770

0,775

AU

C0,750

0,755

0,760

0,750

0,755

0,760

ll1 51 101

Iterationen

0 1 2 3

Methode zur Ermittlung des

nächsten zu exp. Knotens

all weight

z-purerandom

Knotens

Abbildung 60: Parameteroptimierung fur den alternierenden Entscheidungsbaum (PKV)

0,7840

0,7800

0,7820

0,7760

0,7780

0,7720

0,7740

,

A B C D0,7700

0,7720

AUC optimiert 0,7819 0,7779 0,7764 0,7791Standardabweichung 0,0046 0,0041 0,0046 0,0029

Abbildung 61: Performance Alternierender Entscheidungsbaum (PKV)

4.3 KUNDIGUNGEN ZUR PKV 64

4.3.14 Vergleich

Vergleicht man nun alle Verfahren auf Basis ihrer AUC uber alle vier Partitio-

nen, so ergibt sich folgende Reihenfolge:

Rang AUC Verfahren

1. 0,7804 (±0, 0045) Multilayerperceptron

2. 0,7788 (±0, 0040) Alternierender Entscheidungsbaum

3. 0,7786 (±0, 0052) Random Forest

4. 0,7750 (±0, 0044) AODEsr

5. 0,7728 (±0, 0044) AODE

6. 0,7719 (±0, 0059) Logistische Regression

7. 0,7715 (±0, 0058) Boosting von Entscheidungsbaumstumpfen

8. 0,7708 (±0, 0051) kNN

9. 0,7638 (±0, 0047) Lineare SVM (Fast Large Margin)

10. 0,7632 (±0, 0058) Lineare Regression

11. 0,7580 (±0, 0068) Entscheidungstabelle

12. 0,7567 (±0, 0042) Entscheidungsbaum, beschnitten

13. 0,7495 (±0, 0050) Naıver Bayes-Klassifikator

14. 0,7493 (±0, 0069) Bayesnetz

15. 0,6638 (±0, 0120) Entscheidungsbaum, unbeschnitten

16. 0,6616 (±0, 0070) SVM RBF-Kernel

Tabelle 15: AUC-Vergleich bei PKV-Kundigung

0,7770

0,7820geboostete StümpfeADTreeDecisiobtableDtree unpruned

0,7600

0,78002

0,7670

0,7720

Dtree unprunedDtree prunedLinRegFLM

kNN0,7200

0,74003

6

0,7570

0,7620 LogRegNaive BayesRandom ForestSVM rbf

0,6800

0,7000

14

6

0,7470

0,7520

1 2 3 4

AODEAODEsrBayesNetGen

MLPerceptron0,6400

0,6600

1 2 3 4A B C D A B C D

5

0,7400

0,7600

0,7800

0,6800

0,7000

0,7200

0,6400

0,6600

eptr

onA

DT

ree

Fore

stO

DE

srA

OD

ELo

gReg

tüm

pfe

kNN

FLM

LinR

egob

tabl

epr

uned

e B

ayes

Net

Gen

prun

edV

M r

bf

MLP

erc A

Ran

dom

A

O A Lge

boos

tete

St L

Dec

isio

Dtr

ee p

Nai

veB

ayes

ND

tree

unp SV

Abbildung 62: AUC-Vergleich bei PKV-Kundigung auf den vier Testpartitionen

Die erste Erkenntnis aus den Versuchsdaten ist offensichtlich: der unbe-

schnittenen Entscheidungsbaum und die Support Vector Machine mit RBF-

Kernel sind fur die Prognose der PKV-Kundigungen auf Basis der hier ver-

4.3 KUNDIGUNGEN ZUR PKV 65

0,7770

0,7820geboostete StümpfeADTreeDecisiobtableDtree unpruned

0,7600

0,7800

0,7670

0,7720

Dtree unprunedDtree prunedLinRegFLM

kNN0,7200

0,7400

0,7570

0,7620 LogRegNaive BayesRandom ForestSVM rbf

0,6800

0,7000

0,7470

0,7520

1 2 3 4

AODEAODEsrBayesNetGen

MLPerceptron0,6400

0,6600

1 2 3 4A B C D A B C D

0,7400

0,7600

0,7800

0,6800

0,7000

0,7200

0,6400

0,6600

eptr

onA

DT

ree

Fore

stO

DE

srA

OD

ELo

gReg

tüm

pfe

kNN

FLM

LinR

egob

tabl

epr

uned

e B

ayes

Net

Gen

prun

edV

M r

bf

MLP

erc A

Ran

dom

A

O A Lge

boos

tete

St L

Dec

isio

Dtr

ee p

Nai

veB

ayes

ND

tree

unp SV

Abbildung 63: AUC-Vergleich bei PKV-Kundigung

wendeten Daten ungeeignet (s. Abb. 62, Punkt 1). Wahrend unbeschnittene

Entscheidungsbaume ohne Probleme ausgeschlossen werden konnen (vgl. Ab-

schn. 4.3.2), mussen SVMs fur die Praxis genauer betrachtet werden. Da sich

SVMs mit RBF-Kernel mit bestimmten Parametern wie lineare SVMs verhal-

ten, hier aber deutlich hinter den linearen SVMs zuruckbleiben, scheint es hier

noch Potential fur bessere Parameter zu geben. Auf der anderen Seite liegen

die Starken von SVMs eher in Modellen, die durch eine Vielzahl von Varia-

blen, aber durch wenige Datensatze erstellt werden. In den Abbildungen zu

den Lernkurven (s. Abb. 26, 27, 29, 30) ist zu sehen, dass die Verfahren unter-

schiedlich auf verschiedenen Trainingsmengen reagieren. So kommen die beiden

verwendeten Bayes-Verfahren mit weniger Trainingsdaten besser zurecht, als

das kNN- oder Entscheidungsbaumverfahren, wahrend diese mit einer großeren

Trainingsmenge deutlich besser prognostizieren.

Betrachtet man die Performance der weiteren Verfahren, fallt die nachste

kleine Grenze nach den ersten drei Verfahren (MLP, Alternierender Entschei-

dungsbaum und Random Forest) auf (s. Abb. 62, Punkt 2), die nachste großere

Grenze liegt nach den weiteren 5 Verfahren (s. Abb. 62, Punkt 3). Nach die-

sen ersten acht Verfahren fallen die ubrigen Methoden weiter ab, die entweder

linear separieren oder auf dem bayes’schem Theorem basieren (mit Ausnahme

der beschnittenen Entscheidungsbaume), die die Unabhangigkeit der Variablen

vorraussetzen.

Die fast identischen Verlaufe der beiden linearen Verfahren (Lineare Regres-

sion, FLM) sowie der bayes’schen Verfahren (Naıve Bayes und Bayesnetze) sind

aufgrund der Ahnlichkeit ihrer Theorien plausibel (s. Abb. 62, Punkt 5 und 6).

4.3 KUNDIGUNGEN ZUR PKV 66

Interessant sind die beiden Verfahren, die im Gegenatz zu allen anderen

Verfahren, andere Verlaufe nehmen (Entscheidungstabelle und der beschnit-

tene Entscheidungsbaum, s. Abb. 62, Punkt 4). Das deutet daraufhin, dass

diese Verfahren andere Informationen in den Daten nutzen. Sollte sich in weite-

ren Analysen bestatigen, dass diese Verfahren andere Kundigungen entdecken,

waren sie Kandidaten fur einen Stacking-Ansatz. Abgeschwacht gilt dies auch

fur die kNN-Methode, die sich nur leicht in ihrem Verlauf unterscheidet.

Unter den besten acht Verfahren gehoren funf zu den Ensemble-Verfahren,

unter den ersten funf sogar vier.

4.4 KUNDIGUNGEN ZUR GKV 67

4.4 Kundigungen zur GKV

4.4.1 Allgemein

Bei dieser Klassifikation wurden bei den Verfahren die Daten entsprechend de-

nen der PKV-Klassifikation modelliert und die gleichen Parameter variiert.

4.4.2 kNN – k nearest neighbours

Datenmodellierung und Parameter siehe Abschnitt 4.3.1.1.

Auch hier erzielten die gewichteten Distanzen hohere AUC-Werte, so dass

nur diese weiter betrachtet wurden. Das Ergebnis dieser Parameteroptimierung

ist in Abbildung 64 zu sehen. Der euklidsche und der Manhattan-Abstand er-

zielten auch hier die besten Werte – der entscheidende Bereich ist nochmal

dataillierter in Abbildung 65 dargestellt. Der Ubersichtlichkeit halber sind nur

die Standardabweichungen des euklidschen und des Manhatten-Abstands abge-

bildet. Die so ermittelten optimalen Parameter sind in Tabelle 16 dargestellt.

0,6500

Distance Measures

Euclidean distance

M h tt di t

0,5000

0,5500

0,6000 Manhatten distance

Chebychev distance

Correlation similarity

Dice similarity

0,4000

0,4500

0,5000

AU

C

Dice similarity

Inner product similarityJaccard similarity

Max product

0,3000

0,3500

psimilarityOverlap similarity

0,250030 300 3.000

k

Distance Measures

0 6400

0,6450

0,6500

0,6550

C

Distance Measures

Euclidean distance

Manhatten distance

Correlation

0,6250

0,6300

0,6350

0,6400

AU similarity

Overlap similarity

Dice similarity

Jaccard similarity30 130 230 330

k

Abbildung 64: Parameteroptimierung kNN – Gesamtdarstellung (GKV)

0,6500

Distance Measures

Euclidean distance

M h tt di t

0,5000

0,5500

0,6000 Manhatten distance

Chebychev distance

Correlation similarity

Dice similarity

0,4000

0,4500

0,5000

AU

C

Dice similarity

Inner product similarityJaccard similarity

Max product

0,3000

0,3500

psimilarityOverlap similarity

0,250030 300 3.000

k

Distance Measures

0 6400

0,6450

0,6500

0,6550

C

Distance Measures

Euclidean distance

Manhatten distance

Correlation

0,6250

0,6300

0,6350

0,6400

AU similarity

Overlap similarity

Dice similarity

Jaccard similarity30 130 230 330

k

Abbildung 65: Parameteroptimierung kNN – optimaler Bereich (GKV)

Das Ergebnis auf den Partitionen A–D ist in Abbildung 66 zu sehen.

4.4 KUNDIGUNGEN ZUR GKV 68

k: 140

Abstands- oder Ahnlichkeitsmaß: euklidscher Abstand

gewichtete Abstimmung: True

Tabelle 16: Ermittelte optimale Parameter fur die kNN-Methode (GKV)

0,6600

0,6550

0,6500

0,6450

A B C D0,6400

A B C DAUC optimiert 0,6533 0,6520 0,6483 0,6519Standardabweichung 0 0041 0 0065 0 0038 0 0052Standardabweichung 0,0041 0,0065 0,0038 0,0052

Abbildung 66: Performance kNN (GKV)

Auch hier wurde gepruft, ob der Parameter k von der Trainingsmenge un-

abhangig ist – er wurde entsprechend der erhohten Dichte auf 249 angehoben24.

Wie in Abbildung 67 zu sehen, ist der Parameter von der Trainingsmenge auch

hier unabhangig.

0,6600AUC ti i t

0,6550

AUC optimiert

AUC angepasst0,6550

0,6500

0,6450

0,6400A B C DA B C D

Abbildung 67: Performance kNN mit angepasstem k (GKV)

4.4.3 Entscheidungsbaum

Datenmodellierung und Parameter siehe Abschnitt 4.3.2.

Die Ergebnisse sind in Abbildung 68 zu sehen. In diesem Fall ergibt die

Parameteroptimierung wie erwartet einen beschnittenen Entscheidungsbaum

(s. Tab. 17), deren Performance in Abbildung 69 dargestellt ist.

24(140 · 35600

20000= 249, 2

)

4.4 KUNDIGUNGEN ZUR GKV 69

M (minimale Blattgroße): 17

A (Laplaceglattung): True

C (Konfidenz-Grenzwert fur Beschneidung): 0,91

Tabelle 17: Ermittelte optimale Parameter fur den Entscheidungsbaum (GKV)

4.4

KU

ND

IGU

NG

EN

ZU

RG

KV

70

0,64

0,65

0,61

0,62

0,63

AU

C

AUC ohne Laplace-Glättung

AUC (mit Laplace-Glättung)

unbeschnitten

0,60

0,65

0,60

0,65

0,60

0,65

0,601 11 21 31 41 51 61

Minimale Blattgröße

0,50

0,55

AU

C

0,50

0,55

AU

C

0,50

0,55

AU

C

beschnitten

0,450 10 20 30 40

minimale Blattgröße

0,450 0,2 0,4 0,6 0,8 1

Konfidenzgrenzwert für Beschneidung

0,450 1

Laplaceglättung

0,64 0,64 0,640,64

reduzierteBeschneidung

0,56

0,58

0,60

0,62

AU

C

0,56

0,58

0,60

0,62

AU

C

0,56

0,58

0,60

0,62

AU

C

0,56

0,58

0,60

0,62

AU

C

0,540 10 20 30 40

Minimale Blattgröße

0,542 3 4 5

Betrachtetet Pruningsets

0,540 1

Laplaceglättunge

0,540 1

kein Wachsen von Unterbäumen

Abbildung 68: Parameteroptimierung fur Entscheidungsbaume (GKV)

4.4 KUNDIGUNGEN ZUR GKV 71

0 6600

0,6550

0,6600

0 6450

0,6500

0,6400

0,6450

0 6300

0,6350

A B C DAUC optimiert 0,6470 0,6434 0,6392 0,6449

0,6300

Standardabweichung 0,0088 0,0045 0,0050 0,0048

Abbildung 69: Performance Entscheidungsbaum (GKV)

4.4.4 Lineare Regression

Das Ergebnis auf den vier Testpartitionen ist in Abbildung 70 dargestellt.

0 6800

0,6750

0,6800

0 6650

0,6700

0,6600

0,6650

0 6500

0,6550

A B C DAUC 0,6673 0,6661 0,6648 0,6656

0,6500

Standardabweichung 0,0052 0,0046 0,0037 0,0057

Abbildung 70: Performance lineare Regression (GKV)

4.4.5 Logistische Regression

Das Ergebnis auf den vier Testpartitionen ist in Abbildung 71 dargestellt.

0,6800

0,67100,67400,6770

0,66500,6680,

0,65600,65900,6620

A B C D0,65000,6530,

CAUC 0,6675 0,6677 0,6658 0,6666Standardabweichung 0,0051 0,0049 0,0038 0,0061

Abbildung 71: Performance logistische Regression (GKV)

4.4 KUNDIGUNGEN ZUR GKV 72

4.4.6 Lineare SVM (Fast Large Margin)

Datenmodellierung und Parameter siehe Abschnitt 4.3.5.

Die Ergebnisse der Parametervariation sind in Tabelle 18 wiedergegeben.

Losungsverfahren: L2 Logistic Regression

C: 501

Bias : True

Tabelle 18: Ermittelte optimale Parameter der linearen SVM (GKV)

4.4

KU

ND

IGU

NG

EN

ZU

RG

KV

73

0,70 0,70 0,70

0,65 0,65 0,65

0,60

AU

C 0,60

AU

C 0,60

AU

C

0,55 0,55 0,55

0,500 1.000 2.000 3.000 4.000 5.000

C

0,501 2 3 4

Solver

0,500 1

Bias

VM

Dua

l

VM

Dua

l

M P

rimal

egre

ssio

n

L2 S

V

L1 S

V

L2 S

VM

L2 L

ogist

icR

e

Abbildung 72: Parameteroptimierung fur die lineare SVM (GKV)

4.4 KUNDIGUNGEN ZUR GKV 74

Das Ergebnis auf den vier Testpartitionen ist in Abbildung 73 dargestellt.

0,6800

0,6700

0,6750

0,6650

0,6700

0 6550

0,6600

A B C D0,6500

0,6550

A B C DAUC optimiert 0,6675 0,6670 0,6652 0,6659Standardabweichung 0,0041 0,0063 0,0056 0,0048, , , ,

Abbildung 73: Performance lineare SVM (GKV)

4.4.7 SVM mit RBF-Kernel

Datenmodellierung und Parameter siehe Abschnitt 4.3.6.

Die Ergebnisse der Parametervariation sind in Tabelle 19 angegeben.

C: 5.851443463014264 · 108

γ : 0.8560883659908978

Tabelle 19: Ermittelte optimale Parameter fur die SVM mit RBF-Kernel (GKV)

0,60 0,60

0,56

0,58

C

0,56

0,58

C

0 52

0,54

AU

0,54

AU

C

0,50

0,52

+06

+07

+08

+09

0,50

0,52

0 0,5 1

5,00

E+

5,00

E+

5,00

E+

5,00

E+

C

,

Abbildung 74: Parameteroptimierung fur die SVM mit RBF-Kernel (GKV)

Das Ergebnis auf den vier Testpartitionen ist in Abbildung 75 dargestellt.

4.4 KUNDIGUNGEN ZUR GKV 75

0,5900

0 5750

0,5800

0,5850

0 5650

0,5700

0,5750

0,5550

0,5600

0,5650

A B C DAUC optimiert 0,5748 0,5712 0,5733 0,5726

0,5500

p 0,5748 0,5712 0,5733 0,5726Standardabweichung 0,0058 0,0005 0,0030 0,0021

Abbildung 75: Performance der SVM mit RBF-Kernel (GKV)

4.4.8 Entscheidungstabelle

Datenmodellierung und Parameter siehe Abschnitt 4.3.7.

X: 1.051

I : 1

Tabelle 20: Ermittelte optimale Parameter der Entscheidungstabelle (GKV)

0 640 64

0,63

0,64

0,63

0,64

0,62

AU

C0,62

AU

C

0,60

0,61

0,60

0,61

0 1

Nächste Nachbarnstatt globale

Tabellen-Mehrheitverwenden

0 1.000 2.000

Kreuzvalidierungen(1=leave one out)

verwenden

Abbildung 76: Parameteroptimierung fur die Entscheidungstabelle (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 77 dargestellt.

4.4.9 Naıver Bayes-Klassifikator

Datenmodellierung und Parameter siehe Abschnitt 4.3.8.

Auch hier ist die Gute mit Laplacekorrektur im Schnitt nur um 0,0005 hoher,

die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbildung 78

dargestellt.

4.4 KUNDIGUNGEN ZUR GKV 76

0 64500,6500

0,63500,64000,6450

0,62500,63000,6350

0 61000,61500,6200

A B C D0,60000,60500,6100

A B C DAUC optimiert 0,6369 0,6217 0,6309 0,6280Standardabweichung 0 0034 0 0095 0 0053 0 0124Standardabweichung 0,0034 0,0095 0,0053 0,0124

Abbildung 77: Performance der Entscheidungstabelle (GKV)

0,670

0 660

0,665

0,655

0,660

0,650

A B C D0,640

0,645

A B C DAUC optimiert 0,6543 0,6550 0,6526 0,6547Standardabweichung 0 0054 0 0041 0 0068 0 0060Standardabweichung 0,0054 0,0041 0,0068 0,0060

Abbildung 78: Performance des naıven Bayes-Klassifikators (GKV)

4.4.10 Bayes-Netz-Generator

Datenmodellierung und Parameter siehe Abschnitt 4.3.9.

Auch hier hat keiner der Parameter entscheidenden Einfluß auf das Ergeb-

niss. Ermittelt und verwendet wurden die Parameter, wie in Tabelle 21 ange-

geben.

N : 61

A: 41

M : 41

C: 5

Tabelle 21: Optimale Parameter des Bayes-Netz-Generators (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 80 dargestellt.

4.4.11 Random Forest

Datenmodellierung und Parameter siehe Abschnitt 4.3.10.

Die optimalen Parameter sind in Tabelle 22 angegeben.

4.4 KUNDIGUNGEN ZUR GKV 77

0 65200 65200 65200 6520

0,6515

0,6520

0,6515

0,6520

0,6515

0,6520

0,6515

0,6520

0,6505

0,6510

AU

C0,6505

0,6510

AU

C0,6505

0,6510

AU

C0,6505

0,6510

AU

C

0,6495

0,6500

0,6495

0,6500

0,6495

0,6500

0,6495

0,6500

0,6490

0,6495

1 6 11Kardinalität

0,6490

0,6495

1 51 101Instanzen

0,6490

0,6495

1 51 101Anzahl Kanten

0,6490

0,6495

1 51 101Anzahl Knoten KardinalitätInstanzenAnzahl KantenAnzahl Knoten

Abbildung 79: Parameteroptimierung fur den Bayes-Netz-Generator (GKV)

0,6700

0 6600

0,6650

0,6550

0,6600

0,6500

A B C D0,6400

0,6450

A B C DAUC optimiert 0,6545 0,6549 0,6526 0,6546Standardabweichung 0 0047 0 0036 0 0095 0 0070Standardabweichung 0,0047 0,0036 0,0095 0,0070

Abbildung 80: Performance des Bayes-Netzes (GKV)

I: 721

maximale Tiefe : 4

Tabelle 22: Ermittelte optimale Parameter des Random Forests (GKV)

0,670,66 0,66

0,67

0 60

0,62

0,64

0 60

0,62

0,640,67

0,66

AU

C

0,56

0,58

0,60

AU

C

0,56

0,58

0,60

AU

C 0,66

AU

C

0,65

0 0 0 0 0 0

0,50

0,52

0,54

0 0 0 0 0 0 0,50

0,52

0,54

0,65

0,66

0

200

400

600

800

1.00

0

Bäume

0

200

400

600

800

1.00

0

Bäume

2 3 4 5 6 7

maximaleTiefe

2 3 4 5 6 7

maximaleTiefe

Abbildung 81: Parameteroptimierung fur den Random Forest (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 82 dargestellt.

4.4 KUNDIGUNGEN ZUR GKV 78

0,6800

0 6700

0,6750

0,6650

0,6700

0 6550

0,6600

A B C D0,6500

0,6550

A B C DAUC optimiert 0,6679 0,6666 0,6645 0,6649Standardabweichung 0 0056 0 0094 0 0063 0 0031Standardabweichung 0,0056 0,0094 0,0063 0,0031

Abbildung 82: Performance Random Forest (GKV)

4.4.12 Boosting von Entscheidungsbaumstumpfen

Datenmodellierung und Parameter siehe Abschnitt 4.3.11.

Ermittelt wurden fur dieses Verfahren und die Klassifikation der GKV-

Kundiger die Parameter, die in der Tabelle 23 angegeben sind.

I: 511

Split-Kriterium: Trefferrate

Tabelle 23: Ermittelte optimale Parameter fur das Boosting von Entscheidungsbaumstumpfen (GKV)

0 700 70

0,60

0,65

0,70

0,60

0,65

0,70

0 45

0,50

0,55

AU

C

0 45

0,50

0,55

AU

C

0,35

0,40

0,45

0,35

0,40

0,45

0,25

0,30

1 2 3 4 5

Split-Kriterium0,25

0,30

0 500 1.000Iterationen tr

opie

erra

te

Inde

x

²-T

est

Iterationen

Ent

Tre

ffe

Gin

i- ²

Abbildung 83: Parameteroptimierung fur das Boosting der Baumstumpfe (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 56 dargestellt.

4.4.13 Averaged One-Dependence Estimators – AODE

Datenmodellierung und Parameter siehe Abschnitt 4.3.12.

4.4 KUNDIGUNGEN ZUR GKV 79

0,6800

0,6750

0,6650

0,6700

0,6600

A B C D0,6500

0,6550

A B C DAUC optimiert 0,6677 0,6678 0,6659 0,6665Standardabweichung 0,0073 0,0027 0,0072 0,0080g , , , ,

Abbildung 84: Performance der geboosteten Baumstumpfe (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 85 dargestellt.

0,6800

0,6750

0,6650

0,6700

0,6600

,

0 6500

0,6550

A B C DAUC optimiert 0,6667 0,6664 0,6631 0,6649

0,6500

Standardabweichung 0,0085 0,0060 0,0071 0,0076

Abbildung 85: Performance AODE (GKV)

Die Klassifizierungsgute des verbesserten Algorithmus AODEsr auf den vier

Testpartitionen ist in Abbildung 86 dargestellt und der Vergleich beider Ver-

fahren ist in Abbildung 87 zu sehen.

0,6800

0,6750

0,6650

0,6700

0,6600

0,6500

0,6550

A B C DAUC optimiert 0,6685 0,6684 0,6652 0,6669S d d b i h

0,6500

Standardabweichung 0,0084 0,0054 0,0068 0,0074

Abbildung 86: Performance AODEsr (GKV)

4.4 KUNDIGUNGEN ZUR GKV 80

0,6800

0,6750

,

0,6650

0,6700

0,6600

0,6650

0 6500

0,6550

A B C DAUC AODEsr 0,6685 0,6684 0,6652 0,6669A A

0,6500

AUC AODE 0,6667 0,6664 0,6631 0,6649

Abbildung 87: Performancevergleich beider AODE-Methoden (GKV)

4.4.14 Alternierende Entscheidungsbaume

Datenmodellierung und Parameter siehe Abschnitt 4.3.13. Die optimalen Para-

meter fur die GKV-Kundiger-Klassifizierung sind in Tabelle 24 wiedergegeben.

B: 71

E : random walk

Tabelle 24: Ermittelte optimale Parameter fur den alternierenden Entscheidungsbaum (GKV)

0,660

0,670

0,600

0,650

0,660

0,670

0,600

0,650

AU

C

0,450

0,500

0,550

AU

C

0,650

AU

C

0,450

0,500

0,550

AU

C

0,630

0,640

0 300

0,350

0,400

0,630

0,640

0 300

0,350

0,400

0,6200 1 2 3

Methode zur E ittl d

all weight

z-purerandom

0,250

0,300

1 51 101

Iterationen

0,6201 51 101

Iterationen

0,250

0,300

0 1 2 3

Methode zur E ittl d

all weight

z-purerandom

Ermittlung des nächsten zu exp.

Knotens

Ermittlung des nächsten zu exp.

Knotens

Abbildung 88: Parameteroptimierung fur den alternierenden Entscheidungsbaum (GKV)

Die erreichte Klassifizierungsgute auf den vier Testbereichen ist in Abbil-

dung 89 dargestellt.

4.4 KUNDIGUNGEN ZUR GKV 81

0,6800

0,6750

0,6650

0,6700

0,6600

,

0 6500

0,6550

A B C DAUC optimiert 0,6680 0,6680 0,6653 0,6655S d d b h

0,6500

Standardabweichung 0,0053 0,0054 0,0056 0,0079

Abbildung 89: Performance alternierender Entscheidungsbaum (GKV)

4.4 KUNDIGUNGEN ZUR GKV 82

4.4.15 Vergleich

Vergleicht man nun alle Verfahren auf Basis ihrer AUC uber alle vier Partitio-

nen, so ergibt sich folgende Reihenfolge:

Rang AUC Verfahren

1. 0,6677 (±0, 0064) Multilayerperceptron

2. 0,6672 (±0, 0070) AODEsr

3. 0,6670 (±0, 0063) Boosting von Entscheidungsbaumstumpfen

4. 0,6669 (±0, 0050) Logistische Regression

5. 0,6667 (±0, 0061) Alternierender Entscheidungsbaum

6. 0,6664 (±0, 0052) FLM

7. 0,6660 (±0, 0061) Random Forest

8. 0,6659 (±0, 0048) Lineare Regression

9. 0,6653 (±0, 0073) AODE

10. 0,6541 (±0, 0056) Naıver Bayes-Klassifikator

11. 0,6541 (±0, 0062) Bayesnetz

12. 0,6414 (±0, 0068) kNN

13. 0,6436 (±0, 0057) Entscheidungsbaum, beschnitten

14. 0,6294 (±0, 0077) Entscheidungstabelle

15. 0,5730 (±0, 0029) SVM RBF-Kernel

Tabelle 25: AUC-Vergleich bei GKV-Kundigung

0 6500

0,6600

0,6700

0 6600

0,6700

0,6690

0,6700 geboostete Stümpfe

ADTree

Decisiobtable

0,6200

0,6300

0,6400

0,6500

0,6600

0,6670

0,6680Dtree pruned

LinReg

FLM

kNN

2

0,5900

0,6000

0,6100

,

0,6400

0,6650

0,6660

kNN

LogReg

Naive Bayes

Random Forest

SVM bf

0,5600

0,5700

0,5800

0,6200

0,6300

0,6630

0,6640

SVM rbf

AODE

AODEsr

BayesNetGen

1

1 2 3 4 1 2 3 4 1 2 3 4 MLPerceptronA B C D A B C D A B C D

0,6500

0,6800

0,5900

0,6200

0,5600

rcep

tron

AO

DE

srSt

ümpf

eLo

gReg

AD

Tre

eFL

Mm

For

est

LinR

egA

OD

Eve

Bay

esN

etG

enkN

Npr

uned

iobt

able

SVM

rbf

MLP

er Age

boos

tete

S L A

Ran

dom

Nai

vB

ayes

Dtr

ee

Dec

isi S

Abbildung 90: AUC-Vergleich bei GKV-Kundigung auf den vier Testpartitionen

Als erstes fallt hier wieder die SVM mit RBF-Kernel auf, die mit Abstand

am schlechtesten abschneidet (s. Abb. 90, Punkt 1). Es gelten hier aber die

gleichen Einschrankungen bei dieser Bewertung wie unter 4.3.14 beschrieben.

Der nachst großere Abstand ist nach den ersten neun Verfahren (nach dem

AODE-Verfahren) zu identifizieren, wobei hier wie auch bei den PKV-Kundi-

gungen wieder die bayes’schen Verfahren, die Entscheidungstabelle und der be-

5 FAZIT UND AUSBLICK 83

0 6500

0,6600

0,6700

0 6600

0,6700

0,6690

0,6700 geboostete Stümpfe

ADTree

Decisiobtable

0,6200

0,6300

0,6400

0,6500

0,6600

0,6670

0,6680Dtree pruned

LinReg

FLM

kNN

0,5900

0,6000

0,6100

,

0,6400

0,6650

0,6660

kNN

LogReg

Naive Bayes

Random Forest

SVM bf

0,5600

0,5700

0,5800

0,6200

0,6300

0,6630

0,6640

SVM rbf

AODE

AODEsr

BayesNetGen0,6800

1 2 3 4 1 2 3 4 1 2 3 4 MLPerceptronA B C D A B C D A B C D

0,6200

0,6500

0,5600

0,5900

,

MLP

erce

ptro

nA

OD

Esr

oste

te S

tüm

pfe

LogR

egA

DT

ree

FLM

Ran

dom

For

est

LinR

egA

OD

EN

aive

Bay

esB

ayes

Net

Gen

kNN

Dtr

ee p

rune

dD

ecis

iobt

able

SVM

rbf

M

gebo

o R

Abbildung 91: AUC-Vergleich bei GKV-Kundigung

schnittene Entscheidungsbaum zu finden sind. Auch hier decken sich die beiden

bayes’schen Verfahren wieder fast komplett (s. Abb. 90, Punkt 2).

Die besten Verfahren sind die gleichen, wie bei der Prognose der PKV-

Kundigungen, wobei diese hier deutlich dichter zusammen liegen und dadurch

deren Rangfolge auf den vier Test-Partitionen nicht immer konstant ist.

5 Fazit und Ausblick

Der Wechsel der Versicherungsart (von der gesetzlichen zur privaten Kranken-

versicherung) ist faktisch ein großerer Schritt, als nur der Wechsel des Versi-

cherungstragers. Das spiegeln auch die Prognoseguten dieser Arbeit wider – die

Kundigungen beim Wechsel in die private Krankenversicherung sind deutlich

besser zu prognostizieren, als die Kundigungen mit anschließendem Wechsel zu

einer anderen gesetzlichen Krankenversicherung. Anscheinend sind die Merk-

male bei der PKV-Kundigungsprognose deutlich trennscharfer. In den Abbil-

dungen 92 und 93 sind die normierten Verteilungen der Merkmale abgebildet25.

Dort ist zu erahnen, dass dies bei den meisten Merkmalen der Fall sein kann

(Geschlecht, Anzahl der Familienversicherten, letzter Versicherungstrager, Be-25Da hier die nominellen Merkmale fur die Darstellung in eine Rangfolge gebracht werden

mussten, ist die Darstellung streng genommen nur fur die drei numerischen Merkmale gultig.

5 FAZIT UND AUSBLICK 84

rufsgruppe, Bildung). Das gleiche wird fur Merkmalskombinationen gelten, die

die unterschiedlichen Verfahren zur Informationsextraktion nutzen.

Die Ensemble-Methoden schneiden mehrheitlich besser ab als einzelne Mo-

delle. In der Praxis ware zu untersuchen, mit welchem Verfahren der großte

Nutzen zu erzielen ist. Es ist also festzustellen, welche Kosten durch Fehlklas-

sifikation entstehen. So ist die Nichtidentifizierung einer Kundigung deutlich

teurer, als die falsche Klassifikation als Kundigung. Hier sind also die Kunden-

werte zu berucksichtigen. Im Data Mining bieten sich dafur zwei Vorgehens-

weisen an. Zum einen kann der Grenzwert der Kundigungswahrscheinlichkeit

fur die Klassifikation angepasst werden und so die Gewichtung von Sensitivitat

und Spezifitat variiert werden. Zum anderen konnen die Fehlklassifikationskos-

ten schon beim Erstellen des Modells berucksichtigt werden (z.B. durch den

Metacost-Algorithmus).

Weiterhin ware zu untersuchen, wie die Verfahren auf deutlich asymmetri-

schere Verteilungen der Klassen reagieren. In der Praxis liegt die Kundigungs-

quote nicht bei 50%, sondern Mitte 2005 in bei 3%.[5]

Das Ensemble-Verfahren des Stackings verspricht hingegen kaum Erfolg, da

die Prognoseguteverlaufe recht parallel verlaufen, was darauf hinweist, dass die

Verfahren die gleichen Informationen extrahieren – das nur eben unterschiedlich

gut.

5 FAZIT UND AUSBLICK 85

Abbildung 92: Normierte Verteilungen der Merkmale bei PKV-Kundigungen,

rot = Kundigungen, blau = nicht Kundigungen

Abbildung 93: Normierte Verteilungen der Merkmale bei GKV-Kundigungen,

rot = Kundigungen, blau = nicht Kundigungen

5 FAZIT UND AUSBLICK 86

Danksagung

Bei Herrn Prof. Dr. G. Bornmuller bedanke ich mich fur die Ubernahme des

Erstgutachtens. Fur die Ubernahme des Zweitgutachtens und seine Hilfe beim

Zustandekommen dieser Arbeit bedanke ich mich bei Herrn Prof. Dr. S. Voß.

Besonderen Dank schulde ich Herrn Dr. S. Lessmann fur seine Betreuung

beim Erstellen dieser Arbeit und die vielen Denkanstoße.

Ich mochte mich bei Herrn Loser von der Techniker Krankenkasse fur hilf-

reiche Tipps und das Zurverfugungstellen der Daten bedanken.

Frau Heidi Albers von der Verwaltung gebuhrt mein spezieller Dank, da sie

mir wahrend des Studiums immer eine große und nette vor allem Hilfe war.

Nicht zuletzt mochte ich meinen Eltern danken, die mich wahrend meines

Studiums stets besonders unterstutzt haben.

LITERATUR 87

Literatur

[1] The Comprehensive R Archive Network.

http://www.cran.r-project.org/,

Abruf: 12. September 2009.

[2] Brandt, Johanna ; Jorgl, Daniela: Entscheidungsbaume.

http://www.stat.uni-muenchen.de/~thomas/studium/semakt/

seminar-sose07/material/Brandt-Joergl_Handout.pdf, Oktober

2007

Abruf: 12. August 2009.

[3] Breiman, L. ; Friedman, J. ; Olshen, J. ; Stone, C.: Classification And

Regression Trees. New York & London: Chapman & Hall, 1984.

[4] Bucknix, Wouter ; Verstraeten, Geert ; Poel, Dirk V.: Predicting

customer loyalty using the internal transactional database. In: Expert Sys-

tems with Applications 32 (2007), S. 125–134.

[5] Buschken, Joachim ; Gropp, Marcus: Kundigungsmanagement in

deutschen Krankenkassen.

http://www.ku-eichstaett.de/Fakultaeten/WWF/Lehrstuehle/MKT/

Forschung/practice/HF_sections/content/Studie.pdf,

Abruf: 17. Juli 2009.

[6] Chapman, Pete ; Clinton, Julian ; Kerber, Randy ; Khabaza, Thomas

; Reinartz, Thomas ; Shearer, Colin ; Wirth, Rudiger: CRISP-DM 1.0

/ Step-by-step data mining guide.

http://www.crisp-dm.org/CRISPWP-0800.pdf,

Abruf: 17. Juli 2009.

[7] Clarke, Bertrand ; Fokoue, Ernest ; Zhang, Hao H.: Principles and

Theory for Data Mining and Machine Learning. Berlin: Springer, 2009.

[8] Dietterich, Thomas G.: Ensemble Methods in Machine Learning. In:

Kittler, J. (Hrsg.) ; Roli, F. (Hrsg.): First International Workshop on

Multiple Classifier Systems, Lecture Notes in Computer Science. New York:

Springer, 2000, S. 1–15.

[9] dpa: Erste Krankenkasse erhebt Zusatzbeitrag.

http://www.weser-kurier.de/Artikel/News/Politik/Inland/19505/

Ministerin+Schmidt%3A+30+bis+50+Kassen+sind+genug.html, August

2009

Abruf: 1. September 2009.

http://www.cran.r-project.org/

http://www.stat.uni-muenchen.de/~thomas/studium/semakt/seminar-sose07/material/Brandt-Joergl_Handout.pdf

http://www.ku-eichstaett.de/Fakultaeten/WWF/Lehrstuehle/MKT/Forschung/practice/HF_sections/content/Studie.pdf

http://www.crisp-dm.org/CRISPWP-0800.pdf

http://www.weser-kurier.de/Artikel/News/Politik/Inland/19505/Ministerin+Schmidt%3A+30+bis+50+Kassen+sind+genug.html

LITERATUR 88

[10] Ester, Martin ; Sander, Jorg: Knowledge Discovery in Databases. Berlin:

Springer, 2000.

[11] Faeke, Nina: Außenkontakte der Universitat Konstanz: Altana-Lehrstuhl

auf der CEBIT 2006.

http://kops.ub.uni-konstanz.de/volltexte/2008/6159/pdf/

unikon23.pdf, Juni 2006

Abruf: 13. September 2009.

[12] Fawcett, Tom: ROC Graphs: Notes and Practical Considerations for

Data Mining Researchers.

http://www.hpl.hp.com/techreports/2003/HPL-2003-4.pdf, Januar

2009

Abruf: 24. Juli 2009.

[13] Gregory Piatetsky-Shapiro, Ph.D.: Data Mining Tools Used Poll.

http://www.kdnuggets.com/polls/2009/data-mining-tools-used.

htm, Juni 2009

Abruf: 12. September 2009.

[14] Han, Jiawei ; Kamber, Micheline: Data Mining: Concepts and Techniques.

Amsterdam: Morgan Kaufmann, 2006.

[15] Hilbert, Prof. Dr. A.: Customer Relationship Management (CRM).

http://www.enzyklopaedie-der-wirtschaftsinformatik.

de/wi-enzyklopaedie/lexikon/informationssysteme/

crm-scm-und-electronic-business/Customer-Relationship-Management/,

Abruf: 6. September 2009.

[16] Kriesel, David: Ein kleiner Uberblick uber Neuronale Netze.

http://www.dkriesel.com/_media/science/

neuronalenetze-de-delta-dkrieselcom.pdf,

Abruf: 12. August 2009.

[17] Ligges, Uwe: Programmieren mit R. Berlin: Springer, 2008.

[18] Techniker Krankenkasse: Basisdaten (TK).

http://www.tk-online.de/tk/unternehmen-und-karriere/

ueber-die-tk/basisdaten/8168,

Abruf: 18. September 2009.

[19] Mierswa, Ingo: Approaching Vega (Episode III: Flow vs. Tree).

http://rapid-i.com/component/option,com_myblog/blogger,Ingo+

Mierswa/Itemid,172/lang,de/, August 2009

Abruf: 1. September 2009.

http://kops.ub.uni-konstanz.de/volltexte/2008/6159/pdf/unikon23.pdf

http://www.hpl.hp.com/techreports/2003/HPL-2003-4.pdf

http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm

http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/informationssysteme/crm-scm-und-electronic-business/Customer-Relationship-Management/

http://www.dkriesel.com/_media/science/neuronalenetze-de-delta-dkrieselcom.pdf

http://www.tk-online.de/tk/unternehmen-und-karriere/ueber-die-tk/basisdaten/8168

http://rapid-i.com/component/option,com_myblog/blogger,Ingo+Mierswa/Itemid,172/lang,de/

LITERATUR 89

[20] Mierswa, Ingo ; Wurst, Michael ; Klinkenberg, Ralf ; Scholz, Martin

; Euler, Timm: YALE: Rapid Prototyping for Complex Data Mining

Tasks. In: KDD ’06: Proceedings of the 12th ACM SIGKDD international

conference on Knowledge discovery and data mining, New York: ACM,

2006, S. 935–940.

[21] Mihm, Andreas: Erste Krankenkasse erhebt Zusatzbeitrag.

http://www.faz.net/s/Rub594835B672714A1DB1A121534F010EE1/

Doc~EB18A790F4CA9420EA3B0883F5B20239E~ATpl~Ecommon~Scontent.

html, August 2009

Abruf: 1. September 2009.

[22] Neubauer, G. ; Minartz, C.: Krankenversicherungs- und steuerrechtliche

Weiterungen einer Umwandlung von Krankenkassen in privatrechtliche

Unternehmen.

http://ifg-muenchen.com/Aktuelles/Gutachten_ProGenerika_

Privatisierung_der_Krankenkassen.pdf, Februar 2009

Abruf: 24. Juli 2009.

[23] Nuscheler, Robert: Krankenkassenwettbewerb in der GKV: Evidenz fur

Risikoselektion? In: Vierteljahreshefte zur Wirtschaftsforschung 73 (2004),

S. 528–538.

[24] Rutten, Christian ; Schuler, Peter: R-leuchtung. In: c’t (2009), Juni

2009, Nr. 13, S. 166–168.

[25] Schubert, Dr. M.: Skript zur Vorlesung Knowledge Discovery in Data-

bases, Kapitel 3: Klassifikation.

http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD/WS0809/

skript/kdd-3-klassifikation.pdf,

Abruf: 12. August 2009.

[26] Sexauer, Hagen J.: Entwicklungslinien des Customer Relationship Ma-

nagement (CRM). In: Wirtschaftswissenschaftliches Studium 31 (2002), S.

218–222.

[27] Steinwart, Ingo ; Christmann, Andreas: Support Vector Machines. Ber-

lin: Springer, 2008.

[28] Zellner, Gregor: Leistungsprozesse im Kundenbeziehungsmanagement,

Universitat St. Gallen – Hochschule fur Wirtschafts-, Rechts- und Sozial-

wissenschaften (HSG), Diss., Juni 2003.

http://www.faz.net/s/Rub594835B672714A1DB1A121534F010EE1/Doc~EB18A790F4CA9420EA3B0883F5B20239E~ATpl~Ecommon~Scontent.html

http://ifg-muenchen.com/Aktuelles/Gutachten_ProGenerika_Privatisierung_der_Krankenkassen.pdf

http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD/WS0809/skript/kdd-3-klassifikation.pdf

universitat hamburg technische universitat hamburg...

Documents

ruhr-universitat bochum¨ lehrstuhl fur ... · 5 simulation...

diplomarbeit wissensmanagement in international agierenden...

ausslandssemester 2016/17: barcelona t universitat pompeu...

universitat...

merkmalbasierte zeichenerkennung mittels neuronaler...

innenarchitektur inhaltsverzeichnis 1.2...

die christian-albrechts-universitat zu kiel zentrale...

ausbildungsseminar nukleare astrophysik - kerne und sterne...

technische universitat m¨ unchen¨ fakultat f¨ ur

€¦ · komfortrelevante wechselwirkung von...

friedrich-alexander-universitat erlangen-n urnberg - …

technische universitat m¨ unchen¨ - tum

albert-ludwigs-universitat...

leitfaden baubestand nachhaltig...

universitat¨ fachbereich stuttgart mathematik

technische universitat m¨ unchen¨ fakultat f¨ ur ......

s...

rheinische friedrich -wilhelms universitat bonn ·...

technische universitat¤ darmstadt fachbereich...

joan llull - core marriage make you healthier? nezih guner...