Fakultät Technik und Informatik Department Informatik
Faculty of Engineering and Computer Science Department of Computer Science
Stefan Zinke
Einsatz ausgewählter Data Mining-Verfahren zur Optimierung des After Sales Marketing
Bachelorarbeit
Stefan Zinke
Einsatz ausgewählter Data Mining-Verfahren zur Optimierung des After Sales Marketing
Bachelorarbeit eingereicht im Rahmen der Bachelorprüfung im Studiengang Wirtschaftsinformatik am Department Informatik der Fakultät Technik und Informatik der Hochschule für Angewandte Wissenschaften Hamburg Betreuender Prüfer: Prof. Dr. Klaus-Peter Schoeneberg Zweitgutachter: Prof. Dr. Ulrike Steffens Abgegeben am 23.08.2016
Stefan Zinke Thema der Bachelorarbeit
Einsatz ausgewählter Data Mining-Verfahren zur Optimierung des After Sales Marketing Stichworte
Data Mining, After Sales Marketing, Ensemble-Methoden, Datentransformation, Ungleiche Klassenverteilung, Prädiktorenselektion, KNIME
Kurzzusammenfassung
In der vorliegenden Arbeit besteht die Aufgabenstellung darin, Kunden eines Online-Shops anhand der vorhandenen Merkmale ihrer Erstbestellung zu klassifizieren. Es wird nur den Kunden, die ohne Incentivierung keinen Folgekauf tätigen, ein Gutschein in Höhe von 5 Euro zugesendet. Das betriebswirtschaftliche Ziel liegt in einer Maximierung des Umsatzes in Bezug auf diese After Sales Marketing-Maßnahme. Die seitens eines Online-Medienhändlers zur Verfügung gestellten Datensätze weisen fehlende und inkonsistente Werte auf und sind hinsichtlich des Klassifikationsmerkmals sehr ungleich verteilt. Somit wird durch Datenvorverarbeitungsprozesse die Datenqualität erhöht und eine gleichmäßigere Verteilung der Klassen hergestellt. Die angewendeten Verfahren werden darüber hinaus durch eine Selektion relevanter Prädiktoren und Parameteranalysen optimiert. Die besten Ergebnisse werden mit dem Gradient Boosted Trees-Verfahren erzielt, das zu den Ensemble-Methoden gehört.
Stefan Zinke Title of the paper
Application of selected data mining techniques for the optimization of After Sales Marketing
Keywords
Data Mining, After Sales Marketing, Ensemble Methods, Data Transformation, Unbalanced Data Sets, Feature Elimination, KNIME
Abstract
This work tries to classify customers of an online-shop based on the existing features of their first order. A coupon of 5 euros is send only to those customers, who do not order again without further incentive. The business objective is to maximize the revenue relating to this after-sales campaign. The records made available by an online media retailer contain missing and inconsistent values and are distributed very unevenly with regard to the classification feature. Thus the data quality is increased and a more even distribution of classes is achieved by applying data preprocessing steps. Additionally, the used procedures are optimized by a selection of relevant predictors and a parameter analysis. The best results are obtained with the Gradient Boosted Trees method, which belongs to the ensemble methods.
Inhaltsverzeichnis
Abbildungsverzeichnis ......................................................... vi
Tabellenverzeichnis ........................................................... viii
1 Einleitung ...................................................................... 10
1.1 Themenbeschreibung .................................................................................. 10
1.2 Ziel der Arbeit .............................................................................................. 11
1.3 Struktur der Arbeit ...................................................................................... 12
1.4 Bezugsrahmen ............................................................................................. 13
2 Grundlagen ................................................................... 14
2.1 Data Mining ................................................................................................. 15
2.2 Data Mining-Prozess .................................................................................... 16
2.2.1 Knowledge Discovery in Databases (KDD) ......................................................16
2.2.2 Cross-Industry Standard Process for Data-Mining (CRISP-DM) ......................17
2.3 Data Mining – Lernarten ............................................................................. 19
2.3.1 Unüberwachtes Lernen ...................................................................................19
2.3.2 Überwachtes Lernen .......................................................................................21
2.4 Datenvorverarbeitung ................................................................................. 23
2.4.1 Behandlung fehlender und inkonsistenter Werte ..........................................24
2.4.2 Datentransformation ......................................................................................27
2.4.3 Selektion der Prädiktoren ...............................................................................28
2.5 Klassifikationsverfahren .............................................................................. 32
2.5.1 Entscheidungsbäume ......................................................................................32
2.5.2 Künstliche Neuronale Netze ...........................................................................35
2.5.3 Naiver Bayes Klassifikator ...............................................................................40
2.5.4 Support Vector Machine .................................................................................42
2.5.5 k-Nächster-Nachbar-Klassifikator ...................................................................45
2.5.6 Logistische Regression ....................................................................................46
2.5.7 Ensemble-Methoden ......................................................................................47
2.6 Modellbewertung ........................................................................................ 50
2.6.1 Gütemaße .......................................................................................................51
2.6.2 Fehlerkosten ...................................................................................................55
2.6.3 Trainings- und Testmenge ...............................................................................56
2.7 KNIME .......................................................................................................... 60
2.8 After Sales Marketing .................................................................................. 63
3 Empirischer Teil ............................................................. 66
3.1 Geschäftsmodell und Datenerhebung ........................................................ 66
3.2 Datenvorverarbeitung ................................................................................. 70
3.2.1 Fehlende und irrelevante Werte .....................................................................70
3.2.2 Inkonsistente Werte........................................................................................74
3.2.3 Datentransformation ......................................................................................80
3.3 Modellierung und Evaluation ...................................................................... 84
3.3.1 Bestimmung der Trainingsmenge ...................................................................85
3.3.2 Selektion der Prädiktoren ...............................................................................91
3.3.3 Parameteroptimierung ...................................................................................97
3.4 Ergebnisse .................................................................................................. 100
4 Abschlussbetrachtung ................................................. 102
4.1 Fazit ........................................................................................................... 103
4.2 Ausblick ...................................................................................................... 104
Literaturverzeichnis .......................................................... 106
Abbildungsverzeichnis
Abbildung 1 - Bezugsrahmen ...................................................................................................... 14 Abbildung 2 - KDD-Prozess .......................................................................................................... 16 Abbildung 3 - CRISP-DM .............................................................................................................. 17 Abbildung 4 - Übersicht der Lernarten ....................................................................................... 19 Abbildung 5 - Scatterplots mit unterschiedlichen Korrelationskoeffizienten............................. 29 Abbildung 6 - Hauptkomponentenanalyse mit den Hauptkomponenten v1 und v2 ................. 31 Abbildung 7 - Entscheidungsbaum zur Ermittlung eines Zahlungsausfalls ................................. 35 Abbildung 8 - Aufbau eines mehrschichtigen Perzeptrons ......................................................... 36 Abbildung 9 - Vereinfachter Aufbau eines Neurons ................................................................... 37 Abbildung 10 - Sprungfunktion ................................................................................................... 38 Abbildung 11 - Tangens hyperbolicus als Aktivierungsfunktion ................................................. 38 Abbildung 12 - Logistische Funktion als Aktivierungsfunktion ................................................... 39 Abbildung 13 - Support Vector Machine mit linear separierbaren Daten .................................. 42 Abbildung 14 - Klassen mit nichtlinearen Klassengrenzen ......................................................... 44 Abbildung 15 - k-Nächster-Nachbar-Klassifikator ....................................................................... 45 Abbildung 16 - Konfusionsmatrix ................................................................................................ 52 Abbildung 17 - ROC-Diagramm ................................................................................................... 54 Abbildung 18 - Kostenmatrix ...................................................................................................... 56 Abbildung 19 - Ausschnitt aus einem KNIME Workflow ............................................................. 61 Abbildung 20 - Darstellung eines Metanodes ............................................................................. 62 Abbildung 21 - Ausschnitt aus dem Workflows des Metanodes aus Abb. 20 ............................ 63 Abbildung 22 - Customer Lifetime Value .................................................................................... 65 Abbildung 23 - Auszug aus den advertisingdatacode-Werten der Trainingsmenge .................. 73 Abbildung 24 - Java Snippet zur Umwandlung der advertisingdatacode-Werte ....................... 73 Abbildung 25 - Übersicht der inkonsistenten deliverydatepromised Werte der Trainingsmenge
............................................................................................................................................ 76 Abbildung 26 - Anzahl unterschiedlicher Werte des Merkmals deliverydatereal ...................... 77 Abbildung 27 - Untersuchung stornierter Artikel ....................................................................... 78 Abbildung 28 - Statistische Auswertung zeitlicher Abstände ..................................................... 79 Abbildung 29 - Korrelation zwischen den Merkmalen date und deliverydatereal ..................... 79 Abbildung 30 - Korrelation zwischen den Merkmalen deliverydatepromised und deliverydatereal
............................................................................................................................................ 79 Abbildung 31 - Ersetzen der inkorrekten deliverydatereal-Werte ............................................. 80
Abbildung 32 - Java Snippet zur Erstellung der Kostenmatrix .................................................... 84 Abbildung 33 - Konfusionsmatrix des Random Forest-Modells bei unveränderter Trainingsmenge
............................................................................................................................................ 88 Abbildung 34 - Under-Sampling zur Reduktion der ungleichen Verteilung der Klassen ............ 89 Abbildung 35 - Korrelationsmatrix der Prädiktoren ................................................................... 92 Abbildung 36 - Backward Feature Elimination ........................................................................... 95 Abbildung 37 - Ausschnitt der Ergebnisse der Rückwärtsselektion der Trainingsmenge mit 1,5:1
Klassenverteilung ................................................................................................................ 96 Abbildung 38 - Backward Feature Elimination Filter mit manueller Selektion ........................... 97 Abbildung 39 - Schleife zur Parameteroptimierung ................................................................... 98 Abbildung 40 - Parameterselektion MultiLayerPerceptron ........................................................ 98 Abbildung 41 - Zuweisen der dynamischen Variablen beim MultiLayerPerceptron .................. 99 Abbildung 42 - Ausschnitt der Ergebnisse der Parameteroptimierung beim MultiLayerPerceptron
............................................................................................................................................ 99 Abbildung 43 - Umsatzsteigerungen durch Modelloptimierung (Beträge in Euro) .................. 101
Tabellenverzeichnis
Tabelle 1 - Erläuterung der Spaltenattribute ............................................................................. 68 Tabelle 2 - Verteilung des Klassifikationsmerkmals target90 ..................................................... 68 Tabelle 3 - Fehlende Werte der Trainingsmenge ........................................................................ 71 Tabelle 4 - Fehlende Werte der Testmenge ............................................................................... 71 Tabelle 5 - Inkonsistente Werte der Trainingsmenge ................................................................. 75 Tabelle 6 - Inkonsistente Werte der Testmenge......................................................................... 75 Tabelle 7 - Standardparameter der Modelle .............................................................................. 86 Tabelle 8 - Erzielte Umsätze auf den Testdaten mit vollständiger Trainingsmenge ................... 87 Tabelle 9 - Erzielte Umsätze auf den Testdaten nach Anwendung von Equal Size Sampling..... 87 Tabelle 10 - Erzielte Umsätze mit einem Verhältnis von 1,5:1 (Klasse 0: Klasse 1) .................... 90 Tabelle 11 - Umsätze mit unterschiedlichen correlation threshold Schwellenwerten ............... 94 Tabelle 12 - Maximaler Umsatz der Verfahren nach der Parameteroptimierung .................... 100 Tabelle 13 - Prozentuale Umsatzsteigerung bezogen auf den Basisumsatz ............................. 102
1 Einleitung
Im Folgenden wird ein Überblick über das Thema, die Problemstellungen und die
Struktur der Arbeit gegeben.
1.1 Themenbeschreibung
Die vorliegende Arbeit befasst sich mit der Problemstellung, Kunden eines Online-Shops
in Bezug auf After Sales Marketing-Maßnahmen zu klassifizieren. Konkret geht es darum,
die Kunden herauszufiltern, die ohne zusätzlichen Anreiz seitens des Online-Händlers
nach ihrer Erstbestellung keine weitere Folgebestellung aufgeben. Diese Klassifikation
ist für das After Sales Marketing der Händler sehr wichtig, da ein Wechsel der Kunden
zu anderen Anbietern verhindert wird und zusätzliche Bestellungen generiert werden.
Darüber hinaus sind im Regelfall die Kosten für Kundenbindungs- und
Rückgewinnungsmaßnahmen deutlich geringer als die Kosten für eine
Neukundenakquise (vgl. Günter, Neu 2015, S. 28). Die Fragestellung und die
Datenquellen, die im Rahmen der Arbeit untersucht werden, ergeben sich aus einer
Aufgabenstellung des Data Mining Cups von 2010 (vgl. DMC 2010). Dort hat ein
Medienhändler, der neben Büchern und CDs auch eBooks, Hörbücher und Downloads
anbietet, Kundendaten aus seinem Shop zur Verfügung gestellt, aus denen auf einen
möglichen Folgekauf geschlossen wird. In der Aufgabenstellung wird davon
Einleitung 11
ausgegangen, dass ein Folgekauf innerhalb einer Frist von 90 Tagen nach der
Erstbestellung erfolgt.
Eine korrekte Klassifikation ermöglicht es, genau denjenigen Kunden einen Gutschein in
Höhe von 5 Euro zuzusenden, die ohne Incentivierung keine weitere Bestellung
aufgeben. Erfahrungswerten zufolge wird davon ausgegangen, dass eine
Folgebestellung, die durch Zusenden des Gutscheins erreicht wird, in 10% der Fälle
erfolgt. Der durchschnittliche Warenwert einer derart erzielten Bestellung soll dabei 20
Euro betragen. Somit ergibt sich bei einem korrekt zugesendeten Gutschein eine
Umsatzsteigerung von 1,50 Euro.
In dem Fall, in dem einem Kunden ein Gutschein zugeschickt wird, der auch ohne diesen
Gutschein eine weitere Bestellung aufgibt, schlägt gemäß der Aufgabenstellung eine
Umsatzeinbuße von 5 Euro zu Buche. Eine weiterführende Umsatzanalyse wird in Kapitel
2.5.2 mit Hilfe einer Kostenmatrix vorgenommen.
1.2 Ziel der Arbeit
Ziel dieser Arbeit ist es, die After Sales Marketing-Maßnahme des Online-
Medienhändlers durch den Einsatz ausgewählter Data Mining-Verfahren effektiver und
profitabler zu gestalten. Es werden unterschiedliche Modelle entwickelt, die
anschließend anhand der durch sie generierten Umsatzsteigerung verglichen werden.
Die Modelle mit den besten Ergebnissen werden im Detail optimiert, um einen
zusätzlichen positiven Effekt auf die Modellgüte zu erreichen. Durch diese
Vorgehensweise wird der Nutzen von Data Mining in Bezug auf erfolgreiche
Kundenbindungsmaßnahmen und damit den Unternehmenserfolg verdeutlicht.
Als Datenquellen liegen Tabellen mit Kundendaten vor, die zahlreiche Merkmale
bezüglich der Kundenbestellung betreffen. Vor der Anwendung der Data Mining-
Verfahren auf die Daten wird durch systematische Vorverarbeitungsprozesse eine hohe
Datenqualität sichergestellt. Die im Verlauf der Arbeit gebildeten Modelle werden
anhand von unterschiedlichen Trainingsmengen und Prädiktoren, sowie unter
Einleitung 12
Verwendung verschiedener Modell-Parameter getestet und optimiert. Eine
Herausforderung stellt dabei die Ungleichverteilung der Daten hinsichtlich des
Klassifikationsmerkmals dar. Es werden mehrere Methoden untersucht, um ein
ausgewogenes Klassenverhältnis herzustellen und somit eine aussagekräftige
Modellbildung zu erleichtern.
Das Klassifikationsmerkmal target90 bestimmt, ob seitens des Kunden ein Folgekauf
innerhalb von 90 Tagen erfolgt oder nicht.
Die vorliegenden Klassen für das Merkmal target90 sind:
Klasse 0: Kein Folgekäufer (Kunde tätigt keinen Folgekauf innerhalb von 90 Tagen, somit wird ein Gutschein zugesendet).
Klasse 1: Folgekäufer (Kunde tätigt einen Folgekauf innerhalb von 90 Tagen, somit wird kein Gutschein zugesendet).
Für diese Arbeit wird wie beschrieben als Erfolgskriterium der einzelnen Modelle die
Umsatzsteigerung betrachtet, die in Bezug auf die After Sales Marketing-Maßnahme
erreicht wird. In diesem Zusammenhang ist zu beachten, dass die Auswirkungen der
korrekt und inkorrekt klassifizierten Datenobjekte auf den Gesamtumsatz
unterschiedlich hoch sind und anhand einer Kostenmatrix berechnet werden. Wird ein
Kunde fälschlicherweise der Klasse 0 zugeordnet, bedeutet das eine Umsatzeinbuße von
5 Euro, während eine fehlerhafte Zuordnung in Klasse 1 eine Umsatzsteigerung um 1,50
Euro verhindert.
1.3 Struktur der Arbeit
Die Arbeit ist in einen Grundlagenteil und einen empirischen Teil gegliedert. Zu Beginn
wird auf die Grundlagen von Data Mining eingegangen und es werden die für die
vorliegende Arbeit relevanten Begrifflichkeiten und Prozesse erläutert. Es folgt eine
Darstellung der für den gesamten Data Mining-Prozess notwendigen theoretischen
Kenntnisse nach dem aktuellen Stand der Forschung.
Einleitung 13
Anschließend wird die verwendete Software, mit der die ausgewählten statistischen
Modelle erstellt und angewendet werden, in Grundzügen dargestellt. Im Folgenden wird
der Bezug zum After Sales Marketing hergestellt, wodurch der Wert von Data Mining-
Verfahren für den E-Commerce deutlich wird.
Darauf folgt der empirische Teil der Arbeit, wobei die einzelnen Schritte des Data
Mining-Prozesses in Bezug auf die Aufgabenstellung durchlaufen werden um das Modell
zu ermitteln, das die höchste Umsatzsteigerung erzielt.
Abschließend folgt ein Fazit mit Bezug auf die angewendeten Methoden, sowie die
erreichten Ergebnisse und es wird ein Ausblick auf weitere Untersuchungsmöglichkeiten
gegeben.
1.4 Bezugsrahmen
Der Bezugsrahmen stellt die Zusammenhänge der einzelnen Kapitel grafisch dar. Es wird
veranschaulicht, welche theoretischen Grundlagen für die jeweiligen Punkte des
empirischen Teils relevant sind. Somit wird ein Überblick über die gesamte Struktur der
Arbeit ermöglicht (siehe Abb. 1).
Grundlagen 14
Abbildung 1 - Bezugsrahmen
2 Grundlagen
Im Folgenden wird zunächst der Begriff Data Mining vorgestellt, sowie eine Abgrenzung
zum Begriff Knowledge Discovery in Databases vorgenommen. Anschließend werden
der Data Mining-Prozess, die Lernarten, die Datenvorverarbeitung und die
theoretischen Grundlagen der wichtigsten Klassifikationsverfahren erläutert.
Grundlagen 15
Darüber hinaus werden die relevanten Modellbewertungskriterien erläutert, um die
effektivsten Data Mining-Verfahren für die vorliegende Aufgabenstellung zu ermitteln.
Des Weiteren wird die für diese Arbeit verwendete Data Mining-Software vorgestellt.
Es folgt eine Darstellung des Begriffs After Sales Marketing, sowie ein Überblick über die
Vorteile, die sich aus einer Optimierung in diesem Bereich ergebt.
2.1 Data Mining
Data Mining kann mit Datenmustererkennung übersetzt werden (vgl. Bissantz,
Hagedorn 1993, S. 481). Es gibt unterschiedliche Definitionen, die sich in Feinheiten
unterscheiden (vgl. Bankhofer, Vogel 2008, S. 253; Eibe, Hall, Witten 2011, S. 4; Runkler
2010, S. 2). Für diese Arbeit wird die vorliegende Definition verwendet:
„Data Mining ist das semi-automatische Aufdecken von Mustern mittels Datenanalyse-
Verfahren in meist sehr großen und hochdimensionalen Datenbeständen“ (Lenz, Müller
2013, S. 75). Data Mining hat also das Ziel neues Wissen und neue Querverbindungen
aus den vorhandenen Daten zu extrahieren (vgl. Runkler 2010, S. 2).
Ein verwandter Begriff zum Data Mining ist Knowledge Discovery in Databases (KDD).
Die grundlegende Definition von KDD ist: „Wissensentdeckung in Datenbanken ist der
nichttriviale Prozess der Identifikation gültiger, neuer, potentiell nützlicher und
schlussendlich verständlicher Muster in (großen) Datenbeständen“ (Fayyad, Piatetsky-
Shapiro, Smyth 1996, S. 40).
Es gibt Autoren, die diesen Begriff synonym zum Data Mining verwenden, andere sehen
Data Mining als Kernprozess des KDD im Rahmen der Wissensidentifikation (vgl. Sharafi
2013, S. 51).
Grundlagen 16
2.2 Data Mining-Prozess
Im Folgenden werden die beiden gängigsten Data Mining-Prozesse beschrieben (vgl.
Elder, Miner, Nisbet 2009, S. 35). Dabei handelt es sich einerseits um den bereits
erwähnten Prozess Knowledge Discovery in Databases und zum anderen um den Cross-
Industry Standard Process for Data-Mining (CRISP-DM).
2.2.1 Knowledge Discovery in Databases (KDD)
Der KDD-Prozess ist nicht linear, sondern iterativ und interaktiv im gesamten Prozess
der Wissensentdeckung zu verstehen, so dass bei Bedarf zu einem vorhergehenden
Schritt zurückgegehrt wird (vgl. Bankhofer, Vogel 2008, S. 254).
Abbildung 2 - KDD-Prozess Quelle: Lenz, Müller 2013, S. 77.
Es folgt eine Erläuterung der Prozessabläufe, die in Abb. 2 veranschaulicht sind:
1. Selektion: Es werden die Daten ausgewählt, die für die Aufgabenstellung relevant sind.
2. Vorverarbeitung: Die Rohdaten werden vorverarbeitet, d.h. Fehler werden erkannt und behandelt, Dubletten identifiziert und fehlende Werte ermittelt (vgl. Runkler 2010, S. 21).
3. Transformation: Die Daten werden bei Bedarf in einen für die Analyse geeigneteren Datentyp umgewandelt.
Grundlagen 17
4. Data Mining: Die Daten werden mit Hilfe von Data Mining-Methoden analysiert um Muster und Beziehungen innerhalb der Daten zu entdecken, sowie weiterführendes Wissen in Bezug auf den Untersuchungsgegenstand zu ermitteln (vgl. Bankhofer 2008, S. 254).
5. Interpretation und Evaluation: Es findet eine Interpretation der gefundenen Muster und des angewendeten Modells statt. Die Muster werden dabei in der Regel für die Entscheidungsfindung visuell aufbereitet. Das Modell wird hinsichtlich der Einsetzbarkeit und der erarbeiteten Ergebnisse evaluiert (vgl. Lenz, Müller 2013, S.76).
2.2.2 Cross-Industry Standard Process for Data-Mining (CRISP-DM)
CRISP-DM stellt einen industrie- und softwareunabhängigen Standardprozess für das
Data Mining dar, der 1996 von einem Zusammenschluss mehrerer Unternehmen
entwickelt wurde (vgl. Chapman, Clinton, Kerber 1999, S. 1).
Abbildung 3 - CRISP-DM Quelle: Chapman 1999, S. 10.
Grundlagen 18
Dieser Prozess wird in folgende sechs Phasen unterteilt (siehe Abb. 3):
1. Geschäftsmodell verstehen: Die Geschäftsziele werden erfasst und es erfolgt eine Festlegung der Data Mining-Aufgabe, der Erfolgskriterien und eines Projektplans. Betriebswirtschaftliche Betrachtungen stehen bei der Zielsetzung im Vordergrund.
2. Daten verstehen: Die Datenquellen werden bestimmt und bezüglich der Datenqualität untersucht. Es werden erste Zusammenhänge der Daten über visuelle und statistische Aufbereitungen erkannt.
3. Daten aufbereiten: Diese Phase umfasst alle Schritte, die nötig sind um die Rohdaten in einen Datensatz zu überführen, auf den die Data Mining-Methoden sinnvoll angewendet werden Es erfolgt eine Bereinigung der Daten, in der Ausreißer, fehlende Werte und fehlerhafte Daten behandelt werden. Weiterhin findet eventuell eine Konvertierung der Daten statt und es werden für die Untersuchung irrelevante oder stark voneinander abhängige Daten herausgefiltert.
4. Modellierung: In dieser Phase erfolgt die Auswahl der Data Mining-Verfahren, der passenden Algorithmen und der dazugehörigen Parameter. Das Ergebnis resultiert in einem Modell zur Datenanalyse. In dieser Phase kommt es häufig vor, dass ein Rücksprung in eine vorhergehende Phase erfolgt, beispielsweise wenn sich die Erfordernisse an die Datenaufbereitung ändern (vgl. Sharafi 2013, S. 67).
5. Evaluation: Das ausgewählte Data Mining-Verfahren wird angewendet und im Anschluss wird die Modellanpassungsgüte bestimmt (vgl. Lenz, Müller 2013, S. 78). Es wird geprüft, ob die Erfolgskriterien und wirtschaftlichen Ziele, die in der ersten Phase entwickelt wurden, mit dem Modell erreicht werden.
6. Einsatz: Nachdem das Modell zum Einsatz gekommen ist, werden die Ergebnisse und das Wissen präsentiert und nutzbar gemacht. Es wird festgelegt, wie das Modell im Unternehmensalltag verwendet wird und wie lange es gültig ist.
In der vorliegenden Arbeit wird nicht strikt nach einem der beiden aufgeführten Data
Mining-Prozesse vorgegangen. CRISP-DM orientiert sich stark an Data Mining-Verfahren
innerhalb eines Unternehmensumfeldes. Aspekte wie beispielsweise der Einsatz des
Modells im Unternehmensalltag sind innerhalb dieser Arbeit nicht abschließend zu
beurteilen. Der Online-Händler, der die Daten zur Verfügung stellt, ist nicht bekannt. Es
werden im Vorfeld der Arbeit auch keine exakten betriebswirtschaftlichen Vorgaben
und Erfolgskriterien als Geschäftsziel festgelegt, wie es häufig im Unternehmensumfeld
der Fall ist. Es wird versucht, den Umsatz des Online-Händlers unter Bezugnahme auf
die Kostenmatrix in Kapitel 2.5.2 zu maximieren. Zudem gehen in dieser Arbeit die
Modellierungs- und die Evaluationsphase ineinander über, da beispielsweise nach einer
Grundlagen 19
Parameteroptimierung eines Modells sofort die Auswirkungen der Änderungen auf den
Umsatz untersucht werden.
Der Data Mining-Prozess innerhalb dieser Arbeit orientiert sich somit am CRISP-DM,
weicht in Teilaspekten aber davon ab.
2.3 Data Mining – Lernarten
Grundsätzlich wird beim Data Mining das überwachte und das unüberwachte Lernen
unterschieden. Für jede dieser Lernarten gibt es spezifische Verfahrensarten. Eine
Übersicht über die relevanten Verfahrensarten ist in Abb. 4 dargestellt.
Abbildung 4 - Übersicht der Lernarten
2.3.1 Unüberwachtes Lernen
Beim unüberwachten Lernen sind die zu entdeckenden Muster nicht bekannt, es sind
weder Gruppierungen noch Klassifikationen vorgegeben. Die Lösungen, die durch
entsprechende Algorithmen entwickelt werden, werden folglich nicht mit vorliegenden
Grundlagen 20
Lösungen abgeglichen (vgl. Cleve, Lämmel 2014, S. 55). Beispiele für das unüberwachte
Lernen sind die Cluster-Analyse und die Assoziationsanalyse, die im Folgenden kurz
dargestellt werden.
Cluster-Analyse
Die Cluster-Analyse hat das Ziel, gleichartige Objekte anhand von
Ähnlichkeitsmerkmalen in Gruppen zu unterteilen. Innerhalb der einzelnen Cluster wird
eine hohe Homogenität der Objekte angestrebt. Objekte verschiedener Cluster dagegen
sind möglichst heterogen (vgl. Baars, Kemper, Mehanna 2010, S. 116). Anwendung in
der Praxis findet die Clusteranalyse beispielsweise bei der Zeichenerkennung (engl.
optical character recognition) oder der Einteilung eines Kundenstammes in homogene
Kundengruppen. Die Quantifizierung der Ähnlichkeit der Objekte innerhalb der
einzelnen Cluster erfolgt über Distanz- oder Abstandsfunktionen. Zusätzlich wird eine
Qualitätsfunktion benötigt, die einen Vergleich von unterschiedlichen Clusterbildungen
zulässt.
Hinsichtlich der Qualitätsfunktionen gibt es zwei Herangehensweisen. Es existiert die
Methode, die Kompaktheit der einzelnen Cluster anhand der Summe der Abweichungen
der Objekte eines Clusters vom Clusterrepräsentanten zu messen. Die Summe der
Abweichungen über alle Cluster wird anschließend summiert. Je kleiner die Summe ist,
desto besser ist die Güte der Clusterbildung. Der zweite Ansatz untersucht, wie weit die
einzelnen Cluster voneinander entfernt liegen, wobei eine größere Entfernung
voneinander ein höheres Gütemaß zur Folge hat (vgl. Cleve, Lämmel 2014, S. 235).
Assoziationsanalyse
Die Assoziationsanalyse zielt darauf ab, Abhängigkeiten zwischen Objekten oder
Attributen zu ermitteln. Die bekannteste Anwendung in der Praxis ist die
Warenkorbanalyse. Dort wird analysiert, welche Artikel häufig zusammengekauft
werden. Im Anschluss an die Analyse werden dann Maßnahmen zur Verbesserung des
Grundlagen 21
Cross-Marketing oder der Artikelpositionierung ergriffen. Innerhalb der
Assoziationsanalyse werden Assoziationsregeln aufgestellt, die Korrelationen zwischen
gemeinsam auftretenden Dingen beschreiben. Die Assoziationsregeln werden in der
Form 𝐴 → 𝐵 (wenn Item-Menge 𝐴, dann Item-Menge 𝐵) dargestellt. Die wichtigsten
Kenngrößen der Assoziationsregeln sind Support und Konfidenz (vgl. Han, Kamber, Pei
2012, S. 246).
Sei 𝐷 eine Menge von Itemmengen. Eine Transaktion 𝑡 𝜖 𝐷 unterstützt eine Regel 𝐴 →
𝐵, wenn (𝐴 ∪ 𝐵) ⊆ 𝑡 gilt. Der Support einer Assoziationsregel berechnet sich dadurch,
dass die Anzahl der Transaktionen, die die Regel unterstützen, ins Verhältnis zur
Gesamtzahl aller Transaktionen gesetzt wird (vgl. Formel 1).
Support(𝐴 → 𝐵) =|{𝑡 𝜖 𝐷|(𝐴 ∪ 𝐵) ⊆ 𝑡}|
|𝐷|
(1)
Die Konfidenz beschreibt das Verhältnis zwischen den Transaktionen, die sowohl
Prämisse als auch Konklusion enthalten und den Transaktionen, die nur die Prämisse
enthalten (vgl. Formel 2).
Konfidenz(𝐴 → 𝐵) = |{𝑡 𝜖 𝐷|(𝐴 ∪ 𝐵) ⊆ 𝑡}|
|{𝑡 𝜖 𝐷|𝐴 ⊆ 𝑡}|=
Support (𝐴→𝐵)
Support 𝐴
(2)
Je nach Zielsetzung werden Schwellwerte für den Support und die Konfidenz festgelegt,
die nicht unterschritten werden dürfen. Dadurch werden die wichtigen
Assoziationsregeln herausgefiltert, die im Regelfall einen hohen Support, sowie eine
hohe Konfidenz haben.
2.3.2 Überwachtes Lernen
Beim überwachten Lernen wird das Verfahren anhand von Trainingsdaten hinsichtlich
der zu erledigenden Aufgabe trainiert. Die Klassenzugehörigkeit sowohl der Trainings-
als auch der Testdaten ist dabei bekannt (vgl. Krishna 2013, S. 37). Beim überwachten
Lernen sticht besonders die grundsätzliche Annahme heraus, dass die Beispieldaten
repräsentativ sind. Es wird davon ausgegangen, dass sich zukünftige Daten ähnlich
Grundlagen 22
verhalten wie die vorliegenden Beispieldaten (vgl. Cleve, Lämmel 2014, S. 55). Zu den
Verfahren des überwachten Lernens zählen beispielsweise die Klassifikation und die
Regression.
Regression
Die Regression stellt ein Vorhersagemodell für numerische kontinuierliche und
geordnete Werte dar. Dabei wird der Zusammenhang zwischen einer Zielgröße 𝑌 und
einer oder mehrerer Ausgangs-Variablen 𝑋(𝑖) untersucht. Ein Beispiel aus der Praxis ist
die Veränderung der Absatzmenge eines Produktes in Abhängigkeit vom Produktpreis
und dem zur Verfügung gestellten Werbeetat. Darüber hinaus wird durch die
Anwendung von Regressionsverfahren die Stärke des Zusammenhangs der
unabhängigen Variablen auf die Zielgröße quantifiziert. Es werden die folgenden
Verfahren unterschieden:
1. Lineare Regression: Bei der linearen Einfachregression wird untersucht, welchen Einfluss eine unabhängige Variable 𝑋 auf die von 𝑋 abhängige Variable 𝑌 ausübt. Das Ziel ist es vorherzusagen, was mit 𝑌 passiert, wenn sich 𝑋 verändert (vgl. Kronthaler 2014, S. 193). Die Regressionsgerade wird unter Anwendung der Methode der kleinsten Quadrate ermittelt, die den Abstand zwischen beobachteten Werten und der gesuchten Geraden minimiert. In der Praxis reicht eine Variable zur Vorhersage der abhängigen Zielgröße aber meist nicht aus.
2. Multiple Regression: Im Gegensatz zur linearen Regression wird bei der multiplen Regression der Einfluss mehrerer unabhängiger Variablen auf eine abhängige Variable untersucht.
3. Nichtlineare Regression: Die Funktionen der nichtlinearen Regression lassen sich nicht als lineare Funktionen in den Parametern beschreiben. Hier bestehen grundsätzlich unbeschränkte Möglichkeiten, den deterministischen Teil zu entwickeln. Meist werden die Funktionen der nichtlinearen Regression aus der Theorie abgeleitet und eventuell weiterentwickelt (vgl. Ruckstuhl 2008, S. 9).
Grundlagen 23
Klassifikation
Im Rahmen der Klassifikation werden Datenobjekte mit unbekannter
Klassenzugehörigkeit vorgegebenen Klassen zugeordnet. Es ist für die Klassifikation
essentiell, dass in den zu analysierenden Daten bereits Objekte vorhanden sind, für die
die zugehörige Klasse bereits bekannt ist. Anhand dieser Datenobjekte wird ein Modell
entwickelt, das eine allgemeingültige Klassifizierung ermöglicht (vgl. Spehling 2007, S.
26). Dieses Modell wird als Klassifikator bezeichnet. Zunächst werden die klassifizierten
Daten in Trainings- und Testdatenmenge aufgeteilt. Anhand der Trainingsdatenmenge
wird ein Modell entwickelt um neue unklassifizierte Datensätze anhand ihrer Attribute
möglichst genau den entsprechenden Klassen zuzuordnen. Die Modellgüte des
entwickelten Modells wird anhand der Testdaten überprüft. Es wird weiterhin zwischen
binärer (zwei Klassen) und mehrwertiger Klassifikation unterschieden.
In der Praxis werden Klassifikationsverfahren beispielsweise auf dem Versicherungs-
und Bankensektor angewendet, um Kunden nach Kreditwürdigkeit oder der
Wahrscheinlichkeit einer Vertragsstornierung einzuordnen.
2.4 Datenvorverarbeitung
Es ist notwendig, die Daten vor der Anwendung der Data Mining-Verfahren
aufzubereiten, damit die entwickelten Modelle qualitativ hochwertige und
aussagekräftige Ergebnisse erzielen. Es werden fehlende Werte und Inkonsistenzen
innerhalb der Daten behoben, sowie Transformationen der Daten durchgeführt. In
diesem Kapitel werden die für die vorliegende Arbeit relevanten Methoden vorgestellt.
Grundlagen 24
2.4.1 Behandlung fehlender und inkonsistenter Werte
Fehlende Werte haben unterschiedliche Ursachen. Häufige Gründe sind beispielsweise
(vgl. Refaat 2007, S. 171):
Fehlende Benutzereingaben, die aus Unwissenheit, falscher Benutzung oder einer Antwortverweigerung entstehen
Unvollständigkeit von Sekundärdaten
Software- oder Systemfehler
Fehlerhaftes Untersuchungsdesign
Übertragungsfehler der Daten Zunächst wird untersucht, welcher Ausfallmechanismus für die jeweilige Ausfallursache
greift. Es werden grundsätzlich drei Ausfallmechanismen unterschieden, die im
Folgenden dargestellt werden (vgl. Elder, Miner, Nisbet 2009, S. 60).
MAR (missing at random): Die Ausfallwahrscheinlichkeit ist unabhängig von der Ausprägung des Merkmals selbst.
OAR (observed at random): Die Ausfallwahrscheinlichkeit ist unabhängig von den Ausprägungen anderer Merkmale.
MCAR (missing completely at random): Die Ausfallwahrscheinlichkeit ist weder abhängig von der Ausprägung des Merkmals selbst, noch von den Ausprägungen anderer Merkmale.
Je nach Ausfallmechanismus werden anschließend passende Strategien zur Behandlung
der fehlenden Werte ermittelt. Drei gängige Basisstrategien werden im Folgenden
erläutert (vgl. Refaat 2007, S. 172; Elder, Miner, Nisbet 2009, S. 61).
Eliminierungsverfahren
Es bestehen im Rahmen der Eliminierungsverfahren zwei Möglichkeiten, die fehlenden
Werte zu behandeln:
Die Datenobjekte bei denen die fehlenden Werte auftreten, werden entfernt
Das gesamte Merkmal, bei dem fehlende Werte auftreten, wird entfernt
Ist die Anzahl der fehlenden Werte eines Merkmals gering, werden die Datenobjekte mit
den fehlenden Werten entfernt. Dieses Vorgehen ist geeignet, wenn für die
Modellbildung keine fehlenden Werte erlaubt sind und nach dem Entfernen der
Grundlagen 25
Datenobjekte eine ausreichende Menge an Test- und Trainingsdaten vorhanden ist (vgl.
Refaat 2007, S. 172). Es ist aber zu beachten, dass ein Informationsverlust entsteht, da
auch die übrigen Merkmale der Datenobjekte entfernt werden (vgl. Cleve, Lämmel 2014,
S. 202).
Tritt eine sehr hohe Anzahl (ab ca. 80 %) fehlender Werte bei einem Merkmal auf, ist es
möglich, das komplette Merkmal aus dem Datensatz zu entfernen (vgl. Steinlein 2004,
S. 47). Ein Vorteil der Eliminierungsverfahren ist, dass das statistische Modell nach dem
Entfernen der fehlenden Werte auf einer vollständigen Datenbasis operiert.
Ersetzungsverfahren
Im Rahmen des Ersetzungsverfahrens werden die fehlenden Werte von dem
Datenanalysten durch möglichst sinnvolle Werte ersetzt. Entweder ergeben sich die
Werte aus intuitiven oder heuristischen Gesichtspunkten oder anhand genereller
Eigenschaften der vorhandenen Werte des spezifischen Merkmals (vgl. Refaat 2007, S.
173). Es sind statistische Analysen durchzuführen, um die generellen Eigenschaften der
vorhandenen Werte zu untersuchen.
Häufig verwendete Werte des Ersetzungsverfahrens sind abhängig von der Skalierung
des Merkmals der Modus, der Median, das arithmetisches Mittel oder eine neue
Kategorie, die das Fehlen des Wertes ausdrückt. Es ist zu berücksichtigen, dass durch ein
Ersetzen der Werte eine mögliche Verzerrung der Daten entstehen kann, wenn die
ersetzten Werte inkorrekt sind (vgl. Han, Kamber, Pei 2012, S. 89).
Imputationsverfahren
Anstatt die fehlenden Werte manuell durch möglichst sinnvolle Werte zu ersetzen,
werden beim Imputationsverfahren die übrigen Merkmale als Eingabe für ein
statistisches Modell benutzt, um die fehlenden Werte zu prognostizieren. Es existieren
je nach Ausfallmechanismus unterschiedliche Algorithmen, die zur Vorhersage
verwendet werden. Es ist wichtig, dass das angewendete Imputationsverfahren zur
Grundlagen 26
Prognose der Werte die verteilungsbasierte Zufälligkeit berücksichtigt. Das bekannteste
Verfahren, das dieses Kriterium erfüllt ist die multiple Imputation. Bei der multiplen
Imputation werden die fehlenden Werte durch Schätzwerte ersetzt, die durch das
Anwenden verschiedener Prädiktoren ermittelt werden. Dieser Prozess wird mehrfach
wiederholt und es werden Standardfehler mit einbezogen (vgl. Böwing, Jurczok 2011, S.
5). Anschließend werden die ermittelten Schätzwerte zu einem Wert kombiniert.
Inkonsistente Werte
Die Gründe für inkonsistente, also widersprüchliche Werte decken sich zum Großteil mit
den Faktoren, die fehlende Werte verursachen. Hinzu kommen folgende Punkte (vgl.
Han, Kamber, Pei 2012, S. 91):
Absichtlich falsch eingetragene Werte durch Benutzer
Schlechtes Design von Benutzeroberflächen
Veraltete Daten
Fehler in Messgeräten, die zur Datenerhebung genutzt werden
Fehler bei der Datenintegration Es ist teilweise schwierig, Inkonsistenzen in den Daten aufzudecken, da auffällige Werte
unter anderem durch Ausreißer oder komplexe Zusammenhänge zwischen mehreren
Merkmalen verursacht werden (vgl. Refaat 2007, S. 96). Somit ist es wichtig, eine
statistische Auswertung der Daten durchzuführen und die Dateneigenschaften zu
untersuchen, um ein besseres Datenverständnis zu entwickeln (vgl. Han, Kamber, Pei
2012, S. 92). Inkonsistente Daten liegen zudem vor, wenn Integritätsbedingungen
verletzt werden (vgl. Cleve, Lämmel 2014, S. 205).
Es kommt vor, dass Inkonsistenzen erst nach durchgeführten Transformationsschritten
aufgedeckt werden, beispielsweise nach der Umwandlung eines Merkmals in einen
einheitlichen Datentyp. Die Behandlung inkonsistenter Daten erfolgt je nach der
Ursache und den Dateneigenschaften individuell.
Grundlagen 27
2.4.2 Datentransformation
Die Datentransformation hat das Ziel, die Daten in eine Form umzuwandeln und
zusammenzufassen, die den Data Mining-Verfahren eine effektive Arbeitsweise und ein
leichteres Erkennen von Mustern ermöglicht (vgl. Han, Kamber, Pei 2012, S. 112). Zudem
benötigen einige Verfahren (z.B. neuronale Netze) standardisierte Eingaben und
Datentypen, um sie sinnvoll weiterzuverarbeiten.
Darüber hinaus wird die Datenvorverarbeitung erleichtert, wenn Merkmale in
adäquaten Datentypen vorliegen, um Werte entsprechend auszulesen und zu
manipulieren. Beispielsweise ist es sinnvoll, wenn Datumsangaben nicht im String-
Format sondern im Date-Format vorliegen, um das Errechnen von Zeitspannen zu
erleichtern.
Normierung
Durch Normierung werden die Wertebereiche von Merkmalen mit Hilfe einer
Normierungsfunktion auf einen vordefinierten Wertebereich abgebildet und
vereinheitlicht. Durch diese Vorgehensweise wird eine Unabhängigkeit von
Maßeinheiten und eine bessere Vergleichbarkeit der Merkmale ermöglicht (vgl. Han,
Kamber, Pei 2012, S. 113). Gängige Wertebereiche für die Normierung sind die Intervalle
[−1,1] und [0,1]. Es existieren zahlreiche Normierungsfunktionen wie z.B. die Min-Max-
Normierung, die Z-Score-Normierung und die Skalen-Normierung (vgl. Cleve, Lämmel
2014, S. 212).
Konstruktion neuer Attribute
Die Konstruktion neuer, aussagekräftiger Attribute hilft dem Data Mining-Verfahren,
Gesetzmäßigkeiten und Muster leichter zu erkennen und dadurch die
Vorhersagegenauigkeit zu erhöhen (vgl. Freitas, Nievola, Otero 2003, S. 385). Neue
Attribute werden intuitiv oder anhand von Algorithmen konstruiert. Die Algorithmen
Grundlagen 28
werden in Hypothesen-getriebene und Daten-getriebene Verfahren unterteilt.
Hypothesen-getriebene Verfahren konstruieren neue Attribute anhand von zuvor
aufgestellten Regeln. Die Daten-getriebenen Verfahren erstellen neue Attribute, indem
sie Beziehungen zwischen den einzelnen Merkmalen aufdecken (vgl. Freitas, Nievola,
Otero 2003, S. 385).
2.4.3 Selektion der Prädiktoren
Vor der Anwendung eines Klassifikators auf die Trainingsdaten ist zu ermitteln, ob
irrelevante, redundante oder stark korrelierende Prädiktoren existieren. Diese werden
dann beim Training des Modells ignoriert. Ein Problem, das ansonsten bei großen
Datensätzen mit einer Vielzahl von Prädiktoren auftritt, ist der „Fluch der
Dimensionalität“. Dieser Ausdruck wurde erstmals von Richard Bellman im Jahre 1961
eingeführt (vgl. Elder, Miner, Nisbet 2009, S. 77). Durch eine hohe Dimensionalität
erhöht sich die Komplexität der Daten und die Bildung eines aussagekräftigen
statistischen Modells wird erschwert (vgl. Eibe, Hall, Witten 2011, S. 308). Die Selektion
der wichtigsten Prädiktoren in Bezug auf die Prognosegüte des Modells hat folgende
direkte positive Effekte auf das Erstellen eines Klassifikators (vgl. Elder, Miner, Nisbet
2009, S. 77):
1. Steigerung der Performanz des Algorithmus 2. Erhöhung der Datenqualität 3. Verbesserung des Aufdeckens von Beziehungen zwischen einzelnen Prädiktoren 4. Ergebnisse sind für den Anwender nachvollziehbarer 5. Im Regelfall Erhöhung der Prognosegüte des Modells
Es existieren zahlreiche Verfahren, mit deren Hilfe eine Selektion der relevanten
Prädiktoren vorgenommen wird. Eine Auswahl der häufig verwendeten und für die
vorliegende Arbeit relevanten Verfahren wird im Folgenden vorgestellt.
Grundlagen 29
Bravais-Pearsonscher Korrelationskoeffizient
Der Korrelationskoeffizient ist eine statistische Maßzahl, die das Maß des (positiven oder
negativen) linearen Zusammenhangs zwischen zwei Merkmalen darstellt. Seien (𝑥𝑖, 𝑦𝑖)
mit 𝑖 = 1, … , 𝑛 die 𝑛 beobachteten Wertepaare eines bivariaten Merkmals (𝑋, 𝑌), dann
ist der Korrelationskoeffizient definiert als (vgl. Backhaus, Erichson, Plinke 2016, S. 392;
Gabler 2016):
𝑟𝑥𝑦 =𝑠𝑥𝑦
𝑠𝑥𝑠𝑦
(3)
Dabei ist 𝑠𝑥𝑦 die empirische Kovarianz und 𝑠𝑥, 𝑠𝑦 sind die empirischen
Standartabweichungen der Merkmale 𝑋 und 𝑌. Damit ergibt sich für 𝑟𝑥𝑦:
𝑟𝑥𝑦 =∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�) 𝑛
𝑖=1
√∑ (𝑥𝑖 − �̅�)2 𝑛𝑖=1 · √∑ (𝑦𝑖 − �̅�)2 𝑛
𝑖=1
(4)
In der Formel bezeichnen �̅� und �̅� die arithmetischen Mittel der einzelnen Werte der
Variablen. Der Korrelationskoeffizient nimmt ausschließlich Werte zwischen -1 und 1
ein. Bei einem Wert von 0 wird von linearer Unabhängigkeit gesprochen. Je näher der
Wert in der Nähe von +1 bzw. -1 liegt, desto stärker ist die lineare (gleichsinnige oder
gegensinnige) Abhängigkeit. In einem Koordinatensystem werden in diesem Fall Punkte
um eine unsichtbare Gerade herum beobachtet (siehe Abb. 5).
Abbildung 5 - Scatterplots mit unterschiedlichen Korrelationskoeffizienten Quelle: Bankhofer, Vogel 2008, S. 53.
Grundlagen 30
Die Korrelationskoeffizienten werden für jedes Merkmalspaar (unter Ausschluss des
Klassifikationsmerkmals) des zu untersuchenden Datensatzes bestimmt. Anschließend
werden über einen festzulegenden Schwellenwert die stark korrelierten Merkmale
herausgefiltert (vgl. Elder, Miner, Nisbet 2009, S. 70).
Hauptkomponentenanalyse
Die Hauptkomponentenanalyse (engl. Principal Component Analysis (PCA)) zielt darauf
ab, eine Vielzahl statistischer Variablen durch eine geringe Zahl von
Linearkombinationen ohne Informationsverlust zu ersetzen. Dies wird durch eine
orthogonale Transformation der ursprünglich vorhandenen Variablen in eine neue
Menge unkorrelierter Variablen erreicht, die als Hauptkomponenten fungieren (vgl.
Wang 1999, S. 32; Eibe, Hall, Witten 2011, S. 324). Die Hauptkomponenten beinhalten
den wesentlichen Teil der in den Originalvariablen enthaltenen Informationen und
Redundanz in Form von Korrelation wird zusammengefasst. Die erstellten
Hauptkomponenten sind dabei absteigend nach ihrem jeweiligen Informationsgehalt
geordnet.
Die Hauptkomponenten entstehen durch eine Hauptachsentransformation. Es entsteht
ein Vektorraum mit neuer Basis (vgl. Abb. 6).
Zur Ermittlung der neuen Basis wird jeweils die Richtung der größten Varianz des
Datensatzes ermittelt (vgl. Backhaus, Erichson, Plinke 2016, S. 412; Elder, Miner, Nisbet
2009, S. 71). Es entsteht demzufolge nach der Transformation eine orthogonale Matrix,
die aus den Eigenvektoren der Kovarianzmatrix gebildet wird. Es ist zu beachten, dass
die Hauptkomponentenanalyse nur für normalverteilte Daten optimal geeignet ist. Nach
der Anwendung dieses Verfahrens sind die Linearkombinationen statistisch unabhängig.
Bei nicht normalverteilten Datensätzen bestehen nach Anwendung der
Hauptkomponentenanalyse weiterhin (reduzierte) statistische Abhängigkeiten (vgl.
Eibe, Hall, Witten 2011, S. 325).
Grundlagen 31
Abbildung 6 - Hauptkomponentenanalyse mit den Hauptkomponenten v1 und v2 Quelle: Lprogram 2016
Vorwärts- und Rückwärtsselektion
Bei der Vorwärtsselektion werden die Datenobjekte im ersten Schritt anhand einer
Variablen klassifiziert und es werden nacheinander weitere Variablen hinzugefügt, bis
ein Abbruchkriterium erreicht wird. Es wird mit der Variablen begonnen, die am
höchsten mit der Klassifikationsvariablen korreliert ist (vgl. Friedman, Hastie, Tibshirani
2009, S. 58). In der folgenden Iteration werden die verbleibenden Variablen in
Verbindung mit der Ausgangsvariablen getestet und diejenige Variable mit dem größten
F-Wert bei gleichzeitiger Signifikanz wird hinzugefügt (vgl. Elder, Miner, Nisbet 2009, S.
80).
Durch den F-Wert lassen sich zwei Zusammenhänge ermitteln. Zum einen, ob eine
Korrelation zwischen zwei Variablen nicht nur für eine Stichprobe, sondern für die
Grundgesamtheit gilt (Signifikanz) und zum anderen, ob zwei Stichproben
unterschiedlicher Grundgesamtheiten sich in Bezug auf ein Merkmal in ihrer Varianz
unterscheiden (vgl. Elder, Miner, Nisbet 2009, S. 80; Statista 2016).
Das Signifikanzkriterium wird vor Beginn des Verfahrens definiert. Dieses Verfahren wird
solange wiederholt, bis keine der verbleibenden Variablen mehr einen relevanten
Grundlagen 32
Beitrag zur Verbesserung des Modells leistet oder die Teilmenge der Variablen eine
zuvor festgelegte Größe erreicht.
Die Rückwärtsselektion arbeitet in umgekehrter Richtung. Zu Beginn werden zur
Klassifikation alle vorhandenen unabhängigen Variablen verwendet. Im nächsten Schritt
wird die Variable mit dem geringsten und dabei nicht signifikanten F-Wert entfernt.
Dieser Schritt wird solange wiederholt, bis keine Variable mehr vorhanden ist, deren F-
Wert nicht signifikant ist (vgl. Friedman, Hastie, Tibshirani 2009, S. 59).
2.5 Klassifikationsverfahren
In der vorliegenden Arbeit geht es um die Klassifikation der Kunden eines Online-Shops
in die folgenden Klassen:
Klasse 0: Kein Folgekäufer (Kunde tätigt keinen Folgekauf innerhalb von 90 Tagen, somit wird ein Gutschein zugesendet).
Klasse 1: Folgekäufer (Kunde tätigt einen Folgekauf innerhalb von 90 Tagen, somit wird kein Gutschein zugesendet).
Es werden im Folgenden die für die Arbeit relevanten Klassifikationsverfahren erläutert.
2.5.1 Entscheidungsbäume
Entscheidungsbäume sind gerichtete Bäume mit Knoten und Kanten. Die Knoten
werden dabei weiter unterteilt in Wurzelknoten, innere Knoten und Blattknoten.
Sowohl der Wurzelknoten als auch die inneren Knoten beinhalten Splitting-Attribute.
Die von ihnen abgehenden Kanten sind mit den entsprechenden Werten der Splitting-
Attribute versehen. Die Blattknoten repräsentieren die Klassenzugehörigkeit der
Objekte. Die Klassifikationsregel dieses Modells wird durch den Pfad ausgehend vom
Wurzelknoten bis zu dem jeweiligen Blattknoten dargestellt. Somit traversieren die zu
klassifizierenden Objekte den Baum vom Wurzelknoten aus, indem die Splitting-
Grundlagen 33
Attribute sukzessiv ausgewertet werden. Dies geschieht solange, bis ein Blattknoten
erreicht wird und damit die Klassifizierung des Objektes vorliegt (vgl. Spehling 2007,
S.28). Der gesamte Entscheidungsbaum enthält somit die Menge aller
Entscheidungsregeln, die unter den festgelegten Kriterien möglich sind. Ein Beispiel für
einen Entscheidungsbaum zur Ermittlung eines Zahlungsausfalls ist in Abb. 7 dargestellt.
Dort wird eine Klassifikation anhand von Kriterien wie beispielsweise Beamtenstatus
und Einkommen vorgenommen.
Der Entscheidungsbaum wird anhand der Trainingsdaten konstruiert, deren
Klassenzugehörigkeit bereits bekannt ist. Die Konstruktion findet rekursiv ausgehend
vom Wurzelnoten statt. Es werden für jeden Knoten Attributwerte gesucht, die die
Objekte in möglichst homogene Partitionen aufteilen, so dass der Klassifikationsfehler
gering ist (vgl. Lenz, Müller 2013, S. 103).
Der rekursive Algorithmus endet, falls keine weiteren Attribute mehr vorliegen oder die
Klassenzugehörigkeit der Objekte eindeutig festgelegt wurde. Die Auswahl der
geeigneten Attribute für den jeweils nächsten Split hängt von der Homogenität der
erzeugten Untermengen, also der Gleichartigkeit der in den Untermengen enthaltenen
Objekte ab.
Die zwei am weitesten verbreiteten Verfahren für das Quantifizieren der Inhomogenität
sind die Entropie und der Gini-Index (vgl. Lenz, Müller 2013, S. 103; Cleve, Lämmel 2014,
S. 106).
Entropie
Die Entropie ist ein Maß für die Konzentration einer Objektmenge. Dabei ist die Entropie
einer Partition 𝑃 mit 𝑘 Klassen definiert als
Entropie(𝑃) = − ∑(𝑝𝑖 · log2 𝑝𝑖)
𝑘
𝑖 =1
(5)
Wobei 𝑝i die relative Häufigkeit der Klasse 𝑖 in der Partition 𝑃 darstellt. Je kleiner also
die Entropie, desto größer ist die Reinheit der Partition. Wichtig ist es, herauszufinden
Grundlagen 34
welcher Informationsgewinn durch einen Split erreicht wird, inwieweit also eine
Reduktion der Entropie durch die Attributauswahl erzielt wird.
Der Informationsgewinn des Attributes 𝐴 mit der Partition 𝑃1, 𝑃2, … , 𝑃𝑚 bezüglich der
Startpartition 𝑃 ist definiert als (vgl. Lenz, Müller 2013, S. 104):
InfGain(𝑃, 𝐴) = Entropie(𝑃) ∑ (|𝑃𝑖|
|𝑃|· Entropie (𝑃𝑖))
𝑚
𝑖 =1
(6)
Somit wird jeweils das Attribut für den nächsten Split ausgewählt, das den höchsten
Informationsgewinn zur Folge hat.
Gini-Index
Der Gini-Index basiert auf der Lorenzkurve. Er beschreibt die Abweichung von der
vollkommenen Gleichverteilung. Beträgt der Gini-Index 0 ist keine Unreinheit gegeben,
nimmt er den Wert 0,5 an, ist die Unreinheit sehr groß. Das Ziel ist somit, einen
möglichst kleinen Wert zu erreichen. Die Definition des Gini-Index einer Partition 𝑃
unter den oben getroffenen Definitionen lautet
Gini(𝑃) = 1 − ∑( 𝑝𝑖2)
𝑘
𝑖 =1
(7)
Relevant ist wieder die Bewertung der Aufteilung des Baumes durch das Split-Attribut.
Der Gini-Index des Split-Attributes in Bezug auf die Start-Partitionierung definiert sich
durch den gewichteten Durchschnitt der Gini-Indizes der m Teilmengen.
Gini(𝑃, 𝐴) = ∑ (|𝑃𝑖|
|𝑃|· Gini(𝑃𝑖))
𝑚
𝑖 =1
(8)
Grundlagen 35
Abbildung 7 - Entscheidungsbaum zur Ermittlung eines Zahlungsausfalls Quelle: Lenz, Müller 2013, S. 102
Ein Problem der Entscheidungsbäume ist die Gefahr der Überanpassung (engl.
Overfitting). Es wird zu detailliert in Bezug auf die Trainingsdaten gelernt und die
erzeugten Bäume werden durch diese Vorgehensweise zu groß. Das Modell ist zu genau
an die Trainingsdaten angepasst und die hohe Klassifikationsgenauigkeit, die im Hinblick
auf die Trainingsdaten erreicht wird, lässt sich nicht auf die Testdaten übertragen.
Hier setzt das Pruning an, das den erstellten Baum stutzt und Blätter entfernt, die einen
zu hohen Spezialisierungsgrad aufweisen. Damit ist der Baum einfacher zu verstehen
und die Prognosegüte auf die Testdaten erhöht sich (vgl. Han, Kamber, Pei 2012, S. 331).
Die Random Forest-Methode, die auf Entscheidungsbäumen basiert, wird in Kapitel
2.4.7 vorgestellt.
2.5.2 Künstliche Neuronale Netze
Künstliche neuronale Netze sind Systeme, die die Funktionsweise der
Nervenzellenstruktur und des Gehirns von Tieren und Menschen nachbilden. Sie setzen
sich aus einer großen Anzahl parallel arbeitender, einfacher Recheneinheiten
zusammen, die als Neuronen bezeichnet werden. Die Neuronen bilden die Zellkörper
Grundlagen 36
des Nervensystems nach. Zwischen den Neuronen findet über gerichtete Verbindungen
(in der Natur Axone) ein Informationsfluss statt. Grundsätzlich stellen neuronale Netze
eine Alternative für multivariate Analysemethoden dar, soweit großzahlige
Untersuchungen vorliegen. Dabei werden die Zusammenhänge zwischen den
Einflussgrößen selbständig durch den Lernprozess des Netzes ermittelt.
Neuronale Netze werden häufig unter Zuhilfenahme der Graphentheorie beschrieben,
die eine mathematische Definition der Struktur des Netzes ermöglicht (vgl. Borgelt,
Braune, Klawonn 2015, S. 33).
Für diese Arbeit wird folgende Definition übernommen: „Ein (künstliches) neuronales
Netz ist ein (gerichteter) Graph 𝐺 = (𝑈, 𝐶), dessen Knoten 𝑢 ∈ 𝑈 Neuronen (engl.
neurons, units) und dessen Kanten 𝑐 ∈ 𝐶 Verbindungen (engl. connections) heißen. Die
Menge der Knoten ist unterteilt in die Menge 𝑈𝑖𝑛 der Eingabeneuronen (engl. input
neurons), die Menge 𝑈𝑜𝑢𝑡 der Ausgabeneuronen (engl. output neurons) und die Menge
𝑈ℎ𝑖𝑑𝑑𝑒𝑛 der versteckten Neuronen (engl. hidden neurons) (Borgelt, Braune, Klawonn
2015, S. 34).“
Abbildung 8 - Aufbau eines mehrschichtigen Perzeptrons Quelle: Borgelt, Braune, Klawonn 2015, S. 44
In der vorliegenden Arbeit wird mit mehrschichtigen Perzeptren gearbeitet, die für das
Verarbeiten komplexer Informationen geeignet sind (siehe Abb. 8). Daneben gibt es
Grundlagen 37
auch einschichtige Perzeptren, die nur linear separierbare Zusammenhänge darstellen
können.
Die mehrschichtigen Perzeptren bestehen aus einer Eingabeschicht, einer
Ausgabeschicht und keiner, einer oder mehrerer versteckten Schichten (vgl. Borgelt,
Braune, Klawonn 2015, S. 44).
Die Eingabeschicht ist für die Informationsaufnahme zuständig und die Informationen
werden unverändert an die nachfolgende Schicht weiterleitet (vgl. Strecker 1997, S. 14).
Die versteckten Schichten, die von außen nicht beeinflussbar sind, übernehmen die
eigentlichen Informationsverarbeitungsprozesse. Es hängt von der Komplexität der zu
bearbeitenden Aufgabenstellung ab, wie viele verdeckte Schichten verwendet werden.
Die Ausgabeschicht ist abschließend für eine einfach zu interpretierende Netzausgabe
zuständig.
Die gewichteten Verbindungen innerhalb des neuronalen Netzes bestehen jeweils nur
zwischen Neuronen aufeinanderfolgender Schichten. Jedem Neuron sind drei
Zustandsfunktionen zugeordnet: Netzeingabefunktion (Propagierungsfunktion),
Aktivierungsfunktion und Ausgabefunktion. Der Informationsverarbeitungsprozess
eines aktiven Neurons wird in Abb. 9 veranschaulicht.
Abbildung 9 - Vereinfachter Aufbau eines Neurons Quelle: Klüver, Schmidt, Stoica-Klüver 2009, S. 105.
Die Eingabe- bzw. Propagierungsfunktion berechnet die gewichtete Summe der
Eingangssignale, die den Nettoeingabewert für das Neuron darstellen (vgl. Backhaus,
Erichson, Plinke 2016, S. 302). Die Aktivierungsfunktion berechnet daraufhin den
Grundlagen 38
Aktivierungszustand des Neurons. Die einfachste Variante ist ein zweiwertiger
Aktivierungszustand (aktiv oder nicht aktiv).
Abbildung 10 - Sprungfunktion Quelle: Borgelt, Braune, Klawonn 2015, S. 44.
Das Neuron wird in diesem Fall nur dann aktiviert, wenn ein zuvor festgelegter
Schwellenwert überschritten wird. Als Aktivierungsfunktion wird die Sprungfunktion
verwendet (siehe Abb. 10).
Für mehrschichtige Perzeptren werden Lösungsalgorithmen verwendet, die stetige und
damit differenzierbare Aktivierungsfunktionen erfordern. Der Aktivierungszustand eines
Neurons wird demnach durch kontinuierliche Wertebereiche dargestellt. Die am
häufigsten verwendeten Aktivierungsfunktionen sind die logistische Funktion und der
tangens hyperbolicus (vgl. Backhaus, Erichson, Weiber 2015, S. 314), die in Abb. 11 und
Abb. 12 dargestellt werden.
Abbildung 11 - Tangens hyperbolicus als Aktivierungsfunktion Quelle: Borgelt, Braune, Klawonn 2015, S. 45.
Grundlagen 39
Abbildung 12 - Logistische Funktion als Aktivierungsfunktion Quelle: Borgelt, Braune, Klawonn 2015, S. 45.
Das Besondere an neuronalen Netzen ist, dass keine Vorgaben in Bezug auf die
Verarbeitung der Eingangssignale gemacht werden, sondern ein selbständiger
Lernprozess den Aktivierungsgrad der Neuronen bestimmt. Dieser Lernprozess
verändert sowohl die Gewichtung der Eingangswerte als auch die Schwellenwerte der
Aktivierungsfunktion in jedem Lernschritt, bis eine vorher zu bestimmende
Klassifizierungsgüte der Zielvariablen vorliegt (vgl. Backhaus, Erichson, Plinke 2016, S.
303).
Die Ausgabefunktion hat die Aktivierung als Argument und berechnet die Ausgabe des
Neurons. Dabei wird die Ausgabe gleichzeitig in den gewünschten Wertebereich
transformiert.
Es wird weiterhin unterschieden in vorwärtsgerichtetes (engl. Feed-Forward) und
rückgekoppeltes (engl. Feed-Backward) Lernen. Beim vorwärtsgerichteten Lernen
verläuft der Informationsfluss nur in eine Richtung. Die Daten werden ausgehend von
der Eingabeschicht bis zur Ausgabeschicht entlang der gerichteten Verbindungen
weiterverarbeitet und es sind keine Rückkoppelungen möglich. Die Struktur des Netzes
entspricht der eines azyklischen Graphen (vgl. Klüver, Schmidt, Stoica-Klüver 2009, S.
110).
Bei den rückgekoppelten neuronalen Netzen ist die Informationsverarbeitung dagegen
ungerichtet. Es entstehen Rückkoppelungen zwischen Neuronen derselben Schicht oder
vorgelagerter Schichten, da bidirektionale Verbindungen existieren. Diese Topologie
Grundlagen 40
führt zu einer Schleifenbildung, in der sich die Neuronen untereinander gegenseitig
beeinflussen (vgl. Strecker 1997, S. 16).
Der momentan wirksamste Lernalgorithmus für mehrschichtige neuronale Netze bei
überwachtem Lernen ist der Backpropagation Algorithmus (vgl. Klüver, Schmidt, Stoica-
Klüver 2009, S. 126; Backhaus, Erichson, Weiber 2015, S. 317; Oberhofer 1996, S. 17).
Der Algorithmus folgt dem Feed-Forward Prinzip, allerdings verläuft die
Fehlerpropagierung entgegengesetzt zum Informationsfluss. Die Fehlerbestimmung
setzt auf der Ausgabeschicht an, die für die Klassifizierung zuständig ist. Die
Verbindungsgewichte werden anschließend durch das Rückwärtspropagieren des
Fehlersignals ausgehend von der Ausgabeschicht durch alle Schichten hindurch bis zur
Eingabeschicht angepasst (vgl. Oberhofer 1996, S. 17).
In der Praxis werden neuronale Netze beispielsweise zur Spracherkennung,
Robotersteuerung und Schadensdiagnostik verwendet.
2.5.3 Naiver Bayes Klassifikator
Der Naive Bayes Klassifikator ist ein wahrscheinlichkeitsbasiertes
Klassifikationsverfahren, dessen Grundlage der Satz von Bayes ist. Die Zugehörigkeit
eines Objekts zu einer Klasse wird anhand der bedingten Wahrscheinlichkeit bestimmt.
Sei 𝑥 = (𝑥1, … , 𝑥𝑑) ein Datenobjekt und 𝑐 ∈ 𝐶 die Klassenzugehörigkeit, dann wird die
Klasse 𝑐 gesucht, für die die bedingte Wahrscheinlichkeit 𝑃(𝑐|𝑥) am größten ist. Die
bedingte Wahrscheinlichkeit wird mit Hilfe des Satzes von Bayes berechnet (vgl. Lenz,
Müller 2013, S. 99).
Satz von Bayes
𝑃(𝑐|𝑥) =𝑃(𝑥|𝑐) · 𝑃(𝑐)
𝑃(𝑥)
(9)
Grundlagen 41
Hierbei ist 𝑃(𝑐) die A-Priori-Wahrscheinlichkeit (Ursprungswahrscheinlichkeit) der
Klasse 𝑐.
𝑃(𝑥|𝑐) ist die Wahrscheinlichkeit von 𝑥 = (𝑥1, … , 𝑥𝑑) unter der Bedingung, dass 𝑥 der
Klasse 𝑐 angehört. 𝑃(𝑥) repräsentiert die Wahrscheinlichkeit von 𝑥. 𝑃(𝑥) ist für alle
Klassen identisch, weshalb dieser Term ignoriert werden kann. Das Ziel ist es
demzufolge, die Klasse 𝑐 zu finden, für die der Ausdruck 𝑃(𝑥|𝑐) ∙ 𝑃(𝑐) maximiert wird
(vgl. Lenz, Müller 2013, S. 100).
c* = arg max 𝑃(𝑥1, … , 𝑥𝑑 |𝑐) · 𝑃(𝑐)
(10)
𝑃(𝑐) wird aus der beobachteten Häufigkeit der einzelnen Klassen geschätzt (vgl. Runkler
2008, S. 90). Es wird eine vereinfachende Annahme getroffen um 𝑃(𝑥1, … , 𝑥𝑑|𝑐) zu
berechnen. Dabei wird unterstellt, dass die Merkmale eines Datenobjekts stochastisch
unabhängig voneinander sind. Somit wird 𝑃(𝑥1, … , 𝑥𝑑|𝑐) anhand des Produkts aller
eindimensionalen Randwahrscheinlichkeiten berechnet. Formel 10 wird wie folgt
angepasst:
c* = arg max ∏ 𝑃(𝑥𝑘|𝑐) · 𝑃(𝑐)𝑑𝑘=1 (11)
Mit Hilfe der vereinfachten Formel wird damit die Klasse 𝑐 gefunden, für die die A-
posteriori Klassifikationswahrscheinlichkeit maximal ist.
Ein Vorteil des Naiven Bayes Klassifikators ist die hohe Genauigkeit und Geschwindigkeit
des Algorithmus bei sehr großen Datensätzen. Aufgrund der vereinfachten Annahme,
dass die Attributwerte eines Datenobjekts stochastisch unabhängig voneinander sind,
entstehen in der Praxis teilweise ungenaue Ergebnisse bei der Klassifikation (vgl. Han,
Kamber, Pei 2012, S. 350).
Grundlagen 42
2.5.4 Support Vector Machine
Mit Hilfe der Support Vector Machine wird eine Menge von Datenobjekten durch eine
Hyperebene in zwei Klassen unterteilt. Zunächst wird der Fall betrachtet, bei dem die
Daten linear separierbar sind (vgl. Abb. 13).
Abbildung 13 - Support Vector Machine mit linear separierbaren Daten Quelle: Saed 2016
Gegeben sei die Trainingsmenge {(𝑥1, 𝑘1), (𝑥2, 𝑘2), … (𝑥𝑚, 𝑘𝑚)}, wobei gilt: 𝑥𝑖 ∈ ℝ𝑛
und 𝑘𝑖 ∈ {1, −1 }. Die Klassen sind mit 1 und -1 codiert.
Die Hyperebene ist somit folgendermaßen definiert:
Ɦ = 𝜔𝑇 · 𝑥 + 𝑏 = 0 (12)
Dabei stellt 𝜔𝑇 den Vektor dar, der senkrecht auf der Hyperebene steht, 𝜔𝑇 · 𝑥 ist das
Skalarprodukt von zwei Vektoren und b steht für die Verschiebung. Es wird die optimale
Hyperebene gesucht, deren Abstand zu beiden Klassen möglichst groß ist. Somit wird
gewährleistet, dass neue Datenobjekte mit hoher Wahrscheinlichkeit korrekt
klassifiziert werden. Der Abstand der Hyperebene zu dem Punkt, der ihr am nächsten
liegt, wird als Rand (engl. margin) bezeichnet.
Grundlagen 43
Nach Ermittlung der optimalen Hyperebene erfolgt die Klassifizierung neuer Punkte
durch Bestimmung des Vorzeichens des obigen Terms 𝜔𝑇 · 𝑥 + 𝑏 (vgl. Friedman, Hastie,
Tibshirani 2009, S. 418; Cleve, Lämmel 2014, S. 131). Ist das Vorzeichen negativ, wird
dem Punkt die Klasse -1 zugewiesen, bei positivem Vorzeichen die Klasse 1. Für Punkte,
die auf der Hyperebene liegen, ist es nicht möglich eine Vorhersage zu treffen.
Die Punkte, die der Hyperebene am nächsten und damit direkt auf dem Rand liegen,
werden Stützvektoren (engl. support vector) genannt, woher das Verfahren seinen
Namen hat. Diese Stützvektoren bestimmen die eindeutige Lösung für das Support
Vector Machine-Verfahren. Der Rand lässt sich berechnen zu 1
||𝜔|| (vgl. Friedman, Hastie,
Tibshirani 2009, S. 419). Um den Rand bei linearer Separierbarkeit zu maximieren, wird
versucht die quadratische Norm ||𝜔|| zu minimieren unter folgenden
Nebenbedingungen:
𝑘𝑖 · (𝜔𝑇 · 𝑥𝑖 + 𝑏) ≥ 1 ∀ 𝑖 = 1, … , 𝑛 (13)
Dieses Optimierungsproblem wird mit Hilfe der Lagrange-Funktion und der Karush-
Kuhn-Tucker-Bedingungen gelöst.
Bislang wurde nur der Fall betrachtet, dass die Daten linear separierbar sind. Lassen sich
die Daten nicht linear separieren, wird der vorhandene Merkmalsraum in einen
höherdimensionalen Merkmalsraum überführt. Durch diese Vorgehensweise werden
Daten mit nichtlinearen Klassengrenzen auf Daten mit linearen Klassengrenzen
abgebildet und die Hyperebene kann nach dem oben beschriebenen Verfahren
berechnet werden (vgl. Abb. 14).
Grundlagen 44
Abbildung 14 - Klassen mit nichtlinearen Klassengrenzen Quelle: Imgur 2016
Diese Transformation wird durch die Anwendung einer Kern-Funktion (engl. kernel)
erreicht und als sogenannter Kernel-Trick bezeichnet (vgl. Runkler 2010, S. 99).
Mathematisch gesehen basiert der Kernel-Trick auf dem Satz von Mercer. Es werden
Skalarprodukte im höherdimensionalen Merkmalsraum durch Kernelfunktionen im
ursprünglichen Merkmalsraum ersetzt. Häufig verwendet werden beispielsweise die
Kern-Funktionen polynomieller Kernel, radialer Basisfunktionskernel und Gauß-Kernel
(vgl. Runkler 2010, S. 100).
Die Transformation der Daten in einen höherdimensionalen Raum ist mit einem hohen
Rechenaufwand verbunden. In einigen Fällen ist es zudem trotz dieses Verfahrens nicht
möglich, alle Daten linear zu trennen, z.B. aufgrund von Messfehlern oder Ausreißern.
Somit ist es sinnvoll, eine gewisse Anzahl von Ausreißern zuzulassen. Für diese Fälle wird
eine Schlupfvariable eingeführt. Fehlklassifikationen werden zugelassen, sie werden
allerdings bestraft. Durch Einführung der Schlupfvariable werden die
Nebenbedingungen aus Formel 13 folgendermaßen geändert:
𝑘𝑖 · (𝜔𝑇 · 𝑥𝑖 + 𝑏) ≥ 1 − 𝜉𝑖 ∀ 𝑖 1, … , 𝑛 (14)
Grundlagen 45
Zusätzlich wird ein Fehlergewicht eingeführt, dass je nach Zielsetzung bestimmt wird. Je
größer das Fehlergewicht, desto mehr werden Ausreißer bei der Modellbildung
berücksichtigt und deren Auftreten minimiert.
Die Vorteile der Support Vector Machine liegen in der hohen Klassifikationsgüte bei
korrekt spezifiziertem Kernel und der schnellen Klassifikation neuer Datenobjekte. Die
Nachteile liegen darin, dass für jeden neuen Datensatz ein erneutes Training erforderlich
ist, da die Kern-Funktion spezifiziert wird und deren Parameter geschätzt werden (vgl.
Lenz, Müller 2013, S. 108).
2.5.5 𝒌-Nächster-Nachbar-Klassifikator
Ein einfach strukturiertes Klassifikationsverfahren ist der 𝑘-Nächster-Nachbar-
Klassifikator (engl. 𝑘-nearest neighbor). Es gehört zu den Lazy Learning-Verfahren, bei
denen keine Modellbildung durch Trainieren stattfindet, sondern zur Zeit der Abfrage
jedem zu klassifizierenden Objekt anhand der Trainingsdaten eine Klasse zugewiesen
wird (vgl. Runkler 2010, S. 101).
Für ein neues, zu klassifizierendes Datenobjekt werden die 𝑘-nächstgelegenen
Datenobjekte mit bereits bekannter Klassenzugehörigkeit untersucht (vgl. Abb. 15).
Abbildung 15 - k-Nächster-Nachbar-Klassifikator Quelle: Bde 2016
Grundlagen 46
Für dieses Verfahren wird zunächst ein Abstandsmaß gewählt, beispielsweise der
Euklidische- oder der Mahalanobis-Abstand. Das neue Objekt wird der Klasse
zugeordnet, die die größte Zugehörigkeitswahrscheinlichkeit zu der Klasse hat, der die
𝑘-nächsten-Nachbarn angehören (vgl. Lenz, Müller 2013, S. 105). In der Praxis werden
meist mehrere Varianten mit unterschiedlichem 𝑘 getestet. Die Attribute der
Datenobjekte werden bei Bedarf unterschiedlich gewichtet, je nachdem, welchen
Einfluss sie auf die Klassifikation haben. Die Komplexität des Verfahrens wird durch die
Berechnung der Abstände zwischen dem zu klassifizierenden Datenobjekt und den
Nachbardatenobjekten bestimmt (vgl. Cleve, Lämmel 2014, S. 85).
Für dieses Verfahren spricht, dass ein Hinzufügen neuer Daten jederzeit ohne eine
Neuberechnung des Klassifikators möglich ist. Bei sehr großen Datensätzen ist das
Finden der Nachbardatenobjekte allerdings sehr zeitaufwendig, so dass eine
Optimierung in Form von Index-Strukturen stattfindet.
2.5.6 Logistische Regression
Die logistische Regression ist eine Variante der Regressionsanalyse. Im Rahmen dieser
Arbeit wird die binär-logistische Regressionsanalyse beschrieben, bei der die abhängige
Variable nur zwei Ausprägungen hat, da in der vorliegenden Arbeit eine binäre
Klassifizierung erfolgt. Die Zufallsvariable 𝑌 ist in diesem Fall eine 0,1-Variable.
Die Wahrscheinlichkeiten werden wie folgt berechnet:
𝑃(𝑌 = 0) = 1 – 𝑃(𝑌 = 1)
𝑃(𝑌 = 1) = 1 – 𝑃(𝑌 = 0) (15)
Das Modell der logistischen Regression wird vereinfacht beschrieben durch:
𝜋(𝑥) = 𝑓(𝑥1, … , 𝑥𝑗) (16)
Grundlagen 47
Durch 𝜋(𝑥) = 𝑃(𝑌 = 1|𝑥) wird die bedingte Wahrscheinlichkeit für den Eintritt des
Ereignisses 1 bei gegebenem 𝑥1, … , 𝑥𝑗 ausgedrückt (vgl. Backhaus, Erichson, Plinke 2016,
S. 284).
Dabei werden die unabhängigen Variablen linear kombiniert, um die latente
Zufallsvariable 𝑧(𝑥) zu beschreiben. Diese Zufallsvariable stellt den Prädiktor für die
Wahrscheinlichkeit 𝜋(𝑥) dar.
𝑧(𝑥) = 𝛽0 + 𝛽1𝑥1+. . . + 𝛽𝑗𝑥𝑗 (17)
Die Regressionskoeffizienten 𝛽𝑗 werden nach der Maximum-Likelihood-Methode
geschätzt, so dass die Wahrscheinlichkeit maximiert wird, die beobachteten Daten zu
erhalten.
Es wird eine Wahrscheinlichkeitsfunktion benötigt, um 𝜋(𝑥) bestimmen zu können. Im
Rahmen der logistischen Regression wird auf die logistische Funktion zurückgegriffen,
die bereits in Kapitel 2.4.2 als Aktivierungsfunktion für künstliche neuronale Netze
vorgestellt wurde. Die logistische Funktion als Basis ist geeignet um
Wahrscheinlichkeiten darzustellen, da ihre Werte sich ausschließlich im Intervall [0,1]
befinden (vgl. Backhaus, Erichson, Plinke 2016, S. 285).
Durch Einsetzen der Zufallsvariable 𝑧(𝑥) in die logistische Funktion erhält man die
logistische Regressionsfunktion.
𝜋(𝑥) =1
1 + 𝑒−𝑧(𝑥) (18)
Regressionswerte über 0,5 weisen dem entsprechenden Datenobjekt die Klasse 1 zu,
Werte unter 0,5 die Klasse 0.
2.5.7 Ensemble-Methoden
Ensemble Methoden kombinieren einzelne Modelle zu einem komplexen
Gesamtmodell. Durch diese Vorgehensweise wird versucht, die Stärken der jeweiligen
Grundlagen 48
Modelle auszunutzen und somit für das Gesamtmodell eine höhere Prognosegüte zu
erreichen. Die einzelnen Modelle werden als ein Komitee von Beratern betrachtet, die
sich in ihrem Wissen ergänzen und Fehler der anderen Berater im Dialog aufdecken.
Die Vorhersagen der Basis-Modelle werden gesammelt und das Ensemble-Modell
stimmt darüber ab, welche Vorhersage ausgewählt wird. Bei numerischen
Klassifikationen besteht der einfachste Weg darin, den durchschnittlichen Wert der
Basis-Modelle zu berechnen und anschließend die Klasse auszuwählen, deren Wert die
geringste Abweichung vom Durchschnittswert aufweist (vgl. Eibe, Hall, Witten 2011, S.
352). Es existieren zahlreiche Ensemble Methoden, deren wichtigste Vertreter im
Folgenden erläutert werden.
Bagging
Bagging steht für Bootstrap Aggregation. Beim Bagging wird aus einer Trainingsmenge
durch Ziehen mit Zurücklegen eine Vielzahl von Trainingsmengen generiert. Auf jeder
der erstellten Trainingsmengen wird parallel ein Modell trainiert. Die jeweiligen
Klassifikationen werden anschließend durch Mehrheitsentscheidung festgelegt. Ein
Vorteil des Baggings ist, dass die Varianz deutlich verringert wird (vgl. Elder, Seni 2010,
S. 53). Allerdings wird die Performance durch das Erstellen vieler Trainingsmengen
beeinträchtigt.
Random Forest
Die Random Forest-Methode basiert wie das Bagging auf Bootstrap-Samples. Für jede
Untermenge wird ein eigener Entscheidungsbaum (siehe Kapitel 2.4.1) erstellt, dem
jeweils nur eine Teilmenge der Attribute für die jeweiligen Splits zur Verfügung steht.
Die Teilmenge der Attribute wird für jeden Entscheidungsbaum zufällig generiert. Eine
häufig verwendete Größe für die Attributmenge ist 𝑙𝑜𝑔2(𝑛) + 1, wobei 𝑛 die Anzahl der
gesamten Attribute darstellt (vgl. Elder, Seni 2010, S. 55). Die Entscheidungsbäume
werden bis zur vorgegebenen maximalen Tiefe ausgebaut und jeder der Bäume wertet
Grundlagen 49
ein Beispiel aus. Die am häufigsten gewählte Klasse wird als Gesamtklassifikation
gewählt.
Die Vorteile der Random Forest-Methode sind die schnelle Trainingszeit und die hohe
Effizienz bei sehr großen Datenmengen.
Boosting
Beim Boosting werden iterativ mehrere Modelle desselben Typs erstellt, die
aufeinander aufbauen. Jedes neu erstellte Modell ist von der Prognosegüte seines
Vorgängers abhängig. Den fehlerhaft klassifizierten Datenobjekten des
Vorgängermodells wird ein höheres Gewicht zugewiesen, so dass der Trainingsdatensatz
bei jeder Iteration modifiziert wird (vgl. Friedman, Hastie, Tibshirani 2009, S. 338). Zur
Verbesserung des jeweils folgenden Modells wird eine zuvor aufgestellte
Kostenfunktion minimiert. Beim bekanntesten Boosting-Algorithmus, dem AdaBoost
(adaptive Boosting, deutsch: sich anpassendes Boosting) wird eine exponentielle
Kostenfunktion verwendet (vgl. Elder, Seni 2010, S. 56). Die Prognosegüte des zu Beginn
verwendeten Modells wird zunehmend gesteigert. Abschließend wird wie beim Bagging
per Mehrheitsentscheidung die Klassifikation bestimmt, wobei beim Boosting den
Entscheidungen der einzelnen Modelle unterschiedliches Gewicht beigemessen wird.
Mit Hilfe von Boosting werden im Regelfall schnell gute Ergebnisse in Bezug auf die
Trainingsdaten erzielt. Es besteht aber die Gefahr von Overfitting, das im Kapitel 2.5.3
genauer beschrieben wird.
Gradient Boosted Trees
Ähnlich wie bei der Random Forest-Methode verwendet dieses Verfahren als
Basismodelle Entscheidungsbäume mit sehr geringer Tiefe, so genannte „weak
learners“, die iterativ zu einem komplexen Modell kombiniert werden. Im Gegensatz zu
anderen Boosting-Algorithmen ist es beim Gradient-Boosting möglich, jede
differenzierbare Kostenfunktion zu optimieren (vgl. Elder, Seni 2010, S. 61). Diese
Grundlagen 50
Erweiterung wird durch die Verwendung des Gradientenverfahrens erreicht. Ein
Gradient ist ein Differentialoperator, der einem Skalarfeld ein Vektorfeld zuordnet, das
die Änderungsrate und die Richtung der größten Änderung des Feldes angibt. Das
Gradientenverfahren geht bei Minimierungsproblemen zunächst von einem
Näherungswert aus. Von diesem Näherungswert wird in Richtung des negativen
Gradienten fortgeschritten, bis keine numerische Verbesserung mehr erzielt wird.
Stacking
Beim Stacking wird ein Metalearner erstellt, der das Verfahren der
Mehrheitsentscheidung ersetzt. Dieser Metalearner erhält als Eingabe die
Klassifikationsentscheidungen einzelner Modelle, die im Vorfeld erstellt werden. Der
Metalearner basiert auf einem eigenen Algorithmus, der die Aufgabe hat, die
zuverlässigsten Modelle zu ermitteln und ihre Ergebnisse optimal zu einer finalen
Klassifikation zu kombinieren (vgl. Eibe, Hall, Witten 2011, S. 369). Der Vorteil im
Vergleich zu einem Abstimmungssystem besteht darin, dass ungenaue Modelle
herausgefiltert werden und ihnen bei der finalen Klassifikation kein Gewicht
beigemessen wird.
2.6 Modellbewertung
Das Ziel eines Klassifikationsverfahrens besteht generell darin, unbekannte
Datenobjekte möglichst präzise den jeweiligen Klassen zuzuordnen. Zur
Modellbewertung existieren verschiedene Gütemaße, die als Vergleich die zu
erwartenden Ergebnisse der Datenobjekte benötigen. Abhängig von der genauen
Aufgabenstellung werden zusätzlich die Fehlerkosten berücksichtigt, um die
Klassifikationsgüte eines Modells zu bestimmen.
Grundlagen 51
2.6.1 Gütemaße
Eine erste Einschätzung über die Modellgüte wird anhand der Fehlerrate (engl.
classification error) und der Klassifikationsgenauigkeit (engl. classification accuracy)
vorgenommen.
Fehlerrate =Falsche Klassenzuordnungen
Alle Klassenzuordnungen
(19)
Bei Klassifikationsproblemen bezeichnet die Fehlerrate den relativen Anteil der falsch
klassifizierten Datenobjekte einer Instanzenmenge.
Klassifikationsgenauigkeit =Richtige Klassenzuordnungen
Alle Klassenzuordnungen
(20)
Die Klassifikationsgenauigkeit bestimmt dagegen den relativen Anteil der richtig
klassifizierten Datenobjekte der Instanzenmenge.
In der vorliegenden Arbeit geht es um eine binäre Klassifikation, weshalb die Gütemaße
für binäre Klassifikatoren eingehender betrachtet werden. Es gibt vier mögliche
Kombinationen, die sich aus einem Vergleich der Klassifikationsergebnisse mit den
erwarteten Werten ergeben. Im Folgenden werden die Kombinationen anhand eines
Klassifikators vorgestellt, der Patienten in krank und gesund einteilt. Die
Klassifikationsgüte bezieht sich dabei auf die Klasse der kranken Patienten.
TP (richtig positiv): Ein kranker Patient wird als krank klassifiziert.
TN (richtig negativ): Ein gesunder Patient wird als gesund klassifiziert.
FP (falsch positiv): Ein gesunder Patient wird als krank klassifiziert.
FN (falsch negativ): Ein kranker Patient wird als gesund klassifiziert.
Die Ergebnisse kann man in einer Konfusionsmatrix darstellen (Abb. 16).
Grundlagen 52
Abbildung 16 - Konfusionsmatrix Quelle: Statistics 2016
Die weitere Unterteilung in vier Fälle der richtigen und falschen Klassifikation ist wichtig,
da die verschiedenen Arten der Fehlklassifikation unterschiedliche Konsequenzen und
Kosten haben. Anhand des obigen Beispiels wird dies sehr deutlich. Wird ein Patient
fälschlicherweise als gesund eingestuft und es werden keine weiteren
Behandlungsschritte eingeleitet, hat das fatale Folgen. Wird aber ein gesunder Patient
als krank eingestuft, wird höchstwahrscheinlich im Verlauf weiterer Untersuchungen
festgestellt, dass keine Krankheit vorliegt und die Auswirkungen haben eine geringere
Tragweite als bei der vorherigen Fehlklassifikation.
Auf Basis der beschriebenen Kenngrößen werden weitere abgeleitete Kenngrößen
verwendet, von denen die wichtigsten im Folgenden erläutert werden (vgl. Runkler
2010, S. 87).
Richtig − Positiv − Rate =TP
TP + FN
(21)
Die Richtig-Positiv-Rate (Sensitivität) beschreibt die Wahrscheinlichkeit, dass ein kranker
Patient als krank klassifiziert wird.
Grundlagen 53
Falsch − Positiv − Rate =FP
TN + FP
(22)
Die Falsch-Positiv-Rate beschreibt die Wahrscheinlichkeit, dass ein kranker Patient als
gesund klassifiziert wird.
Richtig − Negativ − Rate =TN
TN + FP
(23)
Die Richtig-Negativ-Rate (Spezifität) beschreibt die Wahrscheinlichkeit, dass ein
gesunder Patient als gesund klassifiziert wird.
Falsch − Negativ − Rate =FN
TP + FN
(24)
Die Falsch-Negativ-Rate beschreibt die Wahrscheinlichkeit, dass ein kranker Patient als
gesund klassifiziert wird.
Positiver Vorhersagewert =TP
TP + FP
(25)
Der positive Vorhersagewert (Präzision) beschreibt die Wahrscheinlichkeit, dass ein
krank klassifizierter Patient krank ist.
Negativer Vorhersagewert =TN
TN + FN
(26)
Der negative Vorhersagewert beschreibt die Wahrscheinlichkeit, dass ein gesund
klassifizierter Patient gesund ist.
Grundlagen 54
Negative Falschklassifikationsrate =FN
TN + FN
(27)
Die negative Falschklassifikationsrate beschreibt die Wahrscheinlichkeit, dass ein
gesund klassifizierter Patient krank ist.
Positive Falschklassifikationsrate =FP
TP + FP
(28)
Die positive Falschklassifikationsrate beschreibt die Wahrscheinlichkeit, dass ein krank
klassifizierter Patient gesund ist.
Für sich betrachtet haben die einzelnen Kenngrößen wenig Aussagekraft. Beispielsweise
beträgt die Richtig-Positiv-Rate eins, wenn alle Patienten als krank klassifiziert werden.
Erst durch die Kombination mehrerer Kenngrößen ergibt sich eine sinnvolle
Modellbewertung. Weit verbreitet ist die Receiver Operating Curve (ROC-Diagramm,
siehe Abb. 17).
Abbildung 17 - ROC-Diagramm Quelle: Medcalc 2016
Grundlagen 55
In diesem Diagramm werden auf der Ordinate die Richtig-Positiv-Rate und auf der
Abszisse die Falsch-Positiv-Rate gegeneinander aufgetragen (vgl. Cleve, Lämmel 2014, S.
229; Runkler 2010, S. 87).
Das ROC-Diagramm bietet eine gute Möglichkeit, um verschiedene Klassifikatoren oder
einen Klassifikator unter Verwendung unterschiedlicher Parameter zu vergleichen. Die
ROC-Kurven entstehen durch die Variation von Parametern eines Klassifikators (vgl.
Runkler 2010, S. 88). Die Punktmenge, die dabei entsteht, wird als Kurve interpretiert.
Ein perfekter Klassifikator, der eine Richtig-Positiv-Rate von 100 % und eine Falsch-
Positiv-Rate von 0 % hat, befindet sich in einem ROC-Diagramm in der linken oberen
Ecke im Punkt (0/100). Je weiter ein Klassifikator in der Nähe dieses Punktes liegt, desto
besser ist er demzufolge. Liegt die ROC-Kurve eines Klassifikators über der Kurve eines
anderen Klassifikators ist seine Klassifikationsgüte höher. Bei einem Überschneiden der
Kurven wird der Flächeninhalt unter den beiden Kurven verglichen. Je größer der
Flächeninhalt, desto höher ist die Klassifikationsgüte.
Eine Alternative zum ROC-Diagramm bietet beispielsweise das PR-Diagramm (engl.
Precision Recall Diagramm), bei dem auf der Ordinate der positive Vorhersagewert und
auf der Abszisse die Richtig-Positiv-Rate aufgetragen werden. Beim PR-Diagramm wird
die Klassifikationsgüte der Modelle anhand des Schnittpunkts der Kurven mit der
Hauptdiagonalen bestimmt.
2.6.2 Fehlerkosten
Aus betriebswirtschaftlicher Sicht ist für ein Unternehmen besonders interessant, in
welcher Weise sich die getroffenen Klassifikationsentscheidungen auf ihren Umsatz und
Gewinn auswirken. Zu diesem Zweck werden die Fehlerkosten der einzelnen Fehlerarten
berechnet. Treten die unterschiedlichen Fehlerarten mit ihren jeweiligen Kosten
ungleich verteilt auf, ist betriebswirtschaftlich gesehen das Modell mit der
kostengünstigsten Fehlerrate optimal und nicht das Modell mit der minimalen
Fehlerrate. Für das Unternehmen ist es wichtiger, den Gewinn zu maximieren als eine
Grundlagen 56
möglichst hohe Rate an richtig klassifizierten Datenobjekten zu erzielen (vgl. Cleve,
Lämmel 2014, S. 230).
Zur Übersicht über die Fehlerkosten wird eine Kostenmatrix aufgestellt, die jeder
Klassifikationsart Umsatzsteigerungen bzw. Umsatzeinbußen zuordnet. Die für die
vorliegende Arbeit relevante Kostenmatrix ist in Abb. 18 abgebildet.
Abbildung 18 - Kostenmatrix
Die Aufgabenstellung des DMC 2010 gibt vor, dass ein Kunde, der ohne Incentivierung
nicht wiederbestellt und einen Gutschein bekommt, mit 10 % Wahrscheinlichkeit einen
Folgekauf in Höhe von 20 Euro tätigt. Diese Daten wurden laut Aufgabenstellung
empirisch ermittelt. Somit ergibt sich für eine richtige Klassifizierung der Kunden, die
nicht wiederbestellen eine durchschnittliche Umsatzsteigerung von 1,5 Euro (10 % von
15 Euro Umsatz).
Wird ein Kunde, der nicht wiederbestellt, falsch klassifiziert, entstehen dem Online-
Händler keine Umsatzeinbußen. Allerdings entgeht dem Händler eine Umsatzsteigerung
in Höhe von 1,5 Euro. Wird ein Folgekäufer richtig klassifiziert, entstehen weder
Umsatzeinbußen noch Umsatzsteigerungen. Die falsche Klassifizierung eines
Folgekäufers verursacht Umsatzeinbußen in Höhe von 5 Euro, da der Kunde den
Gutschein beim Kauf einlöst und somit 5 Euro weniger zahlt.
2.6.3 Trainings- und Testmenge
Für die Bewertung eines Klassifikators ist es wichtig, dass nicht nur eine hohe
Klassifikationsgüte in Bezug auf die Daten, die bei seinem Lernprozess verwendet
werden (Trainingsdaten), sondern auch bei neuen Datenobjekten besteht. Ansonsten
Grundlagen 57
liegt Overfitting des Klassifikators hinsichtlich der Trainingsdaten vor. Beim Overfitting
ist der Klassifikator zu spezifisch auf die Trainingsmenge ausgerichtet, so dass die
Klassifikationsleistung nicht auf neue Beispiele übertragbar ist. Beispiele für Overfitting
sind wie unter 2.4.1 beschrieben zu große Entscheidungsbäume oder ein Modell mit zu
vielen (irrelevanten) Regressoren. Deshalb ist es wichtig, den vorhandenen Datensatz
prozentual aufzuteilen und nur auf einer Teilmenge der Daten zu lernen. Mit Hilfe der
anderen Teilmenge wird die generelle Aussagekraft des Modells überprüft und es findet
eine objektive Bewertung statt. Die Teilmenge, die zur Überprüfung des Modells
verwendet wird, heißt Testmenge. Es existieren auch Fälle, in denen bereits zwei
getrennte Datensätze vorliegen. Somit ist keine weitere Partitionierung notwendig,
sondern die Datensätze werden unverändert als Trainings- und Testmenge
übernommen. Diese Vorgehensweise findet unter der Grundannahme statt, dass sich
die Daten der Testmenge genau so verhalten wie die Trainingsdaten.
Damit eine objektive Vergleichbarkeit der einzelnen Klassifikatoren möglich ist, wird für
alle angewendeten Verfahren dieselbe Zerlegung der Datenmenge benutzt (vgl. Cleve,
Lämmel 2014, S. 231).
Bipartitionierung
Bei der Bipartitionierung wird die Datenmenge in zwei disjunkte Teilmengen aufgeteilt.
Die Auswahl der Datenobjekte findet dabei zufällig statt. Die Größe der Teilmengen wird
frei bestimmt, wobei keine allgemeingültige Vorschrift zur optimalen Aufteilung
existiert. Die Aufteilung ist abhängig von der Anzahl der Instanzen und der Prädiktoren
(vgl. Friedman, Hastie, Tibshirani 2009, S. 222). Das prozentuale Verhältnis der
Trainingsmenge zur Testmenge bewegt sich in der Praxis anhand heuristischer
Gesichtspunkte zumeist im Bereich von 50/50 bis zu 70/30 (vgl. Han, Kamber, Pei 2012,
S. 370; Cleve, Lämmel 2014, S. 273; Lenz, Müller 2013, S. 97).
Grundlagen 58
Kreuzvalidierung
Bei der Kreuzvalidierung werden die zur Verfügung stehenden Datenobjekte in 𝑚 gleich
große Teilmengen unterteilt. Für das Training des Klassifikators werden 𝑚 − 1
Teilmengen benutzt. Die verbleibende Teilmenge wird als Testmenge verwendet. Dieses
Verfahren wird 𝑚 mal wiederholt, so dass jede Teilmenge genau einmal als Testmenge
benutzt wird. Die Fehlerrate ergibt sich aus dem Mittelwert der einzelnen Fehlerraten
der jeweiligen Testmenge (vgl. Lenz, Müller 2013, S. 97).
Leave-one-out-Kreuzvalidierung
Die Leave-one-out-Kreuzvalidierung stellt einen Spezialfall der Kreuzvalidierung dar. Es
wird die n-elementige Instanzenmenge in 𝑛 Teilmengen unterteilt. Die Trainingsmenge
besteht jeweils aus 𝑛 − 1 Elementen und das verbleibende Datenobjekt wird zum
Testen benutzt. Aus dem Mittelwert der Einzelfehlerwerte ergibt sich wiederum die
Gesamtfehlerrate. Somit wird jedes der Datenobjekte einmal als Testmenge verwendet.
Da bei diesem Verfahren die gesamte Datenmenge durchlaufen wird, ist die Leave-one-
out-Kreuzvalidierung mit einem hohen Rechenaufwand verbunden und somit nur für
kleine Werte von 𝑛 geeignet (vgl. Runkler 2010, S. 78). Vorteile dieser Methode sind zum
einen die optimale Ausnutzung der Daten und zum anderen das Vermeiden einer
zufälligen Stichprobenwahl.
Stratifikation
Bei der Zerlegung der Datenmenge in Teilmengen kommt es vor, dass die
Klassenverteilung der einzelnen Mengen sehr unterschiedlich ist. Die Stichproben sind
somit nicht repräsentativ. Ein Beispiel dafür ist, dass eine Klasse in den Testdaten nicht
vorkommt. Die Testdaten verhalten sich in einem solchen Fall gerade nicht ähnlich wie
die Trainingsdaten und erschweren eine zuverlässige Klassifikation. Das statistische
Modell wird unter diesen Bedingungen wahrscheinlich keine gute Vorhersage liefern.
Grundlagen 59
Im Rahmen der Stratifikation wird die Grundgesamtheit vollständig in
überschneidungsfreie Teilmengen - sogenannte Schichten - zerlegt. Die Stratifikation
zielt darauf ab, dass die Häufigkeit der Klassenverteilung innerhalb der Schichten
möglichst nahe an der Klassenverteilung der Grundgesamtheit liegt. Somit wird erreicht,
dass jede Klasse mit einer ähnlich großen relativen Häufigkeit in Trainings- und
Testmenge vorkommt (vgl. Cleve, Lämmel 2014, S. 231).
Gleichverteilung
Sind die Klassen in einem Datensatz ungleich verteilt, werden die Ergebnisse der
angewendeten Data Mining-Verfahren unter Umständen negativ beeinflusst. Häufig
wird eine Verzerrung des Ergebnisses in Bezug auf die überrepräsentierte Klasse bewirkt
(vgl. Elder, Miner, Nisbet 2009, S. 240). Bei neuronalen Netzen wird das Modell
schrittweise mit jeder Instanz trainiert, so dass die Gewichtung der Eingangssignale
fallbasiert erfolgt. Damit wird der Lernprozess wesentlich stärker von der überwiegend
vertretenen Klasse beeinflusst.
Zwei gängige Verfahren, die eine Gleichverteilung der Klassen herstellen sind das Under-
Sampling und das Over-Sampling. Beim Under-Sampling werden Datenobjekte der
überrepräsentierten Klasse gelöscht, bis beide Klassen ähnlich häufig auftreten. Beim
Over-Sampling werden Kopien der unterrepräsentierten Klasse durch Ziehen mit
Zurücklegen zum Datensatz hinzugefügt, bis eine Gleichverteilung der Klassen vorliegt
(vgl. Chawla 2005, S. 859).
Bei großen Datensätzen wird Under-Sampling verwendet, bei kleinen Datensätzen Over-
Sampling. Ansonsten sind nach dem Sampling zu wenige Datensätze zum Training
vorhanden (vgl. Elder, Miner, Nisbet 2009, S. 240).
Alternativ existieren Verfahren, um synthetische Datenobjekte der
unterrepräsentierten Klasse zu erzeugen. Ein bekannter Algorithmus ist der SMOTE-
Algorithmus (Synthetic Minority Over-Sampling Technique). SMOTE ist eine Over-
Sampling-Methode. Diese Methode benutzt den 𝑘-nächster-Nachbar-Klassifikator um
eine oder mehrere Instanzen zu ermitteln, die einem Datenobjekt der
Grundlagen 60
unterrepräsentierten Klasse am nächsten liegen. Für jedes Merkmal wird die Differenz
zwischen dem Merkmalsvektor des jeweiligen Datenobjekts und einem der
ausgewählten Nachbarn berechnet. Anschließend wird diese Differenz mit einem
zufälligen Wert zwischen 0 und 1 multipliziert und zu dem Merkmalsvektor des
Datenobjekts addiert (vgl. Chawla 2005, S. 860). Somit entstehen neue Datenobjekte
mit Merkmalswerten, die zwischen den Merkmalswerten zweier Nachbarn derselben
Klasse liegen.
Eine andere Option besteht darin, die Klassen unterschiedlich zu gewichten. Den
Objekten der unterrepräsentierten Klasse wird ein höheres Gewicht verliehen, um ihren
Einfluss auf das Klassifikationsergebnis zu erhöhen (vgl. Elder, Miner, Nisbet 2009, S.
240).
2.7 KNIME
Die vorliegende Arbeit verwendet zur Bearbeitung der Aufgabenstellung das Tool
KNIME.
KNIME ist eine modulare Datenexplorationsplattform, die an der Universität Konstanz
unter Leitung von Prof. Berthold entwickelt wurde. Die Abkürzung KNIME steht für
Konstanz Information Miner. Die erste Version wurde 2006 vorgestellt. In dieser Arbeit
wird die aktuelle KNIME Version 3.2.0 für Windows inklusive aller frei verfügbaren
Extensions verwendet. In KNIME werden Datenflüsse durch das Pipelining-Konzept
dargestellt. Die Ausgabe eines Knotens wird vom jeweiligen Nachfolgeknoten als
Eingabe verwendet. KNIME wurde in JAVA entwickelt und wird als Plugin für die
Entwicklungsumgebung Eclipse angeboten.
KNIME bietet Methoden für den kompletten Data-Mining-Prozess an. Es sind Module
für den Datenimport, die Datenvorverarbeitung, die Datenanalyse und die Darstellung
der Ergebnisse vorhanden. KNIME stellt mehr als 1000 Module bereit, die innerhalb der
Software als Nodes (Knoten) bezeichnet werden (vgl. KNIME 2016).
Grundlagen 61
Abbildung 19 - Ausschnitt aus einem KNIME Workflow
Die Knoten werden per Drag&Drop aus dem Node Repository in das Workflow-Fenster
gezogen und anschließend miteinander verknüpft (vgl. Abb. 19). Die Knoten im Node
Repository sind in Kategorien wie beispielsweise Manipulation, Scripting und IO
unterteilt, so dass eine Suche nach bestimmten Knoten erleichtert wird. Im Workflow-
Fenster findet der Modellierungsprozess statt und die Knoten werden verwaltet und
konfiguriert. Die Konfiguration erfolgt über das Kontextmenü der jeweiligen Knoten. Ein
Ampelsystem unter den Knoten teilt den aktuellen Status mit. Ein unkonfigurierter
Knoten ist rot markiert, ein konfigurierter Knoten gelb und ein korrekt ausgeführter
Knoten grün. Bei dem Auftreten von Fehlern oder Besonderheiten während der
Ausführung erscheint unter dem Knoten ein Warndreieck mit der entsprechenden
Meldung.
Im Fenster KNIME Explorer werden die angelegten Projekte verwaltet. Zusätzlich gibt es
noch das Fenster Node Description, das eine detaillierte Beschreibung der einzelnen
Grundlagen 62
Knoten liefert. Der Algorithmus des Knotens wird erläutert, die
Konfigurationsmöglichkeiten werden dargestellt und Input- sowie Output-
Informationen sind ersichtlich.
Eine gute Möglichkeit, umfangreiche Workflows übersichtlicher zu gestalten, bieten die
sogenannten Metanodes. Metanodes enthalten Unter-Workflows mit weiteren Knoten.
Im Haupt-Workflow sehen sie wie Einzelknoten aus. Durch Doppelklick auf einen
Metanode werden alle im Metanode zusammengefassten Knoten „ausgeklappt“. Somit
wird eine Funktion angeboten um inhaltlich stark zusammenhängende
Verarbeitungsprozesse in einen übergeordneten Knoten zu integrieren. In Abb. 20 sieht
man beispielsweise einen Metanode, der für die Transformation inkonsistenter Werte
zuständig ist. In Abb. 21 wird ein Teil des Workflows dargestellt, den der Metanode
enthält.
Dabei ist es auch möglich, in einem Metanode weitere Metanodes zu erstellen und den
Workflow zu „verschachteln“.
Abbildung 20 - Darstellung eines Metanodes
Zusätzlich zu den vorhandenen Knoten besteht die Option, eigene Knoten zu entwickeln.
Beispielsweise gibt es den JAVA Snippet Knoten, der es ermöglicht, eigenen Code zu
implementieren und somit zusätzliche Funktionalität zu schaffen.
Grundlagen 63
Abbildung 21 - Ausschnitt aus dem Workflows des Metanodes aus Abb. 20
2.8 After Sales Marketing
In der heutigen Zeit, in der ein breites Spektrum von Online-Händlern am Markt
vertreten ist, gewinnt ein individuell gestalteter Service nach dem eigentlichen Kauf
immer mehr an Bedeutung um sich von den anderen Wettbewerbern abzugrenzen (vgl.
Hogenschurz, Keuper 2008, S. 294). Durch die sich verändernden Rahmenbedingungen
mit einer erhöhten Wettbewerbsintensität und Marktsättigungserscheinungen, sowie
steigenden Kundenanforderungen verschiebt sich der Fokus im Marketing zunehmend
vom verkaufsorientierten Transaktionsmarketing zum Relationshipmarketing bzw. After
Sales Marketing (vgl. Schnöring 2016, S. 11).
Das After Sales Marketing zielt darauf ab, die Kunden nach ihrer Kaufentscheidung an
die eigenen Produkte bzw. das eigene Geschäft zu binden und eine
Kundenabwanderung zu verhindern. Maßnahmen zur Etablierung einer langfristigen
Kundenbeziehung und zur Kundenrückgewinnung sind schon alleine aus Kostengründen
sinnvoll. Studien haben ergeben, dass die Kosten zur Neukundenakquise deutlich über
Grundlagen 64
den Kosten zur Kundenpflege und Kundenrückgewinnung liegen (vgl. Günter, Neu 2015,
S. 28; Schnöring 2016, S. 12).
In der vorliegenden Arbeit geht es für den Online-Händler primär darum, einen
wirtschaftlichen Vorteil zu erlangen, in dem an ausgewählte Kunden ein Gutschein
versendet wird, die ohne Gutschein keinen Folgekauf tätigen. Durch die Folgekäufe wird
zusätzlicher Umsatz generiert, dessen Höhe im weiteren Verlauf der Arbeit genauer
untersucht wird. Gutscheine entfalten ihre Wirkung im Vergleich zu Bonusprogrammen
sofort bei Einlösung und der Kunde spürt den direkten Nutzen.
Zusätzlich zu diesem sofortigen Effekt gibt es weitere Vorteile, die sich aus After Sales
Marketing-Maßnahmen ergeben (vgl. Hogenschurz, Keuper 2008, S. 294):
Verbesserung der Kundenzufriedenheit
Up- und Cross-Selling
Ausbau des Bekanntheitsgrades und Imageverbesserung
Erhöhung der Weiterempfehlungsrate
Bereitschaft der langfristig gebundenen Kunden, höhere Preise zu akzeptieren durch Verringerung des Qualitäts- und Vertrauensrisikos
Informationsgewinn in Bezug auf Kundenwünsche und Markttrends
Unentbehrlich für das After Sales Marketing ist ein Kundenwertmodell, das sich am
gesamten Customer Lifetime Value orientiert (vgl. Abb. 22).
Der Customer Lifetime Value ist der Deckungsbeitrag, den ein Kunde über die gesamte
voraussichtliche Geschäftsbeziehung hinweg realisiert, diskontiert auf den Zeitpunkt der
Betrachtung (vgl. Bruhn, Hadwich, Meffert 2015, S. 46). Anhand des ermittelten Modells
kann individuell ausgerichtet eine Prozesskette in Gang gesetzt werden, die von der
Planung bis hin zur Erfolgskontrolle der angewendeten Maßnahmen reicht (vgl.
Hogenschurz, Keuper 2008, S. 298).
Grundlagen 65
Abbildung 22 - Customer Lifetime Value Quelle: Wikim 2016
Darüber hinaus ist die Identifikation der abwanderungsgefährdeten Kunden notwendig,
was einen Teilbereich des Churn Managements darstellt. Das Churn Management zielt
generell darauf ab, rentable Kunden zu halten und unrentablen Kunden das Abwandern
zu erleichtern. Im Rahmen des Churn Managements werden über statistische Modelle
die Abwanderungswahrscheinlichkeiten der Kunden anhand relevanter Prädikatoren
berechnet (vgl. Günter, Neu 2015, S. 91).
In der vorliegenden Arbeit geht es darum, die Kunden zu klassifizieren, die ohne
Incentivierung durch einen Gutschein keine weitere Bestellung aufgeben. Es wird kein
zusätzliches Kundenwertmodell erstellt, das die Rentabilität der Kunden widerspiegelt.
Es wird demzufolge allen Kunden ein Gutschein zugeschickt, die nicht als Folgekäufer
klassifiziert werden.
In der Praxis ist es teilweise schwierig, die Profitabilitätsauswirkungen von
Kundenbindungsmaßnahmen genau zu ermitteln, da viele Faktoren bei der Bewertung
eine Rolle spielen. Beispielsweise werden negative Auswirkungen auf Nicht-Zielkunden
beobachtet und die Kundenzufriedenheit, die auch für den weiteren Customer Lifetime
Value eine Rolle spielt, ist schwierig zu quantifizieren.
Die im Rahmen dieser Arbeit bearbeitete Aufgabenstellung enthält präzise Vorgaben
hinsichtlich des Umsatzes. Ein Kunde, der ohne Zusendung des Gutscheins keinen
Empirischer Teil 66
Folgekauf tätigt, generiert nach Erhalt eines Gutscheins durchschnittlich zusätzlichen
Umsatz in Höhe von 1,50 Euro.
3 Empirischer Teil
Im empirischen Teil werden zahlreiche statistische Modelle entwickelt und optimiert,
um den Umsatz des Online-Händlers in Bezug auf das After Sales Management zu
maximieren. Der Data Mining-Prozess orientiert sich mit einigen Ausnahmen am CRISP-
DM (siehe Kapitel 2.2.2).
3.1 Geschäftsmodell und Datenerhebung
Die zur Verfügung gestellten Daten stammen von einem Online-Händler für
Medienprodukte. Wie bereits erläutert, ist das betriebswirtschaftliche Ziel der
vorliegenden Aufgabe, den Umsatz des Online-Händlers mit Hilfe einer gezielten After
Sales Marketing-Maßnahme zu maximieren. Es werden dabei im Rahmen der
Aufgabenstellung keine Vorgaben in Bezug auf die Höhe der Umsatzsteigerung getätigt.
Der Trainingsdatensatz besteht aus einer Tabelle mit 32.428 Zeilen, der Testdatensatz
beinhaltet 32.427 Zeilen. Beide Datensätze haben 38 Spalten inklusive des
Klassifikationsattributes.
Die originalen Spaltenattribute werden im Folgenden vorgestellt:
Empirischer Teil 67
Spaltenbezeichnung Erläuterung
customernumber Eindeutige Kundennummer
date Datum der Erstbestellung
saturation Geschlecht der Kunden oder Bestellung einer Firma
title Titel vorhanden / nicht vorhanden
domain Email-Provider des Kunden
datecreated Datum der Accounterstellung
newsletter Newsletter Abonnement liegt vor / liegt nicht vor
model Nicht genauer spezifiziert, Werte 1, 2 und 3 sind zulässig
paymenttype Zahlungsart
deliverytype Lieferart (Versand oder Abholung)
invoicepostcode Rechnungsadresse
delivpostcode Lieferadresse
voucher Gutschein wurde bei Erstbestellung eingelöst / nicht eingelöst
advertisingdatacode Werbungscode
case Warenwert
numberitems Zahl der bestellten Artikel
gift Geschenk / kein Geschenk
entry Direkter Zugang zum Online-Shop oder Zugang über einen Partner
points Punkte eingelöst / nicht eingelöst
shippingcosts Versandkosten angefallen / nicht angefallen
deliverydatepromised Zugesagtes Lieferdatum
deliverydatereal Tatsächliches Lieferdatum
weight Gesamtgewicht der bestellten Artikel
remi Anzahl zurückgeschickter Artikel
cancel Anzahl stornierter Artikel
used Anzahl gebrauchter Artikel
w0 Anzahl gebundener Bücher
Empirischer Teil 68
w1 Anzahl Taschenbücher
w2 Anzahl Schulbücher
w3 Anzahl eBooks
w4 Anzahl versendeter Hörbücher
w5 Anzahl heruntergeladener Hörbücher
w6 Anzahl Filme
w7 Anzahl Musikartikel
w8 Anzahl Hardwareartikel
w9 Anzahl importierter Artikel
w10 Anzahl sonstiger Artikel
target90 Klassifikationsattribut, Folgebestellung innerhalb von 90 Tagen ist erfolgt / nicht erfolgt
Tabelle 1 - Erläuterung der Spaltenattribute
Bei der ersten Untersuchung der Daten fällt auf, dass sowohl Trainings- als auch
Testdaten aus dem selben Zeitraum stammen. Die Bestellungen erfolgten im Zeitraum
vom 01.04.2008 bis zum 31.03.2009, wie aus der Spalte date hervorgeht. Aus dem
Attribut deliverytype geht hervor, dass neben dem Versand auch die Möglichkeit der
Abholung direkt beim Händler besteht, was bei Online-Händlern nicht selbstverständlich
ist.
Das Klassifikationsmerkmal target90 ist bei beiden Datensätzen ähnlich verteilt, wie in
Tabelle 2 dargestellt.
Klassifikationsmerkmal 1 0
target90 (Trainingsmenge)
6.051 (18,7 %) 26.377 (81,3 %)
target90 (Testmenge)
6.168 (19 %) 26.259 (81 %)
Tabelle 2 - Verteilung des Klassifikationsmerkmals target90
Der überwiegende Teil beider Datensätze besteht somit aus Kunden, die ohne
Incentivierung keinen Folgekauf tätigen.
Empirischer Teil 69
Durch zusätzliche Untersuchung der Daten mit Hilfe statistischer Knoten werden
weitere Auffälligkeiten ermittelt. Diese werden für Trainings- und Testmenge gesondert
aufgeführt, um die Vergleichbarkeit beider Datensätze festzustellen.
Trainingsmenge
Die Spalte delivpostcode enthält 31.036 fehlende Werte.
Die Spalte advertisingdatacode enthält 25.905 fehlende Werte.
Die Spalte points enthält ausschließlich den Wert 0.
Die Spalte deliverydatereal enthält 5.472 Mal den inkorrekten Wert „0000-00-00“.
Die Spalte deliverydatepromised enthält neun inkorrekte Werte mit dem Jahr 4746.
Testmenge
Die Spalte delivpostcode enthält 30.984 fehlende Werte.
Die Spalte advertisingdatacode enthält 26.146 fehlende Werte.
Die Spalte points enthält ausschließlich den Wert 0.
Die Spalte deliverydatereal enthält 5.355 Mal den inkorrekten Wert „0000-00-00“.
Die Spalte deliverydatepromised enthält fünf inkorrekte Werte mit dem Jahr 4746.
Die Spalte invoicepostcode enthält einen fehlenden Wert
Die Datensätze weisen nahezu identische Auffälligkeiten auf. Eine Untersuchung der
weiteren Attribute bestätigt die hohe Ähnlichkeit der Datensätze. Somit wird davon
ausgegangen, dass beide Mengen einen repräsentativen Ausschnitt der Kundendaten
darstellen und es möglich ist, einen erfolgreichen Data Mining-Prozess durchzuführen.
Hinsichtlich der Datentypen fällt auf, dass die Datumsangaben alle als Strings im Format
„YYYY-MM-DD“ (Jahr, Monat, Tag) vorliegen. Somit ist es schwierig, sie mit den
zahlreichen Time Difference, Date Shift und Date Extractor Nodes auszulesen und
weiterzuverarbeiten. Eine Typumwandlung in ein geeignetes Datumsformat ist damit
erforderlich.
Neben den aufgeführten Punkten fallen die teilweise langen Liefer- bzw. Abholzeiten
auf. Im Trainingsdatensatz existieren beispielsweise 429 Bestellungen, deren Liefer-
Empirischer Teil 70
oder Abholzeit über ein Jahr beträgt. Es ergeben sich allerdings keine Ansatzpunkte
dafür, dass diese Daten inkorrekt sind.
Lange Lieferzeiten treten z.B. bei schwer erhältlichen Produkten auf, die nicht auf Lager
sind. Darüber hinaus werden von einigen Kunden bei begehrten Artikeln
Vorbestellungen vorgenommen, damit das gewünschte Produkt zum Verkaufsstart
sofort geliefert wird. Somit werden die aufgeführten Lieferzeiten nicht als inkorrekt
eingestuft.
Zudem bestehen erhebliche Differenzen zwischen zugesagten und tatsächlichen
Lieferterminen. Es gibt in der Trainingsmenge 777 Bestellungen, die um mindestens 30
Tage verspätet geliefert wurden. Eine ähnliche Verteilung ist in den Testdaten zu
beobachten.
Bei einer Vielzahl von Datensätzen kommt es vor, dass in einigen Fällen das
versprochene Lieferdatum nicht eingehalten wird. Es ist beispielsweise möglich, dass die
Lieferanten des Medienhändlers Produkte verspätet liefern oder dass Probleme bei der
Zustellung der Artikel auftreten.
Somit werden die entsprechenden Werte nicht als inkorrekt eingestuft.
3.2 Datenvorverarbeitung
Die Datenaufbereitung wird unterteilt in das Behandeln der fehlenden und der
inkonsistenten Werte, die Umwandlung der Daten in geeignete Datentypen, sowie das
Erstellen zusätzlicher Variablen.
3.2.1 Fehlende und irrelevante Werte
Im Folgenden werden die fehlenden Werte, aufgeteilt nach Trainings- und Testmenge
dargestellt.
Empirischer Teil 71
Trainingsmenge
Merkmal Anzahl fehlender Werte Prozentualer Anteil
delivpostcode 31.036 95,7 %
advertisingdatacode 25.905 79,9 %
Tabelle 3 - Fehlende Werte der Trainingsmenge
Testmenge
Merkmal Anzahl fehlender Werte Prozentualer Anteil
delivpostcode 30.984 95,6 %
advertisingdatacode 26.146 80,6 %
invoicepostcode 1 ≈ 0 %
Tabelle 4 - Fehlende Werte der Testmenge
delivpostcode
Das Merkmal delivpostcode beschreibt die Lieferadresse der Kunden. Eine Erklärung für
die hohe Anzahl fehlender Werte dieses Merkmals ist eine unsaubere Programmierung
des Online-Shops bzw. des Datenbankmanagementsystems des Medienhändlers. In
vielen Online-Shops wird die Eingabe der Lieferadresse nur verlangt, falls sie von der
Rechnungsadresse abweicht. Wird das Feld freigelassen, ist hier seitens der Software
entweder ein Defaultwert oder der Wert der Rechnungsadresse einzutragen. Ohne
diesen Mechanismus treten fehlende Werte auf.
Zur Datenaufbereitung bestehen die Optionen, das komplette Merkmal zu entfernen
oder die Werte des Merkmals invoicepostcode zu übernehmen.
Ein Entfernen der betroffenen Instanzen ist aufgrund der Vielzahl der fehlenden Werte
nicht möglich. Für ein Entfernen des Merkmals sprechen zwei Gesichtspunkte. Zum
einen wird die Datenredundanz vermieden, die bei einem Ersetzen der Werte durch die
Empirischer Teil 72
Werte des Merkmals invoicepostcode auftritt. Nach einem Ersetzen sind über 95 % der
entsprechenden Werte identisch. Zum anderen entsteht durch die geringe Menge an
vorhandenen Werten kein großer Informationsverlust. Somit wird das Merkmal
delivpostcode entfernt.
advertisingdatacode
Das Merkmal advertisingdatacode beschreibt, ob bei der Bestellung ein Werbungscode
verwendet wurde. Es ist davon auszugehen, dass die Kunden ohne Werbungscode das
entsprechende Feld freigelassen haben und die Software des Medienhändlers auch in
diesem Fall keine Standardbehandlung fehlender Werte vorsieht. Der Anteil der
fehlenden Werte in beiden Mengen liegt ca. bei 80 %.
Damit besteht auch in diesem Fall die Option, das Merkmal aus den Datensätzen zu
entfernen. Im Vergleich zu dem Merkmal delivpostcode ist der Anteil der fehlenden
Werte deutlich geringer (ca. 15 % Differenz). Somit entsteht durch ein Entfernen ein
größerer Informationsverlust hinsichtlich der vorhandenen Werte des Merkmals.
Zusätzlich haben bei einem Kauf in einem Online-Shop empirisch gesehen nicht alle
Kunden einen Werbungscode, so dass eine sinnvolle Erklärung wie beschrieben ein
Freilassen des entsprechenden Feldes in der Eingabemaske darstellt. Damit wird das
Merkmal nicht entfernt.
Zunächst werden alle fehlenden Werte des Merkmals durch den konstanten Wert 0
ersetzt. Dies wird mit dem Missing Value-Knoten durchgeführt. Eine Möglichkeit ist, die
vorhandenen Codes im String-Format zu belassen und sie nicht weiter zu
transformieren. Da einige Modelle wie beispielsweise neuronale Netze als Inputdaten
Number-Werte benötigen, werden die Werbungscodes mit Hilfe eines Java Snippet-
Knoten in Integer-Werte umgewandelt. Die Codes umfassen den Wertebereich
𝐴𝐴, 𝐴𝐵, … 𝐵𝑍, 𝐶𝐴, wie aus der Übersicht Occurrences des Statistics-Knoten ersichtlich
ist (vgl. Abb. 23).
Empirischer Teil 73
Abbildung 23 - Auszug aus den advertisingdatacode-Werten der Trainingsmenge
Somit werden die die Zahlen 1 - 53 vergeben. Ein Teil des Java Snippets ist in Abb. 24
dargestellt.
Abbildung 24 - Java Snippet zur Umwandlung der advertisingdatacode-Werte
Empirischer Teil 74
invoicepostcode
In der Testmenge tritt eine Instanz mit einem fehlenden Wert beim Merkmal
invoicepostcode auf. Für diese Instanz wird der fehlende Wert durch das arithmetische
Mittel der übrigen Werte des Merkmals ersetzt.
points
Das Merkmal points beschreibt, ob Punkte eingelöst wurden. Es geht aus der
Aufgabenstellung nicht hervor, auf welchen Sachverhalt sich die Punkte beziehen. In
beiden Mengen nimmt das Merkmal ausschließlich den Wert 0 an und besitzt somit
keine verwertbare Aussagekraft. Somit wird das Merkmal entfernt.
3.2.2 Inkonsistente Werte
Es liegen auffällige Werte für die Merkmale deliverydatepromised und deliverydatereal
vor, die im Folgenden untersucht werden. Die Werte der Merkmale werden im Date-
Format nach einer erfolgten Typkonvertierung vom ursprünglichen String-Format
dargestellt. Zu beachten ist, dass die ursprünglichen Werte des Merkmals
deliverydatereal, die als String in der Form 0000-00-00 vorlagen, nach der
Typumwandlung die Datumsangabe 30.Nov.0002 aufweisen. Dieses Verhalten ist auf
interne Konvertierungsprozesse innerhalb von KNIME zurückzuführen und hat keine
negativen Auswirkungen auf die weitere Verarbeitung.
Empirischer Teil 75
Trainingsmenge
Merkmal Wert Anzahl Prozent
deliverydatepromised XX.XX.4746 9 0,03 %
deliverydatereal 30.Nov.0002 (Date) 0000-00-00 (String)
5472 16,9 %
Tabelle 5 - Inkonsistente Werte der Trainingsmenge
Testmenge
Merkmal Wert Anzahl Prozent
deliverydatepromised XX.XX.4746 5 0,02 %
deliverydatereal 30.Nov.0002 (Date) 0000-00-00 (String)
5355 16,5 %
Tabelle 6 - Inkonsistente Werte der Testmenge
deliverydatepromised
Die Instanzen, die das Jahr 4746 beim Merkmal deliverydatepromised aufweisen,
enthalten in Bezug auf die anderen Merkmale sowohl in der Trainings- als auch in der
Testmenge keine ähnlichen Muster. Die einzige Übereinstimmung liegt darin, dass jede
dieser Bestellungen am Tag der Accounterstellung (datecreated) erfolgt ist (siehe Abb.
25).
Das Merkmal deliverydatepromised weist bei allen betroffenen Instanzen vollständige
Tages- und Monatsangaben auf. Ein Vergleich der Datumsangaben ohne Betrachtung
des Jahres zeigt, dass die Werte des Merkmals deliverydatepromised zeitlich vor denen
des Merkmals date liegen, das den Zeitpunkt der Bestellung beschreibt.
Empirischer Teil 76
Abbildung 25 - Übersicht der inkonsistenten deliverydatepromised Werte der Trainingsmenge
Eine Korrektur auf das Jahr 2008 ist dementsprechend nicht sinnvoll. Somit werden die
Jahresangaben der deliverydatepromised Werte auf das nächsthöhere Jahr 2009
korrigiert, da es der durchschnittlichen Abweichung von zugesagtem und tatsächlichem
Lieferdatum am nächsten kommt. Analog wird dieser Vorgang für die entsprechenden
Instanzen der Testmenge durchgeführt, die dieselben Eigenschaften aufweisen.
deliverydatereal
Das Merkmal deliverydatereal steht für das tatsächliche Lieferdatum der bestellten
Artikel. Es liegen Gemeinsamkeiten bei allen Instanzen vor, die inkonsistente
deliverydatereal-Werte beinhalten. Entweder ist in der Bestellung ein
heruntergeladenes Hörbuch (w5), ein eBook (w3) oder ein sonstiger Artikel (w10)
enthalten. Liegt keiner dieser Artikel vor, wurden Artikel storniert.
Daraus wird folgende Hypothese abgeleitet: Das tatsächliche Lieferdatum wird nicht
korrekt erfasst, wenn die bestellten Artikel heruntergeladen oder auf anderen
elektronischen Wegen bezogen werden.
Zunächst werden die Instanzen betrachtet, bei denen das Merkmal w5 mindestens den
Wert 1 aufweist. Bei diesen Instanzen wird für die Merkmale deliverydatereal und w5
eine statistische Übersicht erstellt (vgl. Abb. 26).
Empirischer Teil 77
Abbildung 26 - Anzahl unterschiedlicher Werte des Merkmals deliverydatereal
Der inkorrekte Wert tritt in 4392 der untersuchten Beispiele auf, nur in einem Fall liegt
ein korrektes Datum vor. Bei einer Bestellung von eBooks (w3) liegen ausschließlich
inkorrekte Datumsangaben vor.
Die sonstigen Artikel werden bei den betroffenen Instanzen mit hoher
Wahrscheinlichkeit ebenfalls Produkte sein, die auf elektronischem Weg bezogen
werden (z.B. Musikdateien, Computerspiele oder Filme), so dass deren tatsächliches
Lieferdatum von der Software ebenfalls nicht erfasst wird. Die sonstigen Artikel machen
im Vergleich zu den heruntergeladenen Hörbüchern und eBooks einen kleinen Teil aus
(228 inkorrekte Datumsangaben).
Die restlichen Bestellungen mit inkorrektem deliverydatereal-Wert enthalten wie
erläutert stornierte Artikel. Für das Entstehen der inkorrekten deliverydatereal-Werte
bei stornierten Artikeln existieren zwei naheliegende Erklärungsmöglichkeiten.
Entweder entsteht der inkorrekte Lieferzeitpunkt dadurch, dass stornierte Artikel nicht
ausgeliefert werden und die Software diesem Sachverhalt keinen korrekten
Lieferzeitpunkt zuordnet oder es handelt sich bei den stornierten Artikeln wiederum um
Artikel, die auf elektronischem Weg bezogen werden.
Es werden somit beispielhaft alle Instanzen der Trainingsmenge untersucht, deren
Merkmale numberitems und cancel den Wert 1 haben. Bei diesen Beispielen wird nur
ein Artikel bestellt, der anschließend storniert wird. In Abb. 27 ist zu erkennen, dass nur
in 399 von 888 Fällen ein inkorrektes Lieferdatum vorliegt.
Empirischer Teil 78
Abbildung 27 - Untersuchung stornierter Artikel
Somit ist nicht der Sachverhalt der Stornierung des Artikels für den inkorrekten
Lieferzeitpunkt verantwortlich.
Die aufgestellte Hypothese wird somit bestätigt. Für alle Artikel, die heruntergeladen
oder auf anderen elektronischen Wegen bezogen werden, wird kein korrektes
tatsächliches Lieferdatum erfasst.
Es ist zu ermitteln, durch welche Werte die inkorrekten Werte ersetzt werden. Eine
Option besteht darin, die Lieferzeit bei diesen Artikeln auf null Tage zu setzen, da diese
Artikel in der Regel sofort verfügbar sind und entweder heruntergeladen oder per Mail
verschickt werden. Da aber in einigen Shops zwischen Bestellung und Verfügbarkeit
dieser Artikel durch Verwaltungsprozesse Zeit vergeht und zudem je nach Bestellung
weitere Artikel in den betroffenen Bestellungen enthalten sind, wird eine Analyse der
übrigen Bestellungen vorgenommen. Die übrigen Bestellungen werden in Bezug auf die
tatsächlich erreichten Lieferzeiten und die Zeitspanne zwischen zugesagtem und
tatsächlichem Lieferdatum untersucht. Im Anschluss an die Analyse wird unter
Beachtung der besonderen Eigenschaften der Artikel eine sinnvolle Lösung ermittelt.
Als Referenzattribute werden date und deliverydatepromised untersucht. Es werden
über den Time Difference-Knoten für die gefilterten korrekten Instanzen jeweils die
Zeitabstände in Tagen von deliverydatereal zu date und zu deliverydatepromised
ermittelt. Anschließend findet eine statistische Auswertung dieser Zeitabstände statt
(vgl. Abb. 28).
Anhand der statistischen Auswertung ist zu erkennen, dass sowohl die
Standardabweichung als auch die Varianz beim Abstand von zugesagtem zu
tatsächlichem Lieferzeitpunkt deutlich höher ausfallen als bei der tatsächlichen
Lieferzeit. Auch das Intervall der Werte ist in dieser Spalte deutlich größer ([−369|368]
zu [0|584]). Diese Gesichtspunkte sprechen dafür, die tatsächliche Lieferzeit als
Anhaltspunkt für das Ersetzen der inkorrekten Werte zu benutzen.
Empirischer Teil 79
Abbildung 28 - Statistische Auswertung zeitlicher Abstände
Es wird zusätzlich mit Hilfe des Rank Correlation-Knoten die Korrelation zwischen
deliverydatereal und date sowie deliverydatepromised untersucht (vgl. Abb. 29 und Abb.
30).
Abbildung 29 - Korrelation zwischen den Merkmalen date und deliverydatereal
Abbildung 30 - Korrelation zwischen den Merkmalen deliverydatepromised und deliverydatereal
Es ist zu erkennen, dass der Korrelationswert zwischen date und deliverydatereal mit
0.971 höher ist als der Wert zwischen deliverydatepromised und deliverydatereal mit
0.926.
Auch dieser Vergleich spricht für ein Ersetzen der Werte anhand der tatsächlichen
Lieferzeit. Es ist zu untersuchen, ob das arithmetische Mittel oder der Median der
Lieferzeit besser für ein Ersetzen der Werte geeignet ist. Wie aus Abb. 28 ersichtlich
beträgt die Differenz zwischen Minimum und Maximum 584 Tage. Zudem beträgt die
Standardabweichung ca. 30 Tage. In Fällen, in denen es weit auseinanderliegende Werte
gibt, ist der Median aufgrund seiner „Robustheit“ gegenüber Ausreißern besser geeignet
Empirischer Teil 80
(vgl. Bankhofer, Vogel 2008, S. 30). Der Median der tatsächlichen Lieferzeit wird anhand
des Statistics-Knotens ermittelt und beträgt einen Tag.
Wie zuvor beschrieben, handelt es sich um Artikel, die auf elektronischem Weg bezogen
werden und für die von einer besonders geringen Lieferzeit auszugehen ist. Eine
Lieferzeit von einem Tag erscheint aufgrund von möglichen Verzögerungen durch
Organisationsprozesse sowie die Lieferzeit eventuell anderer in der Bestellung
enthaltener Artikel realistisch.
Damit wird der Median der tatsächlichen Lieferzeit als Richtwert übernommen. Somit
wird für jede der betroffenen Instanzen ein Tag auf das den Wert des Merkmals date
addiert, um die Werte für das Merkmal deliverydatereal zu ersetzen. In KNIME wird das
Ersetzen der Werte durch eine Schleife über alle inkorrekten Werte erreicht (vgl. Abb.
31). Dieser Vorgang wird für die Trainings- und Testmenge durchgeführt.
Abbildung 31 - Ersetzen der inkorrekten deliverydatereal-Werte
3.2.3 Datentransformation
Im Datentransformationsprozess der vorliegenden Arbeit werden
Datentypkonvertierungen, Normierungen und die Erstellung neuer Attribute
durchgeführt.
Empirischer Teil 81
Datentypkonvertierung
Wie bereits in der Datenerhebung erwähnt, werden einige Attribute in einen anderen
Datentyp umgewandelt, um eine Weiterverarbeitung und einen Vergleich zu
erleichtern. Bei folgenden Attributen wird eine Konvertierung des Datentyps
vorgenommen:
String to Date: date, datecreated, deliverydatepromised, deliverydatereal
Integer to String: target90
String to Integer: advertisingdatacode
Die Umwandlung der Datumsangaben in das Date-Format ermöglicht eine Benutzung
der zahlreichen Knoten, die auf eine Weiterverarbeitung von Datumsangaben
spezialisiert sind, wie beispielsweise Date Field Extractor, Time Difference und
Date/Time Shift.
Das Klassifikationsmerkmal target90 wird in das Format String umgewandelt, da die
meisten Klassifikatoren dieses Format zum Lernen ihres Modells benötigen.
Die Konvertierung des Merkmals advertisingdatacode wird im Rahmen der Behandlung
der fehlenden Werte unter 3.2.1 beschrieben.
Normierung
Einige Klassifikatoren benötigen als Eingabedaten normierte Werte. In der vorliegenden
Arbeit sind das die Support Vector Machine und das neuronale Netz. Der 𝑘-Nächster-
Nachbar-Klassifikator arbeitet sowohl mit nicht normierten als auch mit normierten
Attributwerten. Damit das gewählte Abstandsmaß des 𝑘-Nächster-Nachbar-
Klassifikator nicht unterschiedlich stark durch die verschiedenen Maßeinheiten und
Wertebereiche der Attribute beeinflusst wird, werden auch für diesen Klassifikator
normierte Daten verwendet. Als Normierungsfunktion wird die Min-Max-Normierung
im Intervall [0|1] verwendet.
Zusätzlich benötigen zwei Verfahren zur Prädiktorenselektion eine Normierung der
Eingabedaten. Sowohl die Hauptkomponentenanalyse als auch das Verfahren zur
Empirischer Teil 82
Bestimmung der Korrelationskoeffizienten erzielen bessere Ergebnisse mit normierten
Werten.
Es ist zu beachten, dass der Normalizer-Knoten in KNIME ausschließlich numerische
Werte normiert.
Konstruktion neuer Attribute
Die neu konstruierten Attribute werden anhand heuristischer Kriterien erstellt. Die neu
erstellten Attribute sind (vgl. Levatic, Malenica, Pavlic 2010, S. 4):
year: Extraktion des Jahres des Merkmals deliverydatereal
time diff: Zeitabstand zwischen zugesagtem und tatsächlichem Lieferzeitpunkt
items effective: Anzahl der bestellten Artikel ohne zurückgeschickte und stornierte Artikel
deliverytime absolute: Tatsächliche Lieferzeit der Bestellungen
x-mas: Das Merkmal x-mas beschreibt die Nähe der Bestellung zu Weihnachten in Tagen
Das Merkmal year wurde zunächst extrahiert, um eine Weiterverarbeitung und
Korrektur der Daten zu vereinfachen. Es blieb dann als Merkmal erhalten, um zu
untersuchen, ob sich das Kundenverhalten je nach Lieferjahr unterscheidet. Zudem
besitzt year das Format Integer, so dass dieses Merkmal von allen Verfahren verarbeitet
wird, die keine Date-Formate zulassen (künstliches neuronales Netz, Support Vector
Machine, Naive Bayes). Dieser Vorteil besteht auch bei den im Folgenden erläuterten
Merkmalen time diff und deliverytime absolute.
Das Merkmal time diff wird konstruiert, da von einer stärkeren Unzufriedenheit des
Kunden auszugehen ist, je weiter zugesagtes und tatsächliches Lieferdatum
auseinanderliegen.
Das Merkmal items effective wird erstellt, da durchschnittlich von einer höheren
Kundenzufriedenheit und damit einer höheren Wahrscheinlichkeit einer
Folgebestellung ausgegangen wird, je weniger Artikel zurückgesendet oder storniert
werden. Selbstverständlich gibt es Ausnahmen, wenn beispielsweise aus Versehen ein
Empirischer Teil 83
falscher Artikel bestellt wird und eine Folgebestellung mit dem richtigen Artikel erfolgt.
In Bezug auf alle Bestellungen gesehen, ist eine derartige Hypothese aber sinnvoll.
Das Merkmal deliverytime absolute wird aus ähnlichen Gründen wie das Merkmal time
diff erstellt. Je länger die Lieferzeit eines Artikels dauert, desto unzufriedener ist der
durchschnittliche Kunde. Es ist davon auszugehen, dass die Aussagekraft dieses
Merkmals verglichen mit dem Merkmal time diff geringer ist, da der Kunde bei
Vorbestellungen oder bei Bestellungen von schwer erhältlichen Produkten im Vorfeld
über die lange Lieferzeit informiert ist.
Das Merkmal x-mas wird eingeführt, um die Nähe der Bestellung zu Weihnachten zu
ermitteln. Es kommt häufig vor, dass kurz vor oder direkt nach einem Feiertag (falls ein
Geschenk vergessen wurde) Geschenke in Online-Shops gekauft werden. Es ist möglich,
dass der Online-Shop, bei dem bestellt wird, nur wegen der Verfügbarkeit oder der
geringen Lieferzeit des gesuchten Geschenks ausgesucht wird. In diesen Fällen ist die
Kundentreue zum Online-Shop nicht sehr hoch. Somit ist es interessant, wie sich die
zeitliche Nähe der Bestellung zu Weihnachten auf die Wahrscheinlichkeit einer
Folgebestellung auswirkt.
Es ist zu beachten, dass das Merkmal gift bereits existiert. Dieses Merkmal beschreibt
aber nur, ob die Geschenkoption ausgewählt wird. Es ist davon auszugehen, dass die
Geschenkoption wie in Online-Shops üblich eine Geschenkverpackung beinhaltet und
die Rechnung an den Besteller und nicht den Beschenkten gesendet wird.
Darüber hinaus sind Fälle denkbar, in denen sich der Kunde Artikel nach Hause liefern
lässt, die anschließend individuell verpackt werden. Damit diese Fälle nicht
unberücksichtigt bleiben, wird zusätzlich das Merkmal x-mas eingeführt.
Es wird nur die Nähe zu Weihnachten und nicht zu anderen Feiertagen untersucht.
Ostern kommt aufgrund des Bestellzeitraums (01.04.2008 bis 31.03.2009) nicht in
Betracht. Es ist nicht bekannt, aus welchem Land die für diese Aufgabe zur Verfügung
gestellten Daten stammen. Somit ist es nicht möglich, weitere Feiertage zu ermitteln, an
denen Geschenke gekauft werden.
Empirischer Teil 84
3.3 Modellierung und Evaluation
In diesem Prozessschritt werden die unter 2.5 erläuterten Verfahren auf die konkreten
Datensätze angewendet. Es werden zunächst die für die Modelle in KNIME
vorkonfigurierten Parametereinstellungen benutzt.
Die Ergebnisse der Modelle werden wie bereits beschrieben, anhand der Kostenmatrix
aus 2.6.2 verglichen. Das Ziel ist nicht die Optimierung der Klassifikationsgenauigkeit,
sondern das Erreichen einer möglichst hohen Umsatzsteigerung. Die Kostenmatrix wird
mit Hilfe eines Java Snippet-Knoten erstellt (vgl. Abb. 32).
Abbildung 32 - Java Snippet zur Erstellung der Kostenmatrix
Der gesamte Umsatz wird dann durch einen GroupBy-Knoten ermittelt, der die Summe
der Umsätze pro Bestellung auf die neue Spalte sum(revenue) abbildet.
Als Referenzgröße wird der Basisumsatz ermittelt, der erzielt wird, wenn allen Kunden
ein Gutschein geschickt wird.
Die Testmenge enthält 6.168 Bestellungen mit der Klasse 1 und 26.259 Bestellungen mit
der Klasse 0. Somit lässt sich der Basisumsatz ermitteln als:
Basisumsatz = 6.168 ∙ (−5) + 26.259 ∙ 1,5 = 8.548,5
(29)
Ohne den Einsatz von Data Mining-Verfahren lässt sich damit durch das Versenden der
Gutscheine an alle Kunden der Testmenge ein automatischer Profit von 8548.5 Euro
erzielen.
Empirischer Teil 85
Wie unter 3.1 beschrieben, ist die Trainingsmenge hinsichtlich des
Klassifikationsmerkmals sehr ungleich verteilt. Somit werden zu Beginn die Ergebnisse,
die mit der unveränderten Trainingsmenge erzielt werden mit Ergebnissen einer
gleichverteilten Trainingsmenge verglichen. Mit diesem Vorgehen wird ermittelt, ob die
Ergebnisse durch die ungleiche Verteilung verzerrt werden. Im Anschluss an diesen
Schritt wird untersucht, wie sich die Verfahren zur Selektion der Parameter auf die
Kostenmatrix auswirken. Wenn die Ergebnisse dieser Schritte vorliegen, werden die
vielversprechendsten Modelle weiter optimiert, indem eine systematische
Parameteranalyse durchgeführt wird. Die systematische Parameteranalyse wird mit den
Verfahren durchgeführt, die vor einer Parameteroptimierung die besten Ergebnisse
erzielen, da dieses Verfahren sehr zeitintensiv ist und abhängig vom Modell mehrere
Stunden in Anspruch nimmt.
3.3.1 Bestimmung der Trainingsmenge
Es werden zu Beginn alle Verfahren mit der vollständigen Trainingsmenge und der
Trainingsmenge unter vorheriger Verwendung des Equal Size Sampling-Knotens
verwendet. Dieser Knoten verwendet die Under-Sampling-Methode, so dass zufällig
Instanzen mit der Klasse 0 gelöscht werden, bis eine Gleichverteilung der Klassen
vorliegt.
Diese Vorgehensweise zielt darauf ab, eine erste Einschätzung über den Einfluss der
ungleichen Klassenverteilung zu gewinnen. Zudem wird ein erster Überblick über die
Modellgüte der Verfahren gewonnen.
Der Equal Size Sampling-Knoten wird mit der Option static seed (Startwert) verwendet.
Mit diesem Wert wird ein Zufallszahlengenerator initialisiert, der eine Folge von
Pseudozufallszahlen generiert. Diese Folge von Zufallszahlen lässt sich reproduzieren.
Somit werden bei erneuter Ausführung des Knotens die identischen Instanzen entfernt.
Durch dieses Vorgehen wird eine bessere Vergleichbarkeit der Verfahren ermöglicht und
Testdurchläufe lassen sich wiederholen.
Empirischer Teil 86
Grundsätzlich wird die Option static seed bzw. random seed bei jedem Knoten mit dieser
Option verwendet. Beispiele sind der Partitioning-Knoten, der RProp MLP Learner-
Knoten (künstliches neuronales Netz) und der Gradient Boosted Trees Learner-Knoten.
Zunächst werden die Modelle mit den Parametern aus Tabelle 7 verwendet, die in
KNIME als Standard voreingestellt sind.
Modell Parameter
Entscheidungsbaum Gini index, min records per node: 2, no pruning
Künstliches neuronales Netz (MultiLayerPerceptron)
Iterations: 100, hidden layers: 1, neurons per layer: 10, random seed: yes
Naive Bayes Default probability: 0
Support Vector Machine Polynomial kernel, power: 1, bias: 1, gamma: 1
𝑘-Nächster-Nachbar K: 3, weight neighbors by distance: no
Logistische Regression no parameter available
Random Forest Split: information gain, tree depth: 3, number of models: 100
Gradient Boosted Trees Tree depth: 4, number of models: 100, learning rate: 0,1, random seed: yes
Tabelle 7 - Standardparameter der Modelle
Die erzielten Umsätze auf der Testmenge sind in den Tabellen 8 und 9 dargestellt.
Empirischer Teil 87
Unveränderte Trainingsmenge
Modell Umsatz in €
Entscheidungsbaum 8.906,5
Künstliches neuronales Netz (MultiLayerPerceptron)
8.779
Naive Bayes 10.449,5
Support Vector Machine 8.548,5
𝑘-Nächster-Nachbar 8.533,5
Logistische Regression 8.615,5
Random Forest 8.548,5
Gradient Boosted Trees 8.829,5
Tabelle 8 - Erzielte Umsätze auf den Testdaten mit vollständiger Trainingsmenge
Trainingsmenge nach Anwendung des Equal Size Sampling
Modell Umsatz in €
Entscheidungsbaum 7.301,5
Künstliches neuronales Netz (MultiLayerPerceptron)
10.821,5
Naive Bayes 9.160
Support Vector Machine 10.584
𝑘-Nächster-Nachbar 6.848,5
Logistische Regression 10.705
Random Forest 11.070
Gradient Boosted Trees 11.585
Tabelle 9 - Erzielte Umsätze auf den Testdaten nach Anwendung von Equal Size
Sampling
Empirischer Teil 88
Es ist zu erkennen, dass die Ergebnisse nach dem Sampling der Trainingsmenge im
Durchschnitt deutlich besser ausfallen, als bei Verwendung der vollständigen
Trainingsmenge. Die Klassifikatoren Entscheidungsbaum, Naive Bayes und 𝑘-Nächster-
Nachbar erzielen ohne ein Sampling bessere Ergebnisse. Allerdings liegen die erzielten
Ergebnisse deutlich unter den Umsätzen der besten Modelle nach Anwendung von
Equal Size Sampling. Es ist zu erkennen, dass durch die hohe Anzahl der Instanzen mit
der Klasse 0 bei einigen Modellen eine Verzerrung der Lernalgorithmen stattfindet. Es
wird vielen Objekten der Klasse 1 fälschlicherweise die Klasse 0 zugewiesen. Sehr
deutlich ist das bei der Support Vector Machine und dem Random Forest zu erkennen,
die jedem Kunden einen Gutschein zuschicken (vgl. Abb. 33).
Abbildung 33 - Konfusionsmatrix des Random Forest-Modells bei unveränderter Trainingsmenge
Nach dieser Erkenntnis werden weitere Sampling-Strategien getestet. Es wird sowohl
Over- als auch Under-Sampling verwendet. Beim Over-Sampling wird vorwiegend der
Bootstrap Sampling-Knoten verwendet. Es ist durch erste Tests zu beobachten, dass die
Ergebnisse der Under-Sampling-Verfahren deutlich bessere Resultate liefern, weshalb
weiter in diese Richtung getestet wird.
Das Under-Sampling wird mit Hilfe der Knoten Row Splitter, Partitioning und
Concatenate durchgeführt (vgl. Abb. 34).
Es werden zur Annäherung an das optimale Klassenverhältnis Trainingsmengen mit
folgenden Verhältnissen (Klasse 0: Klasse 1) getestet: 1,25:1; 1,5:1; 1,75:1; 2:1.
Die Tests mit den unterschiedlichen Klassenverhältnissen finden zunächst ausschließlich
anhand der Trainingsmenge statt, um ein Overfitting in Bezug auf die Testdaten zu
vermeiden. Die Trainingsmenge wird prozentual in zwei Untermengen aufgeteilt, so
dass eine Partition der Trainingsmenge als tatsächliche Trainingsmenge genutzt wird
und die andere Partition als Testmenge.
Empirischer Teil 89
Abbildung 34 - Under-Sampling zur Reduktion der ungleichen Verteilung der Klassen
Wie bereits erläutert, existiert keine allgemeingültige Vorschrift zur optimalen
Aufteilung der Partitionen. Anhand heuristischer Gesichtspunkte werden zumeist
Mengen im Verhältnis 70/30 bis zu 50/50 gewählt (vgl. Bipartitionierung in Kapitel
2.6.3). Durch Voruntersuchungen wird ermittelt, dass eine prozentuale Aufteilung von
60/40 die aussagekräftigsten Ergebnisse liefert. Somit werden 60 % der Instanzen der
Trainingsmenge zum Trainieren und 40 % zum Testen verwendet.
Die besten Ergebnisse dieser Auswahl werden mit einer Aufteilung im Verhältnis 1,5:1
mit dem Gradient Boosted Trees-Verfahren erzielt. Anschließende Versuche, die das
Verhältnis feingranularer (in Schritten von 0,1) untersuchen, erzielen keine besseren
Ergebnisse. Somit wird das Verhältnis von 1,5:1 übernommen und anschließend auf die
Testdaten angewendet.
Ein Überblick über den erzielten Umsatz auf den Testdaten ist in Tabelle 10 dargestellt.
Empirischer Teil 90
Trainingsmenge mit dem Klassenverhältnis 1,5:1
Modell Umsatz in €
Entscheidungsbaum 7.738
Künstliches neuronales Netz (MultiLayerPerceptron)
11.458
Naive Bayes 10.076
Support Vector Machine 8.994
𝑘-Nächster-Nachbar 7.770
Logistische Regression 10.461,5
Random Forest 8.683
Gradient Boosted Trees 12.100,5
Tabelle 10 - Erzielte Umsätze mit einem Verhältnis von 1,5:1 (Klasse 0: Klasse 1)
Es ist zu erkennen, dass die Modelle Gradient Boosted Trees und das neuronale Netz mit
Abstand die besten Ergebnisse erzielen. Es gibt auch Modelle, die im Vergleich zum
Equal Size Sampling schlechter abschneiden. Besonders prägnant ist die
Verschlechterung des Ergebnisses beim Random Forest-Verfahren. Es wird deutlich,
dass dieses Verfahren starke Probleme mit der Verarbeitung ungleich verteilter
Trainingsmengen hat.
Da die Zielsetzung darin besteht, mit einem ausgewählten Modell einen möglichst
hohen Umsatz zu erreichen und nicht für viele Verfahren ein optimales Ergebnis zu
erzielen, werden die Ressourcen in eine Verbesserung der bis dato besten Verfahren
investiert.
Die Verfahren, die anhand ihrer Resultate hervorstechen sind Gradient Boosted Trees,
neuronales Netz und Random Forest.
Die Random Forest-Methode wird aufgrund der guten Resultate in weiteren Versuchen
mit der Trainingsmenge getestet, die durch das Equal Size Sampling generiert wird. Das
Empirischer Teil 91
Gradient Boosted Trees-Verfahren und das Random Forest-Verfahren werden mit der
Trainingsmenge mit dem Klassenverhältnis 1,5:1 weitergehend analysiert.
Diese Verfahren besitzen zugleich eine höhere Anzahl an Parametern als die meisten
anderen Verfahren, so dass in Bezug auf die Parameteroptimierung vielfältigere
Möglichkeiten existieren.
3.3.2 Selektion der Prädiktoren
Es wird untersucht, ob eine Selektion der Prädiktoren zu besseren Ergebnissen führt als
die Modellbildung unter Berücksichtigung aller Merkmale. Es liegen einschließlich der
konstruierten Merkmale 40 Prädiktoren vor (ohne target90), so dass der relative Anteil
der Merkmale in Bezug auf die Anzahl der Instanzen der Trainingsmenge 0,1 % beträgt.
Es besteht somit aufgrund der Anzahl der Prädiktoren keine Notwendigkeit zur
Reduktion. Auch die Zeitspannen, die die einzelnen Verfahren zur Modellbildung
benötigen, rechtfertigen keine Reduktion der Prädiktoren. Die Zeitspannen bewegen
sich im Bereich von unter einer Minute bis zu wenigen Minuten.
Somit ist ausschlaggebend, ob durch eine Reduktion der Attribute eine Verbesserung
der Modellgüte oder zumindest eine gleichwertige Modellgüte erreicht wird.
Korrelationskoeffizient
Zunächst wird über den Column Splitter-Knoten das Klassifikationsmerkmal target90
herausgefiltert, so dass die Korrelationskoeffizienten für jedes verbleibende
Merkmalspaar bestimmt werden. Somit werden stark korrelierende und damit
redundante Merkmale ermittelt, die anschließend mit Hilfe des Correlation Filter-
Knotens herausgefiltert werden. Der Correlation Filter-Knoten bietet die Option, einen
Schwellenwert für die Korrelation (engl. correlation threshold) im Wertebereich 0 bis 1
zu bestimmen. Je kleiner der Wert, desto mehr Merkmale werden gefiltert. Bei der
Empirischer Teil 92
Auswahl der zu entfernenden Merkmale berücksichtigt der Correlation Filter-Knoten
darüber hinaus die Abhängigkeiten und Zusammenhänge zu den übrigen Knoten.
Der Linear Correlation-Knoten erstellt zudem eine Korrelationsmatrix, die die
Abhängigkeiten unter den Merkmalen graphisch darstellt (vgl. Abb. 35).
Abbildung 35 - Korrelationsmatrix der Prädiktoren
Die höchste Korrelation besteht zwischen den folgenden Merkmalen:
numberitems und items effective (0,95)
model und entry (0,9)
Empirischer Teil 93
numberitems und weight (0,76)
weight und items effective (0,72)
year und deliverytime absolute (0,5)
case und numberitems (0,43)
Die hohe Korrelation zwischen den Merkmalen numberitems und items effective ist
damit zu erklären, dass der Anteil an zurückgeschickten und stornierten Artikeln im
Vergleich zur Gesamtanzahl an bestellten Artikeln gering ist. Somit besteht eine hohe
Ähnlichkeit der Werte. Die Korrelation zwischen model und entry ist nicht herzuleiten,
da das Merkmal model in der Aufgabenstellung nicht näher spezifiziert wird. Die
Korrelation zwischen weight und numberitems sowie items effective ist evident. Es
besteht zudem ein Zusammenhang zwischen year und deliverytime absolute. Ein
Großteil der Bestellungen wurde im Jahr 2008 aufgegeben. Somit haben Bestellungen,
die 2009 und 2010 geliefert werden (das Merkmal year bezieht sich auf den
tatsächlichen Lieferzeitpunkt), im Durchschnitt eine höhere Lieferzeit als Bestellungen,
die den Kunden im Jahr 2008 erreichen.
Die Korrelation zwischen case und numberitems erklärt sich dadurch, dass der
durchschnittliche Warenwert zunimmt, je höher die Anzahl der bestellten Artikel
ausfällt.
Durch erste Tests anhand der partitionierten Trainingsmenge wird ermittelt, dass sich
die besten Ergebnisse mit einem Wertebereich von 0,5 - 0,9 für den correlation
threshold (im Folgenden: ct) ergeben. Diese Werte werden übernommen und in Bezug
auf die Testmenge untersucht, wobei sich die Ergebnisse aus den Voruntersuchungen
bestätigen (vgl. Tabelle 11).
Empirischer Teil 94
Modell Umsatz in € ct: 0,5
Umsatz in € ct: 0,7
Umsatz in € ct: 0,9
Künstliches neuronales Netz (MultiLayerPerceptron)
11.578 11.614,5 11.473,5
Gradient Boosted Trees 12.132,5 11.928,5 12.095,5
Random Forest (mit Equal Size Sampling)
11.210 11.210 10.823,5
Tabelle 11 - Umsätze mit unterschiedlichen correlation threshold Schwellenwerten
Es ist zu erkennen, dass sich die besten Umsätze mit einem Schwellenwert im Bereich
von 0,5 - 0,7 erzielen lassen. Das Gradient Boosted Trees-Verfahren operiert mit einem
Schwellenwert von 0,5 am effektivsten. Das Random Forest-Verfahren erzielt identische
Ergebnisse mit den Schwellenwerten 0,5 und 0,7. Somit ist der niedrigere Schwellenwert
vorzuziehen, da in diesem Fall mehr Attribute herausgefiltert werden. Das neuronale
Netz arbeitet mit einem Wert von 0,7 minimal besser als mit einem Wert von 0,5.
Aufgrund der geringen Differenz im Ergebnis ist das Modell mit weniger verbleibenden
Attributen vorzuziehen. Somit erweist sich der Schwellenwert 0,5 als optimal. Bei
diesem Schwellenwert verbleiben aufgrund der unterschiedlichen Trainingsmengen 33
Prädiktoren für das neuronale Netz und das Gradient Boosted Trees-Verfahren.
Herausgefiltert werden folgende Merkmale: date, datecreated, entry,
deliverydatepromised, deliverydatereal, weight, items effective, deliverytime absolute.
Bei dem Random Forest-Verfahren werden dieselben Merkmale herausgefiltert mit
Ausnahme von deliverytime absolute.
Hauptkomponentenanalyse
Der PCA (Principal Component Analysis)-Knoten in KNIME bietet folgende Optionen an:
Dimensionsreduktion auf eine vorgegebene Anzahl an Prädiktoren
Minimaler Informationsgehalt, der erhalten bleibt (in Prozent)
Ersetzen der ursprünglichen Prädiktoren durch die Hauptkomponenten In ersten Tests wird ermittelt, dass auch bei einem minimalen Informationsgehalt von
100 % deutlich schlechtere Ergebnisse bei allen verwendeten Modellen erreicht werden.
Empirischer Teil 95
Ein Ersetzen der ursprünglichen Prädiktoren erzielt auch keine Verbesserung. Somit wird
die Hauptkomponentenanalyse nicht tiefergehend untersucht.
Rückwärtsselektion
Die Rückwärtsselektion wird anhand des Backward Feature Elimination-Knoten
durchgeführt, der für die Eliminierung der Attribute das Naive Bayes-Modell verwendet
(vgl. Abb. 36).
Es wird kein Abbruchkriterium vorgegeben, sondern erst das Ergebnis der Auswertung
abgewartet. Ein Ausschnitt der Resultate der Rückwärtsselektion der Trainingsmenge
mit 1,5:1 Klassenverteilung ist in Abb. 37 dargestellt. Die Rückwärtsselektion mit der
Trainingsmenge nach dem Equal Size Sampling, die für das Random Forest-Verfahren
benutzt wird, erzielt ein davon abweichendes Ergebnis.
Mit Hilfe des Backward Feature Elimination Filter-Knotens werden anhand manueller
Selektion oder anhand des prediction error threshold (Schwellenwert des
Prognosefehlers) die irrelevanten Prädiktoren herausgefiltert. Wiederum werden
zunächst Versuche anhand der partitionierten Trainingsmenge durchgeführt.
Abbildung 36 - Backward Feature Elimination
Empirischer Teil 96
Abbildung 37 - Ausschnitt der Ergebnisse der Rückwärtsselektion der Trainingsmenge mit 1,5:1 Klassenverteilung
Die Verwendung der Option prediction error threshold ist nicht geeignet. Es werden
keine aussagekräftigen Untermengen der Prädiktoren gefunden, die zu einer
Verbesserung der Resultate führen. Auch die manuelle Selektion (vgl. Abb. 38) liefert
keine Verbesserung der Ergebnisse verglichen mit der Modellbildung ohne
Prädiktorenselektion.
Es werden mehrere Tests mit den Attributen durchgeführt, die durch die
Rückwärtsselektion als aussagekräftigste Untermengen ermittelt wurden. Die Umsätze
aller drei Verfahren liegen deutlich unter den zuvor erreichten Ergebnissen. Diese
Ergebnisse werden nach Anwendung auf die Testmenge bestätigt, so dass diese
Methode nicht verwendet wird.
Eine Verbesserung der erzielten Umsätze wird somit nur durch die Reduktion der
Prädiktoren anhand der Korrelationskoeffizienten erzielt. Diese Methode wird
dementsprechend ausgewählt.
Empirischer Teil 97
Abbildung 38 - Backward Feature Elimination Filter mit manueller Selektion
3.3.3 Parameteroptimierung
Es wird für jedes der drei verbleibenden Modelle eine systematische Optimierung der
Parameter vorgenommen. Zunächst werden Voruntersuchungen durchgeführt, um
interessante Wertebereiche der einzelnen Parameter zu ermitteln. Anschließend
werden die Parameter über Schleifendurchläufe systematisch getestet (vgl. Abb. 39).
Empirischer Teil 98
Abbildung 39 - Schleife zur Parameteroptimierung
Über den Parameter Optimization Loop Start-Knoten werden die zu untersuchenden
Parameterwerte bestimmt (vgl. Abb. 40).
Abbildung 40 - Parameterselektion MultiLayerPerceptron
Die entsprechend zu testenden Parameter werden in den Modellbildungsknoten der
Verfahren als sogenannte Flow Variables (dynamische Variablen) deklariert (vgl. Abb.
41).
Empirischer Teil 99
Abbildung 41 - Zuweisen der dynamischen Variablen beim MultiLayerPerceptron
Jede mögliche Kombination dieser Parameter wird anschließend durch die
Schleifendurchläufe getestet. Die Ergebnisse werden durch den Variable Loop End-
Knoten protokolliert und verglichen (vgl. Abb. 42).
Abbildung 42 - Ausschnitt der Ergebnisse der Parameteroptimierung beim MultiLayerPerceptron
Es finden sowohl Tests mit Partitionen der Trainingsmenge als auch mit der gesamten
Trainings- und Testmenge statt. Im Anschluss an dieses Verfahren wird untersucht, ob
es möglich ist, die Verfahren durch eine feingranularere Abstimmung der Werte weiter
Empirischer Teil 100
zu optimieren. Die besten Ergebnisse der einzelnen Verfahren sind in Tabelle 12
zusammen mit den spezifischen Parametern dargestellt.
Modell Parameter Umsatz in €
Künstliches neuronales Netz (MultiLayerPerceptron)
Iterations: 100, hidden layers: 1, neurons per layer: 15, random seed: yes
11.858
Gradient Boosted Trees Tree depth: 4, number of models: 102, learning rate: 0,1, random seed: yes
12.184
Random Forest (mit Equal Size Sampling)
Split: information gain, tree depth: 4, number of models: 120
11.372
Tabelle 12 - Maximaler Umsatz der Verfahren nach der Parameteroptimierung
Mit Hilfe der Parameteroptimierung werden die Ergebnisse somit weiter verbessert. Die
deutlichste Umsatzsteigerung ist beim neuronalen Netz zu beobachten. Bei den
Verfahren Gradient Boosted Trees und Random Forest sind durch die Analyse der
Parameter geringe Umsatzsteigerungen zu erzielen.
3.4 Ergebnisse
Die besten Ergebnisse werden durch die Ensemble-Methoden erreicht. Kein anderes der
untersuchten Verfahren erzielt entsprechend gute Werte. Das beste Gesamtergebnis
wird mit 12.184 Euro durch das Gradient Boosted Trees-Verfahren erreicht.
Ein großer Einfluss auf die Modellgüte der einzelnen Verfahren wird von der
Klassenverteilung in den verwendeten Trainingsmengen ausgeübt. Mit der ursprünglich
vorliegenden Trainingsmenge, die hinsichtlich des Klassifikationsmerkmals sehr ungleich
verteilt ist, werden die schlechtesten Ergebnisse erzielt.
Empirischer Teil 101
Im Verlauf der Untersuchungen stellte sich heraus, dass mit einem Klassenverhältnis im
Bereich von 1:1 bis 1,5:1 (Klasse 0: Klasse 1) die besten Ergebnisse erreicht werden. Das
Random Forest-Verfahren bildet das aussagekräftigste Modell mit einer gleichverteilten
Trainingsmenge. Das Gradient Boosted Trees-Verfahren sowie das künstliche neuronale
Netz arbeiten mit einer 1,5:1 verteilten Trainingsmenge am effektivsten.
Bei der Prädiktorenselektion wird durch das Filtern der Merkmale anhand des
Korrelationskoeffizienten eine leichte Verbesserung der Modellgüte erreicht. Die
Hauptkomponentenanalyse und die Rückwärtsselektion verschlechtern die Ergebnisse
der verwendeten Modelle deutlich.
Darüber hinaus wird eine weitere Optimierung der Modelle durch eine systematische
Parameteranalyse erzielt. Die deutlichste Verbesserung ist bei den künstlichen
neuronalen Netzen zu erkennen.
Eine Übersicht über die durch die jeweiligen Optimierungsschritte verwirklichten
Umsatzsteigerungen ist in Abb. 43 dargestellt.
Abbildung 43 - Umsatzsteigerungen durch Modelloptimierung (Beträge in Euro)
Die durch die Data Mining-Verfahren erzielten Ergebnisse werden mit dem Basisumsatz
als Referenzgröße verglichen. Der Basisumsatz von 8.548,5 Euro wird wie erläutert
erzielt, wenn pauschal jedem Kunden ein Gutschein zugesendet wird.
In Tabelle 13 ist die prozentuale Umsatzsteigerung in Bezug auf den Basisumsatz
dargestellt.
Abschlussbetrachtung 102
Modell Umsatzsteigerung
Gradient Boosted Trees 42,52 %
Künstliches neuronales Netz (MultiLayerPerceptron)
38,71 %
Random Forest (mit Equal Size Sampling)
33,02 %
Tabelle 13 - Prozentuale Umsatzsteigerung bezogen auf den Basisumsatz
Es ist zu erkennen, dass mit Hilfe des Gradient Boosted Trees-Modells eine
Umsatzsteigerung von 42,52 % erreicht wird. Die erzielten Umsatzsteigerungen der
beiden verbleibenden Modelle liegen bei über einem Drittel.
4 Abschlussbetrachtung
Die Abschlussbetrachtung beinhaltet ein Fazit in Bezug auf die in dieser Arbeit
verwendete Vorgehensweise und die erreichten Ergebnisse. Zudem wird ein Ausblick
auf mögliche weiterführende Untersuchungen, sowie die aktuelle Entwicklung der
Ensemble-Methoden gegeben.
Abschlussbetrachtung 103
4.1 Fazit
Es ist anhand der vorliegenden Arbeit zu erkennen, dass vor der Anwendung von
ausgewählten Data Mining-Verfahren zunächst eine umfassende Datenerhebung sowie
ein systematischer Datenvorverarbeitungsprozess zu erfolgen hat.
Somit wird gewährleistet, dass ein tiefgreifendes Datenverständnis vorliegt und die Data
Mining-Verfahren aufgrund der gesteigerten Datenqualität effektiver arbeiten. Sowohl
die Datenerhebung als auch die Datenvorverarbeitung beinhalten statistische Analysen,
die das Behandeln fehlender und inkonsistenter Werte erleichtern. Insbesondere bei
einem Ersetzen dieser Werte ist es wichtig, anhand der statistischen Auswertungen
sinnvolle Substitutionswerte zu ermitteln.
Die ungleiche Klassenverteilung innerhalb der Datensätze übt einen entscheidenden
Einfluss auf die Ergebnisse der einzelnen Verfahren aus. Es findet eine Verzerrung der
Ergebnisse hinsichtlich der überrepräsentierten Klasse statt, der durch Sampling-
Methoden entgegenzuwirken ist. Welche der unterschiedlichen Sampling-Methoden
am besten geeignet ist, hängt von den Eigenschaften der jeweiligen Daten und den
verwendeten Verfahren ab. Besonderes Augenmerk ist dabei auf die Anzahl der zur
Verfügung stehenden Datenobjekte zu legen. In der vorliegenden Arbeit liegen
ausreichend große Datensätze vor, um Under-Sampling anzuwenden. Durch Under-
Sampling werden im Vergleich mit den übrigen Sampling-Methoden die mit Abstand
besten Ergebnisse erzielt. Aufgrund der vielen Voruntersuchungen und Testdurchläufe
ist dieser Prozess sehr zeitintensiv.
Durch die Selektion relevanter Prädiktoren wird eine zusätzliche Verbesserung der
Modellgüte erreicht. Die einzige der in dieser Arbeit verwendeten Methoden zur
Prädiktorenselektion, durch die eine Verbesserung der Modelle ermöglicht wird, ist die
Filterung der Merkmale anhand der Korrelationskoeffizienten. Die Steigerung der
Modellgüte ist gering, aber darüber hinaus wird durch eine Merkmalsreduktion die
Komplexität der Modelle verringert und ihre Performanz erhöht.
Abschlussbetrachtung 104
Weitere leichte Modelloptimierungen werden durch die systematische
Parameteranalyse erzielt. Hier zeigt sich, dass die in KNIME vorkonfigurierten
Standardparameter eine gute Ausgangsbasis bilden, da sie keinen großen
Optimierungsspielraum zulassen.
Hinsichtlich der Modellgüte kristallisieren sich die Ensemble-Methoden als Favoriten
heraus. Durch diese Ergebnisse wird der Trend der letzten Jahre bestätigt, in denen die
Ensemble-Methoden immer populärer geworden sind und ihr Einfluss auf das Data
Mining sich ständig vergrößert hat. Durch die schrittweise Verbesserung der vielen
einzelnen Basismodelle und den abschließenden Abstimmungsprozess generieren diese
Modelle einen entscheidenden Vorteil. Dieser Prozess ähnelt der Entscheidungsfindung
in anderen Bereichen, in denen ein Beraterstab konsultiert und anschließend auf
Grundlage der verschiedenen Positionen eine endgültige Entscheidung getroffen wird.
Der Nutzen von Data Mining wird anhand der erzielten Umsatzsteigerung von 42,52 %
in Bezug auf den Basisumsatz deutlich. Ein derartiger Wettbewerbsvorteil ist durch
andere Maßnahmen mit vergleichbaren Ressourcen nur sehr schwer zu erreichen. Dies
gilt besonders für den Online-Handel mit Medien, der von einer hohen Anzahl an
Anbietern und starker Konkurrenz geprägt ist. Zudem sind in dem sofort zu
realisierenden Umsatz die positiven Auswirkungen auf die zukünftige Kundenbindung
und den Customer Lifetime Value noch nicht enthalten. Diese Effekte machen sich
zusätzlich mittel- und langfristig hinsichtlich des Unternehmenserfolgs bemerkbar.
4.2 Ausblick
Interessant in Bezug auf mögliche weiterführende Untersuchungen ist der Einsatz
vergleichbarer Data Mining-Modelle auf andere After Sales Marketing-Maßnahmen wie
die Einführung von Kundenkarten und die Ausschöpfung von Cross Selling-Potentialen.
Abschlussbetrachtung 105
Es ist zu ermitteln, in welchem Umfang in diesen Bereichen weitere Umsatzsteigerungen
möglich sind.
Die Ensemble-Methoden befinden sich in einem Stadium der ständigen
Weiterentwicklung. Es wird zu beobachten sein, inwieweit optimierte Verfahren mit
Datensätzen umgehen, die eine ungleichmäßige Klassenverteilung aufweisen.
Verbessert sich die Modellgüte hinsichtlich dieser Daten, werden zeit- und
ressourcenintensive Datenvorverarbeitungsprozesse eingespart und der gesamte Data
Mining-Prozess gestaltet sich effizienter.
Somit ist es interessant, die in dieser Arbeit durchgeführten Untersuchungen mit neu
erscheinenden KNIME Versionen zu wiederholen und die Modellgüte der
entsprechenden Verfahren zu vergleichen. Eine weitere Möglichkeit besteht darin,
andere Data Mining-Software zur Bearbeitung der vorliegenden Aufgabenstellung zu
verwenden und die Ergebnisse zu vergleichen.
106
Literaturverzeichnis
Aggelos 2010 AGGELOS, Pikrakis; CAVOURAS, Dionisis; KOUTROUMBAS, Konstantinos; THEODORIS, Sergios: Introduction to pattern recognition: a MATLAB approach. Amsterdam: Elsevier, 2010. - ISBN 978-0-12-374486-9. Baars 2010 BAARS, Henning; KEMPER, Hans-Georg; MEHANNA, Walid: Business Intelligence - Grundlagen und praktische Anwendungen: Eine Einführung in die IT-basierte Managementunterstützung. 3. Auflage. Wiesbaden: Vieweg + Teubner, 2010. - ISBN 978-3-8348-0719-9. Backhaus 2015 BACKHAUS, Klaus; ERICHSON, Bernd; WEIBER, Rolf: Fortgeschrittene Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. 3. Auflage. Berlin Heidelberg: Springer Gabler, 2015. - ISBN 978-3-662-46087-0. Backhaus 2016 BACKHAUS, Klaus; ERICHSON, Bernd; PLINKE, Wulff; WEIBER, Rolf: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. 14. Auflage. Berlin Heidelberg: Springer Gabler, 2016. - ISBN 978-3-662-46076-4. Bankhofer 2008 BANKHOFER, Udo; VOGEL, Jürgen: Datenanalyse und Statistik: Eine Einführung für Ökonomen im Bachelor. 1. Auflage. Wiesbaden: Gabler, 2008. - ISBN 978-3-8349-0434-8. Bde 2016 Github Repository: Online verfügbar unter: http://bdewilde.github.io/assets/images/2012-10-26-knn-concept.png Abruf: 2016-07-10.
Literaturverzeichnis 107
Bissantz 1993 BISSANTZ, Nicolai; HAGEDORN, Jürgen: Data mining (Datenmustererkennung). Wirtschafts- informatik 35(5), 481-487 (1993).
Böwing 2011 BÖWING-SCHMALENBROCK, Melanie; JURCZOK, Anne: Multiple Imputation in der Praxis: ein sozialwissenschaftliches Anwendungsbeispiel. Potsdam: Universität Potsdam, 2011.
Borgelt 2015 BORGELT, Christian; BRAUNE, Christian; KLAWONN, Frank; KRUSE, Rudolf; MOEWES, Christian; STEINBRECHER, Matthias: Computational Intelligence: Eine methodische Einführung in Künstliche Neuronale Netze, Evolutionäre Algorithmen, Fuzzy-Systeme und Bayes-Netze. 2. Auflage. Wiesbaden: Springer Vieweg, 2015. - ISBN 978-3-658-10904-2.
Bruhn 2015 BRUHN, Manfred; HADWICH, Karsten; MEFFERT, Heribert: Dienstleistungsmarketing: Grundlagen-Konzepte-Methoden. 8. Auflage. Wiesbaden: Springer Gabler, 2015. - ISBN 978-3-658-05046-7.
Chapman 1999 CHAPMAN, Pete; CLINTON, Julian; KERBER, Randy; KHABAZA, Thomas; REINARTZ, Thomas; SHEARER, Colin; WIRTH, Rüdiger: CRISP-DM 1.0: Step-by-step data mining guide. Online verfügbar unter: https://www.the-modeling-agency.com/crisp-dm.pdf Abruf: 2016-05-03. Chawla 2005 CHAWLA, Nitesh V.: Data Mining For Imbalanced Datasets: An Overview. In: Data Mining and Knowledge Discovery Handbook. 1. Auflage. New York, 2005. - ISBN 978-0-387-24435-8. Cleve 2014 CLEVE, Jürgen; LÄMMEL, Uwe: Data mining. 1. Auflage. München: De Gruyter Oldenbourg, 2014. - ISBN 978-3-486-71391-6. Davis 2006 DAVIS, Jesse; GOADRICH, Mark: The relationship between Precision-Recall and ROC curves. In: International Conference on Machine Learning. Madison 2006. S. 233-240. DMC 2010 Data Mining Cup: Homepage. dmc2010_task.pdf. Online verfügbar unter: http://www.data-mining-cup.de/rueckblick/rueckblick/article/dmc-2010.html Abruf: 2016-06-12.
Literaturverzeichnis 108
Eibe 2011 EIBE, Frank; HALL, Mark A.; WITTEN, Ian H.: Data Mining: practical machine learning tools and techniques. 3. Auflage. Amsterdam [u.a.]: Elsevier/Morgan Kaufmann, 2011. - ISBN 978-0-08-089036-4. Elder 2009 ELDER, John; MINER, Gary; NISBET, Robert: Handbook of Statistical Analysis and Data Mining Applications. 1. Auflage. Amsterdam Boston: Academic Press/Elsevier, 2009. - ISBN 978-0-08-091203-5. Elder 2010 ELDER, John; SENI, Giovanni: Ensemble Methods in Data Mining: Improving accuracy through combining predictions. In: Synthesis Lectures on Data Mining and Knowledge Discovery. Chicago: University of Illinois, 2010. Online verfügbar unter: https://wiki.eecs.yorku.ca/course_archive/2014-15/F/4412/_media/ensemble_data_ mining.pdf Abruf: 2016-07-09. Fayyad 1996 FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic (1996a): From Data Mining to Knowledge Discovery in Databases. In: Communications of the ACM, Vol. 39 (1996a) Nr. 11, S. 37-54. Freitas 2003 FREITAS, Alex A.; NIEVOLA, Julio C.; OTERO, Fernando E. B.; SILVA, Monique M. S.: Genetic Programming for attribute construction in data mining. In: EuroGP´03 Proceedings of the 6th European conference on Genetic programming. Berlin Heidelberg: Springer, 2003. - ISBN 3-540-00971-X. Friedman 2009 FRIEDMAN, Jerome; HASTIE, Trevor; TIBSHIRANI, Robert: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. Auflage. New York: Springer, 2009. - ISBN 978-0-387-84857-0. Gabler 2016 Gabler Wirtschaftslexikon: Homepage. Stichwort: Korrelationskoeffizient. Online verfügbar unter: 35/Archiv/10564/korrelationskoeffizient-v13.html Abruf: 2016-07-10. Günter 2015 GÜNTER, Jana; NEU, Matthias: Erfolgreiche Kundenrückgewinnung: Verlorene Kunden identifizieren, halten und zurückgewinnen. Wiesbaden: Springer Gabler, 2015. - ISBN 978-3-658-04807-5.
Literaturverzeichnis 109
Han 2012 HAN, Jiawei; KAMBER, Micheline; PEI, Jian: Data Mining: Concepts and Techniques. 3. Auflage. Amsterdam [u.a.]: Elsevier/Morgan Kaufmann, 2012. - ISBN 978-0-12-381479-1. Hogenschurz 2008 HOGENSCHURZ, Bernhard; KEUPER, Frank: Management, Marketing, Promotion und Performance. Wiesbaden: GWV Fachverlage, 2008. - ISBN 978-3-8349-9591-9. Imgur 2016 Imgur: Homepage. Online verfügbar unter: http://i.stack.imgur.com/1gvce.png Abruf: 2016-07-10. Klüver 2009 KLÜVER, Jürgen; SCHMIDT, Jörn; STOICA-KLÜVER, Christina: Modellierung komplexer Prozesse durch naturanaloge Verfahren: Komplexe adaptive Systeme – Modellbildungen und -theorie – neuronale Netze – Soft Computing und verwandte Techniken. 1. Auflage. Wiesbaden: Vieweg + Teubner, 2009. - ISBN 978-3-8348-0400-6. KNIME 2016 KNIME: Homepage. Online verfügbar unter: https://www.knime.org/knime-analytics-platform Abruf: 2016-07-07. Krishna 2013 KRISHNA, Rajan: Informatics for Materials Science and Engineering: Data-driven Discovery for Accelerated Experimentation and Application. Burlington: Elsevier Science, 2013. - ISBN 978-0-12-394399-6. Kronthaler 2014 KRONTHALER, Franz: Statistik angewandt: Datenanalyse ist (k)eine Kunst. Berlin: Springer, 2014. - ISBN 978-3-642-53740-0. Lenz 2013 LENZ, Hans-Joachim; MÜLLER, Roland: Business Intelligence. Berlin Heidelberg: Springer, 2013. - ISBN 978-3-642-35560-8. Levatic 2010 LEVATIC, Jurica; MALENICA, Antonija; PAVLIC, Ilija: Data Mining Cup 2010 Report. Zagreb: University of Zagreb, 2010. Online verfügbar unter: https://web.math.pmf.unizg.hr/nastava/su/index.php/download_file/-/view/39/ Abruf: 2016-06-05.
Literaturverzeichnis 110
Lprogram 2016 Lazyprogrammer: Homepage. Online verfügbar unter: http://lazyprogrammer.me/wp-content/uploads/2015/11/PCA.jpg Abruf: 2016-07-10. Medcalc 2016 Medcalc: Homepage. Online verfügbar unter: https://www.medcalc.org/manual/_help/images/roc_intro3.png Abruf: 2016-07-12. Meier 2012 MEIER, Andreas; STORMER, Henrik: eBusiness & eCommerce: Management der digitalen Wertschöpfungskette. 3. Auflage. Berlin Heidelberg: Springer, 2012. - ISBN 978-3-642-29802-8. Oberhofer 1996 OBERHOFER, Walter; ZIMMERER, Thomas: Wie künstliche neuronale Netze lernen: Ein Blick in die Black Box der Backpropagation Netzwerke. In: Regensburger Diskussionsbeiträge Nr. 287. Regensburg: Universität Regensburg, Institut für Volkswirtschaftslehre einschließlich Ökonometrie, 1996. Online verfügbar unter: http://www.hs-ansbach.de/fileadmin/bachelor/Betriebswirtschaftslehre/Zimmerer/Literatur/DP_287.pdf Abruf: 01.06.2016. Refaat 2007 REFAAT, Mamdouh: Data preparation for data mining using SAS. Amsterdam [u.a.]: Morgan Kaufmann, 2007. - ISBN 978-0-12-373577-5. Ruckstuhl 2008 RUCKSTUHL, Andreas: Numerische und statistische Methoden für Chemieingenieure. Zürich: Zürcher Hochschule Winterthur, 2008. Online verfügbar unter: http://stat.ethz.ch/~stahel/courses/cheming/nlreg.pdf Abruf: 2016-05-20. Runkler 2010 RUNKLER, Thomas: Data Mining: Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden: Vieweg + Teubner, 2010. - ISBN 978-3-8348-0858-5. Saed 2016 Saedsayad: Homepage. Online verfügbar unter: http://www.saedsayad.com/images/SVM_optimize.png Abruf: 2016-07-12. Schnöring 2016 SCHNÖRING, Marc: Konsequenzen der Prämieneinlösung in Kundenbindungsprogrammen: Theoretische Fundierung und empirische Analyse. Wiesbaden: Springer Gabler, 2016. - ISBN 978-3-658-12169-3.
Literaturverzeichnis 111
Sharafi 2013 SHARAFI, Armin: Knowledge Discovery in Databases: Eine Analyse des Änderungsmanagements in der Produktentwicklung. Wiesbaden: Springer, 2013. - ISBN 978-3-658-02002-6. Spehling 2007 SPEHLING, Markus: Analyse und Erweiterung von Methoden des Data Mining in räumlichen Datenbanken. Hannover: Leibnitz Universität Hannover, 2007. Statista 2016 Statista: Homepage. Online verfügbar unter: https://de.statista.com/statistik/lexikon/definition/57/f_test/ Abruf: 2016-07-09. Statistics 2016 Statistics4u: Homepage. Online verfügbar unter: http://www.statistics4u.info/fundstat_germ/ee_classifier_performance_metrics.html Abruf: 2016-06-09. Steinlein 2003 STEINLEIN, Uwe: Data Mining als Instrument der Responseoptimierung im Direktmarketing: Methoden zur Bewältigung niedriger Responseraten. Göttingen: Cuvillier, 2004. - ISBN 3-89873-981-3. Strecker 1997 STRECKER, Stefan: Künstliche Neuronale Netze - Aufbau und Funktionsweise In Arbeitspapiere WI Nr. 10/1997, Lehrstuhl für allgemeine BWL und Wirtschaftsinformatik. Mainz: Universität Mainz, 1997. Wang 1999 WANG, Xue Zhang: Data Mining and Knowledge Discovery for Process Monitoring and Control. London [u.a.]: Springer, 1999. - ISBN 1-85233-137-2. Wikim 2016 Wikimedia: Homepage. Online verfügbar unter: https://upload.wikimedia.org/wikibooks/de/thumb/8/88/CLV.jpg/500px-CLV.jpg Abruf: 2016-07-12.