![Page 1: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/1.jpg)
Classification of Credit Applicants
Using Data Mining.
Thema
![Page 2: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/2.jpg)
Gruppe E1-116 a
• Yue Sun
• Frank Moritz
• Jasmin Catovic
• André Bünger
• Supervisor: Thomas D. Nielson
![Page 3: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/3.jpg)
Aufgabenstellung
• Klassifizierung von Kreditnehmern mittels Datamining
• genutzte Techniken:– Entscheidungsbäume– Neuronale Netze– Naive Bayes Klassifizierer
![Page 4: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/4.jpg)
Aufbau der Präsentation
• verwendete Datenbank
• Benutze Algorithmen
• Experimente und Ergebnisse
• Schlussfolgerung
![Page 5: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/5.jpg)
Die Datenbank
• Name:– Determining the solidness of borrowers via
Credit-Scoring
• Herkunft:– Statistisches Archiv der Universität
München
![Page 6: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/6.jpg)
Datenbank 2
• 1000 Datensätze
• 21 Attribute– 20 Merkmalsattribute
• 3 stetige• 17 diskrete
– 1 Zielattribut (kreditwürdig, nicht kreditwürdig)
![Page 7: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/7.jpg)
Trainings- und Testsets
• 5 verschiedene Sets
• Größe der Testsets : 300 Datensätze
• Größe der Trainingsets :– 700 Datensätze– 500 Datensätze– 300 Datensätze– 100 Datensätze
![Page 8: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/8.jpg)
Diskretisierung
• Naive Bayes benötige diskrete Attribute
• 2 verschiedene Methoden benutzt– vorgegebener Vorschlag („Expertenmeinung“)– recursive minimal entropy partitioning (RMEP)
![Page 9: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/9.jpg)
RMEP
• teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden
• Realisiert mit Weka DiscretizeFilter (MDL)
![Page 10: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/10.jpg)
Naive Bayes Klassifizierer
• basiert auf Bayes Theorie der bedingten Wahrscheinlichkeit
• Annahme das die Attribute unabhängig voneinander sind
![Page 11: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/11.jpg)
Struktur
Creditability
F WorkerDuration
Balance
Credit History
...
![Page 12: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/12.jpg)
Entscheidungsbäume
• verwendete Software : Clementine 6.0– Clementine verwendete den C5 Algorithmus– C5 ist eine Verbesserung von C4.5– basiert auf ID3
![Page 13: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/13.jpg)
Neuronale Netze
• Verwendete Software : Clementine 6.0– Vorwärtsverkettete Netze– eine versteckte Schicht mit 5 Neuronen
![Page 14: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/14.jpg)
Experimente
• Ziel: den besten Klassifizierer finden
• Variation von Parametern– Naive Bayes : m-estimate of probability– Entscheidungsbäume : Pruningrate, Kosten– neuronale Netze: Momentum, Lernrate
![Page 15: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/15.jpg)
Entscheidungsbäume
„Expertenmeinung“
![Page 16: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/16.jpg)
Vergleich der Diskretisierungsmethodenbei 700 Datensätzen
![Page 17: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/17.jpg)
Vergleich der Klassifikation in kreditwürdig/nicht kreditwürdig bei 700 DS und “Expertenmeinung”
pruning 1 50 60 80 99class
label 0 1 0 1 0 1 0 1 0 1
0 48 48 47 49 45 51 35 61 3 93
1 36 168 32 172 29 175 24 180 0 204
![Page 18: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/18.jpg)
Probleme bei der Klassifikation
• Viele nichtkreditwürdige werden als kreditwürdig klassifiziert
• Mit erhöhtem Pruning werden mehr als kreditwürdig klassifiziert
• Problemlösungsversuch:– Kosten für Missklasssifikation erhöht– Ergebnis : keine Verbesserung
![Page 19: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/19.jpg)
Neuronale Netze
69
70
71
72
73
74
75
76
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1.0
learning rates
accu
racy EO
ORG
RMEP
trainiert mit 700 Datensätzen und Momentum = 0.5
![Page 20: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/20.jpg)
Vergleich der Klassifikation
Learning rate 0.1 0.3 0.5 0.7 0.9
class
label 0 1 0 1 0 1 0 1 0 1
0 42 51 37 56 40 53 42 50 45 47
1 26 181 25 182 26 181 32 176 36 172
trainiert mit 700 Datensätzen,
“Expertenmeinung”, momentum=0.5
![Page 21: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/21.jpg)
Probleme
• Viele Nichtkreditwürdige werden als kreditwürdig klassifiziert
• Stark unterschiedliche Ergebnisse bei Modellen mit den gleichen Parametern und Datensätzen (bis zu 17%)
![Page 22: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/22.jpg)
Naive Bayes Klassifizierer
66,00%
67,00%
68,00%
69,00%
70,00%
71,00%
72,00%
73,00%
74,00%
75,00%
76,00%
0 10 20 30 40 50 60 70 80 90 100
m
ac
cu
rac
y 100 instances
300 instances
500 instances
700 instances
„Expertenmeinung“
![Page 23: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/23.jpg)
66,00%
67,00%
68,00%
69,00%
70,00%
71,00%
72,00%
73,00%
74,00%
75,00%
76,00%
m
accu
racy RMEP
EO
Vergleich von „Expertenmeinung“ und RMEP
bei 700 Datensätzen
![Page 24: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/24.jpg)
m 0 10 20 50 100Class
label0 1 0 1 0 1 0 1 0 1
0 48 43 48 42 41 49 32 59 19 72
1 33 176 34 176 28 182 22 187 14 195
Vergleich der Klassifikation bei 700 Datensätzen und “Expertenmeinung”
![Page 25: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/25.jpg)
Vergleich der besten Ergebnisse• Entscheidungsbäume:
• Original : 72,07% mit pruningrate von 80• RMEP: 71,20% mit pruningrate von 80• EM: 73,40% mit pruningrate von 60
– Neuronale Netze• original: 74,07% mit alpha 0.5 und eta 0.5• RMEP: 75,34% mit alpha 0.5 und eta 0.2• EM: 74,53% mit alpha 0.5 und eta
0.1
– Naive Bayes Klassifizierer• RMEP: 74,73% mit m=5• EM: 74,87% mit m=10
![Page 26: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/26.jpg)
Vergleich 2
0 1 insgesamt
Entscheidungsbäume : 47% 86% 73,40%
Neuronale Netze: 46% 87% 75,34%
Naive Bayes Klassifizierer: 53% 84% 74,87%
![Page 27: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/27.jpg)
Zusammenfassung
• bestes Resultat mit neuronalen Netzen
• aber keine großen Unterschiede
• Naive Bayes Klassifizierer klassifiziert nichtkreditwürdige Kreditnehmer am besten
• gleiche Probleme bei der Klassifikation von nichtkreditwürdigen Kreditnehmern
![Page 28: Classification of Credit Applicants Using Data Mining. Thema](https://reader035.vdokument.com/reader035/viewer/2022062404/55204d6749795902118bda32/html5/thumbnails/28.jpg)
Fazit
• bester Klassifizierer ist der Naive Bayes Klassifizierer, da er nichtkreditwürdige Kunden besser klassifiziert als die anderen zwei Methoden.
• dadurch Reduzierung der Kreditausfälle für die Bank