1 lehrstuhl für wirtschaftsinformatik und betriebliche kommunikationssysteme prof. dr. reinhard...
Post on 05-Apr-2015
105 Views
Preview:
TRANSCRIPT
1
Lehrstuhl für Wirtschaftsinformatik undBetriebliche KommunikationssystemeProf. Dr. Reinhard Jung
Sascha Enders / Tim Dreesen
Wintersemester 07/08
Version 1.0
Data Mining
2
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
3
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
4
Einleitung
Was ist Data Mining?
"Als Data Mining (engl.: data mining; deutsch: Daten-Bergbau, Daten schürfen) bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken bzw. des Data Warehouse. […] “
[HaNe2005]
„Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern und Daten“ (nach Fayyad)
[AlNi]
5
Ausgangslage
• Automatische DV auf dem Vormarsch- Datenflut!
• Entscheidungsfindung über Unternehmensgrenze hinweg Data Warehouse als Lösung
• Aber was mit dem ganzen Datenwust anstellen???• Herkömmliche Methoden nicht mehr ausreichend
Hilfsmittel: Data Mining
Wieso Data Mining?
6
Ausgangslage
Abb.: in Anlehnung an [AlNi]
Wo ist Data Mining einzusortieren?
Operative Systeme
Data Warehouse
Ad-Hoc Abfragen Auswertungssysteme
z.B. SQL OLAP, Data Mining
7
Ausgangslage
Data Mining als wachsendes Forschungsgebiet
1960 1970 1990 20001980
KI
DBMS
Abfragesprachen
Data WarehouseData Mining
Web Mining
Abb.: in Anlehnung an [FrKö]
8
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
9
Data Mining Prozess
Überblick
Daten
Zieldaten /Vorverarbeitete
Daten
Transformierte Daten
Auswahl / Datenexploration
Transformation
Data Mining
Abb.: in Anlehnung an [AlNi]
10
Data Mining Prozess
Auswahl
• Die Auswahl erfolgt auf einem vorhandenen Datenbestand
• Relevante Datenfelder / Datensätze werden ausgewählt
Welche Informationsquellen sollen genutzt werden ?
11
Data Mining Prozess
Datenexploration
• Ausreißer analysieren und eliminieren- z.B. Herr Prof. Dr. Reinhard Jung ist 30
cm groß.
• Behandlung fehlender Werte- z.B. ist Birgitt weiblich?
• Ziel: Ein möglichst fehlerfreier / konsistenter Datenbestand als Basis für das Data Mining zu schaffen.
12
Data Mining Prozess
Transformation
Daten werden bei Bedarf…
• …verändert.• …normiert.• …kategorisiert.
Datenfelder werden neu angelegt• z.B. bei Aggregation von Daten
Bei den meisten Transformationen werden Daten reduziert
13
Data Mining Prozess
Zwischenstand
Die ersten drei Phasen sind laut Experten die
aufwendigsten innerhalb des Data Mining
Prozesses.
Sie nehmen ca. 75-85 % des Data Mining ein.
Quelle: in Anlehnung an [AlNi]
14
Data Mining Prozess
Data Mining
• Selektion der inhaltlichen Data Mining Technikenz.B.• Segmentierung • Klassifikation
• Selektion des konkret anzuwendenden Data Mining Algorithmusz.B.• Lineare Diskriminanzanalyse
• Ablauf des Algorithmus über die transformierten Daten
15
Data Mining Prozess
Wissen
Ergebnisse Interpretation
16
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
17
Methoden
Abb.: in Anlehnung an [AlNi]
Methoden - Überblick
Operative Systeme
SegmentierungKlassifikation Prognose
Abhängigkeits-analyse
Abweichungs-analyse
18
Methoden
Zuordnung von Elementen in bekannte Klassen, z.B.Entscheidungsbaumverfahren
Klassifikation
Flugmeilen
Frequenz Frequenz
Platinkunde Goldkunde Kunde Kunde
> 10tsd < 10tsd
1-2 Woche> 2 Woche > 2 Woche 1-2 Woche
19
Methoden
Zerlegung einer Gesamtheit in kleinere Teile, z.B.Clusterverfahren (1/2)
Beispiel: Lebensmittelvertrieb
• Erkenntnis: Fleisch- und Fischesser• Nächster Schritt: Gruppenbildung
Segmentierung
Kundennr. Milchprodukte Fleischwaren Waschmittel Gebäck Fisch
1004589 4 10 5 12 2
1017123 8 6 2 3 10
20
Methoden
Zerlegung einer Gesamtheit in kleinere Teile, z.B.Clusterverfahren (2/2)
Gruppiert:
• Nutzung des neuen Wissen z.B. für Personalisierung der Werbung
Segmentierung
Gruppe Milchprodukte Fleischwaren Waschmittel Gebäck Fisch
Fleischesser 3,75 11,2 3,7 10,2 1,7
Fischesser 9,2 6,4 4,2 2,75 12,25
Quelle: in Anlehnung an [HaNe2005]
21
Methoden
auf Basis bestehender Werte auf Zukünftige schließen, Künstliche Neuronale Netze (KNN)
• Stammt aus der KI• Neuronen = Verarbeitungseinheiten• Muss erst angelernt werden• Einsatz z.B. Kreditrisikorechnung,
Käuferklassen, Wertpapiere…
Prognose
Quelle.: in Anlehnung an [ChGl]
22
Methoden
Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln
Beispiel für das Aufdecken von Affinitäten :
„Wenn ein Kunde eine Immobilie länger als zwei Jahre mietet und älter als 25 Jahre ist, wird er in 40% aller Fälle eine Immobilie kaufen. Diese Assoziation gilt für 35% aller Kunden, die eine Immobilie mieten.“
Abhängigkeitsanalyse
Quelle.: in Anlehnung an [ToBo]
23
Methoden
Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln (1/2)
Abhängigkeitsanalyse
Quelle.: in Anlehnung an [ToBo]
Einkäufe Artikel
E1 Saft, Cola, Bier
E2 Saft, Cola, Wein
E3 Saft, Wasser
E4 Cola, Bier, Saft
E5 Saft, Cola, Bier, Wein
E6 Wasser
Artikel Einkäufe
Saft E1,E2,E3,E4,E5
Cola E1,E2,E4,E5
Bier E1,E4,E5
Wein E2,E5
Wasser E3,E6
24
Methoden
Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln (2/2)
Abhängigkeitsanalyse
Quelle.: in Anlehnung an [ToBo]
Regeln Einkäufe Konfidenz Support
Saft Cola E1,E2,E4,E5 80% 66%
Cola Saft E1,E2,E4,E5 100% 66%
Cola Bier E1,E4,E5 75% 50%
Bier Cola E1,E4,E5 100% 50%
25
Methoden
Ausreißer identifizieren z.B. mit Ausreißertests
Allgemein:
• Gegenteil der Assoziationsanalysen• Versuch der Ursachenentdeckung • Ausreißer entweder fehlerhafte Daten oder interessante
Ausprägungen!• z.B. für Schadensfällen bei Versicherungen, QM,
Kreditkartenbetrug oder allg. bei Verfolgung von Defekten
Abweichungsanalyse
Quelle.: in Anlehnung an [ToBo]
26
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
27
Ausprägungen
Text Mining
Web Mining
28
Ausprägungen
TextMining - Aufgaben
• Entdecken von Interessanten Beziehungen zwischen Dokumenten
• Klassifikation von Dokumenten
• Segmentierung von Dokumenten (Clustering)
• Erstellen von Abstracts
• Aufbau von begrifflichen Netzen
29
Ausprägungen
Data Mining Text Mining
Der grundlegendste Unterschied zwischen Data Mining und
Text Mining besteht in den vorliegenden Daten, die zur Verfügung
stehen.
Stark strukturierte Daten im Data Mining
vs.
Kaum strukturierte Daten im Text Mining
30
Ausprägungen
Web Mining – Aufgaben / Unterscheidung
• Dieselben Aufgaben die auch Data Mining ausführt, aber mit dem Bezug zum Internet / Intranet.
• Verarbeitung / Analyse von sekundären Daten die ein Nutzer hinterlässt.
31
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
32
Anwendung
Microsoft analysiert mit Hilfe des Verfahren der
Neuronalen Netze im Data Mining.
Wieso die einen Kunden auf ihr Postanschreiben
antworten und die Anderen nicht.
Beispiele
Antwortquote von 2 auf 8% erhöht, mit gleichzeitiger Senkung der Portokosten.
Quelle.: in Anlehnung an [WiBu]
33
Anwendung
Eine Firma in den USA, mit 5 Millionen Aufrufe im
Monat, analysierte mit Hilfe von Web Mining
Methoden, das Verhalten der Nutzer im Bezug auf Bannerwerbung.
Beispiele
Durch nun Zielgerichtete Bannerwerbung konnte die Klickrate von 1% auf 2% erhöht werden. Damit erhöhte sich der Erlös pro Banner, was zu einer Umsatzsteigerung der Firma um 1,2 Millionen Dollar führte.
Quelle.: in Anlehnung an [WiBu]
34
Wegweiser
Ausgangslage
Data Mining Prozess
Überblick Techniken
Ausprägungen
Anwendung
Fazit
35
Fazit
• Kontext und Handlungsbezug nur durch Individuum möglich!• Lediglich gutes Hilfsmittel zur Mustererkennung• Hohe HW-Anforderungen
- Wirtschaftliche Aspekte berücksichtigen
Kritik
Ausblick
• Data Mining im großen Unternehmen „Standard“• Markt ist zukunftsträchtig• Forschung, vor allem im Bereich
- Realitätsnaher Interpretation- Neue Anwendungsgebiete
36
Fragen
37
Literatur
[AlNi]
Alpar, P; Niedereichholz, J.: Data Mining im praktischen Einsatz
Braunschweig / Wiesbaden 2000
[ChGl]
Chamoni, P.; Gluchowski, P.: Analytische Informationssysteme
Berlin 2006
[DaKe]
Keim, D.: Datenvisualisierung und Data Mining
Universität Konstanz und AT&T Shannon Research Labs 2004
[FrKö]
Köster, F.: Data Warehousing and Knowledge Discovery in Databases
Universität Oldenburg 2003
[GrGe]
Grothe, M.; Gentsch, P.: Business Intelligence
München 2000
[GrBe]
Heinz L. Grob; Frank Bensberg: Das Data Mining Konzept
Universität Münster 1999
38
Literatur
[HaNe2005]
Hansen, R.; Neumann, G.: Wirtschaftsinformatik Band 1 + 2,
Stuttgart 2005
[MeBo]
Mertens; Bodendorf; König; Picot; Schumann; Hess: Grundzüge der Wirtschaftsinformatik,
Berlin 2005
[MeWi]
Mertens, P.; H.-W. Wieczorrek: Data-X Strategien,
Berlin 2000
[RaWa]
Walther, R.: Web Mining,
Berlin 2001 (Informatik Spektrum 24)
[ToBo]
Bollinger, T.: Assoziationsregeln – Analyse eines Data Mining Verfahrens,
Berlin 1996 (Informatik Spektrum 19 - Hauptbeitrag)
[WiBu]
Wiedmann, K.; Buckler, F.: Neuronale Netze im Marketing Management
Braunschweig / Wiesbaden 2003
top related