kapitel 4: data mining systems...

Report

Post on 07-Sep-2019

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Überblick

Kapitel 4: Data Mining

4.1 Einleitung

4.2 Clustering

4.3 Klassifikation

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Ziel des Clustering

Kapitel 4: Data Mining

Ziel: Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten

• Objekte im gleichen Cluster sollen möglichst ähnlich sein

• Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein

Herausforderungen:

• Cluster unterschiedlicher Größe, Form und Dichte

• hierarchische Cluster

• Rauschen (Noise)

=> unterschiedliche Clustering-Algorithmen

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Typen von Clustering-Verfahren

•Partitionierende Verfahren– Parameter: Anzahl k der Cluster, Distanzfunktion

– sucht ein „flaches“ Clustering in k Cluster mit minimalen Kosten

•Dichtebasierte Verfahren– Parameter: minimale Dichte in einem Cluster, Distanzfunktion

– erweitert Punkte um ihre Nachbarn solange Dichte groß genug

Kapitel 4: Data Mining

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren

Grundlagen

• Ziel

– Partitionierung in k Cluster so dass eine Kostenfunktion minimiert wird(Gütekriterium)

• Lokal optimierendes Verfahren

– wähle k initiale Cluster-Repräsentanten

– optimiere diese Repräsentanten iterativ

– ordne jedes Objekt seinem ähnlichsten Repräsentanten zu

• Typen von Cluster-Repräsentanten

– Mittelwert des Clusters (Centroid)

– Element des Clusters (Medoid)

– Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

Kapitel 4: Data Mining

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren

Kapitel 4: Data Mining

x Centroide

x Centroidex

Beispiel

Cluster Cluster-Repräsentanten

schlechtes Clustering

optimales Clustering

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Grundbegriffe

• Objekte sind Punkte p=(p1, ..., pd) in einem euklidischen Vektorraum

• euklidische Distanz

• Centroid mC: Mittelwert aller Punkte im Cluster C

• Maß für die Kosten (Kompaktheit) eines Clusters C

• Maß für die Kosten (Kompaktheit) eines Clustering

TD C dist p C

p C

2 2( ) ( , )

TD TD Ci

2 2

( )

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Idee des Algorithmus

• Algorithmus startet z.B. mit zufällig gewählten Punkten als Cluster-Repräsentanten

• Der Algorithmus besteht aus zwei alternierenden Schritten:

– Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten

– Neuberechnung der Repräsentanten (Centroid der zugeordneten Punkte)

• Diese Schritte werden so lange wiederholt, bis sich keine Änderung mehr ergibt

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Algorithmus

ClusteringDurchVarianzMinimierung(Punktmenge D, Integer k)

Erzeuge eine „initiale“ Zerlegung der Punktmenge D in k Klassen;

Berechne die Menge C’={C1, ..., Ck} der Zentroide für die k Klassen;

C = {};

repeat

C = C’;

Bilde k Klassen durch Zuordnung jedes Punktes zum

nächstliegenden Zentroid aus C;

Berechne die Menge C’={C’1, ..., C’k} der Zentroide für die neu

bestimmten Klassen;

until C = C’;

return C;

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Beispiel

0 1 2 3 4 5 6 7 8 9 10

Berechnung der

neuen Zentroide

0 1 2 3 4 5 6 7 8 9 10

Zuordnung zum nächsten Zentroid

0 1 2 3 4 5 6 7 8 9 10

Berechnung der

neuen Zentroide

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Partitionierende Verfahren: k-means

Kapitel 4: Data Mining

Diskussion

+ Effizienz:

• Anzahl der Iterationen ist im allgemeinen klein (~ 5 - 10).

+ einfache Implementierung:

• k-means ist das populärste partitionierende Clustering-Verfahren

- Anfälligkeit gegenüber Rauschen und Ausreißern

(alle Objekte gehen ein in die Berechnung des Zentroids)

- Cluster müssen konvexe Form haben

- die Anzahl k der Cluster muss bekannt sein

- starke Abhängigkeit von der initialen Zerlegung

(sowohl Ergebnis als auch Laufzeit)

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

Grundlagen

• Idee

– Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen

– getrennt durch Gebiete, in denen die Objekte weniger dicht liegen

• Anforderungen an dichtebasierte Cluster

– für jedes Objekt eines Clusters überschreitet die lokale Punktdichte einen gegebenen Grenzwert

– die Menge von Objekten, die den Cluster ausmacht, ist räumlich zusammenhängend

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion dist

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

• Kernpunkt p: |N(p)| minPts

• Randpunkt / Rauschen ???

• Dichte-Verbundenheit: sammle rekursiv

alle Punkte, die in der -Umgebung eines

Kernpunktes liegen auf

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

Grundlagen

minPts = 4

Parameter:

• R

• minPts N

• Distanzfunktion

• -Umgebung eines Punktes p: N(p) = {q | dist(p,q) }

• Kernpunkt p: |N(p)| minPts

• Randpunkt / Rauschen ???

• Dichte-Verbundenheit: sammle rekursiv

alle Punkte, die in der -Umgebung eines

Kernpunktes liegen auf

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Algorithmus DBSCAN

• Entdecken eines Clusters:

− Finde einen beliebigen Kernpunkt des Clusters

− Expandiere das Cluster, d.h. finde alle dichteverbundenen Punkte, indem rekursiv alle Punkte, die in der -Umgebung eines Kernpunkts liegen, aufgesammelt werden

• Algorithmus:

− Prüfe jeden noch nicht markierten Punkt ob es ein Kernpunkt ist

− Wenn ja, expandiere einen neuen Cluster (alle Punkte des Clusters werden mit der entspr. Cluster-ID markiert)

− Wenn nein, markiere Punkt als Rauschen (Randpunkte werden bei der Expansion des entspr. Clusters später richtig markiert)

Kapitel 4: Data Mining

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2019

Dichtebasiertes Clustering

Kapitel 4: Data Mining

Diskussion

+ Effizienz:

• -Umgebungen i.d.R. effizient auswertbar

+ einfache Implementierung:

+ keine Anfälligkeit gegenüber Rauschen und Ausreißern

+ Cluster unterschiedlicher Form erkennbar

+ Anzahl der Cluster wird automatisch bestimmt

- Parameter (Dichtegrenzwert) nicht immer einfach zu bestimmen

(Cluster unterschiedlicher Dichte)

top related

kapitel 4: data mining systems...

Documents

data mining 2. vorlesung

web mining

data mining & texte mining partie i : data mining chapitre

kapitel 4: rechnernetze - uni-muenchen.de › lehre ›...

predictive analytics – data mining software & … ·...

text mining

landfill mining – option oder fiktion...potential landfill...

data mining - uni-leipzig.de

kapitel 3: aussagenlogik -...

world mining data 2014

zusammenfassung "process mining" (deutsch)

data mining

gottfried vossen 5. auflage 2008 datenmodelle,...

datenbanksysteme 3 sommer 2003 data mining - 1 worzyk fh...

bergbau | mining · 2020. 1. 6. · road milling surface...

kapitel 7: data mining in großen datensammlungen ·...

oltp data warehouse data mining · data mining kapitel 17....

prozesstransparenz durch process mining

newmont mining zählt zu den weltweit größten produzenten...

thyssenkrupp mining technologies