clustering - ifis.uni-luebeck.de fileeinführung in web-und data-science clustering prof. dr. ralf...

Report

Post on 06-Aug-2019

215 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Einführung in Web- und Data-ScienceClustering

Prof. Dr. Ralf MöllerUniversität zu Lübeck

Institut für Informationssysteme

Tanya Braun (Übungen)

Danksagung

• Zur Vorbereitung dieser Präsentationen wurdenMaterialien verwendet von – Eamonn Keogh (University of California – Riverside) und– Sascha Szott (HPI Potsdam)

Clustering

• Form des unüberwachten Lernens• Suche nach natürlichen Gruppierungen von Objekten

– Klassen direkt aus Daten bestimmen• Hohe Intra-Klassen-Ähnlichkeit• Kleine Inter-Klassen-Ähnlichkeit

– Ggs.: Klassifikation• Distanzmaße

Einflüsse des Distanzmaßes auf Clusterbildung

Abhilfe: Gewichtung, z. B. durch Normalisierung4

Hierarchisches Clustering

• Kostenfunktion– Substitution 1– Einfügung 1– Lösung 1

• Dist(Peter, Piotr) = 3• Dist(Ci,Cj)

Peter

Piter

Pioter

Piotr

Einfügung (o)

Lösung(e)

Substitution (i for e) Pi

otr

Pyot

Pete

Pie

Piet

Pier

Petro

Pedr

Dendrogramm

"# $ |"&|' ' ()*+(-, /)

1∈345∈36

0 1 2 3 4 5

Partitionierung: K-means Clustering (1)

Distanzmaß: Euklidische Distanz

!"# = %&: %& − *"# + ≤ %& − *-# +forall3 = 1…6, 3 ≠ 9

K-means Clustering (2)

Distanzmaß: Euklidische Distanz

0 1 2 3 4 5

!"#$% =1("#

) *+,-∈/01

K-means Clustering (3)Distanzmaß: Euklidische Distanz

0 1 2 3 4 5

K-means Clustering (4)

Distanzmaß: Euklidische Distanz

0 1 2 3 4 5

K-means Clustering (5)

c2 c3

Distanzmaß: Euklidische Distanz

0 1 2 3 4 5

K-Means: Cluster-Repräsentation

• Parameter ! ∈ ℕ bestimmt Anzahl der Cluster (woher?)• Jedes Cluster $% durch Zentroid &% ∈ ℝ( repräsentiert

Mittelwert bezüglich aller in $% enthaltenen Punkte, d.h.,

&% = 1$%

, -./01∈23, … , 1$%

, -.(01∈23-.67′te Kompontente

• Ziel: wähle Cluster $/, … , $9 ⊆ ; (alle Datenpunkte), so dass $/, … , $9 eine Partition von ; ist und

< $/,… , $9 =, , -. − &% >>

01∈23

%?/(intra-cluster Varianz) minimiert wird

K-Means: Algorithmus

1. Wähle ! zufällige Punkte "#, … , "& ∈ ℝ)2. ∀,- ∈ .: ordne ,- dem nähesten Zentroid zu, d.h., ,-

wird "/ zugeordnet, falls0 ,-, "/ = min#5/5& 0(,-, "/)

wobei 0(. ) eine Distanzfunktion ist (z.B. . 9)3. Sei :/ die Menge aller Objekte, die "/ zugeordnet sind.

Berechne ausgehend von :/ den Zentroid "/ neu.4. Falls sich im vorherigen Schritt mindestens ein Zentroid

geändert hat, gehe zu 2.Andernfalls: Stop – :#, … , :& ist eine Partitionierung von .

K-Means-Ergebnis hängt vom Startwert ab

Diskussion

• Meist relativ wenige Schritte notwendig– Findet aber ggf. nur lokales Optimum

• Nur anwendbar, wenn Mittel definiert– Erweiterungen für kategoriale Daten existieren

• Basiert auf vorgegebener Clusteranzahl k• Cluster haben meist gleiche Größe• Probleme bei nichtkonvexen Formen

– Varianten von K-Means (z.B. K-Medoid)

14Trend Wunsch

Anpassung von Gauß-Funktionen

Anpassung über Expectation-Minimization

• Initialisierung: Wähle ! zufällige Mittelwerte, etc.• E Schritt: ∀#$ ∈ &:

' () #$ = ' () '(#$|())'(#))

= ' () '(#$|())∑ ' ()/ '(#0|()/))/

• M Schritt: ∀() :

' () = 1|&| 2 '(()|#$)

34∈&

5) =∑ #$'(()|#$)34∈&∑ '(()|#$)34∈&

6)7 =∑ #$ − 57

7'(()|#$)34∈&∑ '(5)|())34∈&

: #$, 5, 67

Initialisierung

• Weise Parametern zufällige Werte zu

E-Schritt

• Nehme an, Parameter sind bekannt• Weise Daten zu

M-Schritt

• Passe Parameter über zugeordnete Punktmenge an

Iteration 1

Die Cluster-Mittelwertewerdenzufälliggewählt

Iteration 2

Iteration 5

Iteration 25

Diskussion EM

• Bestimmung einer Mixtur von multivariaten Gauss-Kurven(Gaussian mixture)– K-Means ist spezielle Form des EM-Verfahrens

• Wahrscheinlichkeitsbasierte Zuordnung zu Clustern anstelleeiner deterministischen Zuordnung– Cluster können verschiedene Größen haben (Varianz)

26Wikipedia

Inkrementelle Clusterbildung

• Nächste-Nachbarn-Clusterbildung– Nicht verwechseln mit Nächsten-Nachbarn-Klassifikation

• Neue Datenpunkte inkrementell in bestehende Cluster integriert, so dass Distanz minimiert

• Schwellwert t, um zu bestimmen, ob neues Cluster aufgemacht werden soll

1 2 3 4 5 6 7 8 9 10

Schwellwert t

t 1

Inkrementelle Clusterbildung

1 2 3 4 5 6 7 8 9 10

Neuer Datenpunkt …

… ist im Schwellwertbereich des Cluster 1, also fügen wir ihn hin und aktualisieren den Clustermittelpunkt

Inkrementelle Clusterbildung

1 2 3 4 5 6 7 8 9 10

Neuer Datenpunkt …

… ist nicht im Schwerwertbereich von Cluster 1, also erzeugen wir ein neues Cluster, und so weiter ...

Ergebnis des Verfahrens istklar von der Reichenfolgeabhängig…

Es ist nicht einfach, den Schwellwert t zu bestimmen …

Inkrementelle Clusterbildung

Was ist die richtige Anzahl von Clustern?

• Offenes Problem• Viele Approximierungs-

methoden– z.B. intra-cluster Varianz

1 2 3 4 5 6 7 8 9 10

123456789

! "#,… , "& =

( ( )* − ,- ..

/0∈23

-4#

1 2 3 4 5 6 7 8 9 10

k = 1: Zielfunktion liefert 873.0

Was ist die richtige Anzahl von Clustern?

! "#,… , "& =

( ( )* − ,- ..

/0∈23

-4#

1 2 3 4 5 6 7 8 9 10

k = 2: Zielfunktion liefert 173.1

Was ist die richtige Anzahl von Clustern?

! "#,… , "& =

( ( )* − ,- ..

/0∈23

-4#

1 2 3 4 5 6 7 8 9 10

k = 3: Zielfunktion liefert 133.6

Was ist die richtige Anzahl von Clustern?

! "#,… , "& =

( ( )* − ,- ..

/0∈23

-4#

0.00E+00

1.00E+02

2.00E+02

3.00E+02

4.00E+02

5.00E+02

6.00E+02

7.00E+02

8.00E+02

9.00E+02

1.00E+03

1 2 3 4 5 6k

Zielfunktion

Was ist die richtige Anzahl von Clustern?

Dichtebasierendes partitionierendes Clustering

• DBSCAN-Verfahren (Density Based Spatial Clustering of Applications with Noise)

• Motivation: Punktdichte innerhalb eines Clusters hoher als außerhalb des Clusters

• Resultierende Cluster konnen beliebige Form haben– Bei distanzbasierten Methoden ausschließlich konvexe

Cluster • Clusteranzahl k muss nicht initial vorgegeben werden

DBSCAN – Definitionen

DBSCAN – Lemma 1

DBSCAN – Lemma 2

DBSCAN

ExpandCluster

top related

clustering - ifis.uni-luebeck.de fileeinführung in web-und data-science clustering prof. dr. ralf...

Documents

3. clustering - kde.cs.uni-kassel.de file3 3.1 einleitung...

clustering - gruppieren von datenpunkten

9. classification, clustering, and learning to rank€¦ ·...

hämoglobin tanya goldberg 30.10.12 @. 2

kapitel 5: clustering - uni-muenchen.de€¦ · 178 5.1...

26 2. clustering inhalt dieses kapitels 3.1 einleitung ziel...

efficient document clustering using graphic processing units

374r das failover-clustering und microsoft cluster service...

clustering von infra- strukturerneuerung und...

3. clustering - kde.cs.uni-kassel.de · • clustering...

generalized density-based clustering for spatial data mining

data mining assoziationsanalyse klassifikation clustering

text-mining: clustering - philosophische fakultät ·...

semantic clustering: exploiting linguistic...

symbolisierung und clustering von zeitreihen als neue...

jboss eap clustering

dichtebasiertes clustering - dbs.ifi.lmu.de · database...

textmining clustering von dokumenten - ag digital...

einrichten für das failover-clustering und microsoft...

optimum clustering framework - institute west fileinhalt...