clustering - gruppieren von datenpunkten

1 Clustering Gruppieren von Datenpunkten Programmiererversion Nicco Kunzmann nicco @gmail.com Jugend Hackt 2014 kunzmann

Upload: niccokunzmann

Post on 06-Jul-2015

85 views

Category:

Engineering

1 download

Report

Download

Embed Size (px):

DESCRIPTION

Wie Gruppiere ich meine Daten? Wie finde ich heraus, welche Personen, Sensorwerte, Koordinaten zusammen gehören? Dieser Vortrag behandelt vier einfache Algorithmen, die darauf Antwort geben. Im Rahmen von Jugend Hackt http://jugendhackt.de/ .

TRANSCRIPT

Clustering

Gruppieren von DatenpunktenProgrammiererversion

Nicco Kunzmann nicco @gmail.comJugend Hackt 2014

kunzmann

Clustering

Gruppieren von DatenpunktenProgrammiererversion

Nicco Kunzmann nicco @gmail.comJugend Hackt 2014

kunzmann

Clustering

Gruppieren von DatenpunktenProgrammiererversion

Nicco Kunzmann nicco @gmail.comJugend Hackt 2014

kunzmann

Page 4: Clustering - Gruppieren von Datenpunkten

● Datamining

– Unsupervised Learning● Clustering

● Statistik● Information Retrieval (Film: „Brazil“)

Daten

Name Alter vegetarier Geschwister

Benni 12.4 ja 1

Horst 14.2 nein 0

Irmel 16.0 nein 5

Lichtintensität

113

4 Features

Page 6: Clustering - Gruppieren von Datenpunkten

Abstand

Wer gehört zusammen?

Page 7: Clustering - Gruppieren von Datenpunkten

Abstand

Page 8: Clustering - Gruppieren von Datenpunkten

Abstand

1 0

Was ist sinnvoll?

Page 9: Clustering - Gruppieren von Datenpunkten

Abstand

Euklidischer Abstand

Page 10: Clustering - Gruppieren von Datenpunkten

Abstand

Manhattan

Page 11: Clustering - Gruppieren von Datenpunkten

Abstand

Manhattan

Stellt euch an dieser Stelle ein 10-Dimensionales Bild vor.

A ja ja ja ja X ja ja ja ja ja

B X ja ja ja X ja X ja X ja

C X X X X X X X X X X

Page 12: Clustering - Gruppieren von Datenpunkten

Abstand

Maximum

Page 13: Clustering - Gruppieren von Datenpunkten

Abstand

Cosinus

Page 14: Clustering - Gruppieren von Datenpunkten

Abstand

Es gibt auch noch - Pearson correlation für Lineare Abhängigkeit- Jaccard similarity für Mengen (Buchstaben)

Page 15: Clustering - Gruppieren von Datenpunkten

Algorithmen

● Single Link● Complete Link● K-Means● Mean Shift● Connected Components● Gaussian Mixture Model● DB-Scan

Page 16: Clustering - Gruppieren von Datenpunkten

Single Link & Complete Link

➢ Jeder Punkt in einen neuen Cluster➢ Bis es wenig Cluster gibt, tue:

➢ Finde die beiden Cluster mit min. dist(c1, c2)➢ Erzeuge einen neuen Cluster aus c1 + c2

Single Link: dist(c1, c2) = min({dist(x1, x2) | x1 c1, x2 c2})∈ ∈Complete Link:dist(c1, c2) = max({dist(x1, x2) | x1 c1, x2 c2})∈ ∈

Page 17: Clustering - Gruppieren von Datenpunkten

Single Link & Complete Link

Page 18: Clustering - Gruppieren von Datenpunkten

Single Link

Page 19: Clustering - Gruppieren von Datenpunkten

Complete Link

Page 20: Clustering - Gruppieren von Datenpunkten

Complete Link & Single Link

Problem: Ich will 2 Cluster

Page 21: Clustering - Gruppieren von Datenpunkten

K-Means

Page 22: Clustering - Gruppieren von Datenpunkten

K-Means

Page 23: Clustering - Gruppieren von Datenpunkten

K-Means

Page 24: Clustering - Gruppieren von Datenpunkten

K-Means

Page 25: Clustering - Gruppieren von Datenpunkten

K-Means

Page 26: Clustering - Gruppieren von Datenpunkten

K-Means

➢ Platziere eine Anzahl an Mittelpunkten zufällig➢ Bis sich nichts ändert, tue:

➢ Erzeuge für jeden Mittelpunkt einen leeren Cluster

➢ Füge die Punkte in den Cluster vom nächstliegendsten Mittelpunkt

➢ Bilde die Mittelpunkte aus den Clustern

Page 27: Clustering - Gruppieren von Datenpunkten

K-Means

● Probleme

Page 28: Clustering - Gruppieren von Datenpunkten

Mean-Shift

Row 1 Row 2 Row 3 Row 40

Column 1

Column 2

Column 3

Page 29: Clustering - Gruppieren von Datenpunkten

Mean-Shift

für Maxima & Minima

Page 30: Clustering - Gruppieren von Datenpunkten

Mean-Shift

➢ Verteile zufällig Punkte➢ Solange sich was ändert, tue:

➢ Für jeden Mittelpunkt p, tue:➢ p := Durchschnitt aus allen Daten nahe p

Gewichteter Durchschnitt für Normalverteilte Daten

Page 31: Clustering - Gruppieren von Datenpunkten

Mean-Shift

● Probleme

Page 32: Clustering - Gruppieren von Datenpunkten

Algorithmen

● Single Link● Complete Link● K-Means● Mean Shift● Connected Components (für Bilder)● Gaussian Mixture Model (besseres K-Means)● DB-Scan

Page 33: Clustering - Gruppieren von Datenpunkten

Featureanpassung

Beispiel: Lichtsensorwerte:

– Weiß: 1-6– Grau: 7-100– Schwarz: 101 - 10000

Feature := log(Lichtsensorwert)

Daten anpassen, da Algorithmen doofe Annahmen treffen.

Page 34: Clustering - Gruppieren von Datenpunkten

Implementieren

● Implementierung := Algorithmus + Featureauswahl + Featureanpassung + Abstandsfunktion + Leere Cluster behandeln

Page 35: Clustering - Gruppieren von Datenpunkten

Quellen

● Vorlesung Datamining 2013/14 am HPI– I. H. Witten, E. Frank, M. A. Hall: Data Mining - Practical

Machine Learning Tools and Techniques (Chapters 1 – 6)

– C. Bishop: Pattern Recognition and Machine Learning (Chapters 1 – 4, 8, 9)

– T. M. Mitchell: Machine Learning (Chapters 3 – 6, 8, 10)

– P. Flach: Machine Learning – The Art and Science of Algorithms that make Sense of Data (Chapters 1 – 3, 5 – 11)

– D. J. C. MacKay: Information Theory, Inference and Learning Algorithms (Chapters 1 – 6)

2. Clustering

Maschinelles Lernen II Clustering 2 - Universität Potsdam · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering 2 Christoph

Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte

Symbolisierung und Clustering von Zeitreihen als neue ... · Bachelorarbeit Symbolisierung und Clustering von Zeitreihen als neue Operatoren im ValueSeries Plugin von Rapidminer Christian

Statistical Regeneration and Scalable Clustering of Big Data … › bitstream › ubsi › 1062 › 1 › ... · 2019-09-02 · Statistical Regeneration and Scalable Clustering of

5.3 Dichtebasiertes Clustering - dbs.ifi.lmu.de · 226 5.3 Dichtebasiertes Clustering SNN-Clustering Algorithmus [Ertöz, Steinbach, Kumar 03] Eingabe: k, ε, minPts 1. Berechne Ähnlichkeitsmatrix

Clustering - stat.ethz.ch · Seminar für Statistik | | Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von

Einrichten für das Failover-Clustering und Microsoft ... · PDF filedie mithilfe von virtuellen Maschinen mit Microsoft Cluster Service für Windows Server 2003 und Failover-Clustering

9. Classification, Clustering, and Learning to Rank€¦ · IR & WS, Lecture 9: Classification, Clustering, and Learning to Rank 20.4.2020. LSI reduction –example This leaves us

Kapitel 5: Clustering - LMU Munich · 178 5.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten •

Clustering - Fraunhofer-Gesellschaft: Karin Haeneltkontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_Clustering.pdf · Clustering Historie lange Historie in den Sozialwissenschaften

Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Optimum Clustering Framework - Institute WeST fileInhalt •Vorwissen •Grundlagen des OCF •Cluster-Qualität •Perfektes vs. optimales Clustering •Bestandteile des OCF •Zusammenfassung

Klassiﬁzierung von Dokumenten mit Clustering- und ... fileKlassiﬁzierung von Dokumenten mit Clustering- und Machinelearning-Verfahren Jan-Ole Esleben [email protected]

Efficient document clustering using graphic processing units

Semantic Clustering: exploiting Linguistic Informationscg.unibe.ch/archive/masters/Kuhn06a.pdf · 1.1 Semantic Clustering This work introduces Semantic Clustering, a novel technique

Data Mining Assoziationsanalyse Klassifikation Clustering

The Art of Clustering - German Edition

Clustering - ifis.uni-luebeck.de · Einführung in Web-und Data-Science Clustering Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Tanya Braun (Übungen)

3. Clustering - kde.cs.uni-kassel.de · • Clustering einer kleinen Stichprobe liefert im allgemeinen gute initiale Cluster • einzelne Stichproben sind evtl. deutlich anders verteilt

Zeitreihenanalyse M.Wagner. Einführung Zeitreihe: (zeitabhängige) Folge von Datenpunkten Datenpunkte können 1- oder auch d- dimensional sein Typische

3. Clustering - uni-kassel.de€¦ · 3.6 Inkrementelles dichte-basiertes Clustering Data Mining in einem Data Warehouse • Updates werden gesammelt und periodisch im Data Warehouse

Text-Mining: Clustering - Philosophische Fakultät · Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, LabelingLiteratur Cluster-Hypothese \Documents in

Clustering - phonetik.uni-muenchen.dereichelu/kurse/machine_learning/... · Clustering Uwe Reichel IPS, LMU Munchen¨ [email protected] 19. Mai 2010

Clustering - About us ... | E-Commercedieter/teaching/dm08-clustering.pdf · Clustering 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-Commerce Arbeitsgruppe Institut

2. Clustering - LMU Munich · 26 2. Clustering Inhalt dieses Kapitels 3.1 Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren

Hinrich Schütze and Christina Lioma Lecture 16: Flat Clustering

374r das Failover-Clustering und Microsoft Cluster Service ... … · von Microsoft Cluster Service oder Failover-Clustering. Hinweis In diesem Dokument gelten Verweise auf Microsoft

3. Clustering - kde.cs.uni-kassel.de file3 3.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten •

Kapitel 5: Clustering - uni-muenchen.de€¦ · 178 5.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den

26 2. Clustering Inhalt dieses Kapitels 3.1 Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren

Clustering - ifis.uni-luebeck.de fileEinführung in Web-und Data-Science Clustering Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Tanya Braun (Übungen)

Clustering mit MySQL 5 - fsmni.thm.defsmni.thm.de/mediawiki/images/2/21/Seminar_MySQL-Cluster_final... · Seminar MySQL Cluster 09.03.2007 1 Einleitung - warum Clustering? Kein Rechner

KDD I - Kapitel 3: Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die

JBoss EAP clustering