Download - Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Clustering

Methods Course: Gene Expression Data Analysis

-Day Four–

Rainer Spang

Eine Krankheit

Drei alternative Therapien

Klinische Studie

Im Mittel

75% 55% 35%

Erfolg

Drei Subtypen der Krankheit

A B C

A B C

100% 60% 65%

40% 40% 85%

10% 90% 5%

A

B

C

100%

85%

90% 91,7%

Der Therapieerfolg ist angestiegen durch eine

verbesserte Diagnose

75%

91,7%

Ohne daß eine neue Therapie entwickelt

wurde

Fazit

Clustering

Ziel:

Gruppiere ähnliche Objekte in das gleiche Cluster und

unähnliche Objekte in unterschiedliche Cluster

Daten Clustering

Cluster von Genen

Finde koregulierte Gene

Funktionale Klassifikation von Genen

Fasse Variablen ähnlichen Informationsgehalts

zusammen

Dimensionsreduktion

Borrowing Information across Genes

Cluster von Arrays?

Suchen nach a priori unbekannten Gruppierungen der

Arrays

Pathologie

Beispiel:

Arrays = Genexpressiosnprofile von Patienten

Cluster = Potentielle Subentitäten einer Krankheit

Kein Clustering-Problem:

Rekonstruktion bekannter Gruppierungen der Arrays

Diagnostik

Leukämie

Chiaretti et al. (2004)

Gene expression profile

of adult T-cell acute

lymphocytic leukemia

identities distinct

subsets of patients with

different response to

therapy and survival.

Blood 103(7):2771-8

Analyse von Methoden vs. Analyse von

Daten

Hat man a priori gelabelte Daten, wie die B und T-ALL im Chiaretti

Datensatz so ist man in einer Situation überwachten Lernens, und sollte

die dafür vorhandenen Methoden einsetzen.

Nichtsdestotrotz kann man das Verhalten von Clusteringverfahren in

diesen Situationen analysieren

Finden sie die Struktur wieder?

Clustering - Die Zutaten

Zwei Dinge bestimmen das Ergebnis:

Distanzmaß:

Quantifizierung der (Un-)Ähnlichkeit der Objekte

Cluster-Algorithmus:

Verfahren, dass die Gruppierung basierend auf dem

gewählten Distanzmaß durchführt

Der euklidische Abstand

Expressionsprofile

x = (x1, …, xn),

y = (y1, …, yn)

n

i

iiE yxyxd1

2)(),(

Die “Luftlinie”

zwischen zwei

Punkten

Das Quadrat

macht den

Abstand sensibel

gegen Ausreißer

Die Manhattan-Distanz

.),(1

n

i

iiM yxyxd

Abstand, wenn nur parallel zu den

Koordinatenachsen gelaufen werden

darf

(wie in den Straßen von Manhattan)

Ausreißer fallen weniger ins Gewicht

Die Pearson-Korrelation

.)()(

))((

1),(

1

2

1

2

1

i

i

i

i

i

ii

C

yyxx

yyxx

yxd

Die Pearson Korrelation

beschreibt die lineare

Abhängigkeit zweier Profile

dc(x, y)= dc(ax+b, y), a > 0

Sie vergleicht den Verlauf

Beispiel: Clustering von Zeitreihen

steep up: x1=(2,4,5,6)

up: x2=(2/4,4/4,5/4,6/4)

down: x3=(6/4,4/4,3/4,2/4)

change: x4=(2.5,3.5,4.5,1)

0 2.60 2.75 2.25

2.60 0 1.23 2.14

2.75 1.23 0 2.15

2.25 2.14 2.15 0

Matrix of pairwise distances

Euklidischer Abstand


Manhatten-Distanz

0 12.75 13.25 6.50

12.75 0 2.50 8.25

13.25 2.50 0 7.75

6.50 8.25 7.75 0


Korrelations-Abstand

0 0.82 1.18 1.18

0.82 0 2 2

1.18 2 0 0

1.18 2 0 0

Aus d(x,y)=0 folgt nicht x=y

Keine Metrik

Alle Distanzen wurden auf das Interval [0,10] normalisiert

und gerundet

Normalisierte Abstands-Skalen

0 0 0 7 5 4 7 6 5 8 4 5 change

7 5 4 0 0 0 4 1 10 10 10 10 down

7 6 5 4 1 10 0 0 0 9 9 0 up

8 4 5 10 10 10 9 9 0 0 0 0 steep up

change down up steep up

Euklid. Manh. Korr.

ˆ

ˆ

xx

2

1 2 1 2( , ) 2 ( , )E Cd x x nd x x

Standardeinheiten

Transformiere die Daten auf

Standardeinheiten

Dann ergeben euklidische Distanz und

Korrelation proportionale Abstände

Cluster-Algorithmen

Die Algorithmen sind Verfahren, die die Daten in

Gruppen einteilen

Sie bauen dabei auf den Distanzmaßen auf

Wir diskutieren:

• Hierachichal Clustering

• K-Means-Clustering

• Partitioning around Medoids

Hierarchisches Clustern

Zu Anfang bildet jedes Profil ein

Cluster mit einem Element

Berechne alle Abstände zwischen

Profilen

Suche das Paar mit dem kleinsten

Abstand

Vereinige es zu einem neuen Cluster

Berechne die Abstände zwischen dem

neuen Cluster und allen anderen

Wiederhole bis nur noch 1 Cluster

übrig bleibt.

Abstand zwischen Clustern

Bisher hatten wir nur

Abstandsmasse auf einzelnen

Punkten diskutiert

Beim hierarchischen Clustering

werden aber auch Abstände von

Clustern zu Punkten benötigt

Wie werden diese definiert?

Linkage

Das Minimum der Abstände

(single linkage)

Der Mittelwert der Abstände

(average linkage)

Das Maximum der Abstände

(complete linkage)

Berechne die Distanzen von allen Profilen in Cluster 1 zu

allen Profilen in Cluster 2

Der Abstand der Cluster zu einander ist dann:

Dendrogramm

Wenn zwei Cluster zusammengelegt werden, werden sie im

Dendrogramm durch eine Klammer verbunden

Die Höhe der Klammer entspricht dem Abstand der Cluster

Dendrogramm

Das Dendrogramm wird oft

über eine Heatmap

geplotted

Dazu müssen die Profile

geordnet werden

Beachte: Das

Dendrogramm legt die

Ordnung nicht eindeutig

fest

Man kann an allen

Verzweigungen spiegeln

Hierarchie ist nicht gleich

Ordnung

Heatmap der Distanzen

Die Distanzen der Cluster sind im

Dendrogramm durch die Höhen der

Äste repräsentiert

Es gibt n(n-1)/2 Distanzen, aber nur

n-1 Asthöhen

Information geht verloren

Alternativ kann man die Distanzen

aller Profile in einer Heatmap

darstellen

Diese ist nur übersichtlich wenn die

Profile günstig geordnet sind

Dazu kann man wiederum das

Dendrogramm verwenden

Hierarchien von Clusterings

Der Algorithmus produzierte ein

Dendrogramm aber noch kein Clustering

Das Dendrogramm kann auf verschiedenen

Levels geschnitten werden

Jeder Schnitt definiert ein Clustering

Der orange Schnitt generiert die drei Cluster

(G1,G6,G5), (G2,G3), (G4)

Der blaue Schnitt generiert vier Cluster

(G1,G6),(G5), (G2,G3), (G4)

Es entsteht eine Hierarchie von Clusterings

Euklidischer Abstand

Manhattan-Distanz

Korrelations-Abstand

Akute Lymphoblastische Leukämie

bei Kinder

… aber das war kein Clustering-Problem, da die Subentitäten AML und

ALL schon a priori bekannt waren

Golub et al. Science 1999

K-Means Clustering

Die Anzahl K der Cluster

muss gewählt werden

Suche H Punkte zufällig

aus, dies sind die ersten

Zentroide

Ordne jeden Punkt dem

nächst gelegenen

Zentroid zu

Iteration

Bestimme die Zentroide der

so entstandenen Cluster

und ordne die Punkte

wiederum dem

nächstgelegenen Zentroid

zu

Iteriere bis alle Punkte im

gleichen Cluster bleiben

x

x

x

x

x

x

2

1 ( ) ( )

1( ) ( , )

2

K

E i j

k C i C j k

W C d x x

Optimales Clustering

Wir haben K-means Clustering als Algorithmus eingeführt

Man kann es auch als ein Optimierungproblem definieren:

Ordne die Profile den K-Clustern so zu, dass die folgende Funktion

optimiert wird:

Der Algorithmus ist eine Heuristik zur Minimerung dieser Funktion

Natürlich ist das Clustering nur optimal relativ zu dieser Objective

Function

Mann kann auch andere Objective Functions wählen und erhält

andere Clusterings

Partioning around Medoids PAM

Robustere Variante des K-Means Algorithmus durch eine

andere Objective Funktion

Die Cluster werden nicht durch Zentroide, sondern durch

prototypische Datenpunkte (Medoide) repräsentiert

Ziel ist es den Abstand zum nächsten Medoid über alle

Punkte gleichzeitig zu minimieren

Minimiert wird also die Objective Function

PAM Algorithmus

Initialisierung: Suche zufällig K Prototypen (Medoide)

Iteriere bis zur Konvergenz

Swapping:

Für alle Paare (i,j) bei denen i ein Medoid und j kein Medoid

ist: Berechne den Unterschied in der Objective Funktion, der

entstünde wenn man j zum Medoid an Stelle von i machte

Führe das Swapping durch, wenn es günstig ist

Wie viele Cluster sind in den Daten?

Für jeden Datenpunkt können wir die Silhouette s(i) berechnen:

a(i) := Mittler Abstand von Punkt i zu allen Punkten im gleichen Cluster

b(i) := minC d(i,C),

wobei d(i,C) der mittlere Abstand von Punkt i zu allen Punkten in Cluster C ist.

Das Minimum wird über alle Cluster in denen Punkt i nicht liegt genommen – Bestes Konkurenzcluster -

s(i) nahe 1 : Profil ist im „richtigen“ Cluster

s(i) nahe -1: Profil ist im „falschen“ Cluster

s(i) nahe 0: Profil kann sich nicht entscheiden

Silhouette Plot

Silhouette Plot

Alle Profile in diesem

Cluster haben einen

hohen Silhouetten Score

In diesem Cluster gibt es

Profile mit kleinem

Silhouetten Score

Gibt es in Wirklichkeit drei Cluster in den Daten?

T-cell Leukemia

Chiaretti et al., 2004

Silhouette Plot

Nein! Die Aufteilung des

oberen Clusters in zwei

Cluster verschlechtert

den Silhouetten Plot

T-cell Leukemia

Chiaretti et al., 2004

Kein Clustering Problem

Sie wollen zu einem Referenzprofil die Profile suchen, die

ihm am ähnlichsten sind

Falscher Ansatz: Sie clustern alle Profile und schauen sich

die Profile an, die im selben Cluster wie ihr Referenzprofil

liegen

Was man bekommt Was man gerne hätte

Screening Problem

Sie wollen zu einem Referenzprofil die Profile suchen, die

ihm am ähnlichsten sind

Richtiger Ansatz: Sie berechnen die Abstände aller Profile

zum Referenzprofil und sehen sich die Profile mit kleinstem

Abstand an

Clustering Screening

Self Fulfilling Prophecy

Sie besitzen a priori label – 2 Gruppen von Profilen -

Wählen differentiell exprimierte Gene aus

Clustern die Daten nur unter Einschluss dieser Gene

Beobachten, dass die a priori Gruppen zusammen

clustern

Interpretieren dies als Bestätigung der a priori label

Die Gruppen clustern unter umständen nur wegen der

Genauswahl zusammen

Zufällige Daten hätten dies auch getan

Self Fulfilling Prophecy

Randomisierte Labels

Clustering mit

supervidierter

Genselektion

Ohne Genselektion

Nicht supervidierte Geneselektion

Der Microarray hält 30.000 Gene

Nicht alle diese Gene zeigen sinnvolle Clustering Struktur

Hybridisierungs-Artefakte produzieren oft kleine Veränderungen

in allen Genen

Normalisierung kann diese nicht immer eliminieren

In den Distanzmaßen summieren sie sich auf

Ansatz: Benutze nur stark variierende Gene zum Clustering

Clustering mit allen Genen

B- und T-cell ALL Chiaretti et al., 2004

Clustering mit den Top 100

variabelsten Genen

B- und T-cell ALL Chiaretti et al., 2004

Genselektion

Gene 2 Gene 4

Problem: Unterschiedliche Gene induzieren ein

unterschiedliches Clustering

Lymphome

Alizadeh et al Nature 2000

Gene und Profile von verschiedenen

Lymphomen und lymphoiden Zellinen

wurden geclustert

Globales Clustering:

Die bekannten Lymphom Entitäten bilden

Cluster aus

Genselktion:

Der orange Block von Genen

Clustert einen Teil der DLBCL Lymphome

mit Keimzentrumszellinien und einen

anderen Teil mit aktivierten B-Zellen

Acknowledgement

Für diese Vorlesung habe ich Folien, Graphiken und

Ideen ausgeliehen bei:

Jörg Rahnenführer

Tobias Müller

Anja v. Heydebreck

Download - Rainer Spang - Universität Regensburg · Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch

Top Related