Clustering
Methods Course: Gene Expression Data Analysis
-Day Four–
Rainer Spang
Eine Krankheit
Drei alternative Therapien
Klinische Studie
Im Mittel
75% 55% 35%
Erfolg
Drei Subtypen der Krankheit
A B C
A B C
100% 60% 65%
40% 40% 85%
10% 90% 5%
A
B
C
100%
85%
90% 91,7%
Der Therapieerfolg ist angestiegen durch eine
verbesserte Diagnose
75%
91,7%
Ohne daß eine neue Therapie entwickelt
wurde
Fazit
Clustering
Ziel:
Gruppiere ähnliche Objekte in das gleiche Cluster und
unähnliche Objekte in unterschiedliche Cluster
Daten Clustering
Cluster von Genen
Finde koregulierte Gene
Funktionale Klassifikation von Genen
Fasse Variablen ähnlichen Informationsgehalts
zusammen
Dimensionsreduktion
Borrowing Information across Genes
Cluster von Arrays?
Suchen nach a priori unbekannten Gruppierungen der
Arrays
Pathologie
Beispiel:
Arrays = Genexpressiosnprofile von Patienten
Cluster = Potentielle Subentitäten einer Krankheit
Kein Clustering-Problem:
Rekonstruktion bekannter Gruppierungen der Arrays
Diagnostik
Leukämie
Chiaretti et al. (2004)
Gene expression profile
of adult T-cell acute
lymphocytic leukemia
identities distinct
subsets of patients with
different response to
therapy and survival.
Blood 103(7):2771-8
Analyse von Methoden vs. Analyse von
Daten
Hat man a priori gelabelte Daten, wie die B und T-ALL im Chiaretti
Datensatz so ist man in einer Situation überwachten Lernens, und sollte
die dafür vorhandenen Methoden einsetzen.
Nichtsdestotrotz kann man das Verhalten von Clusteringverfahren in
diesen Situationen analysieren
Finden sie die Struktur wieder?
Clustering - Die Zutaten
Zwei Dinge bestimmen das Ergebnis:
Distanzmaß:
Quantifizierung der (Un-)Ähnlichkeit der Objekte
Cluster-Algorithmus:
Verfahren, dass die Gruppierung basierend auf dem
gewählten Distanzmaß durchführt
Der euklidische Abstand
Expressionsprofile
x = (x1, …, xn),
y = (y1, …, yn)
n
i
iiE yxyxd1
2)(),(
Die “Luftlinie”
zwischen zwei
Punkten
Das Quadrat
macht den
Abstand sensibel
gegen Ausreißer
Die Manhattan-Distanz
.),(1
n
i
iiM yxyxd
Abstand, wenn nur parallel zu den
Koordinatenachsen gelaufen werden
darf
(wie in den Straßen von Manhattan)
Ausreißer fallen weniger ins Gewicht
Die Pearson-Korrelation
.)()(
))((
1),(
1
2
1
2
1
i
i
i
i
i
ii
C
yyxx
yyxx
yxd
Die Pearson Korrelation
beschreibt die lineare
Abhängigkeit zweier Profile
dc(x, y)= dc(ax+b, y), a > 0
Sie vergleicht den Verlauf
Beispiel: Clustering von Zeitreihen
steep up: x1=(2,4,5,6)
up: x2=(2/4,4/4,5/4,6/4)
down: x3=(6/4,4/4,3/4,2/4)
change: x4=(2.5,3.5,4.5,1)
0 2.60 2.75 2.25
2.60 0 1.23 2.14
2.75 1.23 0 2.15
2.25 2.14 2.15 0
Matrix of pairwise distances
Euklidischer Abstand
Matrix of pairwise distances
Manhatten-Distanz
0 12.75 13.25 6.50
12.75 0 2.50 8.25
13.25 2.50 0 7.75
6.50 8.25 7.75 0
Matrix of pairwise distances
Korrelations-Abstand
0 0.82 1.18 1.18
0.82 0 2 2
1.18 2 0 0
1.18 2 0 0
Aus d(x,y)=0 folgt nicht x=y
Keine Metrik
Alle Distanzen wurden auf das Interval [0,10] normalisiert
und gerundet
Normalisierte Abstands-Skalen
0 0 0 7 5 4 7 6 5 8 4 5 change
7 5 4 0 0 0 4 1 10 10 10 10 down
7 6 5 4 1 10 0 0 0 9 9 0 up
8 4 5 10 10 10 9 9 0 0 0 0 steep up
change down up steep up
Euklid. Manh. Korr.
ˆ
ˆ
xx
2
1 2 1 2( , ) 2 ( , )E Cd x x nd x x
Standardeinheiten
Transformiere die Daten auf
Standardeinheiten
Dann ergeben euklidische Distanz und
Korrelation proportionale Abstände
Cluster-Algorithmen
Die Algorithmen sind Verfahren, die die Daten in
Gruppen einteilen
Sie bauen dabei auf den Distanzmaßen auf
Wir diskutieren:
• Hierachichal Clustering
• K-Means-Clustering
• Partitioning around Medoids
Hierarchisches Clustern
Zu Anfang bildet jedes Profil ein
Cluster mit einem Element
Berechne alle Abstände zwischen
Profilen
Suche das Paar mit dem kleinsten
Abstand
Vereinige es zu einem neuen Cluster
Berechne die Abstände zwischen dem
neuen Cluster und allen anderen
Wiederhole bis nur noch 1 Cluster
übrig bleibt.
Abstand zwischen Clustern
Bisher hatten wir nur
Abstandsmasse auf einzelnen
Punkten diskutiert
Beim hierarchischen Clustering
werden aber auch Abstände von
Clustern zu Punkten benötigt
Wie werden diese definiert?
Linkage
Das Minimum der Abstände
(single linkage)
Der Mittelwert der Abstände
(average linkage)
Das Maximum der Abstände
(complete linkage)
Berechne die Distanzen von allen Profilen in Cluster 1 zu
allen Profilen in Cluster 2
Der Abstand der Cluster zu einander ist dann:
Dendrogramm
Wenn zwei Cluster zusammengelegt werden, werden sie im
Dendrogramm durch eine Klammer verbunden
Die Höhe der Klammer entspricht dem Abstand der Cluster
Dendrogramm
Das Dendrogramm wird oft
über eine Heatmap
geplotted
Dazu müssen die Profile
geordnet werden
Beachte: Das
Dendrogramm legt die
Ordnung nicht eindeutig
fest
Man kann an allen
Verzweigungen spiegeln
Hierarchie ist nicht gleich
Ordnung
Heatmap der Distanzen
Die Distanzen der Cluster sind im
Dendrogramm durch die Höhen der
Äste repräsentiert
Es gibt n(n-1)/2 Distanzen, aber nur
n-1 Asthöhen
Information geht verloren
Alternativ kann man die Distanzen
aller Profile in einer Heatmap
darstellen
Diese ist nur übersichtlich wenn die
Profile günstig geordnet sind
Dazu kann man wiederum das
Dendrogramm verwenden
Hierarchien von Clusterings
Der Algorithmus produzierte ein
Dendrogramm aber noch kein Clustering
Das Dendrogramm kann auf verschiedenen
Levels geschnitten werden
Jeder Schnitt definiert ein Clustering
Der orange Schnitt generiert die drei Cluster
(G1,G6,G5), (G2,G3), (G4)
Der blaue Schnitt generiert vier Cluster
(G1,G6),(G5), (G2,G3), (G4)
Es entsteht eine Hierarchie von Clusterings
Euklidischer Abstand
Manhattan-Distanz
Korrelations-Abstand
Akute Lymphoblastische Leukämie
bei Kinder
… aber das war kein Clustering-Problem, da die Subentitäten AML und
ALL schon a priori bekannt waren
Golub et al. Science 1999
K-Means Clustering
Die Anzahl K der Cluster
muss gewählt werden
Suche H Punkte zufällig
aus, dies sind die ersten
Zentroide
Ordne jeden Punkt dem
nächst gelegenen
Zentroid zu
Iteration
Bestimme die Zentroide der
so entstandenen Cluster
und ordne die Punkte
wiederum dem
nächstgelegenen Zentroid
zu
Iteriere bis alle Punkte im
gleichen Cluster bleiben
x
x
x
x
x
x
2
1 ( ) ( )
1( ) ( , )
2
K
E i j
k C i C j k
W C d x x
Optimales Clustering
Wir haben K-means Clustering als Algorithmus eingeführt
Man kann es auch als ein Optimierungproblem definieren:
Ordne die Profile den K-Clustern so zu, dass die folgende Funktion
optimiert wird:
Der Algorithmus ist eine Heuristik zur Minimerung dieser Funktion
Natürlich ist das Clustering nur optimal relativ zu dieser Objective
Function
Mann kann auch andere Objective Functions wählen und erhält
andere Clusterings
Partioning around Medoids PAM
Robustere Variante des K-Means Algorithmus durch eine
andere Objective Funktion
Die Cluster werden nicht durch Zentroide, sondern durch
prototypische Datenpunkte (Medoide) repräsentiert
Ziel ist es den Abstand zum nächsten Medoid über alle
Punkte gleichzeitig zu minimieren
Minimiert wird also die Objective Function
PAM Algorithmus
Initialisierung: Suche zufällig K Prototypen (Medoide)
Iteriere bis zur Konvergenz
Swapping:
Für alle Paare (i,j) bei denen i ein Medoid und j kein Medoid
ist: Berechne den Unterschied in der Objective Funktion, der
entstünde wenn man j zum Medoid an Stelle von i machte
Führe das Swapping durch, wenn es günstig ist
Wie viele Cluster sind in den Daten?
Für jeden Datenpunkt können wir die Silhouette s(i) berechnen:
a(i) := Mittler Abstand von Punkt i zu allen Punkten im gleichen Cluster
b(i) := minC d(i,C),
wobei d(i,C) der mittlere Abstand von Punkt i zu allen Punkten in Cluster C ist.
Das Minimum wird über alle Cluster in denen Punkt i nicht liegt genommen – Bestes Konkurenzcluster -
s(i) nahe 1 : Profil ist im „richtigen“ Cluster
s(i) nahe -1: Profil ist im „falschen“ Cluster
s(i) nahe 0: Profil kann sich nicht entscheiden
Silhouette Plot
Silhouette Plot
Alle Profile in diesem
Cluster haben einen
hohen Silhouetten Score
In diesem Cluster gibt es
Profile mit kleinem
Silhouetten Score
Gibt es in Wirklichkeit drei Cluster in den Daten?
T-cell Leukemia
Chiaretti et al., 2004
Silhouette Plot
Nein! Die Aufteilung des
oberen Clusters in zwei
Cluster verschlechtert
den Silhouetten Plot
T-cell Leukemia
Chiaretti et al., 2004
Kein Clustering Problem
Sie wollen zu einem Referenzprofil die Profile suchen, die
ihm am ähnlichsten sind
Falscher Ansatz: Sie clustern alle Profile und schauen sich
die Profile an, die im selben Cluster wie ihr Referenzprofil
liegen
Was man bekommt Was man gerne hätte
Screening Problem
Sie wollen zu einem Referenzprofil die Profile suchen, die
ihm am ähnlichsten sind
Richtiger Ansatz: Sie berechnen die Abstände aller Profile
zum Referenzprofil und sehen sich die Profile mit kleinstem
Abstand an
Clustering Screening
Self Fulfilling Prophecy
Sie besitzen a priori label – 2 Gruppen von Profilen -
Wählen differentiell exprimierte Gene aus
Clustern die Daten nur unter Einschluss dieser Gene
Beobachten, dass die a priori Gruppen zusammen
clustern
Interpretieren dies als Bestätigung der a priori label
Die Gruppen clustern unter umständen nur wegen der
Genauswahl zusammen
Zufällige Daten hätten dies auch getan
Self Fulfilling Prophecy
Randomisierte Labels
Clustering mit
supervidierter
Genselektion
Ohne Genselektion
Nicht supervidierte Geneselektion
Der Microarray hält 30.000 Gene
Nicht alle diese Gene zeigen sinnvolle Clustering Struktur
Hybridisierungs-Artefakte produzieren oft kleine Veränderungen
in allen Genen
Normalisierung kann diese nicht immer eliminieren
In den Distanzmaßen summieren sie sich auf
Ansatz: Benutze nur stark variierende Gene zum Clustering
Clustering mit allen Genen
B- und T-cell ALL Chiaretti et al., 2004
Clustering mit den Top 100
variabelsten Genen
B- und T-cell ALL Chiaretti et al., 2004
Genselektion
Gene 2 Gene 4
Problem: Unterschiedliche Gene induzieren ein
unterschiedliches Clustering
Lymphome
Alizadeh et al Nature 2000
Gene und Profile von verschiedenen
Lymphomen und lymphoiden Zellinen
wurden geclustert
Globales Clustering:
Die bekannten Lymphom Entitäten bilden
Cluster aus
Genselktion:
Der orange Block von Genen
Clustert einen Teil der DLBCL Lymphome
mit Keimzentrumszellinien und einen
anderen Teil mit aktivierten B-Zellen
Acknowledgement
Für diese Vorlesung habe ich Folien, Graphiken und
Ideen ausgeliehen bei:
Jörg Rahnenführer
Tobias Müller
Anja v. Heydebreck