Universität Potsdam Institut für Informatik
Lehrstuhl Maschinelles Lernen
Maschinelles Lernen II
PCA
Christoph Sawade/Niels Landwehr
Tobias Scheffer
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Überblick
Principal Component Analysis
Optimierungsproblem
Adaption für hochdimensionale Daten
Kernel-PCA
Fisher Linear Discriminant
2
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Motivation
Datenkompression
Preprocessing (Feature Selection / Noisy Feature)
Datenvisualisierung
3
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Beispiel
Repräsentation von Digits als -Pixelmatrix
Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner,
da viele Feature
Aussagelos sind oder
sich aus anderen ergeben
Ziel: Reduktion auf -dimensionalen Hauptunterraum
4
m m
d
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Beispiel
Repräsentation von Gesichtern als -Pixelmatrix
Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner,
da viele Feature
Aussagelos sind oder
sich aus anderen ergeben
Ziel: Reduktion auf -dimensionalen Hauptunterraum
5
m m
d
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Projektion
Eine Projektion ist eine idempotente lineare
Abbildung
6
1y x
T
1u x
x
ix
1 iy x
n
i
i 1
n
i i
i 1
T
Mittelpunkt:
1x x
n
Kovarianz:
1x x x x
n
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Projektion
Eine Projektion ist eine idempotente lineare
Abbildung
Sei mit
stellt Projektion in einen
eindimensionalen Unterraum dar
Für Daten im Projektionsraum gilt:
Mittelpunkt:
Varianz:
7
m
1u T
1 1u u 1
T
1 1y x u x
T
1 1y x u x
1y x
T
1u x
x
ix
1 iy x
n 2
T T T
1 i 1 1 1
i 1
1u x u x u u
n
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Optimierungsproblem
Ziel: Varianz der projizierten Daten soll nicht
verloren gehen
Maximiere bzgl. , wobei
Lagrangian:
8
T T
1 1 1 1 1u u 1 u u
T
1 1u u
T
1 1u u1u T
1 1u u 1
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Optimierungsproblem
Ziel: Varianz der projizierten Daten soll nicht
verloren gehen
Maximiere bzgl. , wobei
Lagrangian:
Ableiten, Nullsetzen:
… Lösung muss Eigenvektor sein
… Varianz ist entsprechender Eigenwert
Bestimmung des größten Eigenwert
Größter Eigenvektor ist erste Hauptkomponente 9
T T
1 1 1 1 1u u 1 u u
1 1 1u u T
1 1 1u u
T
1 1u u
T
1 1u u1u T
1 1u u 1
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA
Projektion von in den Eigenraum
mit
Größter Eigenvektor ist erste Hauptkomponente
Folgende Hauptkomponenten sind orthogonale
Richtungen die (Rest-) Varianz maximieren
Hauptkomponenten… Vektoren der größten
Eigenwerte
10
T
1 1y x u x Ty x U x
x
1
d
u
U
u
d d
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Rückprojektion
Beobachtung:
Reduktion auf Hauptkomponenten:
11
n
T T T
i i j j
j 1
x x u u X X UU
d
T T T T
i i j j k
j 1
x x u u X X VV, k d: v 0
d
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA Beispiel
12
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
PCA hochdimensionale Daten
Berechnung von Eigenvektoren für
-dimensionale Daten ist
Nicht berechenbar für große m
Idee: Beispiele spannen einen linearen Unterraum
mit höchsten Dimensionen auf
Sei , dann gilt mit Hilfe der Datenmatrix
Berechnung in
Lösung hat gleiche Eigenwerte
bis auf Eigenwerte 0
13
2dm
n 1
n mX
1 1 1u u 1 T
1 1 1 1 1n XX v v , v Xu
Eigenwertproblem
2dn
n 1 1/2 T
i i iu n X v
x 0
dm
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Kernel-PCA
14
Voraussetzung: Daten gehen nur als inneres
Produkt ein
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
15
Kernel-PCA Wiederholung: Kerne
Lineare Klassifikatoren:
Oft adäquat, aber nicht immer.
Idee: Beispiele in anderen Raum
abbilden, in dem sie linear
klassifizierbar sind.
Abbildung
Zugehöriger Kernel
Kernel = Inneres Produkt =
Ähnlichkeit der Beispiele.
-
-
- +
+
+
+
-
-
-
-
-
-
+
(-)
(-)
(-)
(-)
(-)
(-)
(-)
(-) (-)
(+)
(+)
(+)
(+) (+) )(xx
)()(),( T
jijik xxxx
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Kernel-PCA
Für , lässt sich Eigenvektorproblem
äquivalent umformen:
Projektion:
Alternative Herleitung über Mercer-Map…
16
n
i
i 1
(x ) 0
i i iu u i i iK = n
n
T
i i i, j j
j 1
y x x v k x,x
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Kernel-PCA Mercer Map
Beobachtung: Alle symmetrische Matrizen kann
man wie folgt zerlegen (Eigenwertzerlegung):
, wobei
,
Wenn positive semi-definit ist, dann sind alle
Eigenwerte reell
Eigenvektoren normalisiert ( ), dann
17
1 0
0 m
V 1
| |
| |
m
U u u
TK UVU
0K
1T
i i u u 1T U U
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
, mit
Explizites Feature-Mapping ist gegeben durch
18
Kernel-PCA Mercer Map
1/2 1/2
1/2 1/2
T
T
T
T
K UVU
UV V
U UV
X
U
V
X
Diagonalmatrix mit i
1: ( ) ( )
| |
| |
n
X x x
1/2
11/2
1/2
new
new
T
new
X
X U
X
K UV
V K
V U K
Eigenwertzerlegung
1T U U
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Explizites Feature-Mapping ist gegeben durch
Beobachtung: Reduktion auf Hauptkomponenten
ist äquivalent zu
, wobei
19
Kernel-PCA Mercer Map
1/2 T
new
V UX K
d
1/2 T
red
V UX K 1, , ,0, ,0ddiag V
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Fisher-Diskriminante
Durch die PCA induzierter Unterraum erhält maximale
Varianz der gesamten Daten
Nicht das richtige Kriterium für Klassifikation…
20
-5 -4 -3 -2 -1 0 1 2 3 4 5-40
-30
-20
-10
0
10
20
30Original Space
x1
x2
PCA PCA PCAu u
C
T
P AX u
-1 -0.5 0 0.5 1-40
-30
-20
-10
0
10
20
30PCA Subspace
x1
x2
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Fisher-Diskriminante
Optimierungskriterium PCA
Maximiere Varianz der Daten im Unterraum:
, wobei
Optimierungskriterium Fisher
Maximiere Varianz zwischen den Klassen und minimiere
Varianz innerhalb der Klassen im Unterraum:
, wobei
Bereits als Klassifikator in ML1 kennengelernt
21
T
umax u u Tu u 1
T
bu T
w
u u max
u u
1
T
b 1 1 1 1
w 1
x x x x
Varianz
pro Klasse
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Fisher-Diskriminante
Optimierungskriterium Fisher für k Klassen
Maximiere Varianz zwischen den Klassen und minimiere
Varianz innerhalb der Klassen im Unterraum:
, wobei
Verallg. Eigenwertproblem hat k-1 unterschiedliche
Lösungen
22
T
bu T
w
u u max
u u
w 1 k
i i
kT
b
i 1
ix x xn x
Anzahl Beispiele pro Klasse
Führt zum verallgemeinerten
Eigenwertproblem b wu u
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Fisher-Diskriminante
Durch die PCA induzierter Unterraum erhält maximale
Varianz der gesamten Daten
Nicht das richtige Kriterium für Klassifikation…
23
-5 -4 -3 -2 -1 0 1 2 3 4 5-40
-30
-20
-10
0
10
20
30Original Space
x1
x2
PCA PCA PCAu u
C
T
P AX u
-1 -0.5 0 0.5 1-40
-30
-20
-10
0
10
20
30PCA Subspace
x1
x2
-1 -0.5 0 0.5 1-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15Fisher Subpace
x1
x2
FIS FIS w ISb Fu u
I
T
F SX u
Saw
ade/L
andw
ehr/S
cheffe
r, Maschin
elle
s L
ern
en II
Zusammenfassung
Ziel: Reduktion / Kompression von Daten auf
wesentliche Komponenten
Maximierung der Varianz führt zu
Eigenwertproblem
Anwendbar für hochdimensionale Daten und nicht-
lineare Varianzkomponenten (Kernel-PCA)
Klassenabhängige Varianzminimierung führt zur
Fisher Diskriminante
24