institut für informatik lehrstuhl maschinelles lernen · jedes dokument wird als vektor...
Post on 03-Jun-2019
224 Views
Preview:
TRANSCRIPT
Universität Potsdam Institut für Informatik
Lehrstuhl Maschinelles Lernen
Sparse PCA
Tobias Scheffer
Michael Großhans
Paul Prasse
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Vektorraummodell
Jedes Dokument wird als Vektor dargestellt,
beispielsweise als binäres Bag-of-Word:
An jeder Stelle des Vektors gibt 0/1 an, ob das
entsprechende Wort im Text vorhanden ist oder nicht.
oder als N-Gram-Modell:
3-Gram-Modell: Jeder Eintrag im Vektor korreliert mit einer
Kombination aus 3 Buchstaben (z.b. aaa, aab)
An jeder Stelle des Vektors steht die Häufigkeit des
Auftretens der entsprechenden Kombination im Text.
Oft: Hochdimensionale, aber sparse Daten, bspw.
Emails: Großes Vokabular (Länge der Vektoren)
Wenig Text pro Email (Einträge ungleich 0 pro Vektor)
2
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Vektorraummodell
Viele Algorithmen können Sparsität der Daten
ausnutzen, um effizient Modelle zu bestimmen
Laufzeit hängt nicht von der Länge, sondern von der
Anzahl an Einträgen ungleich 0 ab.
Ansonsten führt die hohe Dimensionalität zu hohen
Laufzeiten.
Ziel: Reduzierung der Anzahl der Dimensionen:
Stop-Wörter entfernen, Zahlen entfernen,
Seltene Wörter entfernen (z.B. Nutzernamen),
Wortstämme nutzen (sein statt bin/ist/sind/usw.),
Groß- und Kleinschreibung,
uvm.
3
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Reduzierung der Dimensionen
Beispiel:
2-dimensionaler Vektorraum.
Rot: Richtung mit Stärkster
Streuung der Daten.
Grün: Orthogonal zu rot.
Vermutung:
Rote Komponente reicht aus um
Daten zu charakterisieren.
Daten sind im Wesentlichen 1-
dimensional.
4
0 1 2 3 4 5 60
1
2
3
4
5
6
X1
X2
0 1 2 3 4 5 60
1
2
3
4
5
6
X1
X2
0 1 2 3 4 5 60
1
2
3
4
5
6
X1
X2
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
-3 -2 -1 0 1 2 3
X1
0 1 2 3 4 5 60
1
2
3
4
5
6
X1
X2
Reduzierung der Dimensionen
Ansatz (PCA):
1. Finde Komponenten mit
maximaler Streuung iterativ:
Jeweils orthogonal zu bisherigen
Ausbreitungsrichtungen.
2. Transformiere Daten in neues
Koordinatensystem aufgespannt
durch gefundene Komponenten.
3. Ignoriere Komponenten mit
geringer Streuung (hier: grün).
Wesentliche Eigenschaften
bleiben (hoffentlich!) trotz
Reduktion erhalten.
5
-3 -2 -1 0 1 2 3-3
-2
-1
0
1
2
3
X1
X2
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA
Teilprobleme:
Bestimmen der Hauptkomponenten.
Werden für das Zielkoordinatensystems benötigt.
Transformation und Reduktion der Daten.
Transformation in das neue Koordinatensystem.
Welche Dimensionen können ignoriert werden?
Interpretierbarkeit der neuen Daten.
Wie kann Interpretierbarkeit der neuen Daten
verbessert werden?
6
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Repräsentationen von Daten
Instanz mit m Feature:
n Instanzen (Datenmatrix):
Affin-lineare Transformation von nach
Einer Datenmatrix:
Reduktion der Feature, wenn
Beispiele:
Skalierung der Feature durch Diagonalmatrix A
Neues Koordinatensystem, wenn Zeilen Orthonormalbasis
bilden:
• für zwei Zeilen gilt
Wiederholung: Algebra
7
m n 'm n
T
1, , mx xx
1, , nX x x
' ,m m m n A B
( )A X A X B
'm m
T1 falls
0 falls
i j
i j
i j
a a ,i ja a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Eigenschaften einer Matrix
Quadratisch:
Symmetrisch:
Spur (trace):
Rang (rank):
Positiv definit:
Positiv semi-definit:
Normen
lp-Norm eines Vektors:
lp-induzierte Norm einer Matrix:
Wiederholung: Algebra Matrix-Eigenschaften
n m11 1
1
n
m n
m mn
a a
a a
ATA A
T0, wenn 0 falls symmetrisch A x Ax x 0 A
1
( )m
ii
i
tr a
A
( ) maximale Zahl linear unabhänger Zeilen/Spaltenrk A
8
1
mp
pip
i
x
x
1 1
m np
pijp
i j
a
X
T0, wenn 0 falls symmetrisch A x Ax x 0 A
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Gilt für Matrix A, Vektor v, und ein Skalar die
Beziehung , dann heißen:
Eigenvektor und
Eigenwert der Matrix.
Symmetrische Matrix :
Es gibt k Eigenwerte mit jeweils Vielfachheit lk , so
dass . Eigenvektoren bilden Unterraum der
Dimensionen lk .
Alle Eigenwerte sind reell
Spur ist Summe aller Eigenwerte.
Wiederholung: Eigenvektoren
Av v
9
v 0
1 1
( )m m
ii i
i i
tr a
A
m mA
1
k
iil m
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Eigenwertzerlegung (für symmetrische Matrix ),
Wiederholung: Eigenvektoren
1
T T T
1 1
01 falls
[ ] [ ] 0 falls
0
m m i j
m
i j
i j
A VCV v v v v v v
10
A
Eigenvektoren Eigenwerte
(eindeutig, bis auf Permutation)
Orthonormalbasis
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der Hauptkomponenten
Gegeben Datenmatrix mit m Zeilen
Gesucht ist Matrix , so dass:
Spalten bilden Orthonormalbasis.
Spalte erklärt möglichst viel Varianz der Daten.
Spalte erklärt möglichst viel Restvarianz der Daten.
…
Annahmen im Folgenden:
(sonst: von jeder Spalte abziehen)
Sei die Kovarianz der Daten:
Eigenwerte von C seien paarweise verschieden.
11
1, , mA a a
1, , nX x x
1, , ma a
1a
2a
1
n
ii x 0
1
n
iin
x
T1
1
m m
n
C XX
1, , 0m
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der ersten Hauptkomponente
Wähle erste Hauptkomponente , so dass:
(Orthonormalbasis)
ist maximal (Varianz der durch
transformierten Daten)
12
1a
T T T
1 1 1 1a XX a a Ca
T
1 1 1a a
1a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der ersten Hauptkomponente
Löse
Suche Extremstellen der Lagrangefunktion :
Ableiten & Null setzen gibt: .
ist Eigenvektor der Kovarianzmatrix .
Für die Kovarianz im Zielsystem (zu maximieren) gilt:
Wähle daher Eigenvektor mit größtem Eigenwert.
13
T
T
1, 1max
a a a
a a Ca
,L a
T T, 1L a a Ca a a1a
1 1 1Ca a
1a C
T T T T
1 1 1 1 1 1 1 1 1 1 1 a Ca a Ca a a a a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der zweiten Hauptkomponente
Wähle zweite Hauptkomponente , so dass:
und
(Orthonormalbasis)
ist maximal (Varianz der durch
transformierten Daten)
14
2a
T T T
2 2 2 2a XX a a Ca
T
1 1 1a a
2a
T
1 2 0a a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der zweiten Hauptkomponente
Löse
Suche Extremstellen der Lagrangefunktion :
Ableiten & Null setzen gibt: ,
ist Eigenvektor der Kovarianzmatrix .
Wieder gilt (zu maximieren) und, da
Eigenvektoren othrogonal sein sollen .
Wähle daher Eigenvektor mit zweitgrößtem Eigenwert.
15
T
T1
T
2, 1
0
max
a a a
a a
a a Ca
, ,L a
T T T
1, , 1L a a Ca a a a a
2a
2 2 2Ca a
2a CT
2 2 2a Ca
1 2
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Bestimmen der Hauptkomponenten
Sind die Eigenwerte paarweise
verschieden, wähle für die i-te Hauptkomponente
einen Eigenvektor mit Eigenwert .
Hinweis: Sind zwei Eigenwerte identisch,
wähle zueinander orthogonale Eigenvektoren mit
entsprechendem Eigenwert als i- bzw. (i+1)-te
Hauptkomponente
16
1 0m
i
1i i
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA
Teilprobleme:
Bestimmen der Hauptkomponenten.
Hauptkomponenten entsprechen den Eigenvektoren
(geordnet nach Eigenwert) der Kovarianzmatrix.
Transformation und Reduktion der Daten.
Transformation in das neue Koordinatensystem.
Welche Dimensionen können ignoriert werden?
Interpretierbarkeit der neuen Daten.
Wie kann Interpretierbarkeit der neuen Daten
verbessert werden?
17
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Transformation & Reduktion
Transformiere Daten durch
gegebene Hauptkomponenten in
neue Daten .
Daten besitzen gleiche Dimension (m) wie zuvor.
Aber es gilt (siehe Eigenwertzerlegung):
Kovarianz .
Daher änder sich die Summe der Varianzen
in den einzelnen Komponenten nicht.
18
1, , nX x x
1, , mA a aT Z A X
T T C A Λ A
T T
1
m
i
i
tr tr tr tr
C A Λ A Λ A A Λ
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Transformation & Reduktion
Die Eigenvektoren mit den k größten Eigenwerten
decken c Prozent der Gesamtvarianz ab, wobei:
Wähle für Transformation nicht alle
Hauptkomponenten sondern k Eigenvektoren mit
den größten Eigenwerten und
transformiere
Zielraum nun k-dimensional (nicht m-dimensional)
Wähle k so, dass Abdeckung der Varianz dennoch
ausreichend groß.
19
1
k
i
i
c tr
C
1, , kkA a a
T
k Z A X
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Algorithmus
Seien Eigenwerte verschieden,
Input: Daten , minimale Abdeckung c
Setze k=0,
Wiederhole
Setze k=k+1.
Bestimme Eigenvektor von C mit dem k größtem
Eigenwert.
Bis .
Transformiere Daten
20
1, , 0m
1, , nX x x
1
k
i
i
c tr
C
T1
1n
C XX
1
n
ii x 0
ka
T
1, , k Z a a X
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Nachteile
Problematisch bei schlecht skalierten Daten.
Informationsreiche Komponenten mit geringer
Varianz werden möglicherweise entfernt.
Kovarianzmatrix ist quadratisch in Anzahl der
Attribute:
Bei Texten mit 100.000 verschiedenen Wörtern hat
diese 10 Mrd. Einträge (8 Byte pro Eintrag: 80Gb).
Idee:
Berechne Eigenvektoren a von (n x n-Matrix).
Vektoren Xa sind gesuchte Eigenvektoren von mit
gleichem Eigenwert.
21
T
T T
X Xa a
X X Xa X a XX Xa Xa
TX X
TXX
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA
Teilprobleme:
Bestimmen der Hauptkomponenten.
Hauptkomponenten entsprechen den Eigenvektoren
(geordnet nach Eigenwert) der Kovarianzmatrix.
Transformation und Reduktion der Daten.
Transformation durch die Eigenvektoren mit den k
höchsten Eigenwerten.
Interpretierbarkeit der neuen Daten.
Wie kann Interpretierbarkeit der neuen Daten
verbessert werden?
22
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Anwendung & Interpretation
Anwendungsbeispiel:
Morphace (Universität Basel)
3D-Modelle von 200 verschiedenen Personen (jeweils
über 150000 Feature)
PCA mit 199 Hauptkomponenten, jedes (3D) Gesicht
wird durch 199 Parameter charakterisiert.
23
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Anwendung & Interpretation
Anwendungsbeispiel:
Morphace (Universität Basel)
Visualisierung der Hauptkomponenten im Originalraum
24
Gesichtsformen
Mittleres Gesicht a1 a2 a3
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Anwendung & Interpretation
Anwendungsbeispiel:
Morphace (Universität Basel)
Visualisierung der Hauptkomponenten im Originalraum
25
Gesichtsformen Texturen
Mittlere Textur a1 a2 a3
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA Anwendung & Interpretation
Anwendungsbeispiel:
PCA bei Texten.
Hauptkomponenten als Linearkombination aller
möglichen Worte:
Bsp: 0.001*{season}+0.03*{million}-0.01*{school}+…
Schwer zu interpretieren.
Besser sparse Hauptkomponenten:
26
1st PC 2nd PC 3rd PC 4th PC 5th PC
Million Point Official president School
Percent Play Government Campaign Program
Business Team United_States Bush Children
Company Season U_S Administration Student
Market Game attack
Companies 5 sparse Hauptkomponenten von
Artikeln der NYTimes
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
1. Möglichkeit:
Schritt 1: Hauptkomponenten über Standard-PCA
berechnen
Schritt 2: Hauptkomponenten in sparse Vektoren
überführen, durch Ersetzen Abschneiden von kleinen
Werten auf 0.
Beispiel:
27
s(X) 1st PC 2nd PC
X1 75.75 0.956 -0.288
X2 13.13 0.294 0.945
X3 0.61 0.015 -0.154
X4 0.02 0.001 -0.002
82.308 6.739
1st SPC 2nd SPC
1 0
0 1
0 0
0 0
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
1. Möglichkeit (Probleme):
Auf Orthogonalität muss explizit geachtet werden.
Korrelationen zwischen Variablen im Originalraum und
Zielraum werden ignoriert:
2. Dimension (Orinigalraum) korreliert stärker mit der 1.
Dimension (Zielraum) im Vergleich zur 2. Dimension
(Zielraum)
28
s(X) 1st PC 2nd PC
X1 75.75 0.956 -0.288
X2 13.13 0.294 0.945
X3 0.61 0.015 -0.154
X4 0.02 0.001 -0.002
82.308 6.739
1 2 121 2
21 2
2 2
,,
0.736
, 0.677
Cov Z X aZ X
xVar Z Var X
Z X
s
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
2. Möglichkeit:
Wähle Hauptkomponenten so, dass möglichst viele
Einträge 0 sind.
Wähle beispielsweise derart, dass:
maximal, unter den Bedingungen:
(normiert)
für ein wählbares t
Problem: ist nicht stetig und daher schwer zu
optimieren.
29
T
1 1 1a a
T
1 1a Ca
1 0a
1a
1 101
0m
j
j
a t
a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
2. Möglichkeit (Relaxierung der l0-Norm):
Wähle Hauptkomponenten so, dass möglichst viele
Einträge 0 sind,
Wähle beispielsweise derart, dass:
maximal, unter den Bedingungen:
(normiert)
für ein wählbares t
Problem: Kein konvexes Optimierungsproblem,
Lösungen sind im Allgemeinen nur lokal-optimal.
30
T
1 1 1a a
T
1 1a Ca1a
1 111
m
j
j
a t
a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
3. Möglichkeit:
Nehme Kardinalität der Hauptkomponenten in
Optimierungsfunktion auf.
Wähle beispielsweise Hauptkomponente so, dass:
maximal, unter den Bedingungen:
(normiert)
Problem: Kein konvexes und nicht stetiges
Optimierungsproblem.
Idee: Finde konvexe obere Schranke der Funktion
und optimiere diese.
31
T
1 1 1a a
2T
1 1 1 0a Ca a
1a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
3. Möglichkeit:
Umformulieren & Relaxieren des Optimierungsproblems:
Rang der Lösung kann >1 sein:
Approximiere durch aaT, wobei a der Eigenvektor mit größtem
Eigenwert ist.
32
2
2T
0 0, 1 , 01
1
1 2, 01
1
1, 01
max max
max
max
tr
rk
tr
rk
tr
tr
tr
tr
a a A AA
A
A AA
A
A AA
a Ca a AC A
AC A A
AC A
Nutze
Beziehung Normen
TA aa
L2–Norm ist hier 1
Ignoriere Rang
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
3. Möglichkeit:
Optimierungsproblem ist konvex.
Eine Optimierung mit Hilfe eines Koordinatenabstieg ist
möglich.
Laufzeit in diesem Falle im Bereich O(m3) , dies ist für ein
großes Vokabular zu groß.
33
1, 0
1
max
tr
tr
A A
A
AC A
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
3. Möglichkeit:
Optimierungsproblem ist konvex.
Idee: Entferne Wörter mit geringer Varianz zur
Verbesserung der Laufzeit:
Wörter mit geringer Varianz werden niemals Teil der
nächsten sparsen Hauptkomponente.
Entferne Wort i, wenn
• Sicheres Entfernen, d.h. es wird mit Sicherheit kein Wort
zu viel entfernt (Beweis auf folgenden Folien)
• In Experimenten beispielsweise ~500 statt ~100.000
Wörter, wenn pro Komponente ca. 5 Wörter angestrebt
sind
– Parameter wird passend eingestellt.
34
1, 0
1
max
tr
tr
A A
A
AC A
ii C
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
Beweis:
1.: definiere
gesucht:
2.: setze für binäre Diagonalmatrix
und Vektor (nicht eindeutig)
Dann gilt für :
, wobei für die Gleichheit gilt:
35
2T
0 a a Ca a
Konvexe Funktion, daher Maxima an
Rändern
T T, D y y DCDy 1 D1
T T, 1 , 1
max max
a a a a a a
a a
a aa D y 0,1m m
aDT, 1m a a ay y y
, a aD y a
0 , ,ii id a a ay a D y a
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
Beweis:
3.: gesucht ist daher (Alternative)
36
Definition Kovarianz
T
T
T
T
T T
, =10,1
T T T
, =10,1
T T T
, =10,1
T T T
, =10,1 1
max max
1max max
1
1max max
1
1max max
1
m m
diag
m m
diag
m m
diag
m m
diag
m
ii i i
i
n
n
d x xn
y y yD
y y yD
y y yD
y y yD
y DCDy 1 D1
y DX XDy 1 D1
y XDX y 1 D1
y y 1 D1
Vertausche X und D
(hier möglich!)
Produkt zerlegen,
xi ist i-te Zeile/Feature von X
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
Beweis:
3.: gesucht ist daher (Fortsetzung):
37
Ausklammern
T
T
T
T
T T T
, =10,1 1
2T
, =10,1 1
2T
0,1, =11
2T
, =11
1max max
1
1max max
1
1max max
1
1max max ,0
1
m m
diag
m m
diag
ii
m
ii i i
i
m
ii i ii
i
m
ii i iid
i
m
i
i
d x xn
d x dn
d x dn
xn
y y yD
y y yD
y y y
y y y
y y 1 D1
y
y
y
Maximum in Summanden ziehen
Einträge sind 0 oder 1
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Sparse PCA
Beweis:
4.: Ein Summand In der Gleichung
ist immer 0 (unabhängig von y) wenn gilt:
In diesem Fall ist und daher
38
T
2T
, =11
1max max ,0
1
m
i
i
xn
y y y
y
2
T1
1i i iix x
n
C
0iid 0ia
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
PCA
Teilprobleme:
Bestimmen der Hauptkomponenten.
Hauptkomponenten entsprechen den Eigenvektoren
(geordnet nach Eigenwert) der Kovarianzmatrix.
Transformation und Reduktion der Daten.
Transformation durch die Eigenvektoren mit den k
höchsten Eigenwerten.
Interpretierbarkeit der neuen Daten.
Sparse Hauptkomponenten erhöhen die
Interpretierbarkeit der transformierten Daten.
39
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Zusammenfassung PCA
PCA (Hauptkomponentenanalyse) projeziert Daten
in neuen Raum:
Alle Komponenten sind unkorreliert.
Die Gesamtvarianz bleibt erhalten.
Die i-te Komponente hat größere Varianz als die (i+1)-te:
Ermöglicht das Weglassen hinterer Komponenten
(Reduzierung der Dimension) ohne Varianz in den Daten
stark zu beeinträchtigen.
40
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Zusammenfassung Sparse PCA
PCA (Hauptkomponentenanalyse) projeziert Daten
in neuen Raum.
Sparse PCA erzeugt dabei sparse
Hauptkomponenten.
Hauptkomponenten sind besser interpretierbar.
Sparse Daten sind auch im transformierten Raum sparse.
Wirkt regularisierend.
Ermöglicht sichere Reduzierung der Feature vor dem
Berechnen der Hauptkomponenten und kann daher sehr
viel schneller sein als PCA.
Im Worst-Case ist PCA laufzeittechnisch jedoch besser als
Sparse PCA (quadratisch statt kubisch)
41
Scheffe
r/Gro
ßhans/P
rasse: S
pra
chte
chnolo
gie
S
cheffe
r/Gro
ßhans/P
rasse
: Spra
chte
chnolo
gie
Fragen?
42
top related