Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Sparse PCA

Tobias Scheffer

Michael Großhans

Paul Prasse

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Vektorraummodell

Jedes Dokument wird als Vektor dargestellt,

beispielsweise als binäres Bag-of-Word:

An jeder Stelle des Vektors gibt 0/1 an, ob das

entsprechende Wort im Text vorhanden ist oder nicht.

oder als N-Gram-Modell:

3-Gram-Modell: Jeder Eintrag im Vektor korreliert mit einer

Kombination aus 3 Buchstaben (z.b. aaa, aab)

An jeder Stelle des Vektors steht die Häufigkeit des

Auftretens der entsprechenden Kombination im Text.

Oft: Hochdimensionale, aber sparse Daten, bspw.

Emails: Großes Vokabular (Länge der Vektoren)

Wenig Text pro Email (Einträge ungleich 0 pro Vektor)

2

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Vektorraummodell

Viele Algorithmen können Sparsität der Daten

ausnutzen, um effizient Modelle zu bestimmen

Laufzeit hängt nicht von der Länge, sondern von der

Anzahl an Einträgen ungleich 0 ab.

Ansonsten führt die hohe Dimensionalität zu hohen

Laufzeiten.

Ziel: Reduzierung der Anzahl der Dimensionen:

Stop-Wörter entfernen, Zahlen entfernen,

Seltene Wörter entfernen (z.B. Nutzernamen),

Wortstämme nutzen (sein statt bin/ist/sind/usw.),

Groß- und Kleinschreibung,

uvm.

3

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Reduzierung der Dimensionen

Beispiel:

2-dimensionaler Vektorraum.

Rot: Richtung mit Stärkster

Streuung der Daten.

Grün: Orthogonal zu rot.

Vermutung:

Rote Komponente reicht aus um

Daten zu charakterisieren.

Daten sind im Wesentlichen 1-

dimensional.

4

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

-3 -2 -1 0 1 2 3

X1

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

Reduzierung der Dimensionen

Ansatz (PCA):

1. Finde Komponenten mit

maximaler Streuung iterativ:

Jeweils orthogonal zu bisherigen

Ausbreitungsrichtungen.

2. Transformiere Daten in neues

Koordinatensystem aufgespannt

durch gefundene Komponenten.

3. Ignoriere Komponenten mit

geringer Streuung (hier: grün).

Wesentliche Eigenschaften

bleiben (hoffentlich!) trotz

Reduktion erhalten.

5

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

X1

X2

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Werden für das Zielkoordinatensystems benötigt.

Transformation und Reduktion der Daten.

Transformation in das neue Koordinatensystem.

Welche Dimensionen können ignoriert werden?

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

6

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Repräsentationen von Daten

Instanz mit m Feature:

n Instanzen (Datenmatrix):

Affin-lineare Transformation von nach

Einer Datenmatrix:

Reduktion der Feature, wenn

Beispiele:

Skalierung der Feature durch Diagonalmatrix A

Neues Koordinatensystem, wenn Zeilen Orthonormalbasis

bilden:

• für zwei Zeilen gilt

Wiederholung: Algebra

7

m n 'm n

T

1, , mx xx

1, , nX x x

' ,m m m n A B

( )A X A X B

'm m

T1 falls

0 falls

i j

a a ,i ja a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Eigenschaften einer Matrix

Quadratisch:

Symmetrisch:

Spur (trace):

Rang (rank):

Positiv definit:

Positiv semi-definit:

Normen

lp-Norm eines Vektors:

lp-induzierte Norm einer Matrix:

Wiederholung: Algebra Matrix-Eigenschaften

n m11 1

1

n

m n

m mn

a a

ATA A

T0, wenn 0 falls symmetrisch A x Ax x 0 A

1

( )m

ii

i

tr a

A

( ) maximale Zahl linear unabhänger Zeilen/Spaltenrk A

8

1

mp

pip

i

x

1 1

m np

pijp

i j

a

X

T0, wenn 0 falls symmetrisch A x Ax x 0 A

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Gilt für Matrix A, Vektor v, und ein Skalar die

Beziehung , dann heißen:

Eigenvektor und

Eigenwert der Matrix.

Symmetrische Matrix :

Es gibt k Eigenwerte mit jeweils Vielfachheit lk , so

dass . Eigenvektoren bilden Unterraum der

Dimensionen lk .

Alle Eigenwerte sind reell

Spur ist Summe aller Eigenwerte.

Wiederholung: Eigenvektoren

Av v

9

v 0

1 1

( )m m

ii i

i i

tr a

A

m mA

1

k

iil m

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Eigenwertzerlegung (für symmetrische Matrix ),

Wiederholung: Eigenvektoren

1

T T T

1 1

01 falls

[ ] [ ] 0 falls

0

m m i j

m

i j

A VCV v v v v v v

10

A

Eigenvektoren Eigenwerte

(eindeutig, bis auf Permutation)

Orthonormalbasis

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der Hauptkomponenten

Gegeben Datenmatrix mit m Zeilen

Gesucht ist Matrix , so dass:

Spalten bilden Orthonormalbasis.

Spalte erklärt möglichst viel Varianz der Daten.

Spalte erklärt möglichst viel Restvarianz der Daten.

…

Annahmen im Folgenden:

(sonst: von jeder Spalte abziehen)

Sei die Kovarianz der Daten:

Eigenwerte von C seien paarweise verschieden.

11

1, , mA a a

1, , nX x x

1, , ma a

1a

2a

1

n

ii x 0

1

n

iin

x

T1

1

m m

n

C XX

1, , 0m

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der ersten Hauptkomponente

Wähle erste Hauptkomponente , so dass:

(Orthonormalbasis)

ist maximal (Varianz der durch

transformierten Daten)

12

1a

T T T

1 1 1 1a XX a a Ca

T

1 1 1a a

1a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der ersten Hauptkomponente

Löse

Suche Extremstellen der Lagrangefunktion :

Ableiten & Null setzen gibt: .

ist Eigenvektor der Kovarianzmatrix .

Für die Kovarianz im Zielsystem (zu maximieren) gilt:

Wähle daher Eigenvektor mit größtem Eigenwert.

13

T

1, 1max

a a a

a a Ca

,L a

T T, 1L a a Ca a a1a

1 1 1Ca a

1a C

T T T T

1 1 1 1 1 1 1 1 1 1 1 a Ca a Ca a a a a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der zweiten Hauptkomponente

Wähle zweite Hauptkomponente , so dass:

und

(Orthonormalbasis)

ist maximal (Varianz der durch

transformierten Daten)

14

2a

T T T

2 2 2 2a XX a a Ca

T

1 1 1a a

2a

T

1 2 0a a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der zweiten Hauptkomponente

Löse

Suche Extremstellen der Lagrangefunktion :

Ableiten & Null setzen gibt: ,

ist Eigenvektor der Kovarianzmatrix .

Wieder gilt (zu maximieren) und, da

Eigenvektoren othrogonal sein sollen .

Wähle daher Eigenvektor mit zweitgrößtem Eigenwert.

15

T

T1

T

2, 1

0

max

a a a

a a

a a Ca

, ,L a

T T T

1, , 1L a a Ca a a a a

2a

2 2 2Ca a

2a CT

2 2 2a Ca

1 2

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der Hauptkomponenten

Sind die Eigenwerte paarweise

verschieden, wähle für die i-te Hauptkomponente

einen Eigenvektor mit Eigenwert .

Hinweis: Sind zwei Eigenwerte identisch,

wähle zueinander orthogonale Eigenvektoren mit

entsprechendem Eigenwert als i- bzw. (i+1)-te

Hauptkomponente

16

1 0m

i

1i i

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation in das neue Koordinatensystem.

Welche Dimensionen können ignoriert werden?

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

17

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Transformation & Reduktion

Transformiere Daten durch

gegebene Hauptkomponenten in

neue Daten .

Daten besitzen gleiche Dimension (m) wie zuvor.

Aber es gilt (siehe Eigenwertzerlegung):

Kovarianz .

Daher änder sich die Summe der Varianzen

in den einzelnen Komponenten nicht.

18

1, , nX x x

1, , mA a aT Z A X

T T C A Λ A

T T

1

m

i

tr tr tr tr

C A Λ A Λ A A Λ

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Transformation & Reduktion

Die Eigenvektoren mit den k größten Eigenwerten

decken c Prozent der Gesamtvarianz ab, wobei:

Wähle für Transformation nicht alle

Hauptkomponenten sondern k Eigenvektoren mit

den größten Eigenwerten und

transformiere

Zielraum nun k-dimensional (nicht m-dimensional)

Wähle k so, dass Abdeckung der Varianz dennoch

ausreichend groß.

19

1

k

i

c tr

C

1, , kkA a a

T

k Z A X

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Algorithmus

Seien Eigenwerte verschieden,

Input: Daten , minimale Abdeckung c

Setze k=0,

Wiederhole

Setze k=k+1.

Bestimme Eigenvektor von C mit dem k größtem

Eigenwert.

Bis .

Transformiere Daten

20

1, , 0m

1, , nX x x

1

k

i

c tr

C

T1

1n

C XX

1

n

ii x 0

ka

T

1, , k Z a a X

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Nachteile

Problematisch bei schlecht skalierten Daten.

Informationsreiche Komponenten mit geringer

Varianz werden möglicherweise entfernt.

Kovarianzmatrix ist quadratisch in Anzahl der

Attribute:

Bei Texten mit 100.000 verschiedenen Wörtern hat

diese 10 Mrd. Einträge (8 Byte pro Eintrag: 80Gb).

Idee:

Berechne Eigenvektoren a von (n x n-Matrix).

Vektoren Xa sind gesuchte Eigenvektoren von mit

gleichem Eigenwert.

21

T

T T

X Xa a

X X Xa X a XX Xa Xa

TX X

TXX

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation durch die Eigenvektoren mit den k

höchsten Eigenwerten.

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

22

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

3D-Modelle von 200 verschiedenen Personen (jeweils

über 150000 Feature)

PCA mit 199 Hauptkomponenten, jedes (3D) Gesicht

wird durch 199 Parameter charakterisiert.

23

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

Visualisierung der Hauptkomponenten im Originalraum

24

Gesichtsformen

Mittleres Gesicht a1 a2 a3

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

Visualisierung der Hauptkomponenten im Originalraum

25

Gesichtsformen Texturen

Mittlere Textur a1 a2 a3

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

PCA bei Texten.

Hauptkomponenten als Linearkombination aller

möglichen Worte:

Bsp: 0.001*{season}+0.03*{million}-0.01*{school}+…

Schwer zu interpretieren.

Besser sparse Hauptkomponenten:

26

1st PC 2nd PC 3rd PC 4th PC 5th PC

Million Point Official president School

Percent Play Government Campaign Program

Business Team United_States Bush Children

Company Season U_S Administration Student

Market Game attack

Companies 5 sparse Hauptkomponenten von

Artikeln der NYTimes

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

1. Möglichkeit:

Schritt 1: Hauptkomponenten über Standard-PCA

berechnen

Schritt 2: Hauptkomponenten in sparse Vektoren

überführen, durch Ersetzen Abschneiden von kleinen

Werten auf 0.

Beispiel:

27

s(X) 1st PC 2nd PC

X1 75.75 0.956 -0.288

X2 13.13 0.294 0.945

X3 0.61 0.015 -0.154

X4 0.02 0.001 -0.002

82.308 6.739

1st SPC 2nd SPC

1 0

0 1

0 0

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

1. Möglichkeit (Probleme):

Auf Orthogonalität muss explizit geachtet werden.

Korrelationen zwischen Variablen im Originalraum und

Zielraum werden ignoriert:

2. Dimension (Orinigalraum) korreliert stärker mit der 1.

Dimension (Zielraum) im Vergleich zur 2. Dimension

(Zielraum)

28

s(X) 1st PC 2nd PC

X1 75.75 0.956 -0.288

X2 13.13 0.294 0.945

X3 0.61 0.015 -0.154

X4 0.02 0.001 -0.002

82.308 6.739

1 2 121 2

21 2

2 2

,,

0.736

, 0.677

Cov Z X aZ X

xVar Z Var X

Z X

s

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

2. Möglichkeit:

Wähle Hauptkomponenten so, dass möglichst viele

Einträge 0 sind.

Wähle beispielsweise derart, dass:

maximal, unter den Bedingungen:

(normiert)

für ein wählbares t

Problem: ist nicht stetig und daher schwer zu

optimieren.

29

T

1 1 1a a

T

1 1a Ca

1 0a

1a

1 101

0m

j

a t

a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

2. Möglichkeit (Relaxierung der l0-Norm):

Wähle Hauptkomponenten so, dass möglichst viele

Einträge 0 sind,

Wähle beispielsweise derart, dass:

maximal, unter den Bedingungen:

(normiert)

für ein wählbares t

Problem: Kein konvexes Optimierungsproblem,

Lösungen sind im Allgemeinen nur lokal-optimal.

30

T

1 1 1a a

T

1 1a Ca1a

1 111

m

j

a t

a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Nehme Kardinalität der Hauptkomponenten in

Optimierungsfunktion auf.

Wähle beispielsweise Hauptkomponente so, dass:

maximal, unter den Bedingungen:

(normiert)

Problem: Kein konvexes und nicht stetiges

Optimierungsproblem.

Idee: Finde konvexe obere Schranke der Funktion

und optimiere diese.

31

T

1 1 1a a

2T

1 1 1 0a Ca a

1a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Umformulieren & Relaxieren des Optimierungsproblems:

Rang der Lösung kann >1 sein:

Approximiere durch aaT, wobei a der Eigenvektor mit größtem

Eigenwert ist.

32

2

2T

0 0, 1 , 01

1

1 2, 01

1

1, 01

max max

max

tr

rk

tr

rk

tr

a a A AA

A

A AA

A

A AA

a Ca a AC A

AC A A

AC A

Nutze

Beziehung Normen

TA aa

L2–Norm ist hier 1

Ignoriere Rang

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Optimierungsproblem ist konvex.

Eine Optimierung mit Hilfe eines Koordinatenabstieg ist

möglich.

Laufzeit in diesem Falle im Bereich O(m3) , dies ist für ein

großes Vokabular zu groß.

33

1, 0

1

max

tr

A A

A

AC A

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Optimierungsproblem ist konvex.

Idee: Entferne Wörter mit geringer Varianz zur

Verbesserung der Laufzeit:

Wörter mit geringer Varianz werden niemals Teil der

nächsten sparsen Hauptkomponente.

Entferne Wort i, wenn

• Sicheres Entfernen, d.h. es wird mit Sicherheit kein Wort

zu viel entfernt (Beweis auf folgenden Folien)

• In Experimenten beispielsweise ~500 statt ~100.000

Wörter, wenn pro Komponente ca. 5 Wörter angestrebt

sind

– Parameter wird passend eingestellt.

34

1, 0

1

max

tr

A A

A

AC A

ii C

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

1.: definiere

gesucht:

2.: setze für binäre Diagonalmatrix

und Vektor (nicht eindeutig)

Dann gilt für :

, wobei für die Gleichheit gilt:

35

2T

0 a a Ca a

Konvexe Funktion, daher Maxima an

Rändern

T T, D y y DCDy 1 D1

T T, 1 , 1

max max

a a a a a a

a a

a aa D y 0,1m m

aDT, 1m a a ay y y

, a aD y a

0 , ,ii id a a ay a D y a

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

3.: gesucht ist daher (Alternative)

36

Definition Kovarianz

T

T T

, =10,1

T T T

, =10,1

T T T

, =10,1

T T T

, =10,1 1

max max

1max max

1

1max max

1

1max max

1

m m

diag

m m

diag

m m

diag

m m

diag

m

ii i i

i

n

d x xn

y y yD

y DCDy 1 D1

y DX XDy 1 D1

y XDX y 1 D1

y y 1 D1

Vertausche X und D

(hier möglich!)

Produkt zerlegen,

xi ist i-te Zeile/Feature von X

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

3.: gesucht ist daher (Fortsetzung):

37

Ausklammern

T

T T T

, =10,1 1

2T

, =10,1 1

2T

0,1, =11

2T

, =11

1max max

1

1max max

1

1max max

1

1max max ,0

1

m m

diag

m m

diag

ii

m

ii i i

i

m

ii i ii

i

m

ii i iid

i

m

i

d x xn

d x dn

xn

y y yD

y y y

y y 1 D1

y

Maximum in Summanden ziehen

Einträge sind 0 oder 1

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

4.: Ein Summand In der Gleichung

ist immer 0 (unabhängig von y) wenn gilt:

In diesem Fall ist und daher

38

T

2T

, =11

1max max ,0

1

m

i

xn

y y y

y

2

T1

1i i iix x

n

C

0iid 0ia

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation durch die Eigenvektoren mit den k

höchsten Eigenwerten.

Interpretierbarkeit der neuen Daten.

Sparse Hauptkomponenten erhöhen die

Interpretierbarkeit der transformierten Daten.

39

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Zusammenfassung PCA

PCA (Hauptkomponentenanalyse) projeziert Daten

in neuen Raum:

Alle Komponenten sind unkorreliert.

Die Gesamtvarianz bleibt erhalten.

Die i-te Komponente hat größere Varianz als die (i+1)-te:

Ermöglicht das Weglassen hinterer Komponenten

(Reduzierung der Dimension) ohne Varianz in den Daten

stark zu beeinträchtigen.

40

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Zusammenfassung Sparse PCA

PCA (Hauptkomponentenanalyse) projeziert Daten

in neuen Raum.

Sparse PCA erzeugt dabei sparse

Hauptkomponenten.

Hauptkomponenten sind besser interpretierbar.

Sparse Daten sind auch im transformierten Raum sparse.

Wirkt regularisierend.

Ermöglicht sichere Reduzierung der Feature vor dem

Berechnen der Hauptkomponenten und kann daher sehr

viel schneller sein als PCA.

Im Worst-Case ist PCA laufzeittechnisch jedoch besser als

Sparse PCA (quadratisch statt kubisch)

41

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Fragen?

42

institut für informatik lehrstuhl maschinelles lernen · jedes dokument wird als vektor...

Documents

einführung in die vektor- und tensorrechnung - wagner

geogebra untuk pembelajaran vektor

vektor. v erstellung einer expertise zur k transsektoralen...

leitfaden e-mobilität für private -...

vektor- und tensorpraxis - europa-lehrmittel€¦ ·...

effiziente klassifizierung mit support-vektor-maschinen ·...

adpro pro -serie - shop.aasset.de · adpro pro e...

karte railnet ausbau 2013 vektor apu - bahn

s10 e pro - tritec · s10 e pro erzeugung eingang s10 e pro...

vektoranalysis { phy - uni-graz.atpep/va19/va.pdf · prof....

vektorrechnung · wird ein vektor a, dessen betrag größer...

messungen mit dem vektor-netzwerkanalysator...

pro-e help

system pro e sammelschienensysteme

klimaerwärmung: neue vektoren und neue krankheiten? · pdf...

un un un vektor

planung und auswertung von feldversuchen zur ... · vektor...

ihr versand fÜr gesundheitsprodukte · vektor-lipoc 74...

amx/-e 10 inox/inox pro amx 10 inox pro ex 12.05

pro airport l¼beck e. v. jahrbuch 2012