Download - Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Angewandte Multivariate Statistik

Angewandte Multivariate Statistik

Prof. Dr. Ostap Okhrin

Ostap Okhrin 1 of 60

Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Principal Components Analysis(Hauptkomponentenanalyse)

Ziel:

� Reduziere die Dimension einer p-variaten Zufallsvariable X über

Linearkombinationen.

� Diese Linearkombinationen sollten die gröÿte Streuung zwischen

den Werten von X erzeugen, z. B. in dem die

Linearkombinationen mit den gröÿten Varianzen gesucht werden.



Principal Components Analysis(Hauptkomponentenanalyse)

Standardisierte Linearkombination (SLC)Für eine standardisierte Linearkombination (SLC) mit einem

gewichteten Durchschnitt von X kann

δ>X =∑p

j=1δjXj ||δ|| = 1,

∑pj=1

δ2j = 1

↗standardisiert

geschrieben werden. δ = (δ1, ..., δp)> ist dabei der Wichtungsvektor,

der die Richtung der Linearkombinationen bestimmt.



Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von

δ>X maximiert:

max{δ:‖δ‖=1}

Var(δ>X ) = max{δ:‖δ‖=1}

δ> Var(X )δ.

Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung)

ist der Eigenvektor γ1 mit dem dazugehörigen gröÿten Eigenwert λ1der Kovarianz-Matrix Σ = Var(X ).



Gegeben sei:

erste Hauptkomponente: Y1 = γ>1X

zweite Hauptkomponente: Y2 = γ>2X

...und so weiter mit γi⊥γj∀i 6= j .

Allgemein:Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X

mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ> ist:

Y = Γ>(X − µ)

Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente

einen Erwartungswert von Null erhält.



−3 −2 −1 0 1 2 3−5

0

5Direction in Data

−3 −2 −1 0 1 2 3−1

0

1Projection

Explained variance 0.50520Total variance 1.96569Explained percentage 0.25701

Abbildung 1: Eine beliebige SLC



−3 −2 −1 0 1 2 3−5

0

5Direction in Data

−3 −2 −1 0 1 2 3−1

0

1Projection

Explained variance 1.46049Total variance 1.96569Explained percentage 0.74299

Abbildung 2: Die interessanteste SLC



Beispiel

Bivariate Normalverteilung N(0,Σ), Σ =(1ρρ1

), ρ > 0.

Eigenwerte dieser Matrix sind λ1 = 1 + ρ und λ2 = 1− ρ mit den

dazugehörigen Eigenvektoren

γ1 =1√2

(1

1

), γ2 =

1√2

(1

−1

).

Die PC Transformation ist somit

Y = Γ>(X − µ) =1√2

(1 1

1 −1

)X

or (Y1

Y2

)=

1√2

(X1 + X2

X1 − X2

).



Die erste Hauptkomponente (PC) ist

Y1 =1√2

(X1 + X2)

und die zweite ist

Y2 =1√2

(X1 − X2).



Berechne die Varianzen von diesen Hauptkomponenten (PCs)

Var(Y1) = Var

{1√2

(X1 + X2)

}=

1

2Var(X1 + X2)

=1

2{Var(X1) + Var(X2) + 2Cov(X1,X2)}

=1

2(1 + 1 + 2ρ) = 1 + ρ

= λ1.

Auf die gleiche Weise kann Var(Y2) = λ2 = 1− ρ. gefunden werden.



Theorem

Sei X ∼ (µ,Σ) und Y = Γ>(X − µ) die PC Transformation. Dann ist

für j=1,...,p:EYj = 0

Var(Yj) = λjCov(Yi ,Yj) = 0, for i 6= jVar(Y1) ≥ · · · ≥ Var(Yp) ≥ 0∑p

j=1Var(Yj) = tr(Σ)∏p

j=1Var(Yj) = |Σ|.



Theorem

Es gibt keine SLC, die eine gröÿere Varianz als λ1 = Var(Y1) hat.

Theorem

Sei Y = a>X eine SLC, die nicht mit den ersten k Hauptkomponenten

(PCs) von X korreliert, dann wird Var(Y ) durch a = γk+1 maximal.



Zusammenfassung: SLC

� Eine standardisierte Linearkombination (SLC) ist ein gewichteter

Durchschnitt δ>X =∑p

j=1δjXj . Der Vektor δ hat eine Länge von

1.

� Durch Maximieren der Varianz von δ>X wird der Eigenvektor

δ = γ1 gefunden. Dieser Eigenvektor gehört zum gröÿten

Eigenwert λ1 der Kovarianzmatrix Σ = Var(X ).Das entspricht einer Projektion von X in einem eindimensionalen

Raum, in dem die Komponenten von X von den Elementen γ1gewichtet werden.

� Y1 = γ>1

(X − µ) wird die erste Hauptkomponente (�rst PC)

genannt.




� Diese Projektion kann für höhere Dimensionen verallgemeinert

werden. Die PC Transformation ist eine Lineartransformation

Y = Γ>(X − µ), mit Σ = Var(X ) = Γ>ΛΓ und µ = EX .

Y1,Y2, . . . ,Yp wird erste, zweite,. . . , p-te Hauptkomponente

(�rst, second,. . . ,pth PCs) genannt.




� Die Hauptkomponenten (PCs) haben einen Erwartungswert von

Null, eine Varianz Var(Yj) = λj , und keine Kovarianzen. Gilt

λ1 ≥ . . . ≥ λp, ist Var(Y1) ≥ . . . ≥ Var(Yp). Des Weiteren sei∑pj=1

Var(Yj) = tr(Σ) und∏p

j=1Var(Yj) = |Σ|.

� Wenn Y = a>X eine SLC ist, die nicht mit den ersten kHauptkomponenten von X korreliert, wird die Varianz von Ydurch die Wahl von a gleich der (k + 1)ten Hauptkomponente

maximiert.


Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis

Hauptkomponenten in der Praxis

� µ wird x ,

� Σ ändert sich zu S = GLG>

Y = (X − 1nx>)G

SY = n−1Y>HY= n−1G>(X − 1nx

>)>H(X − 1nx>)G

= n−1G>X>HXG = G>SG = L

L = diag(`1, . . . , `p) ist die Matrix der Eigenwerte von S.



y1 = (X − 1nx>)g1

g1 = 1. Evec(S)

g2 = 2. Evec(S)

g3 = 3. Evec(S)

...

Die Hauptkomponenten-Methode ist emp�ndlich gegenüber Skala-bzw. Maÿstabsänderungen. Die Hauptkomponenten (PC)

Transformation sollte nur für Daten angewendet werden, die nahezu

die selbe Skala in jeder Variable aufweisen.



BeispielEs wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von

X ist:

x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5)> ,

der Vektor mit den Eigenwerten von S ist:

` = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035)> .



Die Eigenvektoren gj entsprechen den Spalten von G:

G =

−0.044 0.011 0.326 0.562 −0.753 0.0980.112 0.071 0.259 0.455 0.347 −0.7670.139 0.066 0.345 0.415 0.535 0.6320.768 −0.563 0.218 −0.186 −0.100 −0.0220.202 0.659 0.557 −0.451 −0.102 −0.035−0.579 −0.489 0.592 −0.258 0.085 −0.046

Die erste Spalte von G ist der erste Eigenvektor. Er liefert die

Gewichte, die für die erste Hauptkomponente benötigt werden.

Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte

Banknoten wurden mit o und gefälschte mit + gekennzeichnet.



!!

!

!

!

!!

!

!

!

!

!

!!!

!

!

!

!

!!

!!

!

!

!

!

!

!

!

!

!

!

!!

!

!!

!

!

!

!

!

!

!

!!

!!

!

!

!

!!

!

!

!

!

!

!

!

!!!

!!!

!

!

!

!

!

!

!! !

!

! !

!

!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!51 !49 !47

!50

!48

!46

!44

First vs. Second PC

PC1

PC2

!

!

! !

!

!

! !

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

! !

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!!

!! !

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!!

!

!

!

!50 !48 !46 !44

!238.5

!240.0

!241.5

Second vs. Third PC

PC2

PC3

!

!

!!

!

!

!!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!!

!

!!

!!!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!!

!

!

!

!51 !49 !47

!238.5

!240.0

!241.5

First vs. Third PC

PC1

PC2

!

!

! !! !

1 2 3 4 5 6

0.0

1.0

2.0

3.0

Eigenvalues of S

Index

Lambda

Abbildung 3: Hauptkomponenten der Bankdaten.



Beispiel (Skala- bzw. Maÿstabsänderung)Umskalierung der Variablen X1,X2,X3, und X6 in cm,

nur X4 und X5 werden weiterhin mm angegeben.

Damit ist

x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05)> ,

und

` = (2.101, 0.623, 0.005, 0.002, 0.001, 0.0004)> .

Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe

Abbildung 4): die 1. Hauptkomponente wird durch X4 und die 2.

Hauptkomponente durch X5 dominiert. Die anderen Variablen haben

deutlich weniger Gewicht.



!! !

!

!

!

!

!!

!

!

!

!!!

!

!

!

!

!!

!

!

!

!!

!

!

!

!

!

!

!

!!

!!

!

!

!

!

!

!

!

!!!

!

!

!

!

!

!!

!

!

!

!

!

!

!

! !!

!!!

!

!

!!

!

!

!! !

!

!!

!!

!

!

!!

!

!

!

!

!

!!

!

!

!

!

!!

!!

8 9 10 11 12 13

!10

!9

!8

!7

!6

First vs. Second PC

PC1

PC2

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

! !

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!

! !!

!!

!

!!

!

!

!

!!

!

!

!!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

!

!!

!

!

!

!10 !9 !8 !7 !6

!14.3

!14.1

!13.9

Second vs. Third PC

PC2

PC3

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

! !

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!!

!

!

!!

!

!

!!!

!!

!

!!

!

!

!

!!

!

!

!!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!!

!

!

!!

!

!

!

8 9 10 11 12 13

!14.3

!14.1

!13.9

First vs. Third PC

PC1

PC2

!

!

! ! ! !

1 2 3 4 5 6

0.0

1.0

2.0

Eigenvalues of S

Index

Lambda

Abbildung 4: Hauptkomponenten der umskalierten Bankdaten



Zusammenfassung: PCs in der Praxis

� Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich

sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt

wird.

� Für die Anwendung der PCA in der Praxis wird µ durch den

Mittelwert x und Σ durch die empirische Kovarianz S ersetzt.

Anschlieÿend werden die Eigenwerte `1, . . . , `p und die

Eigenvektoren g1, . . . , gp von S berechnet.

� Für die gra�sche Darstellung der Hauptkomponenten wird die

geplottete 1. Hauptkomponente der 2. Hauptkomponente (und

eventuell der 3. Hauptkomponente) gegenübergestellt.

� Die Komponenten des Eigenvektors gi sind die Gewichte der

originalen Variablen in den Hauptkomponenten.


Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs

Interpretation der Hauptkomponenten

Die Varianz wird durch die ersten q Hauptkomponenten erklärt.

ψ =λ1 + · · ·+ λq

p∑j=1

λj

=

q∑j=1

Var(Yj)

p∑j=1

Var(Yj)

=

q∑j=1

Var(Yj)

tr(Σ)



Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem

Originalvektor X :

Cov(X ,Y ) = E(XY>)− EX EY>

= E(XX>Γ)− µµ>Γ = Var(X )Γ

= ΣΓ

= ΓΛΓ>Γ

= ΓΛ

Korrelation zwischen Variable Xi und der Hauptkomponente Yj :

ρXiYj= γij

(λjσXiXi

)1/2

.



BeispielBankdaten:

Eigenwert Varianz- kumulierter

anteil Anteil

2.985 0.67 0.67

0.931 0.21 0.88

0.242 0.05 0.93

0.194 0.04 0.97

0.085 0.02 0.99

0.035 0.01 1.00



!

!

!!

!!

1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

Swiss Bank Notes

Index

Vari

ance E

xpla

ined

Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt

werden kann.



ψ1 =λ1 + · · ·+ λq

p∑j=1

λj

Arbeitsschritte fürs Plotten:

1. Berechnen der Kovarianzmatrix

2. Berechnen der Eigenwerte

3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte

4. Plotten der Anteile auf der y�Achse



!1.0 !0.5 0.0 0.5 1.0

!1

.0!

0.5

0.0

0.5

1.0

Swiss Bank Notes

First PC

Se

co

nd

PC

X1

X2X3

X4

X5

X6

Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten.



Zusammenfassung: Interpretation

� Die Gewichtung der Hauptkomponenten bestimmt in welche

Richtungen, ausgedrückt in Originalkoordinaten, die beste

Varianzerklärung liegt. Es muss beachtet werden, dass die PCA

nicht skaleninvariant ist.

� Der relative Anteil ψq =∑q

j=1λj/∑p

j=1λj ist ein Maÿstab dafür,

wie gut die ersten q Hauptkomponenten die Variation erklären.

� Wie gut die Hauptkomponenten die Variation in den Daten

erklären, kann mit einem Scree Plot von diesen Variationen

gra�sch dargestellt werden.



Zusammenfassung: Interpretation

� Die Korrelation zwischen einer Hauptkomponente Yj und einer

Originalvariable Xi kann mit ρXiYj= γij

(λj

σXi Xj

)1/2

berechnet

werden.

� Wird in der Praxis eine Datenmatrix betrachtet, wird die

Korrelation stattdessen mit r2XiYj=

`jg2ij

sXi Xjberechnet. Anders

ausgedrückt entspricht r2XiYjdem Varianzanteil von Xi , der durch

Yj erklärt werden kann.

∗ Ein Plot von rXiY1und rXiY2

zeigt, welche Variablen aus dem

Originaldatensatz am stärksten mit den Hauptkomponenten

korrelieren. Das sind jene Variablen, die sehr Nahe am

Einheitskreis liegen.


Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs

Asymptotische Eigenschaften derHauptkomponenten

Theorem

Sei Σ > 0 mit eindeutigen Eigenwerten und U ∼ m−1Wp(Σ,m) mit

den spektralen Zerlegungen Σ = ΓΛΓ> und U = GLG> gegeben.

Dann sind

(a)√m(`− λ)

L−→ Np(0, 2Λ2),

(b)√m(gj − γj)

L−→ Np(0,Vj), mit Vj = λj∑

k 6=jλk

(λk−λj )2γkγ

>k ,

(c) Cov(gj , gk) = Vjk , (r , s)-Element von Vjk ist:λjλkγrkγsj

[m(λj−λk )2],

(d) Elemente in ` asymptotische unabhängige Elemente in G



BeispielSei X1, . . . ,Xn ∼ N(µ,Σ), nS ∼Wp(Σ, n − 1), dann kann das letzte

Theorem wie folgt ausgedrückt werden:

√n − 1(`j − λj)

L−→ N(0, 2λ2j ), j = 1, . . . , p .

Da die Varianz 2λ2j unbekannt ist, wird die Log-Transformation und

das Transformationstheorem (siehe Multivariate Verteilungen) wie

folgt angewendet:√n − 1

2(log `j − log λj)

L−→ N(0, 1)

Ein zweiseitiges Kon�denzintervall sieht wie folgt aus:

log(`j)− 1.96

√2

n − 1≤ log λj ≤ log(`j) + 1.96

√2

n − 1



Gegeben seien die Bankdaten mit: n = 200, `1 = 2.98.Dafür ist

log(2.98)± 1.96

√2

200− 1= log(2.98)± 0.1965

und das Kon�denzintervall: P{λ1 ∈ (2.448, 3.62)} ≈ 0.95



Erklärung der Varianz durch die ersten qHauptkomponenten

ψ =λ1 + · · ·+ λq

p∑j=1

λj

·

ψ̂ =`1 + · · ·+ `q

p∑j=1

`j

·



Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das

Transformationstheorem 4.11 angewendet:

√n − 1(ψ̂ − ψ)

L−→ N(0,D>VD)

V = 2Λ2

D = (d1, · · · , dp)>

dj =∂ψ

∂λj=

{1−ψtr(Σ)

for 1 ≤ j ≤ q,−ψtr(Σ)

for q + 1 ≤ j ≤ p.



Theorem √n − 1(ψ̂ − ψ)

L−→ N(0, ω2),

ω2 = D>VD =2

{tr(Σ)}2{

(1− ψ)2(λ21 + · · ·+ λ2q)

+ ψ2(λ2q+1 + · · ·+ λ2p)}

=2 tr(Σ2)

{tr(Σ)}2(ψ2 − 2βψ + β)

β =λ21

+ · · ·+ λ2qλ21

+ · · ·+ λ2p.

Hinweis: Mit tr(Λ) = tr(Σ) und tr(Λ2) = tr(Σ2) können die

Berechnungen vereinfacht werden!



BeispielDie erste berechnete Hauptkomponente der Schweizer Banknoten

erklärt 67% der Variation. Nun soll getestet werden, ob der wahre

Anteil sogar bei 75% liegt.

Das Kon�denzintervall mit einer 1-α=0.95Vertrauenswahrscheinlichkeit sei gegeben:

0.668± 1.96

√ω̂2

n − 1,

ω̂2 kann wie folgt berechnet werden:

β̂ =`21

`21

+ · · ·+ `2p= 0.902.

tr(S) = 4.472

tr(S2) =

p∑j=1

`2j = 9.883



ω̂2 =2 tr(S2)

tr(S)2(ψ̂2 − 2β̂ψ̂ + β̂) = 0.142

Damit ist:

0.668± 1.96

√0.142

199= (0.615, 0.720).

Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer

Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden!



Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten

� Die Eigenwerte `j und Eigenvektoren gj sind asymptotisch

normalverteilt, im Speziellen√n − 1(`− λ)

L−→ Np(0, 2Λ2).

� Für die Eigenwerte gilt√

n−12

(log `j − log λj)L−→ N(0, 1).



Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten

� Die asymptotische Normalverteilung erlaubt Kon�ndenzintervalle

zu konstruieren und auf den Anteil der Varianz zu testen, der von

den ersten q Hauptkomponenten erklärt wird.

� Es gilt für die geschätzten ψ̂ von ψ das√n − 1(ψ̂ − ψ)

L−→ N(0, ω2) .


Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA

Normalisierte Hauptkomponentenanalyse(NPCA)

Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw.

dem Maÿstab von Xj .

Die Standardisierung der Komponenten Xj , wenn die Datenmatrix Xsei:

Korrektur des Mittelwertes:

XC = HX

zentrierte Datenmatrix (H = In − n−11n1>n )



Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes:

XS = HXD−1/2 ,

D = diag(sX1X1, . . . , sXpXp) , xS = 0 ,SXS

= R�Korrelationsmatrix

Die PCA von XS wird NPCA (Normalisierte

Hauptkomponentenanalyse) genannt, mit

R = GRLRGR> ,

LR = diag(`R1, . . . , `Rp ).

Die NPC's sind:

Z = XSGR = (z1, . . . , zp) .



Die NPC's genügen:

z = 0,

SZ = GR>SXSGR = GR>RGR = LR .

Kovarianz und Korrelation

SXS ,Z =1

nX>S Z = GRLR

RXS ,Z = GRLRLR−1/2 = GRLR1/2

rXiZj= rXsiZj

=√ljgR,ij

p∑j=1

r2XiZj= 1.



French Food Data

Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel

verschiedener Familien in Frankreich (manual workers = MA,

employees = EM, managers = CA) mit unterschiedlicher Kinderzahl

(2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and

Fénelon (1982).



!1.0 !0.5 0.0 0.5

!0.4

!0.2

0.0

0.2

0.4

0.6

0.8

French Food data

First Factor ! Families

Second F

acto

r !

Fam

ilie

s

MA2

EM2

CA2

MA3

EM3

CA3

MA4

EM4

CA4

MA5

EM5

CA5

Abbildung 7: Gra�sche Darstellung der Individuen



!1.0 !0.5 0.0 0.5 1.0

!1

.0!

0.5

0.0

0.5

1.0

French Food data

First Factor ! Goods

Se

co

nd

Fa

cto

r !

Go

od

s

bread

vegetables

fruits

meatpoultry

milkwine

Abbildung 8: Gra�sche Darstellung der Variablen



Zusammenfassung: NPCA

� Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht

der Hauptkomponentenanalyse (PCA), die auf eine standardisierte

(normalisierte) Datenmatrix XS angewendet wird.

� Die gra�sche Darstellung liefert ähnliche Bilder wie bei der PCA,

jedoch wird hier die relative Position der Individuen

berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede

Variable das selbe Gewicht (bei der PCA hat die Variable mit der

gröÿten Varianz das gröÿte Gewicht).

� Die Qualität der Darstellungen kann durch

ψ =`1 + `2 + . . .+ `q

p∑j=1

`j

.

geschätzt werden.


Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode

Hauptkomponenten als faktorielle Methode

Die empirischen Hauptkomponenten (normalisiert oder nicht) sind

äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix

erhalten würde.

� Die Hauptkomponenten entsprechen Faktoren und werden durch

die Zeilen der zentrierten Datenmatrix repräsentiert.

� Die normalisierten Hauptkomponenten (NPCs) entsprechen den

Faktoren der standardisierten Datenmatrix.



Betrachtet man die Individuen (die Zeilen von X ) und die Variablen

(die Spalten von X ) in einer kleineren Dimension, dann ist

XC = HX .

Die spektrale Zerlegung von X>C XC ist der Zerlegung von SX ähnlich:

X>C XC = X>H>HX = nSX = nGLG>.

Die faktoriellen Variablen werden durch die Projektion von XC auf Gberücksichtigt,

Y = XCG = (y1, . . . , yp).



Da HXC = XC , folgt sofort, dass

y = 0,

SY = G>SXG = L = diag(`1, . . . , `p).

Die faktoriellen Achsen des Streudiagramms der Individuen sind somit

um den Ursprung zentriert und streuen stärker in die erste Richtung

(die erste Hauptkomponente hat die Varianz `1), danach in die zweite

Richtung (die zweite Hauptkomponente hat die Varianz `2).



Duale Relationen

Die Projektionen der Spalten von XC in die Eigenvektoren vk von

XCX>C sind

X>C vk =1√n`kX>C XCgk =

√n`kgk .

Projektionen der ersten p Achse sind die Spalten von

X>C V =√nGL1/2.



Geometrische Darstellung

Betrachte

x>C [j]xC [k] = nsXjXk,

||xC [j]||2 = nsXjXj,

mit xC [j] und xC [k], dabei sei die j-te und k-te Spalte von XC . Wenn

θjk der Winkel zwischen xC [j] und xC [k] ist, kann

cos θjk =x>C [j]xC [k]

‖xC [j]‖ ‖xC [k]‖= rXjXk

geschrieben werden.



Qualität der Darstellungen

Die Qualität der Darstellungen kann mit

ψ =`1 + `2 + . . .+ `q

p∑j=1

`j

.

bestimmt werden.



Es ist sinnvoll den Winkel ϑik zwischen der Darstellung eines

Individuum i und der k-ten Hauptkomponente - oder die

normalisierten Hauptkomponenten-Achse zu berechnen.

cosϑik =y>i ek‖yi‖‖ek‖

=yik‖xCi‖

für die Hauptkomponenten oder analog

cos ζik =z>i ek‖zi‖‖ek‖

=zik‖xSi‖

für die normalisierten Hauptkomponenten, dabei beschreibt ek den

k-ten Einheitsvektor ek = (0, . . . , 1, . . . , 0)>.



Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein

entsprechender Winkel klein ist, zum Beispiel, wenn cos2 ϑik für

k = 1, . . . , p ist dieser nahezu eins. Für jedes Individuum gilt i ,

p∑k=1

cos2 ϑik =y>i yi

x>CixCi=

x>CiGG>xCix>CixCi

= 1

Die Werte cos2 ϑik werden manchmal relative Beiträge der k-ten Achse

zur Darstellung des i-ten Individuums genannt.



Zusammenfassung: Hauptkomponentenals faktorielle Methode

� Normalisierte Hauptkomponenten (NPCs) sind

Hauptkomponenten (PCs), die auf eine standardisierte

(normalisierte) Datenmatrix XS angewendet werden.

� Die gra�sche Darstellung der NPCs ist äquivalent zu der

gra�schen Darstellung der PCs. Der Unterschied liegt lediglich in

der Position der Individuen.

� Die Qualität der Darstellung einer Variablen kann über den

prozentualen Varianzanteil von Xi bewertet werden. Dieser lässt

sich durch eine Hauptkomponente, z.B., mit r2XiYjerklären.


Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten

Common Principal Components (GemeinsameHauptkomponenten)

� Zusammengesetze Dimensionsreduktionstechnik

� Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in

verschiedenen Gruppen.

� Der identische Raum wird von Eigenvektoren aufgespannt.

Flury (1988)HCPC : Σi = ΓΛiΓ

>, i = 1, ..., k

Σi Bevölkerungs Kovarianzmatrix der Gruppe iΓ = (γ1, ..., γp) Transformationsmatrix

Λi = diag(λi1, ..., λip) Eigenwertmatrix



Beispiel

Gemeinsame Hauptkomponentenanalyse für die impliziten

Ober�ächenschwankungen des Dax-Index von 1999.

Ober�ächenglättung (tageweise).

Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3

Der Moneynessbereich: 0.85− 1.10



1 2 3 4 5 6

!1.0

!0.5

0.0

0.5

1.0

PCP for CPCA, 3 eigenvectors

moneyness

loading

Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der

dritten (dünn) Hauptkomponente.


Download - Angewandte Multivariate Statistik - TU Dresden · Die Hauptkomponenten-Methode ist emp ndlich gegenüber Skala-bzw. Maÿstabsänderungen . Die Hauptkomponenten (PC) ... 1.0 2.0 Eigenvalues

Top Related