Angewandte Multivariate Statistik
Angewandte Multivariate Statistik
Prof. Dr. Ostap Okhrin
Ostap Okhrin 1 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Principal Components Analysis(Hauptkomponentenanalyse)
Ziel:
� Reduziere die Dimension einer p-variaten Zufallsvariable X über
Linearkombinationen.
� Diese Linearkombinationen sollten die gröÿte Streuung zwischen
den Werten von X erzeugen, z. B. in dem die
Linearkombinationen mit den gröÿten Varianzen gesucht werden.
Ostap Okhrin 2 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Principal Components Analysis(Hauptkomponentenanalyse)
Standardisierte Linearkombination (SLC)Für eine standardisierte Linearkombination (SLC) mit einem
gewichteten Durchschnitt von X kann
δ>X =∑p
j=1δjXj ||δ|| = 1,
∑pj=1
δ2j = 1
↗standardisiert
geschrieben werden. δ = (δ1, ..., δp)> ist dabei der Wichtungsvektor,
der die Richtung der Linearkombinationen bestimmt.
Ostap Okhrin 3 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von
δ>X maximiert:
max{δ:‖δ‖=1}
Var(δ>X ) = max{δ:‖δ‖=1}
δ> Var(X )δ.
Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung)
ist der Eigenvektor γ1 mit dem dazugehörigen gröÿten Eigenwert λ1der Kovarianz-Matrix Σ = Var(X ).
Ostap Okhrin 4 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Gegeben sei:
erste Hauptkomponente: Y1 = γ>1X
zweite Hauptkomponente: Y2 = γ>2X
...und so weiter mit γi⊥γj∀i 6= j .
Allgemein:Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X
mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ> ist:
Y = Γ>(X − µ)
Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente
einen Erwartungswert von Null erhält.
Ostap Okhrin 5 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
−3 −2 −1 0 1 2 3−5
0
5Direction in Data
−3 −2 −1 0 1 2 3−1
0
1Projection
Explained variance 0.50520Total variance 1.96569Explained percentage 0.25701
Abbildung 1: Eine beliebige SLC
Ostap Okhrin 6 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
−3 −2 −1 0 1 2 3−5
0
5Direction in Data
−3 −2 −1 0 1 2 3−1
0
1Projection
Explained variance 1.46049Total variance 1.96569Explained percentage 0.74299
Abbildung 2: Die interessanteste SLC
Ostap Okhrin 7 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Beispiel
Bivariate Normalverteilung N(0,Σ), Σ =(1ρρ1
), ρ > 0.
Eigenwerte dieser Matrix sind λ1 = 1 + ρ und λ2 = 1− ρ mit den
dazugehörigen Eigenvektoren
γ1 =1√2
(1
1
), γ2 =
1√2
(1
−1
).
Die PC Transformation ist somit
Y = Γ>(X − µ) =1√2
(1 1
1 −1
)X
or (Y1
Y2
)=
1√2
(X1 + X2
X1 − X2
).
Ostap Okhrin 8 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Die erste Hauptkomponente (PC) ist
Y1 =1√2
(X1 + X2)
und die zweite ist
Y2 =1√2
(X1 − X2).
Ostap Okhrin 9 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Berechne die Varianzen von diesen Hauptkomponenten (PCs)
Var(Y1) = Var
{1√2
(X1 + X2)
}=
1
2Var(X1 + X2)
=1
2{Var(X1) + Var(X2) + 2Cov(X1,X2)}
=1
2(1 + 1 + 2ρ) = 1 + ρ
= λ1.
Auf die gleiche Weise kann Var(Y2) = λ2 = 1− ρ. gefunden werden.
Ostap Okhrin 10 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Theorem
Sei X ∼ (µ,Σ) und Y = Γ>(X − µ) die PC Transformation. Dann ist
für j=1,...,p:EYj = 0
Var(Yj) = λjCov(Yi ,Yj) = 0, for i 6= jVar(Y1) ≥ · · · ≥ Var(Yp) ≥ 0∑p
j=1Var(Yj) = tr(Σ)∏p
j=1Var(Yj) = |Σ|.
Ostap Okhrin 11 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Theorem
Es gibt keine SLC, die eine gröÿere Varianz als λ1 = Var(Y1) hat.
Theorem
Sei Y = a>X eine SLC, die nicht mit den ersten k Hauptkomponenten
(PCs) von X korreliert, dann wird Var(Y ) durch a = γk+1 maximal.
Ostap Okhrin 12 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Zusammenfassung: SLC
� Eine standardisierte Linearkombination (SLC) ist ein gewichteter
Durchschnitt δ>X =∑p
j=1δjXj . Der Vektor δ hat eine Länge von
1.
� Durch Maximieren der Varianz von δ>X wird der Eigenvektor
δ = γ1 gefunden. Dieser Eigenvektor gehört zum gröÿten
Eigenwert λ1 der Kovarianzmatrix Σ = Var(X ).Das entspricht einer Projektion von X in einem eindimensionalen
Raum, in dem die Komponenten von X von den Elementen γ1gewichtet werden.
� Y1 = γ>1
(X − µ) wird die erste Hauptkomponente (�rst PC)
genannt.
Ostap Okhrin 13 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Zusammenfassung: SLC
� Diese Projektion kann für höhere Dimensionen verallgemeinert
werden. Die PC Transformation ist eine Lineartransformation
Y = Γ>(X − µ), mit Σ = Var(X ) = Γ>ΛΓ und µ = EX .
Y1,Y2, . . . ,Yp wird erste, zweite,. . . , p-te Hauptkomponente
(�rst, second,. . . ,pth PCs) genannt.
Ostap Okhrin 14 of 60
Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination
Zusammenfassung: SLC
� Die Hauptkomponenten (PCs) haben einen Erwartungswert von
Null, eine Varianz Var(Yj) = λj , und keine Kovarianzen. Gilt
λ1 ≥ . . . ≥ λp, ist Var(Y1) ≥ . . . ≥ Var(Yp). Des Weiteren sei∑pj=1
Var(Yj) = tr(Σ) und∏p
j=1Var(Yj) = |Σ|.
� Wenn Y = a>X eine SLC ist, die nicht mit den ersten kHauptkomponenten von X korreliert, wird die Varianz von Ydurch die Wahl von a gleich der (k + 1)ten Hauptkomponente
maximiert.
Ostap Okhrin 15 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
Hauptkomponenten in der Praxis
� µ wird x ,
� Σ ändert sich zu S = GLG>
Y = (X − 1nx>)G
SY = n−1Y>HY= n−1G>(X − 1nx
>)>H(X − 1nx>)G
= n−1G>X>HXG = G>SG = L
L = diag(`1, . . . , `p) ist die Matrix der Eigenwerte von S.
Ostap Okhrin 16 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
y1 = (X − 1nx>)g1
g1 = 1. Evec(S)
g2 = 2. Evec(S)
g3 = 3. Evec(S)
...
Die Hauptkomponenten-Methode ist emp�ndlich gegenüber Skala-bzw. Maÿstabsänderungen. Die Hauptkomponenten (PC)
Transformation sollte nur für Daten angewendet werden, die nahezu
die selbe Skala in jeder Variable aufweisen.
Ostap Okhrin 17 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
BeispielEs wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von
X ist:
x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5)> ,
der Vektor mit den Eigenwerten von S ist:
` = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035)> .
Ostap Okhrin 18 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
Die Eigenvektoren gj entsprechen den Spalten von G:
G =
−0.044 0.011 0.326 0.562 −0.753 0.0980.112 0.071 0.259 0.455 0.347 −0.7670.139 0.066 0.345 0.415 0.535 0.6320.768 −0.563 0.218 −0.186 −0.100 −0.0220.202 0.659 0.557 −0.451 −0.102 −0.035−0.579 −0.489 0.592 −0.258 0.085 −0.046
Die erste Spalte von G ist der erste Eigenvektor. Er liefert die
Gewichte, die für die erste Hauptkomponente benötigt werden.
Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte
Banknoten wurden mit o und gefälschte mit + gekennzeichnet.
Ostap Okhrin 19 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
!!
!
!
!
!!
!
!
!
!
!
!!!
!
!
!
!
!!
!!
!
!
!
!
!
!
!
!
!
!
!!
!
!!
!
!
!
!
!
!
!
!!
!!
!
!
!
!!
!
!
!
!
!
!
!
!!!
!!!
!
!
!
!
!
!
!! !
!
! !
!
!
!
!
!!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!51 !49 !47
!50
!48
!46
!44
First vs. Second PC
PC1
PC2
!
!
! !
!
!
! !
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
! !
!!
!
!
!!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!!
!
!!
!! !
!
!
!
!
!
!
!!
!
!
!
!
!
!
!!
!
!
!!
!
!!
!
!
!
!50 !48 !46 !44
!238.5
!240.0
!241.5
Second vs. Third PC
PC2
PC3
!
!
!!
!
!
!!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!!
!
!
!!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!!
!
!!
!!!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!!
!
!
!!
!
!!
!
!
!
!51 !49 !47
!238.5
!240.0
!241.5
First vs. Third PC
PC1
PC2
!
!
! !! !
1 2 3 4 5 6
0.0
1.0
2.0
3.0
Eigenvalues of S
Index
Lambda
Abbildung 3: Hauptkomponenten der Bankdaten.
Ostap Okhrin 20 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
Beispiel (Skala- bzw. Maÿstabsänderung)Umskalierung der Variablen X1,X2,X3, und X6 in cm,
nur X4 und X5 werden weiterhin mm angegeben.
Damit ist
x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05)> ,
und
` = (2.101, 0.623, 0.005, 0.002, 0.001, 0.0004)> .
Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe
Abbildung 4): die 1. Hauptkomponente wird durch X4 und die 2.
Hauptkomponente durch X5 dominiert. Die anderen Variablen haben
deutlich weniger Gewicht.
Ostap Okhrin 21 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
!! !
!
!
!
!
!!
!
!
!
!!!
!
!
!
!
!!
!
!
!
!!
!
!
!
!
!
!
!
!!
!!
!
!
!
!
!
!
!
!!!
!
!
!
!
!
!!
!
!
!
!
!
!
!
! !!
!!!
!
!
!!
!
!
!! !
!
!!
!!
!
!
!!
!
!
!
!
!
!!
!
!
!
!
!!
!!
8 9 10 11 12 13
!10
!9
!8
!7
!6
First vs. Second PC
PC1
PC2
!
!
!!
!
!
!
!
!
!
!
!
!
!!
!
! !
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!!
!
!
!!
!
!
! !!
!!
!
!!
!
!
!
!!
!
!
!!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!!
!
!
!!
!
!
!
!10 !9 !8 !7 !6
!14.3
!14.1
!13.9
Second vs. Third PC
PC2
PC3
!
!
!!
!
!
!
!
!
!
!
!
!
!!
!
! !
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!!
!
!
!!
!
!
!!!
!!
!
!!
!
!
!
!!
!
!
!!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!!
!
!
!!
!
!
!
8 9 10 11 12 13
!14.3
!14.1
!13.9
First vs. Third PC
PC1
PC2
!
!
! ! ! !
1 2 3 4 5 6
0.0
1.0
2.0
Eigenvalues of S
Index
Lambda
Abbildung 4: Hauptkomponenten der umskalierten Bankdaten
Ostap Okhrin 22 of 60
Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis
Zusammenfassung: PCs in der Praxis
� Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich
sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt
wird.
� Für die Anwendung der PCA in der Praxis wird µ durch den
Mittelwert x und Σ durch die empirische Kovarianz S ersetzt.
Anschlieÿend werden die Eigenwerte `1, . . . , `p und die
Eigenvektoren g1, . . . , gp von S berechnet.
� Für die gra�sche Darstellung der Hauptkomponenten wird die
geplottete 1. Hauptkomponente der 2. Hauptkomponente (und
eventuell der 3. Hauptkomponente) gegenübergestellt.
� Die Komponenten des Eigenvektors gi sind die Gewichte der
originalen Variablen in den Hauptkomponenten.
Ostap Okhrin 23 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
Interpretation der Hauptkomponenten
Die Varianz wird durch die ersten q Hauptkomponenten erklärt.
ψ =λ1 + · · ·+ λq
p∑j=1
λj
=
q∑j=1
Var(Yj)
p∑j=1
Var(Yj)
=
q∑j=1
Var(Yj)
tr(Σ)
Ostap Okhrin 24 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem
Originalvektor X :
Cov(X ,Y ) = E(XY>)− EX EY>
= E(XX>Γ)− µµ>Γ = Var(X )Γ
= ΣΓ
= ΓΛΓ>Γ
= ΓΛ
Korrelation zwischen Variable Xi und der Hauptkomponente Yj :
ρXiYj= γij
(λjσXiXi
)1/2
.
Ostap Okhrin 25 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
BeispielBankdaten:
Eigenwert Varianz- kumulierter
anteil Anteil
2.985 0.67 0.67
0.931 0.21 0.88
0.242 0.05 0.93
0.194 0.04 0.97
0.085 0.02 0.99
0.035 0.01 1.00
Ostap Okhrin 26 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
!
!
!!
!!
1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
Swiss Bank Notes
Index
Vari
ance E
xpla
ined
Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt
werden kann.
Ostap Okhrin 27 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
ψ1 =λ1 + · · ·+ λq
p∑j=1
λj
Arbeitsschritte fürs Plotten:
1. Berechnen der Kovarianzmatrix
2. Berechnen der Eigenwerte
3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte
4. Plotten der Anteile auf der y�Achse
Ostap Okhrin 28 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
!1.0 !0.5 0.0 0.5 1.0
!1
.0!
0.5
0.0
0.5
1.0
Swiss Bank Notes
First PC
Se
co
nd
PC
X1
X2X3
X4
X5
X6
Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten.
Ostap Okhrin 29 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
Zusammenfassung: Interpretation
� Die Gewichtung der Hauptkomponenten bestimmt in welche
Richtungen, ausgedrückt in Originalkoordinaten, die beste
Varianzerklärung liegt. Es muss beachtet werden, dass die PCA
nicht skaleninvariant ist.
� Der relative Anteil ψq =∑q
j=1λj/∑p
j=1λj ist ein Maÿstab dafür,
wie gut die ersten q Hauptkomponenten die Variation erklären.
� Wie gut die Hauptkomponenten die Variation in den Daten
erklären, kann mit einem Scree Plot von diesen Variationen
gra�sch dargestellt werden.
Ostap Okhrin 30 of 60
Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs
Zusammenfassung: Interpretation
� Die Korrelation zwischen einer Hauptkomponente Yj und einer
Originalvariable Xi kann mit ρXiYj= γij
(λj
σXi Xj
)1/2
berechnet
werden.
� Wird in der Praxis eine Datenmatrix betrachtet, wird die
Korrelation stattdessen mit r2XiYj=
`jg2ij
sXi Xjberechnet. Anders
ausgedrückt entspricht r2XiYjdem Varianzanteil von Xi , der durch
Yj erklärt werden kann.
∗ Ein Plot von rXiY1und rXiY2
zeigt, welche Variablen aus dem
Originaldatensatz am stärksten mit den Hauptkomponenten
korrelieren. Das sind jene Variablen, die sehr Nahe am
Einheitskreis liegen.
Ostap Okhrin 31 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Asymptotische Eigenschaften derHauptkomponenten
Theorem
Sei Σ > 0 mit eindeutigen Eigenwerten und U ∼ m−1Wp(Σ,m) mit
den spektralen Zerlegungen Σ = ΓΛΓ> und U = GLG> gegeben.
Dann sind
(a)√m(`− λ)
L−→ Np(0, 2Λ2),
(b)√m(gj − γj)
L−→ Np(0,Vj), mit Vj = λj∑
k 6=jλk
(λk−λj )2γkγ
>k ,
(c) Cov(gj , gk) = Vjk , (r , s)-Element von Vjk ist:λjλkγrkγsj
[m(λj−λk )2],
(d) Elemente in ` asymptotische unabhängige Elemente in G
Ostap Okhrin 32 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
BeispielSei X1, . . . ,Xn ∼ N(µ,Σ), nS ∼Wp(Σ, n − 1), dann kann das letzte
Theorem wie folgt ausgedrückt werden:
√n − 1(`j − λj)
L−→ N(0, 2λ2j ), j = 1, . . . , p .
Da die Varianz 2λ2j unbekannt ist, wird die Log-Transformation und
das Transformationstheorem (siehe Multivariate Verteilungen) wie
folgt angewendet:√n − 1
2(log `j − log λj)
L−→ N(0, 1)
Ein zweiseitiges Kon�denzintervall sieht wie folgt aus:
log(`j)− 1.96
√2
n − 1≤ log λj ≤ log(`j) + 1.96
√2
n − 1
Ostap Okhrin 33 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Gegeben seien die Bankdaten mit: n = 200, `1 = 2.98.Dafür ist
log(2.98)± 1.96
√2
200− 1= log(2.98)± 0.1965
und das Kon�denzintervall: P{λ1 ∈ (2.448, 3.62)} ≈ 0.95
Ostap Okhrin 34 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Erklärung der Varianz durch die ersten qHauptkomponenten
ψ =λ1 + · · ·+ λq
p∑j=1
λj
·
ψ̂ =`1 + · · ·+ `q
p∑j=1
`j
·
Ostap Okhrin 35 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das
Transformationstheorem 4.11 angewendet:
√n − 1(ψ̂ − ψ)
L−→ N(0,D>VD)
V = 2Λ2
D = (d1, · · · , dp)>
dj =∂ψ
∂λj=
{1−ψtr(Σ)
for 1 ≤ j ≤ q,−ψtr(Σ)
for q + 1 ≤ j ≤ p.
Ostap Okhrin 36 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Theorem √n − 1(ψ̂ − ψ)
L−→ N(0, ω2),
ω2 = D>VD =2
{tr(Σ)}2{
(1− ψ)2(λ21 + · · ·+ λ2q)
+ ψ2(λ2q+1 + · · ·+ λ2p)}
=2 tr(Σ2)
{tr(Σ)}2(ψ2 − 2βψ + β)
β =λ21
+ · · ·+ λ2qλ21
+ · · ·+ λ2p.
Hinweis: Mit tr(Λ) = tr(Σ) und tr(Λ2) = tr(Σ2) können die
Berechnungen vereinfacht werden!
Ostap Okhrin 37 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
BeispielDie erste berechnete Hauptkomponente der Schweizer Banknoten
erklärt 67% der Variation. Nun soll getestet werden, ob der wahre
Anteil sogar bei 75% liegt.
Das Kon�denzintervall mit einer 1-α=0.95Vertrauenswahrscheinlichkeit sei gegeben:
0.668± 1.96
√ω̂2
n − 1,
ω̂2 kann wie folgt berechnet werden:
β̂ =`21
`21
+ · · ·+ `2p= 0.902.
tr(S) = 4.472
tr(S2) =
p∑j=1
`2j = 9.883
Ostap Okhrin 38 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
ω̂2 =2 tr(S2)
tr(S)2(ψ̂2 − 2β̂ψ̂ + β̂) = 0.142
Damit ist:
0.668± 1.96
√0.142
199= (0.615, 0.720).
Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer
Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden!
Ostap Okhrin 39 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten
� Die Eigenwerte `j und Eigenvektoren gj sind asymptotisch
normalverteilt, im Speziellen√n − 1(`− λ)
L−→ Np(0, 2Λ2).
� Für die Eigenwerte gilt√
n−12
(log `j − log λj)L−→ N(0, 1).
Ostap Okhrin 40 of 60
Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs
Zusammenfassung: AsymptotischeEigenschaften derHauptkomponenten
� Die asymptotische Normalverteilung erlaubt Kon�ndenzintervalle
zu konstruieren und auf den Anteil der Varianz zu testen, der von
den ersten q Hauptkomponenten erklärt wird.
� Es gilt für die geschätzten ψ̂ von ψ das√n − 1(ψ̂ − ψ)
L−→ N(0, ω2) .
Ostap Okhrin 41 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
Normalisierte Hauptkomponentenanalyse(NPCA)
Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw.
dem Maÿstab von Xj .
Die Standardisierung der Komponenten Xj , wenn die Datenmatrix Xsei:
Korrektur des Mittelwertes:
XC = HX
zentrierte Datenmatrix (H = In − n−11n1>n )
Ostap Okhrin 42 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes:
XS = HXD−1/2 ,
D = diag(sX1X1, . . . , sXpXp) , xS = 0 ,SXS
= R�Korrelationsmatrix
Die PCA von XS wird NPCA (Normalisierte
Hauptkomponentenanalyse) genannt, mit
R = GRLRGR> ,
LR = diag(`R1, . . . , `Rp ).
Die NPC's sind:
Z = XSGR = (z1, . . . , zp) .
Ostap Okhrin 43 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
Die NPC's genügen:
z = 0,
SZ = GR>SXSGR = GR>RGR = LR .
Kovarianz und Korrelation
SXS ,Z =1
nX>S Z = GRLR
RXS ,Z = GRLRLR−1/2 = GRLR1/2
rXiZj= rXsiZj
=√ljgR,ij
p∑j=1
r2XiZj= 1.
Ostap Okhrin 44 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
French Food Data
Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel
verschiedener Familien in Frankreich (manual workers = MA,
employees = EM, managers = CA) mit unterschiedlicher Kinderzahl
(2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and
Fénelon (1982).
Ostap Okhrin 45 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
!1.0 !0.5 0.0 0.5
!0.4
!0.2
0.0
0.2
0.4
0.6
0.8
French Food data
First Factor ! Families
Second F
acto
r !
Fam
ilie
s
MA2
EM2
CA2
MA3
EM3
CA3
MA4
EM4
CA4
MA5
EM5
CA5
Abbildung 7: Gra�sche Darstellung der Individuen
Ostap Okhrin 46 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
!1.0 !0.5 0.0 0.5 1.0
!1
.0!
0.5
0.0
0.5
1.0
French Food data
First Factor ! Goods
Se
co
nd
Fa
cto
r !
Go
od
s
bread
vegetables
fruits
meatpoultry
milkwine
Abbildung 8: Gra�sche Darstellung der Variablen
Ostap Okhrin 47 of 60
Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA
Zusammenfassung: NPCA
� Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht
der Hauptkomponentenanalyse (PCA), die auf eine standardisierte
(normalisierte) Datenmatrix XS angewendet wird.
� Die gra�sche Darstellung liefert ähnliche Bilder wie bei der PCA,
jedoch wird hier die relative Position der Individuen
berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede
Variable das selbe Gewicht (bei der PCA hat die Variable mit der
gröÿten Varianz das gröÿte Gewicht).
� Die Qualität der Darstellungen kann durch
ψ =`1 + `2 + . . .+ `q
p∑j=1
`j
.
geschätzt werden.
Ostap Okhrin 48 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Hauptkomponenten als faktorielle Methode
Die empirischen Hauptkomponenten (normalisiert oder nicht) sind
äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix
erhalten würde.
� Die Hauptkomponenten entsprechen Faktoren und werden durch
die Zeilen der zentrierten Datenmatrix repräsentiert.
� Die normalisierten Hauptkomponenten (NPCs) entsprechen den
Faktoren der standardisierten Datenmatrix.
Ostap Okhrin 49 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Betrachtet man die Individuen (die Zeilen von X ) und die Variablen
(die Spalten von X ) in einer kleineren Dimension, dann ist
XC = HX .
Die spektrale Zerlegung von X>C XC ist der Zerlegung von SX ähnlich:
X>C XC = X>H>HX = nSX = nGLG>.
Die faktoriellen Variablen werden durch die Projektion von XC auf Gberücksichtigt,
Y = XCG = (y1, . . . , yp).
Ostap Okhrin 50 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Da HXC = XC , folgt sofort, dass
y = 0,
SY = G>SXG = L = diag(`1, . . . , `p).
Die faktoriellen Achsen des Streudiagramms der Individuen sind somit
um den Ursprung zentriert und streuen stärker in die erste Richtung
(die erste Hauptkomponente hat die Varianz `1), danach in die zweite
Richtung (die zweite Hauptkomponente hat die Varianz `2).
Ostap Okhrin 51 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Duale Relationen
Die Projektionen der Spalten von XC in die Eigenvektoren vk von
XCX>C sind
X>C vk =1√n`kX>C XCgk =
√n`kgk .
Projektionen der ersten p Achse sind die Spalten von
X>C V =√nGL1/2.
Ostap Okhrin 52 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Geometrische Darstellung
Betrachte
x>C [j]xC [k] = nsXjXk,
||xC [j]||2 = nsXjXj,
mit xC [j] und xC [k], dabei sei die j-te und k-te Spalte von XC . Wenn
θjk der Winkel zwischen xC [j] und xC [k] ist, kann
cos θjk =x>C [j]xC [k]
‖xC [j]‖ ‖xC [k]‖= rXjXk
geschrieben werden.
Ostap Okhrin 53 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Qualität der Darstellungen
Die Qualität der Darstellungen kann mit
ψ =`1 + `2 + . . .+ `q
p∑j=1
`j
.
bestimmt werden.
Ostap Okhrin 54 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Es ist sinnvoll den Winkel ϑik zwischen der Darstellung eines
Individuum i und der k-ten Hauptkomponente - oder die
normalisierten Hauptkomponenten-Achse zu berechnen.
cosϑik =y>i ek‖yi‖‖ek‖
=yik‖xCi‖
für die Hauptkomponenten oder analog
cos ζik =z>i ek‖zi‖‖ek‖
=zik‖xSi‖
für die normalisierten Hauptkomponenten, dabei beschreibt ek den
k-ten Einheitsvektor ek = (0, . . . , 1, . . . , 0)>.
Ostap Okhrin 55 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein
entsprechender Winkel klein ist, zum Beispiel, wenn cos2 ϑik für
k = 1, . . . , p ist dieser nahezu eins. Für jedes Individuum gilt i ,
p∑k=1
cos2 ϑik =y>i yi
x>CixCi=
x>CiGG>xCix>CixCi
= 1
Die Werte cos2 ϑik werden manchmal relative Beiträge der k-ten Achse
zur Darstellung des i-ten Individuums genannt.
Ostap Okhrin 56 of 60
Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode
Zusammenfassung: Hauptkomponentenals faktorielle Methode
� Normalisierte Hauptkomponenten (NPCs) sind
Hauptkomponenten (PCs), die auf eine standardisierte
(normalisierte) Datenmatrix XS angewendet werden.
� Die gra�sche Darstellung der NPCs ist äquivalent zu der
gra�schen Darstellung der PCs. Der Unterschied liegt lediglich in
der Position der Individuen.
� Die Qualität der Darstellung einer Variablen kann über den
prozentualen Varianzanteil von Xi bewertet werden. Dieser lässt
sich durch eine Hauptkomponente, z.B., mit r2XiYjerklären.
Ostap Okhrin 57 of 60
Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten
Common Principal Components (GemeinsameHauptkomponenten)
� Zusammengesetze Dimensionsreduktionstechnik
� Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in
verschiedenen Gruppen.
� Der identische Raum wird von Eigenvektoren aufgespannt.
Flury (1988)HCPC : Σi = ΓΛiΓ
>, i = 1, ..., k
Σi Bevölkerungs Kovarianzmatrix der Gruppe iΓ = (γ1, ..., γp) Transformationsmatrix
Λi = diag(λi1, ..., λip) Eigenwertmatrix
Ostap Okhrin 58 of 60
Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten
Beispiel
Gemeinsame Hauptkomponentenanalyse für die impliziten
Ober�ächenschwankungen des Dax-Index von 1999.
Ober�ächenglättung (tageweise).
Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3
Der Moneynessbereich: 0.85− 1.10
Ostap Okhrin 59 of 60
Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten
1 2 3 4 5 6
!1.0
!0.5
0.0
0.5
1.0
PCP for CPCA, 3 eigenvectors
moneyness
loading
Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der
dritten (dünn) Hauptkomponente.
Ostap Okhrin 60 of 60