3 faktorenanalyse - uni-kiel.de · fa13 1 3 faktorenanalyse 3.1 modell bei der faktorenanalyse geht...
TRANSCRIPT
FA13 1
3 Faktorenanalyse
3.1 Modell
Bei der Faktorenanalyse geht es um den Versuch einer’Erklarung‘ der korrelativen
Zusammenhange zwischen mehreren Variablen, beispielsweise aus dem Bereich
der Personlichkeitspsychologie oder der Intelligenzforschung.
Leider ist die Terminologie recht uneinheitlich. So ist es recht verbreitet, den
Terminus’Faktorenanalyse‘ als Oberbegriff fur Modelle, wie sie hier untersucht
werden sollen, einerseits und fur die Hauptkomponentenanalyse andererseits zu
gebrauchen. Es wird klar werden, dass eine solche Terminologie ganz unglucklich
ist, da sie fundamentale Unterschiede zwischen zwei grundverschiedenen Ansatzen
vernebelt.
Zunachst ein Beispiel fur ein typisches Anwendungsfeld: Ein Personlichkeitsfrage-
bogen besteht meist aus mehreren Einzelitems, bei denen eine Vp als Antwort
eine Zahl auf einer Skala ankreuzen kann: (Item:”Ich habe meist gute Laune“,
Antwort:”trifft uberhaupt nicht zu“ (−3) . . .
”trifft voll und ganz zu“ (+3))
Legt man den Fragebogen einer großeren Stichprobe von Versuchspersonen vor
und korreliert die Antworten auf die einzelnen Items, so erhalt man eine Kor-
relationsmatrix, die so viele Zeilen und Spalten hat, wie Items vorhanden sind.
Zum Teil werden die Korrelationen recht hoch sein, was man dadurch zu er-
klaren sucht, dass man hinter den Antworten Personlichkeitseigenschaften an-
nimmt, die die Antworten auf die Einzelitems beeinflussen. Wirkt sich eine solche
Personlichkeitseigenschaft auf mehrere Items aus, so sollte dies zu Korrelationen
der Items untereinander fuhren.
Allgemein stellt man sich vor, dass hinter den beobachtbaren Variablen (z. B. den
Einzelitems) gewisse latente Variablen oder Faktoren stehen, die diese Variablen
’beeinflussen‘, und dadurch die Korrelationen bewirken. Allerdings nimmt man
keine’deterministischen‘ Einflusse an, sondern lasst zusatzlich noch Fehler, also
Abweichungen von dem Resultat der Einflusse zu.
Die Prazisierung des Ausdrucks’Einfluss‘ im Modell ist die folgende: Der Wert
der beeinflussenden Variable wird mit einem festen Koeffizienten multipliziert
und das Ergebnis wird dann zur beeinflussten Variable hinzuaddiert. Der Wert
einer Variable ergibt sich als Summe aller derartiger Einzelanteile und Fehler.
3.1 Modell FA13 2
Zu beachten ist, dass die Werte, die die beeinflussenden Variablen annehmen,
von Person zu Person unterschiedlich sind, ebenso die Fehler (die vielleicht so-
gar von Situation zu Situation als variabel angenommen werden), wahrend die
Koeffizienten, mit denen multipliziert wird, uber die Personen hinweg konstant
sind.
Die beobachtbaren Variablen und die Faktoren werden dabei als standardisiert
angenommen; ihr Erwartungswert soll also 0 sein und ihre Varianz 1. Dies kann
durch lineare Reskalierung (z-Transformation) und Anpassung der Koeffizienten
immer leicht erreicht werden, so dass diese Zusatzvoraussetzungen unkritisch sind.
(Zu der Frage der Anpassung der Koeffizienten sei an die sogenannten b-Gewichte
und β-Gewichte in der multiplen Regression erinnert.)
Eine Folge dieser Voraussetzungen ist, dass die Kovarianzmatrix der Faktoren
mit der entsprechenden Korrelationsmatrix ubereinstimmt; das gleiche gilt fur
die beobachtbaren Variablen.
Zunachst ein Beispiel: Ein kleiner Personlichkeitsfragebogen besteht aus 3 Items:
1. Ich fahre gerne Riesenrad
2. Ich liebe laute Musik
3. Ich habe Angst vor Spinnen
Ein mogliches faktorenanalytisches Modell konnte annehmen, dass hinter diesen
drei Items zwei Faktoren stehen, namlich Extraversion und Neurotizismus. Die
Einflusskoeffizienten seien bekannt und in der folgenden Graphik eingetragen:
f1 .......................................................
...............................................................................................................................................................................................................................................................................................................
f2 .......................................................
...............................................................................................................................................................................................................................................................................................................
x1
x2
x3
e1
e2
e3
....................................................
....................................................
....................................................
....................................................................
......................................
.7
..........................................................................................................................................................................................................................................................................................................................
......................................
−.4
........................................................................................................................................................................................................................................ .....................
.................
.8
....................................
....................................
....................................
....................................
....................................
....................................................
......................................
0
................................................................................................................................................................................................................................................................................................................
..........
......................................
−.2
................................................................................................................................................................................................................................ .........................
.............
.9
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
3.1 Modell FA13 3
Eine Versuchsperson, Silvia Sorglos, moge die folgenden Faktorwerte besitzen: .6
fur Extraversion und −.4 fur Neurotizismus. Die Werte in den Items sind dadurch
bis auf die Fehler bestimmt, die .2, −.1 und .4 betragen mogen. Es ergeben sich
dann die Werte der beobachtbaren Variablen wie folgt:
.6 .......................................................
...............................................................................................................................................................................................................................................................................................................
−.4 .......................................................
...............................................................................................................................................................................................................................................................................................................
.78
.38
−.08
.2
−.1
.4
....................................................
....................................................
....................................................
....................................................................
......................................
.7
..........................................................................................................................................................................................................................................................................................................................
......................................
−.4
........................................................................................................................................................................................................................................ .....................
.................
.8
....................................
....................................
....................................
....................................
....................................
....................................................
......................................
0
................................................................................................................................................................................................................................................................................................................
..........
......................................
−.2
................................................................................................................................................................................................................................ .........................
.............
.9
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
Die Werte fur die Items ergeben sich dabei so:
x1 = (.7) (.6) + (−.4) (−.4) + .2 = .78
x2 = (.8) (.6) + (0) (−.4) + (−.1) = .38
x3 = (−.2) (.6) + (.9) (−.4) + .4 = −.08
oder kurz
x1x2x3
=
.7 −.4.8 0
−.2 .9
( .6
−.4
)+
.2
−.1.4
=
.78
.38
−.08
.
3.1 Modell FA13 4
Eine weitere Versuchsperson, Zacharias Zaghaft, besitze dagegen die folgenden
Faktorwerte: −.3 fur Extraversion und .5 fur Neurotizismus. Die Werte in den
Items sind dadurch wieder bis auf die Fehler bestimmt, die −.1, .2 und .1 betragen
mogen. Es ergeben sich dann die Werte der beobachtbaren Variablen wie folgt:
−.3 .......................................................
...............................................................................................................................................................................................................................................................................................................
.5 .......................................................
...............................................................................................................................................................................................................................................................................................................
−.51
−.04
.61
−.1
.2
.1
....................................................
....................................................
....................................................
....................................................................
......................................
.7
..........................................................................................................................................................................................................................................................................................................................
......................................
−.4
........................................................................................................................................................................................................................................ .....................
.................
.8
....................................
....................................
....................................
....................................
....................................
....................................................
......................................
0
................................................................................................................................................................................................................................................................................................................
..........
......................................
−.2
................................................................................................................................................................................................................................ .........................
.............
.9
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
Die Werte fur die Items ergeben sich dabei so:
x1 = (.7) (−.3) + (−.4) (.5) + (−.1) = −.51
x2 = (.8) (−.3) + (0) (.5) + .2 = −.04
x3 = (−.2) (−.3) + (.9) (.5) + .1 = .61
oder kurz
x1x2x3
=
.7 −.4.8 0
−.2 .9
(−.3.5
)+
−.1.2.1
=
−.51
−.04
.61
.
3.1 Modell FA13 5
Betrachtet man die beiden Rechnungen, so sieht man, dass die Werte in den
Faktoren und den Fehlern (und folglich den Items) bei beiden Personen unter-
schiedlich sind, wahrend die Koeffizienten, in denen sich die Große des Einflusses
ausdruckt, uber die Personen hinweg konstant sind.
Hat nun eine beliebige Versuchsperson die Werte f1 und f2 in den beiden Faktoren
und die Werte e1, e2 und e3 als Fehler, so ergibt sich das folgende Bild:
f1 .......................................................
...............................................................................................................................................................................................................................................................................................................
f2 .......................................................
...............................................................................................................................................................................................................................................................................................................
x1
x2
x3
e1
e2
e3
....................................................
....................................................
....................................................
....................................................................
......................................
.7
..........................................................................................................................................................................................................................................................................................................................
......................................
−.4
........................................................................................................................................................................................................................................ .....................
.................
.8
....................................
....................................
....................................
....................................
....................................
....................................................
......................................
0
................................................................................................................................................................................................................................................................................................................
..........
......................................
−.2
................................................................................................................................................................................................................................ .........................
.............
.9
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
Die Werte fur die Items ergeben sich dabei so:
x1 = (.7) f1 + (−.4) f2 + e1x2 = (.8) f1 + (0) f2 + e2x3 = (−.2) f1 + (.9) f2 + e3
oder kurz
x1x2x3
=
.7 −.4.8 0
−.2 .9
(f1f2
)+
e1e2e3
Die Matrix .7 −.4
.8 0
−.2 .9
heißt Ladungsmatrix. Die Zeilen entsprechen den Items und die Spalten den Fak-
toren. In der i-ten Zeile und j-ten Spalte steht der Koeffizient, der den Einfluss
3.1 Modell FA13 6
des j-ten Faktors auf das i-te Item angibt, die Indizierung ist sozusagen der Ein-
flussrichtung entgegengerichtet (hilfreiche Sprechweise: “i-tes Item durch j-ten
Faktor“). Die Koeffizienten heißen auch Ladungen.
Als Bezeichnung fur die Ladungsmatrix wird meist Λ verwendet, die Ladungen
heißen entsprechend λij.
In dieser allgemeinen Schreibweise sieht das Modell so aus:
f1 .......................................................
...............................................................................................................................................................................................................................................................................................................
f2 .......................................................
...............................................................................................................................................................................................................................................................................................................
x1
x2
x3
e1
e2
e3
....................................................
....................................................
....................................................
....................................................................
......................................
λ11
..........................................................................................................................................................................................................................................................................................................................
......................................
λ12
........................................................................................................................................................................................................................................ .....................
.................
λ21
....................................
....................................
....................................
....................................
....................................
....................................................
......................................
λ22
................................................................................................................................................................................................................................................................................................................
..........
......................................
λ31
................................................................................................................................................................................................................................ .........................
.............
λ32
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
.................................................................................................................................................
......................................
Ladungsmatrix:λ11 λ12λ21 λ22λ31 λ32
Die Gleichungen sehen so aus:
x1 = λ11 f1 + λ12 f2 + e1x2 = λ21 f1 + λ22 f2 + e2x3 = λ31 f1 + λ32 f2 + e3
oder kurz
x1x2x3
=
λ11 λ12λ21 λ22λ31 λ32
(f1f2
)+
e1e2e3
oder noch kurzer
x = Λf + e ,
wenn man die x-, f - und e-Variablen jeweils zu einem Vektor zusammenfasst.
3.1 Modell FA13 7
Das Modell ist offen gegenuber unterschiedlichen Interpretationen:
Eine Interpretation konnte die Gleichungen wortlich nehmen und behaupten,
dass die beobachtbaren Variablen tatsachlich von den Faktoren durch Prozesse
erzeugt werden, die sich durch Additionen und Multiplikationen beschreiben las-
sen (Hirn als primitive Rechenmaschine). Die Faktoren mussen dann womoglich
ein physikalisch-physiologisches Korrelat haben. Diese Interpretation sei als sub-
stantielle Interpretation bezeichnet.
Eine zuruckhaltendere Interpretation ware die, dass es gewisse Personlichkeits-
eigenschaften (’traits‘) gibt, mit deren Hilfe man die beobachtbaren Variable im
Sinne einer multiplen Regression vorhersagen kann. Addition und Multiplikation
haben also hier keine inhaltliche Bedeutung, entsprechend unbestimmt kann der
Status der Faktoren bleiben. Diese Interpretation soll Regressionsinterpretation
heißen.
Wahrend die erste Interpretation reichlich naiv wirkt, hat die zweite den Nachteil,
dass ihr das kausale Flair fehlt.
Gelegentlich werden die Fehler noch weiter in zwei Anteile zerlegt. Der Fehler
zu einer beobachtbaren Variablen setzt sich dann zusammen aus einem weiteren
Faktor, der nur diese Variable und keine andere beeinflusst (spezifischer Faktor,
unique factor) und einem eigentlichen Fehler. Auf diese Weise versucht man der
Moglichkeit Rechnung zu tragen, dass der Teil der Variablen, der nicht durch
die gemeinsamen Faktoren bestimmt ist, nicht nur vom Zufall abhangt, sondern
vielleicht auch noch von weiteren Einflussen, die in der Versuchsperson stabil
sind. Bei einer wiederholten Messung des Merkmals wird dann nur der eigentliche
Fehler zufallig schwanken, wahrend der spezifische Faktor sich nicht andert.
f1 ...............................................
...................................................................................................................................................................................................................................................................................
f2 ...............................................
...................................................................................................................................................................................................................................................................................
u1 ...............................................
...................................................................................................................................................................................................................................................................................
u2 ...............................................
...................................................................................................................................................................................................................................................................................
u3 ...............................................
...................................................................................................................................................................................................................................................................................
x1
x2
x3
e1
e2
e3
....................................................
....................................................
....................................................
.................................................
......................................
λ11
..............................................................................................................................................................................................................................................................................................
......................................
λ12
..................................................................................................................................................................................................................... .....................
.................
λ21
....................................
....................................
....................................
....................................
.....................................................................
......................................
λ22
....................................................................................................................................................................................................................................................................................
..........
......................................
λ31
............................................................................................................................................................................................................. .........................
.............
λ32
........................................................
...........................................................................
.............................................
........................................................
...........................................................................
.............................................
........................................................
...........................................................................
.............................................
.......................................................................................
......................................
.......................................................................................
......................................
.......................................................................................
......................................
3.2 Annahmen und Konsequenzen FA13 8
In der Modellgleichung werden die Fehler ei durch jeweils eine Summe ui+ei von
spezifischem (unique) Faktor ui und (eigentlichem) Fehler ei ersetzt. Fasst man
auch die spezifischen Faktoren zu einem Vektor u zusammen, so erhalt man fur
das Modell mit spezifischen Faktoren die Modellgleichung
x = Λf + u + e .
Im Folgenden wird auf dieses etwas kompliziertere Modell nur am Rande einzu-
gehen sein. Was die hier zu behandelnden Themen angeht, lasst es sich namlich
dem einfacheren Modell als eine Verfeinerung unterordnen, die eben darin be-
steht, dass uber den Fehler genauere Annahmen gemacht werden (der Fehler im
einfacheren Modell wird in zwei Teile zerlegt).
3.2 Annahmen und Konsequenzen
Verteilungsannahmen. Uber die Faktoren und Fehler, also die Variablen, die
in dem Modell
x = Λf + e
die beobachtbaren Variablen bestimmen, werden weitere Verteilungsannahmen
gemacht.
Allgemein sei vorausgesetzt, dass die Anzahl der Variablen gleich p ist und die
der Faktoren gleich q. Die Matrix Λ ist dann eine (p× q)-Matrix, die Vektoren x
und e sind p-Zufallsvektoren, und der Zufallsvektor f ist q-dimensional.
Die Variablen und die Faktoren werden als standardisiert vorausgesetzt, also mit
Erwartungswert 0 und Varianz 1. Es ergibt sich daraus
E(e) = E(x−Λf) = E(x)−ΛE(f) = 0−Λ0 = 0 ,
so dass also auch die Erwartungswerte der Fehler Null sind.
Generell wird uber die Fehler vorausgesetzt, dass sie untereinander und mit den
Faktoren unkorreliert sind.
Bei den Faktoren kann man zwei Modelle unterscheiden: Das orthogonale Modell
(UF), bei dem die Faktoren unkorreliert sind (UF:’Unkorrelierte Faktoren‘), und
das allgemeinere schiefwinklige oder oblique Modell (KF), bei dem die Faktoren
3.2 Annahmen und Konsequenzen FA13 9
auch miteinander korrelieren durfen (KF:’Korrelierte Faktoren‘). Das orthogo-
nale Modell ist also ein Spezialfall des schiefwinkligen.
An dieser Stelle konnen nun die unterschiedlichen Modellannahmen diskutiert
werden.
Hier ist zunachst die Modellgleichung, gemaß der die beobachtbaren Variablen
sich in linearer Weise aus den Faktoren ergeben sollen. Bei der Regressionsinter-
pretation gilt dies kraft Konstruktion, bei der substantiellen Interpretation durfte
es hingegen meist nur schwer zu rechtfertigen sein, dass der Einfluss der Faktoren
auf die beobachtbaren Variablen in dieser einfachen Form geschrieben werden
kann.
Die Voraussetzung, dass Variablen und Faktoren standardisiert vorliegen, ist un-
problematisch, da dies jederzeit durch eine geeignete Reskalierung erreicht werden
kann.
Die Voraussetzung, dass Faktoren und Fehler unkorreliert sind, folgt bei der Re-
gressionsinterpretation wieder aus der Konstruktion. Bei der substantiellen Inter-
pretation, bei der die Fehler wohl so etwas sein sollen, wie die Wirkung weiterer,
in den Faktoren nicht erfasster Einflussgroßen, zu denen noch Zufallsschwankun-
gen hinzukommen, ist dies nicht unmittelbar einsehbar, selbst dann nicht, wenn
man meint, mit den Faktoren alle gemeinsamen Einflusse erfasst zu haben. (Mit
gemeinsamen Einflussen sind Einflusse auf die beobachtbaren Variablen gemeint,
die auf mehr als eine von ihnen – oder gar alle – wirken.)
Die Voraussetzung unkorrelierter Fehler ist bei beiden Versionen nicht unmittel-
bar einleuchtend. Wenn man bei der substantiellen Interpretation die Hoffnung
hat, mit den Faktoren alle gemeinsamen Einflusse zu erfassen, so ist die Voraus-
setzung nicht ganz unplausibel, denn großere Korrelationen zwischen den Fehlern
wurden darauf hindeuten, dass es doch noch weitere gemeinsame Einflusse gibt,
die mit weiteren Faktoren erfasst werden konnten. Bei der Regressionsinterpre-
tation hingegen ist eine solche Argumentation nicht so naheliegend.
Bei Gegenuberstellung der Modelle KF und UF wird man sich fragen, was eigent-
lich fur unkorrelierte Faktoren spricht. Diese Annahme wird bei beiden Interpre-
tationsmoglichkeiten schwer zu rechtfertigen sein. Es wird sich allerdings zeigen,
dass sie uberraschenderweise unkritisch ist, wenn man bei der inhaltlichen Inter-
pretation der Faktoren Abstriche macht.
3.2 Annahmen und Konsequenzen FA13 10
Reduzierte Variablen. In gewisser Weise werden die beobachtbaren Variablen
xi durch die Modellgleichung in zwei Teile zerlegt, namlich einen Anteil, der durch
die gemeinsamen Faktoren fj bestimmt ist und den verbleibenden Fehler. Es ist
praktisch, fur den ersten Anteil eine eigene Bezeichnung einzufuhren, was jetzt
geschehen soll.
Die Modellgleichung der Faktorenanalyse, namlich
x = Λf + e ,
schreibt sich in der i-ten Komponente als
xi =
q∑j=1
λijfj + ei .
Der erste Summand in dieser Zerlegung soll auch die reduzierte i-te Variable
heißen und mit xi bezeichnet werden. Es gilt also
xi =
q∑j=1
λijfj ,
und man kann die so definierten xi auch als die durch die gemeinsamen Faktoren
bestimmten Anteile der xi oder als die’fehlerfrei gemachten‘ xi auffassen.
Die Bezeichnung xi ist in Anlehnung an die multiple Regression gewahlt, wobei
es sich um mehr als eine bloße Analogie handelt – die xi erweisen sich namlich
tatsachlich als optimale Vorhersagen der xi durch die fj im Sinne der multiplen
linearen Regression (genauer: einer Regression auf theoretischer Ebene).
Fasst man die xi wieder zu einem Vektor x zusammen, so gilt in Vektorschreib-
weise
x = Λf
und man bekommt die Zerlegung
x = x + e .
Der Vektor x ist dabei wieder sozusagen der Anteil von x, der durch die gemein-
samen Faktoren bestimmt ist.
Aus der Voraussetzung, dass die Faktoren und die Fehler unkorreliert sind, folgt
fur die Matrix der Kovarianzen C(x, e) von x und e die Gleichung
C(x, e) = C(Λf , e) = ΛC(f , e) = Λ0 = 0 ,
3.2 Annahmen und Konsequenzen FA13 11
die gerade besagt, dass die Komponenten von x und e unkorreliert sind.
Wegen xi = xi + ei folgt daraus weiter
1 = V(xi) = V(xi) + V(ei) .
Die Varianz von xi lasst sich also zerlegen in einen Anteil, der durch die gemein-
samen Faktoren aufgeklart wird, und in einen Fehleranteil. Da die Varianz von xigleich 1 ist, ist V(xi) gleichzeitig der Anteil der durch die gemeinsamen Faktoren
aufgeklarten Varianz an der Gesamtvarianz von xi. Man bezeichnet V(xi) auch
als die Kommunalitat von xi und fuhrt dafur die Abkurzung h2i ein.
In dieser neuen Terminologie gilt also
Kommunalitat + Fehlervarianz = 1 .
An dieser Stelle soll nochmals auf das etwas kompliziertere speziellere Modell mit
den spezifischen Faktoren eingegangen werden. Die zusatzliche Voraussetzung
fur die spezifischen Faktoren ist die, dass diese Faktoren sowohl untereinander
als auch mit den gemeinsamen Faktoren und mit den Fehlern unkorreliert sind.
Damit folgt
1 = V(xi) + V(ui) + V(ei) .
Die Varianz des spezifischen Faktors bezeichnet man auch als Spezifitat oder als
Uniqueness.
Man betrachtet meist die Werte der gemeinsamen und spezifischen Faktoren als
zeitlich stabil und den Restfehler als reinen Zufallsfehler, der bei Messwieder-
holungen zufallig neu auftritt, so dass die Korrelation zwischen den Restfehlern
bei verschiedenen Messungen gleich 0 ist. Daraus folgt, dass man im Sinne der
klassischen Testtheorie den wahren Wert ti der Variablen xi als xi + ui erhalt.
Fur die wahre Varianz V(ti) gilt daher
V(ti) = V(xi) + V(ui) ,
und da die Varianz von xi gleich 1 ist, ist dies gleich der Reliabiltat. Es gilt also
Reliabilitat = Kommunalitat + Spezifitat.
In der Zerlegung der Fehlervarianz in zwei Anteile und der dadurch moglich ge-
machten Einbeziehung der Reliabilitat liegt der einzige Vorteil des komplizierte-
ren Modells mit spezifischen Faktoren.
3.2 Annahmen und Konsequenzen FA13 12
Fur die weiteren Untersuchungen ist diese Verfeinerung der Betrachtungsweise
jedoch irrelevant, und so soll in Zukunft auf die mogliche Ausdifferenzierung des
Fehlers in einen spezifischen Anteil und einen eigentlichen Fehleranteil nicht mehr
weiter eingegangen werden.
Zum Schluss sollen noch die Korrelationen bestimmt werden, die die reduzierten
Variablen untereinander und mit den Faktoren besitzen.
Wegen xi = xi+ei, wegen der Unkorreliertheit der Faktoren mit den Fehlern und
der Fehler untereinander und wegen der Standardisiertheit der Variablen und der
Faktoren errechnet man zunachst die Korrelation ρ(xi, xk) von zwei beobachtba-
ren Variablen zu
ρ(xi, xk) = Kov(xi, xk) = Kov(xi + ei, xk + ek) = Kov(xi, xk)
= ρ(xi, xk)σ(xi)σ(xk) ,
wobei wie ublich mit σ und ρ wie ublich Streuungen und Korrelationen bezeichnet
werden.
Zur Bestimmung der Korrelationen der xi untereinander braucht man die Formel
nur umzustellen und erhalt
ρ(xi, xk) =ρ(xi, xk)
σ(xi)σ(xk).
Dabei ist σ(xi) gleich der Wurzel aus der Kommunalitat von xi, also gleich hi,
entsprechend σ(xk). Da diese beiden Zahlen positiv und hochstens 1 sind, zeigt
sich, dass die Korrelationen zwischen zwei reduzierten Variablen betragsmaßig
mindestens so groß sind wie die zwischen den zugehorigen Originalvariablen und
außerdem immer das gleiche Vorzeichen besitzen.
Ebenso folgt fur die Korrelation ρ(xi, fj) zwischen der Variable xi und dem Faktor
fj die Beziehung
ρ(xi, fj) = Kov(xi, fj) = Kov(xi + ei, fj) = Kov(xi, fj) = ρ(xi, fj)σ(xi) ,
was man leicht zu
ρ(xi, fj) =ρ(xi, fj)
σ(xi)
umstellt; auch hier ist also die Korrelation zwischen einer reduzierten Variable
und einem Faktor betragsmaßig mindestens so groß wie die zwischen der zu-
gehorigen Originalvariablen und dem Faktor, und dies bei gleichem Vorzeichen.
3.2 Annahmen und Konsequenzen FA13 13
Sieht man im Sinne der klassischen Testtheorie noch xi als den wahren Wert von
xi an, so ist die Kommunalitat gleich der Reliabilitat und man erkennt in den
Formeln zwei Verdunnungsformeln wieder.
Grundgleichungen. In diesem Abschnitt sollen die zentralen Gleichungen der
Faktorenanalyse hergeleitet werden. Zunachst mussen dafur noch einige Bezeich-
nungen eingefuhrt werden.
Die Kovarianzmatrix der Faktoren wird mit Kf bezeichnet; wegen der Standardi-
sierung ist sie gleichzeitig die Korrelationsmatrix, besitzt also nur Einsen in der
Diagonale. Im Modell UF gilt Kf = I.
Entsprechend seien Kx und De die Kovarianzmatrizen der beobachtbaren Va-
riablen und der Fehler – die besondere Bezeichnung fur die Kovarianzmatrix der
Fehler soll daran erinnern, dass diese Matrix eine Diagonalmatrix ist, da die Fehler
ja als unkorreliert angenommen werden. Die Kovarianzmatrix der beobachtbaren
Variablen ist ebenso wie die der Faktoren gleich der entsprechenden Korrelati-
onsmatrix, hat also in der Diagonale ebenfalls nur Einsen. Die Diagonalelemente
von De sind die Varianzen der Fehler.
Die Kovarianzmatrix von x soll mit Kx bezeichnet werden. Man nennt diese Ma-
trix auch die reduzierte Korrelationsmatrix. Die reduzierte Korrelationsmatrix ist
also die Kovarianzmatrix der reduzierten Variablen. Die Terminologie ist dabei
sehr unglucklich, da die reduzierte Korrelationsmatrix eben gerade keine Korre-
lationsmatrix ist, denn in der Diagonalen stehen im Allgemeinen keine Einsen.
Diese Diagonalelemente sind vielmehr die Varianzen der reduzierten Variablen,
also die Kommunalitaten h2i .
Nun soll untersucht werden, wie sich Kx und Kx aus den’Parametern‘ des Mo-
dells errechnen. Die Parameter des Modells sind dabei die Elemente der Kovari-
anzmatrizen Kf und De, sowie der Ladungsmatrix Λ. Die Untersuchung wird im
allgemeinen Fall KF durchgefuhrt.
Fur die Kovarianzmatrix von x gilt:
Kx = V(Λf) = ΛKfΛ′ ,
daher ergibt sich mit der Unkorreliertheit von x und e
Kx = V(x + e) = V(x) + V(e) = Kx + De = ΛKfΛ′ + De .
3.2 Annahmen und Konsequenzen FA13 14
Im Spezialfall UF gilt:
Kx = ΛΛ′ .
Die Gleichung
Kx = Kx + De
zeigt, dass sich die beiden Matrizen Kx und Kx nur in der Diagonale unter-
scheiden. Die reduzierte Korrelationsmatrix Kx entsteht also aus der Korrelati-
onsmatrix Kx der beobachteten Variablen dadurch, dass man die Einsen in der
Diagonale durch die Kommunalitaten ersetzt, oder gleichwertig, dass man von
diesen Einsen die Fehlervarianzen abzieht.
Die Gleichung
Kx = ΛKfΛ′ + De
ist fur die Faktorenanalyse von zentraler Bedeutung. Sie vereinfacht sich fur das
Modell UF zu
Kx = ΛΛ′ + De .
Diese beiden Gleichungen sollen wegen ihrer Wichtigkeit in Zukunft meist als
Grundgleichungen bezeichnet werden.
Ausformulierung der Grundgleichungen. Die gerade hergeleiteten Matrizen-
gleichungen sollen nun genauer untersucht und in Einzelgleichungen ausformuliert
werden.
Dabei wird zunachst die allgemeinere Gleichung
Kx = ΛKfΛ′ + De
behandelt, die Aussagen fur die Gleichung des spezielleren Modells UF ergeben
sich dann durch Vereinfachung.
Es handelt sich bei den beiden Matrizen auf der linken und der rechten Sei-
te des Gleichheitszeichens um (p × p)-Matrizen; betrachtet man die Gleichung
elementweise, so ergeben sich also zunachst p2 Einzelgleichungen fur die p2 Ma-
trixelemente.
Da die drei Matrizen Kx, ΛKfΛ′ und De jedoch symmetrisch sind, stimmen je
zwei der Gleichungen außerhalb der Diagonale uberein, so dass in Wirklichkeit
nur
p+
(p
2
)=p (p+ 1)
2
3.2 Annahmen und Konsequenzen FA13 15
verschiedene Einzelgleichungen vorhanden sind. Diese Gleichungen sollen nun
ausformuliert werden.
Zu diesem Zweck seien die Korrelationen der Faktoren untereinander mit ρ′klbezeichnet, die der beobachtbaren Variablen untereinander mit ρij und die Vari-
anzen der Fehler mit σ2i .
Als erstes sollen die Elemente von Kx = ΛKfΛ′ bestimmt werden.
Das (i, j)-Element dieser Matrix ist nun gerade das Produkt aus der i-ten Zeile
von Λ, der Matrix Kf und der j-ten Spalte von Λ′, die ihrerseits die (transpo-
nierte) j-te Zeile von Λ ist. Man erhalt das (i, j)-Element von Kx damit als∑k,l
λikλjlρ′kl .
Aus der Matrix Λ gehen hier also gerade die i-te und die j-te Zeile ein.
Im Spezialfall UF unkorrelierter Faktoren erhalt man∑k
λikλjk ,
was man auch als Produkt der i-ten und der j-ten Zeile von Λ verstehen kann.
In der untersuchten Matrixgleichung Kx = ΛKfΛ′ + De stehen auf der rechten
Seite außerhalb der Diagonalen die Korrelationen der beobachtbaren Variablen
untereinander, die Diagonalmatrix De liefert hier nur Nullen. Man erhalt also fur
i 6= j die Gleichung
ρij =∑k,l
λikλjlρ′kl ,
im Spezialfall UF
ρij =∑k
λikλjk .
In der Diagonalen der Matrixgleichung steht an i-ter Stelle die Gleichung
1 =∑k,l
λikλilρ′kl + σ2
i ,
im Spezialfall UF
1 =∑k
λ2ik + σ2i .
3.2 Annahmen und Konsequenzen FA13 16
Hier hat man die schon bekannte Varianzzerlegung vor sich; der erste Summand
auf der rechten Seite in diesen Gleichungen ist jeweils die Varianz von xi, also die
Kommunalitat h2i .
Es zeigt sich hier ubrigens, dass die Parameter des Modells nicht unabhangig von-
einander sind, vielmehr lassen sich auf Grund der Varianzzerlegung die Fehlerva-
rianzen σ2i aus den Elementen λij der Ladungsmatrix und den Interkorrelationen
ρ′kl der Faktoren errechnen.
Man konnte auch sagen, dass eigentlich nur die λij und ρ′kl ’wirkliche‘ Parameter
des Modells sind.
Die Formeln fur die Kommunalitaten, die sich gerade nebenbei ergeben haben,
seien noch einmal hervorgehoben: Es gilt
h2i =∑k,l
λikλilρ′kl
bzw. im Fall UF
h2i =∑k
λ2ik .
Der Spezialfall UF soll nun noch etwas genauer betrachtet werden.
Die Gleichung
ρij =∑k
λikλjk
zeigt, dass man die Korrelation der Variablen xi und xj erhalt, indem man ent-
sprechende Ladungen der Variablen miteinander multipliziert und aufaddiert.
Man’multipliziert‘ also sozusagen die zu den beiden Variablen gehorenden Zei-
len der Ladungsmatrix miteinander.
Die Kommunalitat
h2i =∑k
λ2ik
der Variable xi ergibt sich hingegen als Summe ihrer quadrierten Ladungen.
Als Beispiel sollen unter der Voraussetzung unkorrelierter Faktoren bei der schon
oben verwendeten Ladungsmatrix
Λ =
.7 −.4.8 0
−.2 .9
3.2 Annahmen und Konsequenzen FA13 17
Kommunalitaten, Interkorrelationen der beobachtbaren Variablen und Fehlerva-
rianzen bestimmt werden. Es ergibt sich hier
Kx = ΛΛ′ =
.7 −.4.8 0
−.2 .9
( .7 .8 −.2−.4 0 .9
)=
.65 .56 −.5.56 .64 −.16
−.5 −.16 .85
Im Ergebnis rechts stehen außerhalb der Diagonalen die Korrelationen der beob-
achtbaren Variablen und in der Diagonale ihre Kommunalitaten.
Die Fehlervarianzen σ2i sind folglich .35, .36 und .15.
Die Korrelation der ersten beiden Variablen ergibt sich als Produkt der ersten
beiden Zeilen von Λ:
ρ12 = (.7)(.8) + (−.4)(0) = .56 ,
wahrend die Kommunalitat der ersten Variable die Summe ihrer quadrierten
Ladungen ist:
h21 = (.7)2 + (−.4)2 = .49 + .16 = .65 .
Faktormuster und Faktorstruktur. Interessant ist auch die Matrix der Korre-
lationen zwischen den Variablen xi und den Faktoren fj. Da sowohl Variablen als
auch Faktoren standardisiert sind, ist dies zugleich die Matrix der Kovarianzen.
Wegen C(e, f) = 0 ergibt sich
C(x, f) = C(Λf + e, f) = ΛC(f , f) + C(e, f) = ΛKf .
Auch diese Matrixgleichung soll fur die einzelnen Elemente ausformuliert werden:
die Korrelation ρ(xi, fj) zwischen xi und fj ist
ρ(xi, fj) =∑k
λikρ′kj .
Im speziellen Fall UF ist die Korrelationsmatrix der Faktoren die Einheitsmatrix,
so dass sich hier C(x, f) = Λ ergibt, insbesondere also ρ(xi, fj) = λij.
Was den Zusammenhang zwischen Faktoren und Variablen angeht, so hat man
jetzt zur Beschreibung dieses Zusammenhangs zwei Matrizen, namlich die La-
dungsmatrix Λ, die man auch als Faktormuster bezeichnet, und die Matrix ΛKf
der Korrelationen zwischen Variablen und Faktoren, die man auch Faktorstruktur
nennt.
3.2 Annahmen und Konsequenzen FA13 18
Im Spezialfall UF fallen die beiden Matrizen zusammen, hier ist also Faktormuster
gleich Faktorstruktur.
Gesamtkommunalitat. Zum Abschluss sollen noch weitere Indizes zur Bedeu-
tung der Faktoren im Sinne der Varianzaufklarung angesprochen werden.
Bildet man in der Grundgleichung Kx = Kx + De auf beiden Seiten die Spur, so
erhalt man
Spur(Kx) = Spur(Kx) + Spur(De) .
Da die Spur auch als multivariate Varianz interpretiert werden kann, ist dies eine
(multivariate) additive Varianzzerlegung der Varianz von x in die Varianz von x
und die Varianz von e.
Es liegt nahe, die Varianz von x als die von den Faktoren aufgeklarte Varianz
zu bezeichnen – dies erweist sich auch als korrekt im Sinne der Regression. Die
(multivariate) Varianz von x lasst sich damit zerlegen in einen durch die Faktoren
erklarten Anteil und einen Fehleranteil.
Die Varianz von x ist dabei als Spur von Kx die Summe der Diagonalelemente
dieser Matrix, also die Summe der Kommunalitaten h2i :
Spur(Kx) =
p∑i=1
h2i .
Die Spur von Kx wird daher auch als Gesamtkommunalitat bezeichnet. Nun gibt
eine einzelne Kommunalitat h2i gerade an, wieviel Varianz die gemeinsamen Fak-
toren an der Variablen xi erklaren. Damit ist die multivariat durch die Faktoren
erklarte Varianz die Summe der univariat bei den einzelnen Variablen erklarten
Varianzen.
Die Gesamtkommunalitat ist sinnvollerweise mit der Gesamtvarianz von x zu
vergleichen, also mit der Spur von Kx oder der Summe der Einzelvarianzen, die
hier p · 1 = p ist.
Im Falle UF verhalten sich die Faktoren bei der Varianzaufklarung der Einzelva-
riablen additiv, was sich in der Formel
h2i =
q∑j=1
λ2ij
ausdruckt. Die quadrierte Ladung λ2ij gibt dabei den Varianzanteil an, der durch
fj bei xi aufgeklart wird. Bei korrelierten Faktoren ist eine derartige verfeinerte
3.2 Annahmen und Konsequenzen FA13 19
Varianzzerlegung, bei der die einzelnen Faktoren fur ihnen spezifisch zurechenbare
Anteile der Varianz der Variablen’verantwortlich gemacht werden konnen‘, nicht
moglich.
Es liegt jetzt – wieder nur im Falle UF – nahe, analog nach der Bedeutung eines
Faktors nicht nur fur eine Variable xi, sondern fur alle beobachtbaren Variablen
zu fragen.
Ein naheliegendes Maß fur diese Bedeutung des Faktors fj erhalt man dadurch,
dass man die durch diesen Faktor bei den einzelnen Variablen erklarten Varianzen
aufaddiert. Man bildet als Maß fur die Bedeutung von fj also die Summe
p∑i=1
λ2ij .
Summiert man diese Maße fur alle Faktoren auf, so ergibt sich
q∑j=1
(p∑i=1
λ2ij
)=
p∑i=1
q∑j=1
λ2ij =
p∑i=1
h2i .
Die Summe dieser Maße ist also die Gesamtkommunalitat, weshalb das Maß fur
die Bedeutung des Faktors fj auch als die durch ihn (multivariat) aufgeklarte
Varianz interpretierbar ist.
Auch im multivariaten Sinn ist es damit moglich, die durch die Faktoren gemein-
sam (multivariat) aufgeklarte Varianz additiv in Anteile zu zerlegen, fur die die
einzelnen Faktoren verantwortlich sind.
Das Maß∑
i λ2ij der durch den j-ten Faktor multivariat aufgeklarten Varianz
ist mit der Gesamtkommunalitat zu vergleichen oder mit der Gesamtvarianz p
aller beobachtbaren Variablen, je nachdem, ob man eher die relative Bedeutung
des Faktors fj in der Gesamtheit aller Faktoren im Auge hat oder den Teil der
Gesamtvarianz, den dieser Faktor aufklart.
Als Beispiel sollen die neuen Kennwerte fur die schon mehrfach verwendete La-
dungsmatrix bestimmt werden, immer naturlich unter der Voraussetzung unkor-
relierter Faktoren. Es folgt zur Erinnerung zunachst links die Ladungsmatrix.
In dem Schema rechts daneben sind die quadrierten Ladungen aufgefuhrt samt
Zeilen- und Spaltensummen; rechts stehen also die Kommunalitaten und unten
die Maße fur die Bedeutung der Faktoren.
3.3 Vorlaufiges zu”
Losungen“ FA13 20
Λ =
.7 −.4.8 0
−.2 .9
λ2ij f1 f2 h2ix1 .49 .16 .65
x2 .64 .00 .64
x3 .04 .81 .85∑i λij
2 1.17 .97 2.14
Die Gesamtkommunalitat unten rechts ist die Summe sowohl der zeilenweisen
als auch der spaltenweisen Teilsummen, also einerseits die Summe der bei den
Einzelvariablen durch alle Faktoren aufgeklarten Varianzen und andererseits die
Summe der durch die einzelnen Faktoren multivariat bei allen Variablen aufge-
klarten Varianzen. Sie ist zur Beurteilung mit der Gesamtvarianz der Variablen
zu vergleichen, die hier 3 ist.
3.3 Vorlaufiges zu”Losungen“
Aus einem Promotions-Kolloquium:
Primus Doctor.
... Tres scavanti Bacheliero,
Quem estimo et honoro,
Domandabo causam et rationem quare
Opium facit dormire.
Bachelierus.
Mihi a docto Doctore
Domandatur causam et rationem quare
Opium facit dormire:
A quoi respondeo,
Quia est in eo
Virtus dormativa,
Cujus est natura
Sensus assoupire.
Chorus.
Bene, bene, bene, bene respondere ...
Moliere, Le Malade imaginaire
Empirische Losungen. Bisher wurde die Gultigkeit eines faktorenanalytischen
Modells vorausgesetzt. Zudem waren die Ladungsmatrix Λ und die Korrelati-
3.3 Vorlaufiges zu”
Losungen“ FA13 21
onsmatrix Kf der Faktoren gegeben. Auf dieser Grundlage wurden dann weitere
Eigenschaften und Kenngroßen des Modells hergeleitet, unter anderem die Kor-
relationsmatrix Kx der beobachtbaren Variablen.
Ganz anders ist die Situation, wenn man in der Praxis eine Faktorenanalyse
durchfuhren will. Hier liegt nur eine empirische Korrelationsmatrix R der p be-
obachtbaren Variablen vor. Man macht dann die Annahme, dass hinter den Varia-
blen eine gewisse Anzahl von Faktoren steht, setzt also genauer gesagt das Modell
der Faktorenanalyse voraus. Die Anzahl q der Faktoren und ihre inhaltlichen Be-
deutungen bleiben dabei zunachst unbekannt. Je nach Geschmack nimmt man
ferner entweder an, dass die Faktoren unkorreliert sind (UF), oder man lasst auch
die Moglichkeit korrelierter Faktoren zu (KF) – diese Festlegung ist allerdings,
wie sich zeigen wird, unkritischer als man meinen konnte.
Die Frage, die sich nun stellt, ist die nach der Ladungsmatrix Λ (und im Fall
KF zusatzlich nach der Korrelationsmatrix Kf der Faktoren). Waren diese Ma-
trizen bekannt, so konnte man daraus mit Hilfe der bereits hergeleiteten Formeln
die theoretische Korrelationsmatrix Kx der beobachtbaren Variablen bestimmen,
und diese Matrix sollte der empirischen Korrelationsmatrix R moglichst ahnlich
sein. Naturlich wird man nicht die Gleichheit von Kx und R fordern, da R ja
auf einer zufalligen Stichprobe beruht und wegen der Zufallsfehler nicht mit der
wahren Korrelationsmatrix der beobachtbaren Variablen ubereinstimmen wird;
allerdings konnen Unterschiede nur außerhalb der Diagonale auftreten, da ja so-
wohl Kx als auch R Korrelationsmatrizen sind und daher in den Diagonalen nur
Einsen besitzen.
Sucht man nun nach den Matrizen Kf und Λ, so ist es klug, sich zuvor zu ver-
gegenwartigen, dass diese Matrizen einige einschrankende Bedingungen erfullen
mussen. Als Korrelationsmatrix der Faktoren muss Kf positiv semidefit sein und
außerdem in der Diagonale Einsen besitzen. Die reduzierte Korrelationsmatrix
Kx, die sich ja aus Kf und Λ zu ΛKfΛ′ berechnet, unterscheidet sich von Kx
nur in der Diagonalen, wobei die Diagonalelemente von ΛKfΛ′, also die Kom-
munalitaten, alle hochstens 1 sein durfen. Die zu erstrebende’Ahnlichkeit‘ von
Kx und R liegt daher dann vor, wenn R und ΛKfΛ′ außerhalb der Diagonale
etwa ubereinstimmen.
Die’wahren‘ Matrizen Kf und Λ sollten folglich den Bedingungen genugen, die
in der folgenden Definition von einer’formalen‘ Losung des Problems gefordert
werden:
3.3 Vorlaufiges zu”
Losungen“ FA13 22
Unter einer q-Faktorlosung zu einer gegebenen empirischen Korrelationsmatrix R
unter KF soll ein Paar (Kf ,Λ) aus einer (q × q)-Matrix Kf und einer (p × q)-Matrix Λ verstanden werden, das die folgenden Bedingungen erfullt:
(i) Kf ist positiv semidefinit mit Einsen in der Diagonale,
(ii) ΛKfΛ′ hat Diagonalelemente ≤ 1 und stimmt außerhalb der Diagonale
einigermaßen mit R uberein.
Bei den Matrizen Kf und Λ soll es sich naturlich um eine mogliche hypothetische
Korrelationsmatrix der Faktoren und um eine mogliche hypothetische Ladungs-
matrix handeln, was die Wahl der Bezeichnungen erklart.
Die Kennzeichnung dieses Losungsbegriffs als’formal‘ soll darauf hindeuten, dass
Matrizen Kf und Λ wie in der Definition keineswegs mit den’wahren‘ Matrizen
gleichen Namens ubereinstimmen mussen, sondern nur bestimmte Eigenschaften
haben, die diese’wahren‘ Matrizen ebenfalls besitzen, weshalb bislang nichts
dagegen spricht, dass eine solche Losung auch’richtig‘ sein konnte.
Insbesondere ist die Matrix Kf aus der Definition keineswegs automatisch eine
Kovarianzmatrix von irgendeiner’wirklich existierenden‘ Variablen f (so darf der
Index f also nicht missverstanden werden), sie konnte es bestenfalls sein, da sie
ja positiv semidefinit ist.
Die Bezeichnung der’wahren‘ Matrizen und moglicher Losungen mit denselben
Namen ist sicher unschon, unterschiedliche Bezeichnungen wurden aber womoglich
noch mehr Verwirrung stiften. Der Kontext wird jeweils zeigen, was im Einzelfall
gemeint ist.
Die Formulierung’einigermaßen‘ in der Definition ist ubrigens dermaßen schwam-
mig, dass man vielleicht eher von einer Sprechweise als von einer Definition spre-
chen mochte.
Es ist vor diesem Hintergrund naturlich mit der Moglichkeit zu rechnen, dass es
viele Losungen (im formalen Sinne der Definition) gibt. Manche solche Losungen
unterscheiden sich dabei im Hinblick auf den Zweck der gegenwartigen Unter-
suchung nur unwesentlich, was die folgende Begriffsbildung sinnvoll macht: Zwei
Losungen sollen dann aquivalent heißen, wenn die aus diesen Losungen konstru-
ierten Matrizen ΛKfΛ′ ubereinstimmen (ware eine Losung
’richtig‘, so ware das
die Matrix Kx). Aquivalenz bedeutet also nicht nur, dass zwei Losungen gleich
3.3 Vorlaufiges zu”
Losungen“ FA13 23
gut zur empirischen Korrelationsmatrix R passen, sondern daruber hinaus auch,
dass die zugehorigen (hypothetischen) Kommunalitaten gleich sind.
Etwas informell soll weiter unter der’Gute der Losung‘ der Grad an Ubereinstim-
mung der empirischen Korrelationen mit den auf Grund der Losung berechneten
bezeichnet werden. Aquivalente Losungen sind in diesem Sinne dann auch gleich
gut.
Das Modell UF ist der speziellere Fall von KF, bei dem die Matrix Kf eine Ein-
heitsmatrix ist. Die Bedingungen an eine Losung konnen daher fur UF knapper
formuliert werden:
Unter einer q-Faktorlosung zu einer gegebenen empirischen Korrelationsmatrix
R unter UF soll eine (p × q)-Matrix Λ verstanden werden, fur die ΛΛ′ Dia-
gonalelemente ≤ 1 besitzt und außerhalb der Diagonale einigermaßen mit R
ubereinstimmt.
Die folgende Diskussion untersucht den einfacheren Fall UF. Der Fall KF ist ganz
genauso zu behandeln, nur werden die Formulierungen an einigen Stellen etwas
umstandlicher.
Mit welchem Recht kann man ein Λ, das die empirischen Korrelationen einiger-
maßen reproduziert, als Losung bezeichnen?
Bisher kann man sagen: Es scheint durchaus moglich, dass Faktoren existieren, die
auf die beobachtbaren Variablen in der durch Λ beschriebenen Weise’einwirken‘.
Die empirischen Korrelationsmatrix R wurde jedenfalls recht gut dazu passen,
wenn man noch annimmt, dass die Varianzen der Fehler die Diagonalelemente
von ΛΛ′ gerade zu 1 erganzen.
Kaum jemand wird jedoch wohl bei dem gegenwartigen Stand der Dinge auf die
vermessene Idee kommen, dass man damit die’wahre‘ Ladungsmatrix ermittelt
hatte oder dass man gar die verborgenen Faktoren ans Licht gebracht hatte (man
vergleiche aber notorische Formulierungen bei der Mittelung von Ergebnissen von
Faktorenanalysen wie:”... wurden 3 Faktoren gefunden ...“).
Vielleicht wird jemand, der an die Gultigkeit des Modells der Faktorenanalyse
fur die untersuchten beobachtbaren Variablen glaubt, immerhin hoffen, dass das
gefundene Λ einigermaßen mit dem’wahren‘ Λ ubereinstimmt und damit Hin-
weise auf die’wahren‘ Faktoren geben kann. Ob er diese Hoffnung zu Recht hegt,
wird zu untersuchen sein.
3.3 Vorlaufiges zu”
Losungen“ FA13 24
Den Skeptiker jedoch, der ohnehin an der Gultigkeit des Modells zweifelt, und der
womoglich den bisherigen Erorterungen nur mit Widerwillen gefolgt ist, wird die
Tatsache, dass eine Losung Λ in dem beschriebenen Sinn gefunden wurde, kaum
veranlassen, seine Bedenken aufzugeben und hinfort an die Existenz von Fakto-
ren zu glauben. Dafur sind Formulierungen wie”es konnte sein, dass Faktoren
existieren ...‘ denn doch zu vage.
Was man sich wunschen wurde, ist also mehr als das bislang mit einer Losung
Erreichte, namlich am besten so etwas wie eine konstruktive Ermittlung von
Faktoren. Davon ist man jedoch weit entfernt: Real existierende Faktoren hat
man keineswegs gefunden, sondern eigentlich eben nur eine Matrix Λ, die nach
gewissen Rechenregeln die gegebenen Korrelationen einigermaßen reproduziert.
Alle Aussagen, die sich auf Faktoren beziehen, stehen im Potentialis (”Es konnte
so sein . . .“).
Dabei ist es noch nicht einmal selbstverstandlich, dass man zu der Aussage”Es
konnte so sein . . .“ berechtigt ist – da keine konstruktive Losung vorliegt, ist
es im Gegenteil noch fraglich, ob es’wirklich‘ so sein konnte. Zwar sind die
empirischen Korrelationen gut mit der Losung vertraglich, jedoch hat man eben
bisher auch nichts weiter als diese Korrelationen betrachtet. Man musste also eher
formulieren:”Was die Korrelationen angeht, so spricht bisher nichts dagegen, dass
moglicherweise . . .“.
Es folgt ein anschauliches Beispiel fur das, was hier gemeint ist: Vielleicht kommt
man nach Untersuchung vieler klimatischer Gegebenheiten zu dem Ergebnis, dass
unter diesem Gesichtspunkt nichts dagegen spricht, dass noch irgendwo Dinosau-
rier existieren. Dies bedeutet jedoch keineswegs, dass die Existenz von Dinosauri-
ern’wirklich‘ moglich ist – vielleicht hat man ja entscheidende Fakten ubersehen,
wie die zu niedrige Konzentration eines bestimmten Edelgases. Selbst dann je-
doch, wenn wirklich keine Umstande gegen die Moglichkeit ihrer Existenz spe-
chen, ist noch keineswegs gesagt, dass es sie wirklich gibt – hierfur braucht man
ein reales Exemplar.
Bei der Faktorenanalyse konnten sich Einwande dagegen, dass die gegebene for-
male Losung tatsachlich moglich ist, beispielsweise aus der genaueren Kenntnis
der Verteilungen ergeben.
Zur Verdeutlichung zwei Beispiele.
Hat man eine binare Variable mit Varianz .1, so ware es durchaus denkbar,
3.3 Vorlaufiges zu”
Losungen“ FA13 25
dass diese Variable die Summe von zwei unabhangigen Variablen der Varianz
.05 ware, jedenfalls spricht unter dem Gesichtspunkt der Rechenregeln mit Vari-
anzen nichts dagegen. Man kann sich jedoch klarmachen, dass eine Summe von
zwei unabhangigen Variablen der Varianz .05 nicht binar sein kann. Aus der
Tatsache, dass unter dem Gesichtspunkt der Varianzrechenregeln eine solche Zer-
legung denkbar ist, folgt also keineswegs, dass sie auch moglich ist – um dies zu
zeigen, musste man beispielsweise konstruktiv zwei derartige Variablen angeben,
was bedeutend mehr ist, als zu demonstrieren, dass eine Rechnung mit Varianzen
aufgeht.
Im zweiten Beispiel sei ein zugrundeliegender diskreter Wahrscheinlichkeitsraum
vorausgesetzt (einer sehr kleinen Population entsprechend), auf dem die beob-
achtbaren Variablen definiert seien. Selbst wenn man nun eine Matrix Λ findet,
die die Korrelationsmatrix perfekt reproduziert, heißt dies keineswegs, dass eine
solche Losung moglich ist. Auf einem Wahrscheinlichkeitsraum mit k Elemen-
ten konnen namlich nicht mehr als k − 1 Zufallsvariablen mit positiver Varianz
existieren, die paarweise unkorreliert sind. Es ist daher moglich, dass zwar eine
Matrix Λ die Korrelationen von gegebenen Variablen perfekt rekonstruiert, dass
jedoch dennoch das zugehorige Modell unmoglich ist, weil es auf dem gegebenen
Wahrscheinlichkeitsraum gar nicht so viele unkorrelierte Variablen geben kann,
wie es dann Faktoren und Fehler geben musste.
Die genannten Beispiele sollen nur verdeutlichen, dass es keinesfalls selbstver-
standlich ist, dass ein Modell, das mit den gegebenen Korrelationen kompatibel
ist, auch wirklich moglich ist. Praktisch reichen relativ schwache Zusatzannahmen
aus, um bei Vorliegen einer Losung konstruktiv weitere Variablen anzugeben, die
die Rolle der Faktoren und Fehler spielen konnten – womit dann gezeigt ist,
dass eine solche Faktorenstruktur auch wirklich existieren konnte, in dem Sinne,
dass die Annahme einer derartigen Struktur jedenfalls nicht zu Widerspruchen
fuhrt. Damit ist naturlich aber andererseits keineswegs gezeigt, dass eine solche
mogliche Losung auch real ist in dem Sinne, dass es beispielsweise die vermuteten
Faktoren wirklich gibt.
Interpretation der Faktoren. Neben der Frage, ob eine Losung numerisch
gut passt, ist auch die Frage wichtig, ob sie inhaltlich vertretbar ist. Hat man
also irgendwie (!) ein passendes Λ (bzw. ein Paar (Kf , Λ)) gefunden, so fragt
man sich, ob man dies auch inhaltlich fur eine mogliche Losung halt. Dabei geht
es darum, ob die gefundene Losung interpretierbar ist in dem Sinne, dass den
hypothetischen Faktoren plausible Bedeutungen beigelegt werden konnen.
3.3 Vorlaufiges zu”
Losungen“ FA13 26
Das einzige, was uber diese hypothetischen Faktoren bis zu diesem Zeitpunkt
bekannt ist, ist die Ladungsmatrix (bzw. Ladungsmatrix und Interkorrelations-
matrix der Faktoren). Die Suche nach Bedeutungen der Faktoren muss also jetzt
mit dem Ziel erfolgen, dass diese Bedeutungen gut zu Λ (bzw. Λ und Kf ) pas-
sen. Wo sich starke Zusammenhange zwischen einem Faktor und einer Variable
andeuten, soll also auch der Faktor mit der ihm verliehenen Bedeutung gut zu
der beobachtbaren Variable passen etc.
Ein solcher Interpretationsversuch ist vergleichsweise einfach im Modell UF, da
hier nur Λ als Hinweis auf die Zusammenhange zur Verfugung steht – Ladungen
und Korrelationen stimmen unter UF namlich uberein.
Schwieriger wird es bei KF, da man hier, was den Zusammenhang zwischen Va-
riablen und Faktoren angeht, zwei Matrizen zur Verfugung hat, das Faktormuster
Λ (Ladungen) und die Faktorstruktur ΛKf (Korrelationen). Will man namlich
die inhaltliche Bedeutung der Faktoren’erschließen‘, so konnen die beiden Ma-
trizen’gegensatzliche‘ Informationen liefern. So ist es durchaus moglich, dass die
Ladung einer Variablen auf einem Faktor positiv ist, die Korrelation derselben
Variablen mit diesem Faktor jedoch negativ (andere Moglichkeiten: die Ladung ist
deutlich positiv, die Korrelation fast Null, etc. etc., man vergleiche die bekannten
ahnlichen Phanomene bei der multiplen Regression).
Die Interpretation eines Faktors will man also aus seinem’Zusammenhang‘ mit
den Variablen erschließen – es fragt sich nur, ob man nun die Ladung oder die
Korrelation als Maß fur den Zusammenhang heranziehen soll. Wesentlich in die
Uberlegungen muss hier sicher die Frage eingehen, ob man eine substantielle oder
eine Regressions-Interpretation der Faktoren im Auge hat. Interpretiert man die
Grundgleichung der Faktorenanalyse substantiell, so entsprechen den Ladungen
auch tatsachliche’Einflusse‘, wahrend die Korrelationen nur von sekundarem
Interesse sind. Hier waren also die Ladungen wichtiger. Bei der Regressionsinter-
pretation hingegen sind die Ladungen technische Hilfsmittel zur Erzielung einer
optimalen Vorhersage, weshalb sie zunachst auch keinerlei inhaltliche Bedeutung
haben. Hier waren dann wohl die Korrelationen ernster zu nehmen.
Findet man zu einer denkbaren passenden Ladungsmatrix nun keine sinnvolle
Interpretation, so muss man nach einer anderen Ladungsmatrix weitersuchen,
die besser interpretierbar ist; Ziel ist es, eine zu finden, mit der man sowohl
bezuglich der Gute der Reproduktion der empirischen Korrelationsmatrix als
auch bezuglich der Interpretierbarkeit zufrieden ist. Dieses Weitersuchen kann
dadurch geschehen, dass man eine einmal gefundene Ladungsmatrix systematisch
3.3 Vorlaufiges zu”
Losungen“ FA13 27
bei unveranderter Losungsgute solange abandert, bis die rechte Interpretation sich
einstellt. Verfahren, die solche systematischen Abanderungen vornehmen, nennt
man Rotationen.
Durch die bisherige Erorterung mag der Eindruck entstanden sein, dass man im
Fall UF (der Fall KF ist analog) eine Faktorenanalyse auch so durchfuhren konnte,
dass man sich irgendwie (!) eine Matrix Λ einfallen lasst, die die Eigenschaft hat,
dass ΛΛ′ in der Diagonalen kleiner als 1 ist und außerhalb der Diagonalen etwa
mit R ubereinstimmt, und dann an der Matrix Λ noch etwas’dreht‘, damit man
sie einigermaßen interpretieren kann.
Nun gibt es mehrere Methoden fur Faktorenanalysen. Bei einigen davon ist die
gerade gegebene Beschreibung ziemlich zutreffend, wobei nur noch technische De-
tails nachzuliefern sind, was die Produktion des’Einfalls‘ und die Art der Drehung
betrifft. Bei anderen wird immerhin die Suche nach Λ von Verteilungsannahmen
geleitet und das Ergebnis in gewisser Weise statistisch abgesichert. Im vorlie-
genden Kapitel wird am Ende ein Beispiel fur diese zweite Art des Vorgehens
skizziert, in einem spateren Kapitel folgt eine Schilderung eines weit verbreiteten
Vorgehens der ersten Art.
Der Eindruck von Willkurlichkeit, der an dieser Stelle entstehen konnte, durfte
fur Anhanger des Modells der Faktorenanalyse recht ernuchternd sein. Da er an
die Gultigkeit des Modells glaubt, ohne jedoch die Ladungsmatrix zu kennen,
drangen sich ihm sogleich die folgenden Fragen auf: Fuhren die unterschiedlichen
Methoden eigentlich zur richtigen Zahl von Faktoren? Und stimmt, wenn dies
der Fall sein sollte, die Ladungsmatrix der Losung einigermaßen mit der’wahren‘
Ladungsmatrix uberein?
Um diese Probleme genauer behandeln zu konnen, sind weitere Uberlegungen auf
theoretischer Ebene notig, denen die folgenden Abschnitte gewidmet sind.
Losungen auf theoretischer Ebene. Um die Eigenheiten des empirischen Vor-
gehens einigermaßen wurdigen zu konnen, ist es unerlasslich, die Sachverhalte
auch auf theoretischer Ebene zu verstehen. Hier ist es wesentlich, dass nicht ir-
gendeine empirische Korrelationsmatrix im Mittelpunkt der Uberlegungen steht,
die sich in einer Untersuchung so, in einer anderen anders ergeben kann, sondern
vielmehr die wahre theoretische Korrelationsmatrix (die durch die empirische bei
hinreichend großen Stichproben einigermaßen zuverlassig geschatzt werden kann,
jedoch genau betrachtet immer unbekannt ist).
3.3 Vorlaufiges zu”
Losungen“ FA13 28
Auf der theoretischen Ebene soll nun die Frage nach Existenz und Eindeutigkeit
von Losungen unter dem Aspekt der Parametrisierung des Modells betrachtet
werden. Der Losungsbegriff ist jetzt etwas verschieden von dem vorangehenden,
der sich auf das empirische Vorgehen bezog. Der einzige Unterschied liegt dar-
in, dass jetzt die wahre Korrelationsmatrix Kx der beobachtbaren Variablen als
bekannt vorausgesetzt wird.
Obwohl der Unterschied also nur gering ist, sollen die Bedingungen der Klarheit
halber noch einmal formuliert werden:
Unter einer q-Faktorlosung zu der wahren Korrelationsmatrix Kx unter KF soll
ein Paar (Kf ,Λ) aus einer (q×q)-Matrix Kf und einer (p×q)-Matrix Λ verstanden
werden, das die folgenden Bedingungen erfullt:
(i) Kf ist positiv semidefinit mit Einsen in der Diagonale,
(ii) ΛKfΛ′ hat Diagonalelemente ≤ 1 und stimmt außerhalb der Diagonale mit
Kx uberein.
Unter einer q-Faktorlosung zu der wahren Korrelationsmatrix Kx unter UF soll
eine (p × q)-Matrix Λ verstanden werden, fur die ΛΛ′ Diagonalelemente ≤ 1
besitzt und außerhalb der Diagonale mit Kx ubereinstimmt.
Der Unterschied zu den Formulierungen fur die empirische Ebene besteht also
nur darin, dass die auf der Grundlage der Losung konstruierte Matrix ΛKfΛ′
(bzw. ΛΛ′ bei UF) – also die reduzierte Korrelationsmatrix, wenn die Losung
’richtig‘ ist – außerhalb der Diagonale vollstandig mit Kx ubereinstimmen soll,
was die unbefriedigende Formulierung’einigermaßen‘ in diesem Zusammenhang
beseitigt.
Es ist wichtig, sich klar zu machen, dass auch hier der Begriff der Losung nicht
automatisch bedeutet, dass die Matrizen Λ und Kf (bzw. Λ bei UF), die die
Losung ausmachen, mit den’wahren‘ Matrizen gleichen Namens ubereinstimmen
(diese Formulierung ist naturlich nur sinnvoll, wenn die Richtigkeit des Modells
vorausgesetzt wird).
Als aquivalent sollen zwei Losungen wieder dann bezeichnet werden, wenn die
zugehorigen Matrizen ΛKfΛ′ (bzw. ΛΛ′ bei UF) ubereinstimmen. Die Uberein-
stimmung soll jetzt also auch fur die Diagonale gelten, also fur die Zahlen, die
die Rolle der Kommunalitaten spielen.
3.3 Vorlaufiges zu”
Losungen“ FA13 29
Festzuhalten ist, dass es zunachst nur um die’Reproduktion‘ der Korrelations-
matrix durch ein Modell geht, nicht aber um Interpretierbarkeit.
Zunachst wird das Modell UF untersucht; es wird sich spater herausstellen, dass
dies erstaunlicherweise keine wesentliche Einschrankung ist. Die Frage nach der
Existenz einer Losung mit q Faktoren kann so formuliert werden:
Gibt es eine (p × q)-Matrix Λ mit der Eigenschaft, dass ΛΛ′ außerhalb
der Diagonale mit Kx ubereinstimmt und auf der Diagonale keine Elemente
großer als 1 besitzt?
Falls eine Losung existiert, so stellt sich als nachstes die Frage der Eindeutigkeit:
Gibt es nur eine solche Matrix Λ oder mehrere?
In den meisten Konstellationen ist es nun so, dass es fur manche Matrizen Kx
Losungen gibt und fur andere nicht. Diejenigen Korrelationsmatrizen, fur die es
eine Losung mit q Faktoren gibt, bezeichnet man auch als modellvertraglich (mit
dem q-Faktormodell); ist die theoretische Korrelationsmatrix Kx in diesem Sin-
ne modellvertraglich, so bedeutet das also, dass es denkbar ist, dass hinter den
empirischen Variablen q Faktoren stehen. Ist dagegen die Matrix Kx nicht mo-
dellvertraglich mit dem q-Faktormodell, so bedeutet das, dass es ausgeschlossen
ist, dass die beobachtbaren Variablen durch q Faktoren bestimmt sind.
Die Fragen nach Existenz und Eindeutigkeit von Losungen sollen nun in terminis
der Parameter des Modells genauer beleuchtet werden. Parameter sind hier die
Elemente der Matrix Λ, so dass die Anzahl der Parameter gleich pq ist. Die Be-
dingungen, die diese Parameter erfullen sollen, zerfallen in zwei Teilmengen: Au-
ßerhalb der Diagonale soll ΛΛ′ mit Kx ubereinstimmen und auf der Diagonalen
sollen die Elemente hochstens 1 sein. Die erste Teilmenge von Bedingungen be-
steht aus p (p−1)/2 Gleichungen, den Nichtdiagonalelementen der symmetrischen
Matrix Kx entsprechend. Die zweite Teilmenge besteht aus p Ungleichungen.
Im Beispiel von vier beobachtbaren Variablen, fur die eine Zweifaktorlosung ge-
sucht wird, sollen diese Gleichungen zur Illustration aufgeschrieben werden.
Die Elemente der (4×2)-Matrix Λ sollen dabei mit λij bezeichnet werden und die
der wahren (4×4)-Korrelationsmatrix Kx wie schon oben mit ρij. Die Rechnungen
wurden schon durchgefuhrt, und man erhalt die folgenden 4·3/2 = 6 Gleichungen
3.3 Vorlaufiges zu”
Losungen“ FA13 30
mit 8 Unbekannten fur die Korrelationen:
λ11λ21 + λ12λ22 = ρ12
λ11λ31 + λ12λ32 = ρ13
λ11λ41 + λ12λ42 = ρ14
λ21λ31 + λ22λ32 = ρ23
λ21λ41 + λ22λ42 = ρ24
λ31λ41 + λ32λ42 = ρ34
Dazu kommen 4 Ungleichungen fur die Diagonalelemente:
λ211 + λ212 ≤ 1
λ221 + λ222 ≤ 1
λ231 + λ232 ≤ 1
λ241 + λ242 ≤ 1
In diesen Gleichungen tauchen Produkte und Quadrate der Unbekannten λij auf,
so dass die Methoden zur Losung linearer Gleichungssysteme leider nicht ange-
wandt werden konnen.
Konkret sollen nun zwei Matrizen untersucht werden. Die erste Matrix ist
Kx =
1 0 0 .5
0 1 0 .5
0 0 1 .5
.5 .5 .5 1
.
Diese Matrix ist positiv semidefinit und damit tatsachlich eine mogliche Korrela-
tionsmatrix, wie sich spater mit einfachen Kriterien feststellen lassen wird. Diese
Matrix ist nicht vertraglich mit einem Modell mit zwei Faktoren, wie nun fur
Interessierte genauer gezeigt werden soll.
Die Gleichungen lauten hier, etwas anders angeordnet
λ11λ21 + λ12λ22 = 0
λ11λ31 + λ12λ32 = 0
λ21λ31 + λ22λ32 = 0
λ11λ41 + λ12λ42 = .5
λ21λ41 + λ22λ42 = .5
λ31λ41 + λ32λ42 = .5
3.3 Vorlaufiges zu”
Losungen“ FA13 31
Die ersten drei Gleichungen formuliert man um zu
λ11λ21 = −λ12λ22λ11λ31 = −λ12λ32λ21λ31 = −λ22λ32
Das Produkt dieser Gleichungen ergibt
λ211λ221λ
231 = −λ212λ222λ232 ,
was wegen der Nichtnegativitat von Quadratzahlen nur dann erfullt sein kann,
wenn beide Seiten gleich 0 sind. Dazu muss jeweils mindestens einer der Faktoren
0 sein.
Es soll nun die Teilmatrix λ11 λ12λ21 λ22λ31 λ32
der unbekannten Matrix Λ untersucht werden. Das Argument eben hat gezeigt,
dass in jeder der Spalten eine Unbekannte 0 sein muss.
Aus der vierten Gleichung λ11λ41 + λ12λ42 = .5 folgt, dass nicht sowohl λ11 als
auch λ12 gleich 0 sein konnen, und in derselben Weise folgert man aus den anderen
Gleichungen insgesamt, dass in jeder Zeile der Matrix hochstens eine Null stehen
kann.
Ware nun beispielsweise λ11 = 0, so musste wegen der ersten Gleichung λ11λ21 =
−λ12λ22 eine der beiden Zahlen λ12 oder λ22 Null sein; wegen des vorangegangenen
Arguments kann dies nicht λ12 sein, und es folgt λ22 = 0. Ganz analog folgt, dass
auch λ32 = 0 gilt; allgemein hat eine Null in einer Spalte der Teilmatrix zur Folge,
dass in der anderen Spalte zwei Nullen stehen mussen, und zwar in den beiden
’komplementaren‘ Zeilen.
Da in jeder Spalte der Teilmatrix mindestens eine Null steht, mussen in der
anderen Spalte mindestens zwei Nullen stehen; mit anderen Worten mussen in
jeder Spalte mindestens zwei Nullen stehen, was aber mit der Forderung nicht
vereinbar ist, dass in jeder Zeile hochstens eine Null stehen darf.
Die Gleichungen sind folglich nicht erfullbar, und die angegebene Matrix Kx ist
damit nicht mit dem Modell UF mit zwei Faktoren vertraglich.
3.3 Vorlaufiges zu”
Losungen“ FA13 32
Als zweites Beispiel sei
Kx =
1 0. −0.36 0.
0. 1 0. −0.36
−0.36 0. 1 0.
0. −0.36 0. 1
.
Diese Matrix ist mit dem Modell UF mit zwei Faktoren vertraglich, denn fur die
Matrizen
Λ1 =
0.6 0
0 0.6
−0.6 0
0 −0.6
, Λ2 =
0.54 0.72
−0.72 0.54
−0.24 −0.32
0.32 −0.24
und Λ3 =
0.9 0
0 0.9
−0.4 0
0 −0.4
gilt
Λ1Λ′1 =
0.36 0. −0.36 0.
0. 0.36 0. −0.36
−0.36 0. 0.36 0.
0. −0.36 0. 0.36
und
Λ2Λ′2 = Λ3Λ
′3 =
0.81 0. −0.36 0.
0. 0.81 0. −0.36
−0.36 0. 0.16 0.
0. −0.36 0. 0.16
.
Die zu den angegebenen Ladungsmatrizen gehorenden reduzierten Korrelations-
matrizen stimmen also außerhalb der Diagonale mit Kx uberein und besitzen auf
der Diagonale keine Zahlen, die großer als 1 sind. Man hat damit drei Losungen
gefunden, von denen die beiden letzten zudem aquivalent sind, da sie zu denselben
Kommunalitaten fur die Variablen fuhren.
Die Beispiele sollten deutlich gemacht haben, dass der Nachweis, dass eine Losung
nicht moglich ist, oder auch das Auffinden einer Losung (das hier gar nicht ver-
sucht wurde – es wurden ja nur mehrere Losungen zum Nachrechnen mitgeteilt)
kompliziert ist. Die Techniken zum Losen linearer Gleichungssysteme fuhren je-
denfalls hier nicht zum Erfolg.
Entscheidend ist die Frage, ob die Gleichungen erfullbar sind – die Ungleichungen
sollten dann in den meisten Fallen auch erfullt sein, was aber zum Schluss noch
gesondert nachzuprufen ist.
3.3 Vorlaufiges zu”
Losungen“ FA13 33
Hierzu eine Anmerkung: In ahnlichen (oft komplizierteren) Situationen versucht
man ublicherweise mit Hilfe von Computerprogrammen die Gleichungen zu losen,
wahrend man den Ungleichungen weniger Beachtung schenkt. Dies kann dazu
fuhren, dass sie zwar noch kontrolliert werden, dass aber bei Nichterfullung das
Programm nicht etwa abbricht, sondern nur eine (manchmal kryptische) Warnung
ausgibt. Die Unsinnigkeit der Losung (hier: negative Fehlervarianzen) wird dann
moglicherweise vom Anwender gar nicht erkannt.
Die Beispiele zeigen, dass es bei dem Zweifaktormodell UF fur 4 Variablen Kor-
relationsmatrizen gibt, zu denen keine Losung existiert, und auch solche, fur die
mehrere Losungen moglich sind.
Am zweiten Beispiel sieht man, dass auch von einer modellvertraglichen wah-
ren Korrelationsmatrix nicht unbedingt auf die zugehorige Ladungsmatrix ge-
schlossen werden kann, da es hier ja zumindest drei Losungen und daher keine
eindeutige gibt.
Saturiertheit und Identifizierbarkeit. Beobachtungen wie die an den beiden
Beispielen motivieren zwei wichtige Begriffe, die zur Beurteilung eines Modells
sehr nutzlich sind.
Ein Modell heißt saturiert, wenn jede (sinnvolle) Verteilung der beobachtbaren
Variablen mit dem Modell vertraglich ist.
Ein Modell heißt identifizierbar, wenn aus der wahren Verteilung der beobacht-
baren Variablen auf die Parameter geschlossen werden kann.
Man sagt dann alternativ auch, dass die Parameter identifizierbar sind.
In diesen Formulierungen taucht das Wort’Verteilung‘ auf. Meist lasst man da-
bei nicht beliebige Verteilungen zu (daher der Zusatz’sinnvoll‘), sondern macht,
damit die Modelle handhabbar bleiben, generelle Voraussetzungen uber diese Ver-
teilungen, so dass sie sich mit wenigen Kenngroßen charakterisieren lassen. Im
Falle der Faktorenanalyse konnte man beispielsweise fordern, dass die beobacht-
baren Variablen gemeinsam normalverteilt sein sollen.
Macht man diese Voraussetzung, so ist wegen der Standardisierungsvorausset-
zung die Verteilung der beobachtbaren Variablen durch deren Kovarianzmatrix
vollig bestimmt (dies wird sich spater aus der Definition der gemeinsamen Nor-
malverteilung ergeben). Die Verteilung ist offenbar dann sogar schon durch die
Elemente der Korrelationsmatrix bestimmt, die außerhalb der Diagonalen liegen,
3.3 Vorlaufiges zu”
Losungen“ FA13 34
also durch die Korrelationen der Variablen untereinander.
In diesem Fall ist ein Modell genau dann saturiert, wenn jede mogliche Kon-
stellation von Interkorrelationen der beobachtbaren Variablen mit dem Modell
vertraglich ist, und es ist dann identifizierbar, wenn aus diesen Interkorrelationen
eindeutig auf die Parameter geschlossen werden kann.
Fur das Zwei-Faktormodell UF bei vier beobachtbaren Variablen zeigen die oben
untersuchten Beispiele, dass dies Modell weder saturiert noch identifizierbar ist.
Als nachstes soll die Bedeutung von Saturiertheit und Identifizierbarkeit fur den
epistemologischen Status von Modellen und Parametern diskutiert werden.
Ein saturiertes Modell passt zu jeder moglichen Verteilung und kann daher nicht
mit der Empirie kollidieren. Ein radikaler Empiriker wurde solchen Modellen
daher womoglich jeden empirischen Gehalt absprechen und sie als sinnleer be-
zeichnen.
Beispielsweise kann man sich bei saturierten Modellen irgendwelche beobacht-
baren Variablen aus ganz unterschiedlichen Bereichen hernehmen (also solche,
bei denen keinerlei plausibler Grund fur die Annahme gemeinsamer Faktoren be-
steht) und wird immer eine vollstandig passende Losung finden. Umgekehrt heißt
das, dass die Tatsache, dass eine vollstandig passende Losung existiert, eben nicht
zur Uberzeugung veranlassen sollte, dass die Variablen etwas theoretisch Interes-
santes gemeinsam haben.
Auf jeden Fall gibt es keine Moglichkeit, ein solches Modell auf seine Richtigkeit
zu testen, da ja jede Situation mit dem Modell kompatibel ist.
Ist ein Modell hingegen nicht saturiert, so ruckt ein statistischer Test in den
Bereich des Moglichen; ein solcher Test wird darauf hinauslaufen, zu untersuchen,
ob die empirischen Daten einigermaßen zu einer modellvertraglichen Verteilung
passen oder nicht.
Im Beispiel der Faktorenanalyse wird man die empirische Korrelationsmatrix
daraufhin untersuchen, ob sie’hinreichend nahe‘ bei einer modellvertraglichen
Korrelationsmatrix liegt, oder ob die’nachstgelegenen‘ modellvertraglichen Kor-
relationsmatrizen zu weit’entfernt‘ sind.
Ein Modell mit nicht identifizierbaren Parametern hat den großen Nachteil, dass
selbst im Falle vollstandiger Information uber die wahre Verteilung nicht auf die
3.3 Vorlaufiges zu”
Losungen“ FA13 35
Parameter geschlossen werden kann. Hier bleibt also eine prinzipielle Unsicherheit
uber die Parameter bestehen, die nicht auf empirischem Wege zu beseitigen ist.
In einem solchen Fall konnte ein Empiriker konstatieren, dass ein Reden uber
nicht identifizierbare Parameter sinnlos ist, da das, woruber man zu reden meint,
gar nicht fassbar ist. Ein radikaler Empiriker wurde Außerungen uber solche
Parameter womoglich ganz verbieten.
Das Modell der Faktorenanalyse mit einer festen Anzahl q > 1 von Faktoren ist
ein Beispiel fur ein Modell, bei dem (mit gewissen uninteressanten Ausnahmen)
die Parameter nie identifizierbar sind. Versuche von Antworten auf die Frage
nach der wahren Ladungsmatrix bleiben also grundsatzlich im Spekulativen, da
es prinzipiell unmoglich ist, diese wahre Ladungsmatrix zu bestimmen.
Bei Modellen mit einem Faktor sind die Parameter ubrigens auch praktisch nie
identifizierbar, allerdings ist der Grad der Unbestimmtheit hier kleiner: In den
meisten Fallen lassen sich zwei Losungen finden, die sich nur um den Faktor −1
unterscheiden, was nur eine Art’Umpolung‘ des Faktors und damit harmlos ist.
Von einem radikalen Standpunkt aus waren wegen der fehlenden Identifizierbar-
keit die bisherigen Erorterungen der Faktorenanalyse weitgehend leeres Gerede.
Schließlich ist noch anzumerken, dass die Begriffe der Saturiertheit und der Iden-
tifizierbarkeit unabhangig voneinander sind in dem Sinne, dass aus der Saturiert-
heit weder die Identifizierbarkeit noch das Gegenteil davon folgt und umgekehrt.
Die Faktorenanalyse ist ein Beispiel, in dem Modelle sehr oft nicht saturiert sind
und außerdem praktisch nie identifizierbar. Dies bedeutet, dass man zwar oft
testen kann, ob ein Modell mit einer bestimmten Anzahl von Faktoren richtig ist,
dass man aber fast immer uber die Ladungsmatrix prinzipiell keine bestimmte
Aussage machen kann (eine gewisse Ausnahme stellt der Fall der Modelle mit
einem Faktor dar).
Die Aussage uber die Testbarkeit darf nicht missverstanden werden und soll des-
halb noch weiter erlautert werden. Ein solcher Test kann verschiedene Ziele haben.
Manchmal verfolgt man mit einem solchen Test die Absicht, zu zeigen, dass q
Faktoren nicht ausreichen. Man wunscht sich dann ein signifikantes Ergebnis,
aber nur, um ein Modell mit mehr als q Faktoren gegen eines mit q Faktoren
durchzusetzen. Die faktorielle Struktur generell wird dabei nicht in Frage gestellt.
3.3 Vorlaufiges zu”
Losungen“ FA13 36
In anderen Situationen mochte man die Richtigkeit des untersuchten Modells
belegen. Dabei taucht allerdings die bekannte Schwierigkeit auf, dass das gete-
stete Modell den Status der Nullhypothese bekommt, weshalb aus einem (dann
erwunschten) nicht signifikanten Ergebnis nicht ernsthaft auf die Richtigkeit des
Modells geschlossen werden kann.
Schließlich ist auf die Verteilungsannahmen hinzuweisen, die man bei solchen
Tests machen muss; hier wird meist gemeinsame Normalverteilung aller Variablen
vorausgesetzt. Dieser Schwachstelle muss man mit geeigneten Untersuchungen zur
Robustheit begegnen.
Parametrisierende Abbildung. Es sollen im Folgenden einige Uberlegungen
zu der Existenz und Eindeutigkeit von Losungen angestellt werden, bei denen
sich der Begriff der parametrisierenden Abbildung als nutzlich erweist. Die Dar-
stellung ist so gehalten, dass die Verallgemeinerung wesentlicher Zuge auf andere
Modelle als die Faktorenanalyse nicht schwer fallen sollte. Zunachst geht es um
den Aspekt des Vergleichs der Anzahl der Parameter und der Gleichungen.
Im Modell UF mit q Faktoren lautete die Grundgleichung
Kx = ΛΛ′ + De .
Fur die Elemente außerhalb der Diagonale von Kx ließ sich diese Gleichung aus-
schreiben in ein System von p (p − 1)/2 Gleichungen mit pq Unbekannten. Die
Frage nach der Existenz und Eindeutigkeit von Losungen ist daher gleichbedeu-
tend mit der Frage, ob dies System eine Losung besitzt und ob diese eindeutig ist
– die spater noch zu kontrollierenden Ungleichungen fur die Diagonalemente seien
dabei vorlaufig außer Acht gelassen. Die p (p− 1)/2 Gleichungen entsprechen da-
bei den Korrelationen der beobachtbaren Variablen untereinander, wahrend die
pq Unbekannten gerade die Parameter, also die Elemente der Ladungsmatrix Λ
sind.
Leider sind die Gleichungen keine linearen Gleichungen, es treten namlich auch
Produkte von Unbekannten (also der λij) auf. Das Problem der Existenz und Ein-
deutigkeit von Losungen ist daher hier komplizierter als im Fall linearer Gleichun-
gen. Gleichwohl konnen die Kenntnisse der Eigenschaften linearer Gleichungssy-
steme Hinweise fur den hier vorliegenden Fall liefern.
So ist zu vermuten, dass im Fall p(p − 1)/2 > pq, d.h. (p − 1)/2 > q (mehr
Gleichungen als Unbekannte) im Allgemeinen keine Losung zu existieren braucht.
3.3 Vorlaufiges zu”
Losungen“ FA13 37
Hier ist also damit zu rechnen, dass es Korrelationsmatrizen gibt, die mit einem q-
Faktor-Modell nicht vertraglich sind, dass mit anderen Worten derartige Modelle
nicht saturiert sind. Diese Vermutung trifft auch zu.
Eine oberflachliche Uberlegung konnte weiter zu der Vermutung fuhren, dass im
Fall (p − 1)/2 > q hochstens eine Losung existiert, im Fall (p − 1)/2 = q genau
eine, wahrend es im Fall (p − 1)/2 < q immer mehr als eine Losung gibt –
diese Falle sind namlich genau die mit mehr Gleichungen als Unbekannten, mit
genauso vielen Gleichungen wie Unbekannten und mit weniger Gleichungen als
Unbekannten.
Eine genauere Untersuchung lehrt jedoch, dass analoge Aussagen nicht einmal bei
linearen Gleichungssystemen gelten mussen. Im vorliegenden Fall nichtlinearer
Gleichungen trifft die genannte Vermutung im Allgemeinen erst recht nicht zu.
Zu einer weiteren Verdeutlichung der Verhaltnisse ist das Konzept der parame-
trisierenden Abbildung hilfreich, das nun entwickelt werden soll.
Man fasst dazu als erstes alle moglichen Korrelationsmatrizen zu einer Menge
zusammen, die hier der Tradition entsprechend Ω genannt werden soll (diese Be-
zeichnung hat jetzt nichts mit einem Wahrscheinlichkeitsraum zu tun). Nun sind
die (p × p)-Korrelationsmatrizen gekennzeichnet durch die p (p − 1)/2 Elemen-
te oberhalb der Diagonalen. Setzt man n = p (p − 1)/2, so kann man sich Ω
daher auch als eine Teilmenge des Rn vorstellen (man identifiziert einfach eine
Korrelationsmatrix mit dem Vektor ihrer in einer fest gewahlten Reihenfolge an-
geordneten Elemente oberhalb der Diagonale). Im Fall der Faktorenanalyse sieht
man (gegebenenfalls mit Zusatzannahmen) die Verteilung der beobachtbaren Va-
riablen als durch ihre Korrelationsmatrix ausreichend charakterisiert an, so dass
man etwas abstrakter sagen kann, dass Ω gerade aus den moglichen Verteilungen
der beobachtbaren Variablen besteht.
Als Parameter wurden die Elemente einer moglichen Ladungsmatrix bezeichnet.
Fasst man alle Parameter zu einem Vektor zusammen, so nennt man das Ergebnis
auch’Parametervektor‘. Im Modell UF mit q Faktoren besteht ein Parametervek-
tor aus den in Vektorform angeordneten Elementen einer moglichen Ladungsma-
trix; die Anzahl der Komponenten eines solchen Vektors ist pq, wofur auch kurz
m geschrieben werden soll. Die moglichen Ladungsmatrizen kann man sich also
auf diese Weise als m-Vektoren reprasentiert denken. Die Menge aller moglichen
Parametervektoren (hier also die Menge der moglichen Ladungsmatrizen) fasst
man dann ebenfalls zu einer Menge zusammen, die man meist Θ nennt. Beim
3.3 Vorlaufiges zu”
Losungen“ FA13 38
Modell UF ist Θ dann also eine Teilmenge des Rm.
Durch das Modell UF ist festgelegt, welche Korrelationsmatrix zu einer bestimm-
ten Ladungsmatrix Λ gehort, namlich die, bei der die Elemente außerhalb der Dia-
gonale mit denen von ΛΛ′ ubereinstimmen. Etwas abstrakter formuliert steckt in
diesem Modell eine Vorschrift, wie man aus einem Parametervektor die zugehorige
Verteilung der beobachtbaren Variablen ermitteln kann. Die entsprechende Abbil-
dung soll parametrisierende Abbildung heißen und F genannt werden. Die Abbil-
dung F ist – abstrakt gesprochen – diejenige Abbildung von Θ nach Ω, die jedem
Parametervektor die zugehorige Verteilung der untersuchten Variablen zuordnet.
Im Modell UF ordnet F konkret jeder moglichen Ladungsmatrix Λ ∈ Θ den Vek-
tor der Elemente oberhalb der Diagonale von ΛΛ′ zu, durch den ja die Korrela-
tionsmatrix der beobachtbaren Variablen eindeutig festgelegt ist, und der daher
mit der Korrelationsmatrix identifiziert werden kann.
Das Gesagte soll noch einmal an dem konkreten Beispiel von 4 Variablen und 2
Faktoren illustriert werden. Hier wird die Verteilung der beobachtbaren Variablen
durch deren (4 × 4)-Korrelationsmatrix charakterisiert, die jedoch schon durch
die 6 Elemente oberhalb der Diagonale vollstandig gegeben ist. Daher kann Ω hier
als Teilmenge des R6 aufgefasst werden. Der Parametervektor besteht gerade aus
den 4 · 2 = 8 in Vektorform angeordneten Elementen der Ladungsmatrix, so
dass Θ hier eine Teilmenge des R8 ist. Die parametrisierende Abbildung F , die
jeder Ladungsmatrix die zugehorige Korrelationsmatrix zuordnet, wird schließlich
durch 6 Gleichungen beschrieben, die oben schon ausformuliert wurden; es ergibt
sich dann bei geeigneter Anordnung
F (
λ11λ21λ31λ41λ12λ22λ32λ42
) =
λ11λ21 + λ12λ22λ11λ31 + λ12λ32λ11λ41 + λ12λ42λ21λ31 + λ22λ32λ21λ41 + λ22λ42λ31λ41 + λ32λ42
.
Diejenigen Elemente von Ω, die von der Form F (Λ) sind fur ein Λ ∈ Θ, sind
offenbar genau die mit q-Faktor-Modell vertraglichen Korrelationsmatrizen. Fasst
man diese Elemente zu einer Menge zusammen, so erhalt man die Menge der
modellvertraglichen Korrelationsmatrizen, die auch ωq heißen soll (genauer ist
3.3 Vorlaufiges zu”
Losungen“ FA13 39
dies die Menge der mit dem q-Faktor-Modell vertraglichen Korrelationsmatrizen).
Allgemein gesprochen ist ωq also das Bild von Θ unter der Abbildung F , kurz:
ωq = F (Θ). Es sei dabei daran erinnert, dass ja allgemein fur jede Teilmenge A
des Definitionsbereiches einer Abbildung f das Bild von A unter f gerade die
Menge f(A) = f(a) | a ∈ A ist.
Mit diesen Bezeichnungen kann man sich die Verhaltnisse, wie sie typischerweise
in der Faktorenanalyse auftreten, mit Illustrationen der folgenden Art veran-
schaulichen:
..................................................
........................
.....................
................................................................................................................................................
.............................................................................................................................
......................................................................................................................................................................................................................................................................................................................................................................................... ..........................
.............................
.......................
....................
....................
..........................................................................................................................
.......................................
.......................................................................................................................................................................................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.............................................................................................................................................................................................................................................................................
................................
...................................
..........................................
.........................................................
........................................................................................................................................................................................................................................................................................
.......................
F
Θ
Ω
ωq
Diese Illustration, die lediglich als Schema zu verstehen ist, soll nun schrittweise
erlautert werden. Auf der linken Seite ist zunachst der Parameterraum Θ ⊂ Rm
veranschaulicht, also die Menge der Ladungsmatrizen fur q Faktoren, auf der
rechten Seite ist die Menge Ω ⊂ Rn der Korrelationsmatrizen der beobachtbaren
Variablen. Die Abbildung F ordnet jeder Ladungsmatrix die zugehorige Korrela-
tionsmatrix zu.
Die Menge ωq der modellvertraglichen Korrelationsmatrizen ist in der hypothe-
tischen Situation der Illustration eine echte Teilmenge von Ω. Alle Elemente von
Θ werden auf Punkte von ωq abgebildet (ωq besteht genau aus diesen Bildern).
Die Menge ωq hat hier eine niedrigere’Dimension‘ als Ω, was typisch fur viele
faktorenanalytischen Modelle ist. Die Tatsache, dass ωq eine echte Teilmenge von
Ω ist, bedeutet gerade, dass das betrachtete Modell nicht saturiert ist: Fur alle
Korrelationsmatrizen außerhalb ωq lasst sich keine Ladungsmatrix finden, die zu
diesen Matrizen fuhrt.
In der betrachteten hypothetischen Situation moge es nun so sein, dass in der
Regel modellvertragliche Korrelationsmatrizen nicht nur durch eine Ladungsma-
trix erzeugt werden, sondern durch mehrere. Dies ist in der folgenden Erganzung
der ersten Illustration angedeutet:
3.3 Vorlaufiges zu”
Losungen“ FA13 40
........................................................
.........................
........................
.....................
....................................................................................................................................................................
..................................................................................................................................................................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................................................................
.............................................
...........................
.......................
.....................
....................
....................
.......................................................................................................................................
.......................................
.............................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
....................................................................................................................................................................................................................................
....
................................
...................................
......................................
............................................
...........................................................
......................................................................................................................................................................................................................................................................................................................
.........................................
.............................................
.....................................................
....................................................................
..................................................................................................................................................
..................................................................................................................................................
.................................
.......................
............................... .......................
F
Θ
Ω
ωq•
Der hervorgehobene Punkt in ωq ist eine mogliche feste Korrelationsmatrix und
die Linie in Θ steht fur alle Ladungsmatrizen, die durch F auf diesen Punkt
abgebildet werden. Es fuhren also hier viele Ladungsmatrizen zu der gegebenen
Korrelationsmatrix, namlich alle, aus denen sich die Linie zusammensetzt. Ein
Ruckschluss von der Korrelationsmatrix auf die’wahre‘ Ladungsmatrix ist daher
unmoglich. Das Modell der Illustration ist also nicht identifizierbar.
Als Folge der fehlenden Identifizierbarkeit ist hier die’Dimension‘ von ωq kleiner
als die von Θ; der Verlust an Dimensionen entspricht in gewisser Weise dem Grad
an Uneindeutigkeit, wenn zu einer gegebenen Korrelationsmatrix ein passendes
Λ gesucht werden soll (man kann dies noch genauer fassen: auch der Menge der
Λ-Matrizen, die zu einer festen Korrelationsmatrix fuhren, kann man meist eine
’Dimension‘ zuordnen; diese
’Dimension‘ addiert sich dann mit der von ωq zu der
von Θ).
Die beiden besonderen Eigenschaften der illustrierten hypothetischen Situation
sind allgemein fur viele faktorenanalytische Modelle gultig: Die Menge der mo-
dellvertraglichen Korrelationsmatrizen ist eine Teilmenge ωq ⊂ Ω von’niedrigerer
Dimension‘, und die einzelnen modellvertraglichen Korrelationsmatrizen passen
zu jeweils mehr als einer Ladungsmatrix.
Erganzend ist noch auf die Merkmale der Illustrationen hinzuweisen, die nicht
wortlich genommen werden durfen: Die Dimensionen von Θ und Ω werden im
Allgemeinen nicht ubereinstimmen und sind insbesondere fast nie gleich 2. Auch
die’Dimension‘ von ωq ist fast immer großer als 1.
Der mehrfach gebrauchte Ausdruck’Dimension‘ kann hier leider nicht genauer
erlautert werden; es moge der Hinweis genugen, dass die Dimension einer ge-
krummten Linie gleich 1 ist und die einer verformten (’verbeulten‘) Flache gleich
2 etc.. Die prazise Definition findet man in der elementaren Differentialtopologie.
3.3 Vorlaufiges zu”
Losungen“ FA13 41
Bekanntlich heißt eine Abbildung f : X → Y surjektiv, wenn jedes y ∈ Y durch
die Abbildung’erfasst‘ wird, wenn also zu jedem solchen y ein x ∈ X existiert mit
f(x) = y. Ferner heißt eine Abbildung f : X → Y injektiv, wenn verschiedene
Punkte aus X auf verschiedene Werte abgebildet werden, wenn also aus x1 6= x2folgt, dass auch f(x1) 6= f(x2) gilt.
Die oben illustrierte Abbildung F ist beispielsweise weder injektiv (alle Punkte
auf der Linie in Θ werden auf den gleichen Punkt abgebildet) noch surjektiv (nur
die Punkte in ωq sind Funktionswerte von F ).
In dieser Terminologie gilt, dass ein Modell genau dann saturiert ist, wenn die
parametrisierende Abbildung F surjektiv ist und genau dann identifizierbar, wenn
F injektiv ist.
Im Falle fehlender Identifizierbarkeit kann die wahre Korrelationsmatrix Kx von
mehr als nur von einer Ladungsmatrix herstammen. Hier kann man eine noch
feinere Unterscheidung einfuhren und fragen, ob die Losungen alle aquivalent
sind oder nicht, ob also die moglichen Ladungsmatrizen alle zu denselben Kom-
munalitaten fuhren oder nicht. Im ersten Fall konnte man davon sprechen, dass
wenigstens die Kommunalitaten’identifizierbar‘ sind. Das Beispiel von 4 Varia-
blen und 2 Faktoren ist eines, in dem dies nicht der Fall ist, wie sich oben schon
gezeigt hat.
Suchen von Losungen. Zur Ermittlung von empirischen Losungen eines fak-
torenanalytischen Problems gibt es mehrere Verfahren. Das Konzept der para-
metrisierenden Abbildung kann dabei helfen, die Vorgehensweisen grob zu ver-
anschaulichen.
Zunachst soll das Problem der Bestimmung der Anzahl der Faktoren ausgeklam-
mert werden. Es soll also bereits feststehen, dass nur Losungen mit q Faktoren
in Frage kommen, und die Aufgabe besteht jetzt darin, eine passende Ladungs-
matrix zu ermitteln.
Tragt man in die Illustration der parametrisierenden Abbildung noch die empi-
rische Korrelationsmatrix R ein, so erhalt eine Darstellung der folgenden Art:
3.3 Vorlaufiges zu”
Losungen“ FA13 42
........................................................
.........................
........................
.....................
....................................................................................................................................................................
..................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ............................
...............................
.........................
......................
....................
....................
.................................................................................................................................................
.......................................
.............................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
....................................................................................................................................................................................................................................
....
................................
...................................
......................................
............................................
...........................................................
..................................................................................................................................................................................................................................................................................................................................................
............................
F
Θ
Ω
ωq
•R
Beim Finden einer Losung geht es nun darum, eine der empirischen Korrela-
tionsmatrix R moglichst ahnliche modellvertragliche Korrelationsmatrix K zu
finden, und dann unter den moglicherweise vielen zu K passenden Λ-Matrizen
eine auszuwahlen, die gut interpretierbar ist.
Da die modellvertraglichen Korrelationsmatrizen gerade ωq ausmachen, muss K
ein Element von ωq sein. Die anzustrebende Ahnlichkeit zwischen R und K sollte
sich geometrisch in einem moglichst kleinen Abstand ausdrucken. Geometrisch
betrachtet sollte K damit der Punkt von ωq sein, der zu R den kleinsten Abstand
hat.
Das Losungsverfahren kann damit geometrisch durch die nachste Abbildung ver-
anschaulicht werden, in der K als der am nachsten bei R gelegene Punkt von ωqbestimmt ist, und in der in Θ die Menge all der Ladungsmatrizen eingezeichnet
ist, die zu diesem K fuhren. Von diesen Λ-Matrizen wurde dann auch schon nach
(hier nicht zu diskutierenden) Kriterien der Interpretierbarkeit eine ausgewahlt,
die dann die endgultige Losung Λ darstellt.
........................................................
.........................
........................
.....................
....................................................................................................................................................................
..................................................................................................................................................................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................................................................
.............................................
...........................
.......................
.....................
....................
....................
.......................................................................................................................................
.......................................
.............................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
....................................................................................................................................................................................................................................
....
................................
...................................
......................................
............................................
...........................................................
......................................................................................................................................................................................................................................................................................................................
.........................................
.............................................
.....................................................
....................................................................
..................................................................................................................................................
..................................................................................................................................................
.................................
.......................
............................... .......................
F
Θ
Ω
ωq•
•R
K•Λ
3.3 Vorlaufiges zu”
Losungen“ FA13 43
Die gerade gegebene Beschreibung ist allerdings nur eine recht grobe. Unklar ist
dabei vor allem das Konzept des Abstands. Bei einigen Verfahren lasst sich ein
Abstandsbegriff so definieren, dass die Beschreibung sehr gut passt, wobei aller-
dings dieser Abstandsbegriff nicht unbedingt der von der Geometrie nahegelegte
ist. Bei anderen Verfahren ist die gegebene Beschreibung lediglich ein vages Bild
zu einer oberflachlichen Orientierung, wobei das Wort Abstand nur metaphorisch
zu verstehen ist.
Es bleibt noch das Problem, in einem allerersten Schritt die Anzahl q der Faktoren
zu bestimmen.
Betrachtet man Modelle mit unterschiedlichen Anzahlen q von Faktoren, so ist
klar, dass fur die zugehorigen Mengen ωq der modellvertraglichen Korrelations-
matrizen die Beziehung ω1 ⊆ ω2 ⊆ . . . ⊆ ωp ⊆ Ω gilt, wobei zumindest die ersten
Relationen echte Enthaltenseinsrelationen sein sollten (der Genauigkeit halber ist
anzumerken, dass die Parameterraume fur die Modelle mit unterschiedlichen Fak-
torzahlen naturlich verschieden sind, ebenso die parametrisierenden Abbildungen
– man wurde sie wohl als Θq und Fq indizieren).
Andeutungsweise konnte die Situation etwa so aussehen:
.............................................
...........................
.......................
.....................
....................
....................
.......................................................................................................................................
.......................................
.............................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
....................................................................................................................................................................................................................................
....
..........................................................
.................................
.........................
.............................................................................
...............................
..................................
........................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................................................................................................................................
•
Ω
ω1
ω2
ω3
Die Illustration ist wieder nur metaphorisch gemeint, daher mussen die zu ver-
anschaulichenden Tatsachen nun genauer benannt werden.
In einem Ω, das die Korrelationsmatrizen einer gewissen Zahl von beobachtba-
ren Variablen reprasentiert, sind die Mengen ω1, ω2 und ω3 der mit den Model-
len mit einem, zwei und drei Faktoren vertraglichen Korrelationsmatrizen ein-
gezeichnet. Wesentlich ist, dass diese Mengen ineinandergeschachtelt sind, dass
3.3 Vorlaufiges zu”
Losungen“ FA13 44
also ω1 ⊆ ω2 ⊆ ω3 ⊆ Ω gilt. Mit Absicht haben auch ω1, ω2 und ω3 unter-
schiedliche’Dimensionen‘, was in vielen Fallen eine zutreffende Beschreibung der
Verhaltnisse ist.
Nun sind jedoch auch die Eigenschaften der Illustration zu nennen, die irrefuhrend
sind. Die Dimension von Ω ist zunachst meist deutlich großer als 2. Die’Dimensio-
nen‘ aufeinanderfolgender ωq unterscheiden sich meist um mehr als 1. Die Menge
ω1 hat nie die’Dimension‘ 0. Es kann durchaus sein, dass fur große Werte von q
die Mengen ωq mit Ω ubereinstimmen.
Als konkreteres Beispiel soll nun die oben schon behandelte Situation mit 4 Va-
riablen in ahnlicher Weise illustriert werden:
.........................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................................................
.............................
...................................................................................................................................................................................................................................................................................
.......................
...........................
...............................................................................................................................................................
........................................
........................................................................................................................................................................................................................................................................................................................................................................................................ ......................................................................................................................................................................................................................................................................................................
............................................................
..........................................
....................................
...................................
................................................................................................
...................
......................................
............................................................................................................................................................................................................................................................................................................................................................................................. .............................................................................................................................................
.......................................................................................................................
ω3 = ω4 = Ω
ω1
ω2
Auch diese Illustration ist naturlich nicht wortlich zu nehmen, daher soll wieder
erlautert werden, was an ihr wesentlich ist (leider konnen die Eigenschaften nur
referiert werden, eine Begrundung liegt außerhalb des hier Moglichen).
Die Mengen ω1, ω2, ω3 und ω4 der mit einem Ein-, Zwei-, Drei- und Vier-Faktor-
Modell (UF) vertraglichen Korrelationsmatrizen sind ineinander geschachtelt, es
gilt also ω1 ⊆ ω2 ⊆ ω3 ⊆ ω4. Die’Dimension‘ von ω1 ist kleiner als die von
Ω, wahrend die Dimension von ω2 schon gleich der von Ω ist. Allerdings ist das
Zweifaktormodell noch nicht saturiert. Dies trifft hingegen auf die Modelle mit 3
und 4 Faktoren zu, weshalb ω3 = ω4 = Ω gilt.
Die’Dimension‘ von ω1 ist ubrigens 4, wahrend die anderen Dimensionen 6 sind.
Das Modell mit 2 Faktoren ist unter dem Aspekt interessant, dass es nicht satu-
riert ist, obwohl die’Dimension‘ von ω2 bereits 6 und damit maximal ist.
Nach dieser Veranschaulichung der Verhaltnisse der ωq untereinander kann jetzt
der noch fehlende erste Schritt bei der Faktorenanalyse beschrieben werden, bei
dem es um die Anzahl der Faktoren geht.
3.3 Vorlaufiges zu”
Losungen“ FA13 45
Wird in der (in der beschriebenen Weise metaphorisch zu verstehenden) ersten
Illustration noch die empirische Korrelationsmatrix R eingezeichnet, so konnte
sich etwa folgendes Bild ergeben:
.............................................
...........................
.......................
.....................
....................
....................
.......................................................................................................................................
.......................................
.............................................................................................................................................................................................................................................................
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.........................................................................................................
....................................................................................................................................................................................................................................
....
..........................................................
.................................
.........................
.............................................................................
...............................
..................................
........................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................................................................................................................................
•
Ω
ω1
ω2
ω3
•R
Die Frage sei nun die, ob ein Modell mit q = 1, 2 oder 3 Faktoren als angemessen
auszuwahlen ist. Wahlt man die Korrelationsmatrizen zu moglichen Losungen
mit einem, zwei oder drei Faktoren jeweils wieder als die Elemente der ωq, die
von R den jeweils geringsten Abstand haben, und deutet man diese Abstande
als Maße dafur, wie gut die Modelle passen, so ist klar, dass die Anpassung mit
wachsendem q jedenfalls nicht schlechter werden kann und meistens echt besser
wird. Unter dem Aspekt der Anpassung wird man also eine moglichst hohe Zahl
von Faktoren wahlen.
Auf der anderen Seite sind Modelle mit vielen Faktoren fur die Interpretation und
womoglich fur die angestrebte Sparsamkeit der inhaltlichen Theorie unangenehm.
Unter diesem Aspekt wird man also eher Modelle mit wenig Faktoren bevorzugen.
Zwischen den beiden sich widersprechenden Forderungen nach moglichst guter
Anpassung einerseits und moglichst wenig Faktoren andererseits muss man nun
einen Kompromiss schließen.
Waren die Abstande in der Illustration ernst zu nehmen, so wurden sie vielleicht
darauf hindeuten, dass ein Modell mit zwei Faktoren nur unwesentlich besser
passt als eines mit nur einem Faktor, wahrend im Dreifaktormodell die Anpassung
deutlich besser ist. Man wurde also wohl nur das Modell mit einem und mit
drei Faktoren in die Kandidaten fur die Endauswahl aufnehmen. Moglicherweise
wurde die letzte Entscheidung zwischen diesen Modellen schließlich auf Grund
ganz anderer Kriterien fallen.
Nach den bisherigen Uberlegungen kann das Vorgehen fur den Fall einer gegebe-
3.3 Vorlaufiges zu”
Losungen“ FA13 46
nen empirischen Korrelationsmatrix R zusammenfassend im Prinzip so beschrie-
ben werden: Zuerst wird die Zahl der Faktoren festgelegt, dann wird zu dieser
Zahl von Faktoren eine moglichst gut passende modellvertragliche Korrelations-
matrix ermittelt, zu der schließlich als letztes eine Ladungsmatrix Λ ausgewahlt
wird, die dem Interpretationsbedurfnis moglichst weit entgegenkommt.
Praktisch sind die drei in dieser schematischen Darstellung deutlich getrennten
Schritte allerdings oft nicht so klar voneinander zu scheiden, was sich in den
genaueren Ausfuhrungen ja auch schon angedeutet hat.
Die einzelnen Verfahren der Faktorenanalyse unterscheiden sich vor allem darin,
wie die einzelnen Schritte und ihre Kombination genau aussehen.
Das Modell KF. Zum Abschluss folgt noch eine Bemerkung zu den theoreti-
schen Losungen im Modell KF im Unterschied zu UF.
Hier besteht eine Losung ja aus einer moglichen Ladungmatrix Λ und einer
moglichen Interkorrelationsmatrix Kf der Faktoren. Fur die Losung muss gelten,
dass ΛKfΛ′ außerhalb der Diagonale mit Kx ubereinstimmt und auf der Diago-
nale Werte ≤ 1 hat. Im Vergleich zu UF kommen mit den Elementen der Matrix
Kf weitere Parameter hinzu – die Anzahl der Parameter des q-Faktormodells ist
also großer als im Fall UF.
Die großere Komplexitat soll am schon oben betrachteten Fall von 4 beobacht-
baren Variablen und 2 Faktoren illustriert werden. Hier kommt als weiterer Pa-
rameter die Korrelation der beiden Faktoren hinzu, die ρ′ heißen soll.
Die Gleichungen fur die Elemente außerhalb der Diagonalen sind dann
λ11λ21 + λ12λ22 + ρ′λ11λ22 + ρ′λ12λ21 = ρ12
λ11λ31 + λ12λ32 + ρ′λ11λ32 + ρ′λ12λ31 = ρ13
λ11λ41 + λ12λ42 + ρ′λ11λ42 + ρ′λ12λ41 = ρ14
λ21λ31 + λ22λ32 + ρ′λ21λ32 + ρ′λ22λ31 = ρ23
λ21λ41 + λ22λ42 + ρ′λ21λ42 + ρ′λ22λ41 = ρ24
λ31λ41 + λ32λ42 + ρ′λ31λ42 + ρ′λ32λ41 = ρ34
3.3 Vorlaufiges zu”
Losungen“ FA13 47
und die 4 Ungleichungen fur die Diagonalelemente
λ211 + λ212 + 2ρ′λ11λ12 ≤ 1
λ221 + λ222 + 2ρ′λ21λ22 ≤ 1
λ231 + λ232 + 2ρ′λ31λ32 ≤ 1
λ241 + λ242 + 2ρ′λ41λ42 ≤ 1 .
Zum Vergleich folgen noch einmal die entsprechenden Gleichungen im Modell UF
mit den Ungleichungen fur die Diagonalelemente:
λ11λ21 + λ12λ22 = ρ12
λ11λ31 + λ12λ32 = ρ13
λ11λ41 + λ12λ42 = ρ14
λ21λ31 + λ22λ32 = ρ23
λ21λ41 + λ22λ42 = ρ24
λ31λ41 + λ32λ42 = ρ34
λ211 + λ212 ≤ 1
λ221 + λ222 ≤ 1
λ231 + λ232 ≤ 1
λ241 + λ242 ≤ 1
Offenbar sind diese Gleichungen tatsachlich einfacher als die im Modell KF.
Da das allgemeinere q-Faktor-Modell KF eine großere Zahl von Parametern be-
sitzt, ist zu vermuten, dass auch die Menge der modellvertraglichen Korrelati-
onsmatrizen großer ist als fur das q-Faktor-Modell UF. Die Chancen, bei einer
gegebenen empirischen Korrelationsmatrix eine passende KF-Losung mit q Fakto-
ren zu finden, sollten also großer sein, als wenn man Unkorreliertheit der Faktoren
fordert.
Wie sich herausstellen wird, trifft diese Vermutung jedoch uberraschenderweise
nicht zu: Die Korrelationsmatrizen, die mit dem Modell KF mit q Faktoren ver-
traglich sind, sind genau dieselben wie die, die mit dem Modell UF mit q Faktoren
vertraglich sind.
Es ist klar, dass daher die Situation, was die Identifizierbarkeit angeht, im Modell
KF noch schlechter ist als schon im Modell UF. Hingegen unterscheiden sich die
Modelle bei einer festen Zahl von Faktoren hinsichtlich der Saturiertheit nicht.
3.3 Vorlaufiges zu”
Losungen“ FA13 48
Eine weitere Konsequenz daraus, dass die modellvertraglichen Korrelationsma-
trizen in den beiden Modellen die gleichen sind, ist die, dass man sich bei vielen
weiteren Untersuchungen auf den einfachereren Fall UF beschranken kann.
Maximum-Likelihood-Faktorenanalyse. Es soll nun skizzenhaft ein Verfah-
ren der Faktorenanalyse vorgestellt werden, das sich gut in das eben entworfene
Bild einfugt und zudem den Vorzug besitzt, in gewisser Weise statistisch prufbar
zu sein. Bei diesem Modell ist die Zusatzvoraussetzung zu machen, dass die Fak-
toren und Fehler gemeinsam normalverteilt sind.
Die Schilderung ist sehr oberflachlich und enthalt der Anschaulichkeit halber eini-
ge Ungenauigkeiten, auf die jedoch der interessierte Leser am Ende des Abschnitts
aufmerksam gemacht wird.
Zunachst sei wieder vorausgesetzt, dass man sich schon fur eine Losung mit q
Faktoren entschieden hat. Es geht dann darum, diejenige modellvertragliche Kor-
relationsmatrix K ∈ ωq zu ermitteln, die am besten zu der empirischen Matrix
R passt.
Zu diesem Zweck wird ein spezielles Schatzverfahren benutzt, namlich die so-
genannte Maximum-Likelihood-Schatzung, bei der – grob gesprochen – unter den
moglichen Matrizen K ∈ ωq diejenige ausgewahlt wird, die die gegeben empirische
Matrix R am wahrscheinlichsten macht.
Genauer wird nicht die Wahrscheinlichkeit maximiert, sondern die Wahrschein-
lichkeitsdichtefunktion. Als praktische Sprechweise sei dafur die eingefuhrt, dass
die Likelihood maximiert wird.
Man kann eine ahnliche ML-Schatzung auch fur den Fall durchfuhren, dass man
das faktorenanalytische Modell nicht voraussetzt, sondern theoretisch alle Korre-
lationsmatrizen fur moglich halt; das Ergebnis dieser Schatzung ist (nicht uber-
raschend) die Matrix R selbst. Die Abkurzung ML steht dabei naturlich fur
’Maximum Likelihood‘.
Der große Vorteil der ML-Faktorenanalyse besteht darin, dass jetzt ein Modell-
test durchgefuhrt werden kann, bei dem die Gultigkeit des faktorenanalytischen
Modells die Nullhypothese ist, wahrend die Alternativhypothese keine solchen
einschrankenden Voraussetzungen macht.
Anschaulich gesprochen vergleicht dieser Test die Likelihood der empirisch er-
hobenen Korrelationsmatrix bei Modellgultigkeit mit der, die diese Korrelati-
3.3 Vorlaufiges zu”
Losungen“ FA13 49
onsmatrix besitzt, wenn keine Voraussetzungen gemacht werden. Ist die Wahr-
scheinlichkeit von R im Fall der Gultigkeit des Modells (H0) deutlich kleiner als
im allgemeinen Fall ohne einschrankende Voraussetzungen (H1), so spricht das
gegen die Nullhypothese, dass das q-Faktor-Modell richtig ist.
Etwas technischer formuliert werden diese Likelihoods fur jeweils den Fall be-
stimmt, dass die durch die vorangehende ML-Schatzung bestimmte Korrelations-
matrix die wahre Korrelationsmatrix ist; es handelt sich dann genauer um die
maximalen Likelihoods von R unter H0 und H1. Von diesen beiden Likelihoods
wird dann der Quotient gebildet, der meist mit λ bezeichnet wird. Kleine Werte
dieses Quotienten sprechen gegen die Nullhypothese.
Naheliegenderweise heißen derartige Tests auch Likelihood-Quotienten-Tests.
Zum Testen wird haufig nicht der Quotient selber benutzt, sondern (aquivalent)
das (−2)-fache seines naturlichen Logarithmus, also −2 lnλ. Da die entsprechen-
de Transformation streng monoton fallend ist, sprechen nun große Werte gegen
die Nullhypothese des q-Faktor-Modells.
Die Teststatistik −2 lnλ wird genau dann Null, wenn die Matrix R bereits selbst
modellvertraglich ist, also in ωq liegt, und da sie um so großer wird, je schlechter
R vergleichsweise zum q-Faktor-Modell passt, kann −2 lnλ nun in der Tat als
eine Art Abstand interpretiert werden, den R zu ωq hat; allerdings ist dieses
Abstandsmaß eher statistisch als geometrisch zu verstehen.
Die logarithmische Transformation wird deshalb durchgefuhrt, weil fur −2 lnλ
die Verteilung bei Gultigkeit von H0 naherungsweise bekannt ist; asymptotisch
(fur eine wachsende Zahl von Versuchspersonen) handelt es sich hier namlich um
eine χ2-Verteilung.
Die Anzahl der Freiheitsgrade dieser χ2-Verteilung ist gerade die Differenz zwi-
schen den’Dimensionen‘ von Ω und ωq.
Oben war davon die Rede, dass die Schatzung eine Schatzung der wahren Korre-
lationsmatrix ist. Praktisch ist aber diese Korrelationsmatrix weniger interessant
als die Ladungsmatrix. Die Suche nach einer Losung findet dann auch im Parame-
terraum Θ statt, so dass die Schatzung der wahren Korrelationsmatrix eigentlich
eine Schatzung der Ladungsmatrix ist, die zu dieser Korrelationsmatrix fuhrt.
Merkwurdig ist hierbei, dass eine Ladungsmatrix geschatzt wird, die gar nicht
identifizierbar ist, ein Problem, das aber (technisch) dadurch beherrscht werden
kann, dass man unter den vielen gleichwertigen moglichen Losungen jeweils eine
3.3 Vorlaufiges zu”
Losungen“ FA13 50
Standardlosung auszeichnet. Inhaltlich ist das Problem dadurch naturlich nicht
gelost.
Nach dieser oberflachlichen Schilderung soll wenigstens auf ihre grobsten Unge-
nauigkeiten hingewiesen werden.
Eigentlich musste man nach der allgemeinen Theorie der Likelihood-Quotienten-
tests die Untersuchung auf der Ebene von Kovarianzmatrizen durchfuhren und
nicht auf der von Korrelationsmatrizen. So ist die Likelihood in terminis von
Kovarianzmatrizen und nicht von Korrelationsmatrizen definiert.
Dennoch sind die besonderen Gegebenheiten bei der Faktorenanalyse so, dass
man weitgehend mit Korrelationsmatrizen arbeiten kann. Mit teilweise nicht un-
komplizierten Argumenten kann man zeigen, dass sogar die Aussagen uber den
Zusammenhang von’Dimensionen‘ und Freiheitsgraden auf der Ebene der Kor-
relationsmatrizen korrekt sind, was allerdings an speziellen Eigenschaften fakto-
renanalytischer Modelle liegt.
Die Aussagen uber die Tests, speziell uber die asymptotische Verteilung der Test-
statistik beruht auf der Annahme gewisser’Regularitatsvoraussetzungen‘, auf die
hier nicht genauer eingegangen werden kann, die jedoch’in der Regel‘ erfullt sind
(auch dieser vage Ausdruck kann leider nicht erlautert werden).
Exploratorische und Konfirmatorische Faktorenanalyse. Die gerade be-
schriebene ML-Faktorenanalyse ist in gewisser Weise ein Grenzfall zwischen den
exploratorischen Faktorenanalysen, die hier behandelt werden, und den konfir-
matorischen, die nun wenigstens kurz erwahnt werden sollen.
Der Unterschied zwischen diesen beiden Klassen von Faktorenanalysen besteht
darin, dass bei exploratorischen Faktorenanalysen zunachst keine Vermutungen
uber die Zahl der Faktoren vorliegen, schon gar nicht uber die genauere Struktur
der Ladungsmatrix.
Dies ist bei den konfirmatorischen Faktorenanalysen anders, bei denen in der
Regel genauere Vorstellungen uber die Zahl der Faktoren und meist auch uber
die Struktur der Ladungsmatrix bestehen.
Solche genaueren Vorstellungen uber die Struktur der Ladungsmatrix konnen
spezifische Angaben uber die Ladungen sein. Beispielsweise kann vermutet wer-
den, dass ein bestimmter Faktor eine beobachtbare Variable nicht’beeinflusst‘,
was dadurch prazisiert wird, dass die entsprechende Ladung gleich 0 ist.
3.3 Vorlaufiges zu”
Losungen“ FA13 51
Auf diese Weise ist bei konfirmatorischen Faktorenanalysen von Anfang an ein
recht spezifisches Modell vorhanden.
Dieses Modell kann nun (mit zusatzlichen Verteilungsnannahmen) als Nullhypo-
these getestet werden.
In diesem Sinn kann die ML-Faktorenanalyse, wenn die Zahl der Faktoren vor-
gegeben wird, auch als konfirmatorische Faktorenanalyse aufgefasst werden.
Ein Hauptproblem bei konfirmatorischen Faktorenanalysen besteht darin, dass
die zu untersuchenden Modelle meist den Status einer Nullhypothese haben, wes-
halb sie aus den bekannten Grunden eigentlich nicht bestatigt werden konnen;
der Ausdruck’konfirmatorisch‘ ist also – wie vieles in der Statistik – etwas hoch-
staplerisch.
Allerdings sind im Rahmen solcher Verfahren auch andere Arten von Tests mog-
lich, so beispielsweise solche, ob eine bestimmte Ladung 0 ist. Hier kann die favo-
risierte Hypothese (dass die Ladung nicht 0 ist) die Rolle der Alternativhypothese
ubernehmen und sich gegen die Nullhypothese (dass die Ladung 0 ist) im ublichen
statistischen Sinn durchsetzen; allerdings vor dem Hintergrund, dass man das et-
was allgemeinere Modell als richtig annimmt. Was hier dann (in statistisch ernst
zu nehmender Weise) abgesichert wird, ist daher das etwas allgemeinere Modell in
Konkurrenz zu einem spezielleren Modell (wo eine Ladung 0 ist), nicht jedoch das
allgemeinere Modell selbst in Konkurrenz zu der noch allgemeineren Annahme,
dass gar kein faktorenanalytisches Modell Gultigkeit besitzt.
Die Modelle der konfirmatorischen Faktorenanalysen sind verallgemeinert worden
zu den so genannten Strukturgleichungsmodellen, bei denen man bei den latenten
Variablen noch zusatzliche Beeinflussungen untereinander annimmt, beispielswei-
se im Sinne der Regression. Pfadanalysen mit latenten Variablen sind ein Beispiel.
Die bisherigen Ausfuhrungen waren so gehalten, dass sie unter vielen Aspekten
fur derartige komplexere Sitationen ihre Gultigkeit behalten und eine ungefahre
Vorstellung von Vorgehen und Schwierigkeiten geben konnen.
Die Probleme, was beispielsweise die meist zunachst fehlende Identifizierbarkeit
und damit zusammenhangend die Interpretation von Modellen angeht, sind meist
deutlich komplizierter als die bei der Faktorenanalyse, und ohne tiefergehende
mathematische Kenntnisse oft noch nicht einmal richtig einzuschatzen, geschweige
denn zu behandeln.
3.3 Vorlaufiges zu”
Losungen“ FA13 52
Ein Typ von Problemen, die noch ziemlich leicht zu erkennen sind, entsteht da-
durch, dass die Computerprogramme, die nach Losungen suchen, oft nicht nach-
prufen, ob diese Losungen auch sinnvoll sind. Beispielsweise werden oft Varianzen
einfach als Parameter behandelt, die alle moglichen Werte annehmen konnen – es
werden also bei der Suche nach Losungen auch negative Werte zugelassen. Dies ist
deshalb moglich, weil bei den Gleichungen, die die parametrisierende Abbildung
definieren, formal beliebige Werte eingesetzt werden konnen, auch eben solche,
die eigentlich gar nicht moglich sind, wie negative’Varianzen‘. Ob der Anwender
die Unsinnigkeit einer solchen Losung uberhaupt bemerkt, ist nicht garantiert.
Vielleicht wird er darauf aufmerksam gemacht, dass eine bestimmte geschatzte
Kovarianzmatrix nicht positiv semidefinit ist, weiß aber mit diesem Ausdruck
nichts anzufangen und ignoriert die Warnung.
Auch bei der Berechnung von Freiheitsgraden kann es zu Merkwurdigkeiten kom-
men, so dass vielleicht als (angebliche) Zahl der Freiheitsgrade eine Null oder gar
eine negative Zahl auftaucht.
Vor dem Hintergrund solcher Schwierigkeiten sollte unsere Bewunderung fur For-
scher um so großer sein, die derartige Modelle auch (oder gerade) ohne mathe-
matischen Hintergrund mit großer Virtuositat handhaben.
Maximum-Likelihood-Schatzungen. Erganzend sollen nun noch die Maxi-
mum-Likelihood-Schatzung und der Likelihood-Quotienten-Test an einfachsten
Beispielen illustriert werden. Zunachst soll es um ML-Schatzungen gehen (ML
ist immer die Abkurzung fur’Maximum Likelihood‘).
Das erste Beispiel ist das der Binomialverteilung, bei dem die untersuchten Ver-
teilungen diskret sind, wodurch viele Schwierigkeiten gar nicht auftreten.
Vorausgesetzt sein soll, dass n Mal unabhangig ein Bernoulli-Experiment mit
Erfolgswahrscheinlichkeit p durchgefuhrt wird. Ziel ist es, mit dem oben schon
kurz skizzierten ML-Prinzip auf der Basis des Ergebnisses einen Schatzer von p
zu finden.
Bernoulli-Experimente sind Experimente mit nur zwei moglichen Ergebnissen,
die hier mit 1 (Erfolg) und 0 (Misserfolg) codiert werden sollen. Die Anzahl k der
Erfolge bei n-maliger unabhangiger Durchfuhrung eines Bernoulli-Experiments
ist bekanntlich binomialverteilt.
Das Ergebnis des Gesamtexperiments sind die n Ergebnisse x1, . . . , xn der einzel-
3.3 Vorlaufiges zu”
Losungen“ FA13 53
nen Durchgange, die jeweils nur 0 oder 1 sein konnen. Ein solches Ergebnis soll
auch kurz zu einem Vektor x = (x1, . . . , xn) zusammengefasst werden.
Die Wahrscheinlichkeit fur ein konkretes Ergebnis x = (x1, . . . , xn) ist wegen der
vorausgesetzten Unabhangigkeit gleich dem Produkt der Wahrscheinlichkeiten
der einzelnen xi bei einmaliger Durchfuhrung des Bernoulli-Experiments. Diese
Wahrscheinlichkeiten sind p, wenn xi = 1 gilt, und q = (1 − p), wenn xi = 0
gilt. Dies kann man auch so zusammenfassen, dass die Wahrscheinlichkeit fur
den Wert xi beim i-ten Durchgang gleich
pxiq(1−xi)
ist – man beachte dabei die Beziehung a0 = 1 fur alle a > 0.
Die Wahrscheinlichkeit eines konkreten Ergebnisses (x1, . . . , xn) errechnet sich
dann zun∏i=1
pxiq(1−xi) ,
wobei das Zeichen∏
analog zum Summenzeichen∑
angibt, dass die zugehorigen
Terme alle zu multiplizieren sind.
Die Wahrscheinlichkeit fur das Ergebnis (1, 0, 1) bei dreimaliger Durchfuhrung
ist dann beispielsweise
3∏i=1
pxiq(1−xi) = (px1q(1−x1))(px2q(1−x2))(px3q(1−x3))
= (p1q0)(p0q1)(p1q0) = pqp = p2q ,
wie es ja schon aus der Elementarstatistik bekannt ist.
Allgemein erhalt man
n∏i=1
pxiq(1−xi) =∏
pxi∏
q(1−xi) = p∑xiq
∑(1−xi) ,
wobei die Indexgrenzen der Produkte und Summen immer 1 und n sind.
Bezeichnet man wie ublich mit k die Anzahl der Erfolge, also die der i mit xi = 1,
so gilt∑xi = k und
∑(1− xi) = n−
∑xi = n− k, und das Gesamtergebnis ist
n∏i=1
pxiq(1−xi) = pkq(n−k) ,
3.3 Vorlaufiges zu”
Losungen“ FA13 54
was ebenfalls aus der Elementarstatistik bekannt ist.
Den Wert
L(p; x) =n∏i=1
pxiq(1−xi) = pkq(n−k)
nennt man auch die zu p und x = (x1, . . . , xn) gehorende Likelihood (da q = 1−pist, reicht es, nur p als Parameter bei L anzugeben).
Hielte man nun p fest und variierte x = (x1, . . . , xn) so lieferte L offenbar gerade
die Wahrscheinlichkeitsfunktion auf der Menge der moglichen Ergebnisse x.
Gerade dies wird jedoch meistens nicht getan, vielmehr halt man den Wert x
des Ergebnisses fest und betrachtet L dann als eine Funktion von p. Dies ist der
wesentliche erste Schritt auf dem Weg zur ML-Schatzung und zum Likelihood-
Quotienten-Test.
Betrachtet man so L bei festgehaltenem x, so erhalt man fur unterschiedliche Pa-
rameter p die Wahrscheinlichkeiten dafur, dass das Ergebnis des Versuchs gerade
x ist.
Da das festgehaltene x meist das Ergebnis eines bereits durchgefuhrten Ver-
suchs ist, ist der Ausdruck’Wahrscheinlichkeit‘ ubrigens etwas irrefuhrend, denn
Wahrscheinlichkeiten sollen sich ja auf mogliche Ergebnisse beziehen. Dies ist ein
Grund fur die Verwendung des Wortes’Likelihood‘ (im Englischen statt
’proba-
bility‘, im Deutschen gibt es leider kein analoges gelaufiges Begriffspaar).
Ist nun beispielsweise bei siebenmaliger Durchfuhrung eines Bernoulli-Experiments
das Ergebnis gleich x = (0, 0, 1, 1, 0, 1, 1), so gilt
L(p; x) = p4q3 = p4(1− p)3 .
Der Graph dieser Funktion sieht folgendermaßen aus:
3.3 Vorlaufiges zu”
Losungen“ FA13 55
0.1 .05 1
0.002
......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.........................
...................
p
L(p; x)
................................................................................................................
..............................................................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
Das Prinzip der ML-Schatzung von p ist es nun, denjenigen Parameter aus-
zuwahlen, fur den die Likelihood maximal wird, fur den also das aufgetretene
Ergebnis eine maximale Wahrscheinlichkeit besitzt.
Dies Maximum durfte hier etwa fur p = .57 angenommen werden. Naturlich
wird man den maximierenden Wert von p nach Moglichkeit ausrechnen und nicht
graphisch bestimmen – in vielen etwas komplizierteren Fallen ist dies allerdings
nur naherungsweise mit geeigneten Such-Algorithmen moglich und nicht durch
eine einfache Formel.
Hier jedoch ist die Bestimmung einfach. Ein moglicher Losungsweg besteht darin,
nicht das p zu suchen, das L maximiert, sondern das p, das den naturlichen
Logarithmus der Funktion, also von ln(L), maximiert. Da der Logarithmus eine
streng monoton wachsende Funktion ist, ist klar, dass ein p, fur den ln(L) maximal
wird, gleichzeitig ein p ist, fur das L maximal wird.
Was den naturlichen Logarithmus angeht, so sei daran erinnert, dass er der Lo-
garithmus zur Basis e ist, und dass die Ableitung der Funktion ln(x) gerade die
Funktion 1/x ist.
Die logarithmierte Likelihood ist nun im allgemeinen Fall gleich
ln(L(p; x)) = ln(pk(1− p)n−k) = k ln(p) + (n− k) ln(1− p) .
Um das Maximum zu finden, wird die Ableitung davon gleich 0 gesetzt. Diese
Ableitung ist unter Benutzung der Kettenregel gleich
k1
p− (n− k)
1
(1− p).
3.3 Vorlaufiges zu”
Losungen“ FA13 56
Nullsetzen und Umstellen liefert
1− pp
=n− kk
oder1
p− 1 =
n
k− 1 ,
was sofort die Losung p = k/n liefert. Bezeichnet man diese Losung zur Vermei-
dung von Unklarheiten nun mit p, so ist nun also mit p = k/n der ML-Schatzer
des unbekannten Parameters p gefunden.
Eigentlich ware jetzt noch mit der zweiten Ableitung zu untersuchen, ob es sich
hier wirklich um ein Maximum handelt. Dies ist in der Tat der Fall, wie man sich
ubrigens auch mit anderen Methoden klar machen kann. Außerdem ist anzumer-
ken, dass die Argumentation im Falle k = 0 und k = n nicht korrekt ist.
Im Beispiel oben erhalt man p = 4/7 = .5714, in Ubereinstimmung mit dem
Augenschein.
Die Schatzung k/n fur p ist schon aus der Elementarstatistik bekannt. Vielleicht
mag es enttauschend sein, dass die ML-Methode zu nichts Neuem fuhrt, vielleicht
starkt es aber auch das Vertrauen, dass diese Heuristik gute Ergebnisse liefern
kann.
Der Maximalwert von L selber ist nun(k
n
)n(1− k
n
)n−k,
der Maximalwert von ln(L) hingegen
k ln(k/n) + (n− k) ln(1− k/n) .
Erganzend sei noch auf die Ahnlichkeit des Prinzips der ML-Schatzung mit dem
Abduktionsprinzip hingewiesen, dass ja darin besteht, dass man aus mehreren
moglichen Erklarungen eines Sachverhalts diejenige auswahlt, bei der dieser Sach-
verhalt am wenigsten uberraschend ist.
Als weiteres Beispiel sollen Erwartungswert und Streuung einer normalverteilten
Variable auf der Basis einer unabhangigen Stichprobe vom Umfang n nach dem
ML-Prinzip geschatzt werden.
3.3 Vorlaufiges zu”
Losungen“ FA13 57
In dieser Situation einer stetigen Variable gibt es keine Wahrscheinlichkeitsfunk-
tion; ihre Rolle wird nun von der Wahrscheinlichkeitsdichte ubernommen. Eigent-
lich mussten deshalb einige Sprechweisen geandert werden; so sucht man jetzt die
Parameter, die den Wert der Wahrscheinlichkeitsdichte an der Stelle des aufge-
tretenen Ergebnisses maximieren und nicht etwa dessen Wahrscheinlichkeit (die
Wahrscheinlichkeit fur jedes mogliche Ergebnis ist ja 0, da die Verteilungen stetig
sind). Die korrekten Sprechweisen sind jedoch etwas unhandlich, weshalb es oft
bei den eigentlich falschen Ausdrucksweisen bleibt; vielfach wird auch der Begriff
’Likelihood‘ benutzt, bei dem man ja vereinbaren kann, dass man je nach Situa-
tion damit einmal Wahrscheinlichkeiten und einmal Wahrscheinlichkeitsdichten
meint.
Dass die Wahrscheinlichkeitsdichte in einem bestimmten Punkt maximal ist, be-
deutet (was auch noch prazisiert werden musste und konnte), dass Werte in
kleinen Umgebungen dieses Punktes wahrscheinlicher sind als Werte in ebenso
großen Umgebungen anderer Punkte. In diesem Sinne ist die Verwendung von
Wahrscheinlichkeitsdichten eine naturliche Erweiterung der Heuristik im diskre-
ten Fall auf den stetigen.
Sind µ und σ Erwartungwert und Streuung der zugrundeliegenden Normalvertei-
lung, so ist die Dichtefunktion der Verteilung bekanntlich
g(x) =1√2π σ
e−x− µ
2σ2 .
Wegen der Unabhangigkeit der Ziehungen ist die Dichtefunktion gn der Stichpro-
be gleich dem Produkt der einzelnen Dichten, es gilt also
gn(x1, . . . , xn) =n∏i=1
1√2π σ
e−xi − µ
2σ2 =1
(2π)n/2 σne
− 1
2σ2
n∑i=1
(xi − µ)2
.
Schreibt man fur den Mittelwert der Stichprobe x, so kann man die Summe im
3.3 Vorlaufiges zu”
Losungen“ FA13 58
Exponenten umformen:
n∑i=1
(xi − µ)2 =∑
((xi − x) + (x− µ))2
=∑
(xi − x)2 + 2∑
((xi − x)(x− µ)) +∑
(x− µ)2
= nS2 + 2 (x− µ)∑
(xi − x) + n(x− µ)2
= nS2 + n(x− µ)2 .
Dabei steht S2 fur die unkorrigierte Stichprobenvarianz (1/n)∑
(xi−x)2, und der
mittlere Summand fallt weg, weil die Summe der Abweichungen vom Mittelwert
ja immer 0 ist (das Ergebnis der Zwischenrechnung ist ubrigens in allgemeinerer
Form aus der multivariaten Statistik bekannt).
Die unbekannten Parameter der Verteilung sind hier µ und σ, daher lautet nun
die Likelihoodfunktion so:
L(µ, σ; x) =1
(2π)n/2 σne− n
2σ2(S2 + (x− µ)2)
.
Es geht nun wieder darum, das Maximum dieser Funktion in Abhangigkeit von
µ und σ zu finden. Halt man zunachst σ > 0 konstant, so ist der Exponent
offenbar immer negativ, weshalb der Ausdruck dann maximal wird, wenn der
Exponent betragsmaßig minimal wird. Dies ist offenbar genau fur µ = x der Fall,
da ja µ nun die einzige Große ist, die noch variieren kann, und da (x− µ)2 stets
nichtnegativ ist und minimal (eben fur µ = x) gleich 0. Fur jeden moglichen
Wert von σ wird also die Likelihood maximal fur µ = x, weshalb man dies
Zwischenergebnis schon festhalten und einsetzen kann und schließlich noch das
Maximum der Maximalwerte
1
(2π)n/2 σne−nS
2
2σ2
in Abhangigkeit von σ finden muss.
Hier ist es wieder praktisch, den Weg uber den Logarithmus zu gehen; logarith-
miert man also den letzten Ausdruck, so erhalt man
−(n/2) ln(2π)− n ln(σ)− nS2
2σ2.
3.3 Vorlaufiges zu”
Losungen“ FA13 59
Hiervon ist die Ableitung nach σ gleich
−nσ− nS2
2· (−2)
σ3=n
σ
(S2
σ2− 1
).
Nullsetzen der Ableitung fuhrt zu
S2
σ2= 1
oder
σ = S .
Erganzend musste noch der Nachweis gefuhrt werden, dass man insgesamt tatsach-
lich ein Maximum gefunden hat, was aber hier unterbleiben kann.
Das Ergebnis der Uberlegungen ist also, dass das Maximum der Likelihood-
Funktion angenommen wird fur µ = x und σ = S. Diese Werte werden nun
sinnvollerweise wieder mit µ und σ bezeichnet. Mit µ = x und σ = S hat man
also ML-Schatzer fur die unbekannten Verteilungsparameter µ und σ gefunden.
Der Wert des Maximums kann nun durch Einsetzen leicht bestimmt werden; es
ergibt sich fur die Likelihood-Funktion der Wert
1
(2π)n/2 Sne−n
2
und fur ihren Logarithmus der Wert
−(n/2) ln(2π)− n ln(S)− n/2 = −(n/2)(ln(2π) + ln(S2) + 1
).
Interessant ist, dass die ML-Schatzungen hier nur teilweise mit den ublicherweise
benutzten Schatzern aus der Elementarstatistik ubereinstimmen. Zwar wird auch
hier µ durch x geschatzt, die Schatzung fur σ ist jedoch nicht die korrigierte Stich-
probenstreuung, sondern die unkorrigierte. Dies bedeutet, dass die ML-Schatzung
fur σ2 gleich S2 ist und damit nicht erwartungstreu.
Ganz ahnlich geht man vor, wenn man bei einer normalverteilten Variable, bei
der der Erwartungswert µ bekannt ist, die Streuung σ schatzen will.
Die Likelihoodfunktion ist hier gleich
L(σ; x) =1
(2π)n/2 σne− n
2σ2(S2 + (x− µ)2)
,
3.3 Vorlaufiges zu”
Losungen“ FA13 60
wobei der Unterschied zu oben nur darin besteht, dass der nun bekannte Para-
meter µ nicht mehr als Argument von L auftritt.
Schreibt man kurz S20 fur den Ausdruck S2 + (x − µ)2, so kann man genauso
wie im allgemeinen Fall weiterargumentieren, wenn man nur uberall S2 durch S20
ersetzt. Als Resultat erhalt man als ML-Schatzer fur σ jetzt den Wert S0. Der
hierzu gehorende Maximalwert der Likelihood-Funktion ist dann
1
(2π)n/2 Sn0e−n
2 .
Der Logarithmus dieses Wertes ist
−(n/2) ln(2π)− n ln(S0)− n/2 = −(n/2)(ln(2π) + ln(S2
0) + 1).
Likelihood-Quotienten-Test. Nun soll noch der Likelihood-Quotiententest an
einem einfachsten Beispiel auf der Grundlage der Ergebnisse des letzten Ab-
schnitts illustriert werden.
Es geht um die Frage, ob der Erwartungswert einer normalverteilten Variable
(mit unbekannter Varianz) gleich einem gewissen µ0 ist oder nicht.
Als Datenbasis zur Beantwortung dieser Frage soll eine Stichprobe von n un-
abhangigen Werten x1, . . . , xn gezogen werden.
Die Situation ist bekannt: es geht um die Testung des Hypothesenpaars
H0 : µ = µ0
H1 : µ 6= µ0 ,
wobei vorausgesetzt wird, dass die untersuchte Variable normalverteilt ist mit
unbekannter Varianz; der ublicherweise benutzte Test ist der zweiseitige Einstich-
proben-t-Test.
Es soll jedoch nun ein alternativer Test nach der Likelihood-Quotienten-Methode
konstruiert werden.
Zunachst soll die Beschreibung der Situation den Prinzipien dieser Methode an-
gepasst werden; diese neue Beschreibung erfolgt analog zu der Beschreibung der
Faktorenanalyse und benutzt auch die gleichen Bezeichnungen.
3.3 Vorlaufiges zu”
Losungen“ FA13 61
Vielleicht mag die Darstellung an einigen Stellen unangemessen kompliziert er-
scheinen (und ist es auch), der Zweck ist jedoch der, die bei der Besprechung der
Faktorenanalyse benutzten Konzepte jetzt in einem einfachen Fall zu verwenden
und so deutlicher zu machen. Wahrend die graphischen Darstellungen dort nur
metaphorisch gemeint waren, sind diese Darstellungen hier korrekt, wodurch ihre
wesentlichen Aspekte noch klarer werden sollten.
Es geht um die Verteilung einer Variable X, von der die allgemeine Voraussetzung
gelten soll, dass sie normalverteilt ist bei unbekannter Varianz.
Dies bedeutet, dass die unbekannte Verteilung vollstandig durch zwei Parameter
beschrieben werden kann, namlich durch den Erwartungswert µ und die Streu-
ung σ. Die moglichen Verteilungen entsprechen also genau den Kombinationen
(µ, σ) mit σ > 0. Im Falle der Faktorenanalyse wurde die Menge der dort die
moglichen Verteilungen charakterisierenden Korrelationsmatrizen einer allgemei-
nen Konvention folgend mit Ω bezeichnet, und daher soll auch hier die Menge
R× (0,∞) mit Ω bezeichnet werden; jeder Punkt dieser Menge entspricht dann
genau einer moglichen Verteilung.
Bei dem eingeschrankten Modell (das der Nullhypothese oben entspricht) liegt
µ0 fest, wahrend nur σ noch variieren kann. Dieses σ ist so der einzige Parame-
ter des Modells, und als Menge Θ der Modellparameter kann die Menge (0,∞)
aller moglichen Werte fur σ genommen werden. Als Parametervektor θ des ein-
geschrankten Falles kann hier also einfach σ verwendet werden.
Die parametrisierende Abbildung F hat dann eine besonders einfache Gestalt, sie
ordnet namlich jedem σ ∈ Θ den Wert (µ0, σ) in Ω zu, der die zu σ gehorende
Verteilung des eingeschrankten Modells charakterisiert.
Das Bild von Θ unter F soll ω heißen, es ist offenbar die Menge aller Punkte
(µ0, σ) mit σ > 0.
Die Situation kann nun folgendermaßen dargestellt werden (die Darstellung ist
3.3 Vorlaufiges zu”
Losungen“ FA13 62
diesmal nicht metaphorisch):
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................
...................
µ
σ
(0, 0)
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
......
ωΩ
µ0
Hier besteht Ω aus allen Punkten oberhalb der µ-Achse; diese Achse selber gehort
also nicht mehr dazu. Die Menge ω ist die Halbgerade die vom Punkt (µ0, 0) nach
oben weist (der Punkt (µ0, 0) gehort naturlich nicht dazu).
Bezeichnet man der Kurze halber die Paare (µ, σ) von moglichen Verteilungspa-
rametern mit τ und das Paar der wahren Verteilungsparameter mit τw (’w‘ fur
’wahr‘), so geht es jetzt um die Frage, ob τw in ω liegt (was gerade die Aussage
von H0 ist) oder nicht (was H1 entspricht). Die Hypothesen konnen also nun auch
als
H0 : τw ∈ ωH1 : τw /∈ ω
formuliert werden.
Das Modell der Nullhypothese entspricht geometrisch der Menge ω, wahrend das
allgemeinere Modell der Menge Ω entspricht. Hier ist es also so, dass das allgemei-
nere Modell das der Nullhypothese einschließt, insofern entsprechen die Modelle
nicht genau den Hypothesen, da ja die Alternativhypothese die Nullhypothese
ausschließt.
In diesem Fall wurde man sicher ω als eine’eindimensionale‘ Menge bezeichnen
(es ist ja Teil einer Gerade) und Ω als eine’zweidimensionale‘. In der Tat lasst
sich der Begriff der Dimension verallgemeinern, so dass man mehr Teilmengen
eine Dimension zuordnen kann als nur den linearen und affinen Unterraumen
(beispielsweise ist die Dimension einer Kugeloberflache dann 2). Bei Verwendung
dieser Definition sind die Dimensionen von ω und Ω tatsachlich 1 und 2.
3.3 Vorlaufiges zu”
Losungen“ FA13 63
Nun soll der Likelihood-Quotienten-Test fur die untersuchten Hypothesen kon-
struiert werden. Allgemein ist das Vorgehen bei einer derartigen Konstruktion
so, dass man ML-Schatzer fur die Modellparameter im allgemeinen und einge-
schrankten Modell ermmittelt und dann den Quotienten der zugehorigen maxi-
malen Likelihoods als Teststatistik verwendet.
Sind die ML-Schatzer fur τw im allgemeinen Modell gleich τ und im einge-
schrankten Modell gleich ˆτ und ist die L(τ ; x) die Likelihood-Funktion fur einen
moglichen Parameter τ und den Vektor x der Werte einer moglichen Stichprobe,
so ist der Likelihood-Quotient definiert als die Zahl
λ =L(ˆτ ; x)
L(τ ; x),
wobei x der Vektor der Werte der untersuchten Stichprobe ist.
Hier wird also der Quotient gebildet aus der maximalen Likelihood der tatsachlichen
Stichprobe bei Gultigkeit des eingeschrankten Modells und der maximalen Like-
lihood dieser Stichprobe bei Gultigkeit des allgemeinen Modells.
Da das allgemeine Modell das eingeschrankte umfasst, ist der Zahler hier immer
hochstens so groß wie der Nenner, so dass λ maximal den Wert 1 annehmen kann.
Ist das eingeschrankte Modell gultig, so sollten sich die maximalen Likelihoods
nicht allzu stark unterscheiden, wahrend im anderen Fall damit zu rechnen ist,
dass die Likelihood im eingeschrankten Fall deutlich kleiner ist. Die Nullhypothese
ist daher fur kleine Werte von λ zu verwerfen.
Man kann λ auch interpretieren als ein Maß dafur, wie gut das eingeschrankte
Modell zu den Daten passt im Vergleich zum allgemeinen (suggestiv (und falsch)
formuliert bedeutet ein kleines λ, dass die aufgetretenen Daten unter dem allge-
meinen Modell viel wahrscheinlicher sind als unter dem eingeschrankten). Auch
dies spricht dafur, die Nullhypothese bei kleinen Werten von λ zu verwerfen.
Die eben angestellten Uberlegungen sind naturlich nur heuristisch und nicht un-
bedingt zwingend. Genauere mathematische Untersuchungen zeigen jedoch, dass
in vielen Situationen der Likelihood-Quotienten-Test ein vernunftiger Test ist,
was sich nun auch am hier betrachteten einfachen Beispiel erweisen soll.
Setzt man namlich die oben schon bestimmten ML-Schatzungen ein, so erhalt
man
λ =1
(2π)n/2 Sn0e−n
2
/1
(2π)n/2 Sne−n
2 =
(S
S0
)n.
3.3 Vorlaufiges zu”
Losungen“ FA13 64
Dabei sind S0 und S die ML-Streuungsschatzungen unter den beiden Modellen.
Der Test vergleicht also hier die Streuungsschatzungen unter den beiden Model-
len, wobei eine deutlich großere Streuungsschatzung unter H0 gegen die Nullhy-
pothese spricht, weil sie zu einem kleinen Wert von λ fuhrt.
Der so gewonnene Test soll nun noch etwas umgeformt werden. Dabei wird die
Teststatistik monoton transformiert, um zu einem anderen Ausdruck zu gelan-
gen, bei dem ein Vergleich mit dem schon bekannten t-Test fur die untersuchten
Hypothesen moglich wird.
Zunachst ist zu bemerken, dass eine (streng) monotone Transformation einer
Teststatistik nichts Wesentliches an einem Test andert, wobei nur bei monoton
fallenden Transformationen die Richtung des Tests geandert werden muss.
Ist namlich f eine (streng) monoton wachsende Transformation und T eine Test-
statistik, so gilt fur jede Zahl k im Definitionsbereich von f , dass T ≤ k genau
dann eintritt, wenn f(T ) ≤ f(k) gilt. Bei (streng) monoton fallenden Funktionen
f gilt entsprechend T ≤ k genau dann, wenn f(T ) ≥ f(k) gilt.
Daraus folgt, dass fur einen Wert k, der bei der Verteilung von T unter H0
links α abschneidet, gilt, dass f(k) bei der Verteilung von f(T ) ebenfalls links α
abschneidet im Falle einer monoton wachsenden Transformation f (entsprechend
fur monoton fallende, nur dass durch f(k) dann α rechts abgeschnitten wird). Es
folgt, dass kritische Werte fur T durch f in kritische Werte fur f(T ) transformiert
werden.
Bei monoton wachsendem f fuhrt daher die Entscheidungsregel, H0 dann zu
verwerfen, wenn T kleiner oder gleich dem kritischen Wert der Verteilung von T
unterH0 ist, stets zu derselben Entscheidung wie die Regel,H0 dann zu verwerfen,
wenn f(T ) kleiner oder gleich dem kritischen Wert der Verteilung von f(T ) unter
H0 ist. Bei monoton fallendem f fuhrt hingegen die erste Regel stets zu demselben
Ergebnis wie die Regel, H0 dann zu verwerfen, wenn f(T ) großer oder gleich dem
kritischen Wert der Verteilung von f(T ) unter H0 ist.
Hier soll nun die Funktion f mit
f(λ) =1
λ2/n− 1 ,
verwendet werden, von der man leicht nachweist, dass sie die Zahlen zwischen 0
und 1 streng monoton fallend auf die Zahlen zwischen 0 und ∞ abbildet (wobei
1 auf 0 abgebildet wird). Das Schaubild dieser Funktion sieht beispielsweise fur
3.3 Vorlaufiges zu”
Losungen“ FA13 65
den Fall n = 5 so aus:
1
1
2
................................................................................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
..........................
...................
λ
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
Setzt man fur λ jetzt die Teststatistik (S/S0)n ein, so erhalt man
f(λ) = f((S/S0)n) =
1
(S/S0)2− 1 =
S20
S2− 1 =
S2 + (x+ µ0)2
S2− 1 =
(x− µ0)2
S2.
Die Nullhypothese ist nun fur große Werte dieser Statistik zu verwerfen.
Man erkennt leicht, dass (x−µ0)2/S2 bis auf einen unwesentlichen Faktor gerade
die quadrierte Einstichproben-t-Statistik fur den Test von H0 : µ = µ0 ist (es
gilt namlich (x−µ0)2/S2 = t2/(n−1)), und da man statt des zweiseitigen t-Tests
bekanntlich aquivalent auch einen (rechtsseitigen) F -Test mit dem Quadrat der t-
Statistik durchfuhren kann, folgt insgesamt, dass der Likelihood-Quotienten-Test
in dem betrachteten Fall aquivalent zum zweiseitigen Einstichproben-t-Test ist.
Die Anwendung des Likelihood-Quotienten-Prinzips hat also nichts wesentlich
Neues mit sich gebracht, sondern nur auf einem anderen Weg zu dem schon be-
kannten zweiseitigen t-Test gefuhrt. Einerseits mag dies als enttauschend empfun-
den werden, andererseits kann es aber auch ein Anlass sein, ein gewisses Vertrauen
zu fassen, dass dies Prinzip auch in anderen Fallen vernunftige Tests liefert.
Dass sich die Teststatistik λ des Likelihood-Quotienten-Tests so wie im Beispiel
durch eine einfache Transformation in eine Statistik mit bekannter Verteilung
unter der Nullhypothese transformieren lasst, ist eher die Ausnahme. Wenn kein
derartiger Ausnahmefall vorliegt, benutzt man als Teststatistik meist −2 ln(λ).
Zunachst bemerkt man, dass auf Grund der Tatsache, dass der Likelihood-Quo-
3.3 Vorlaufiges zu”
Losungen“ FA13 66
tient λ nicht großer werden kann als 1, die neue Teststatistik −2 ln(λ) nicht
negativ werden kann. Die Transformation von λ zu −2 ln(λ) ist außerdem streng
monoton fallend, weshalb der Test der Nullhypothese genauso gut auch mit der
neuen Teststatistik durchgefuhrt werden kann. Allerdings ist dann die Nullhypo-
these fur große Werte von −2 ln(λ) zu verwerfen.
Sinnvoll ist die Transformation deshalb, weil −2 ln(λ) bei Gultigkeit der Nullhy-
pothese unter gewissen Regularitatsbedingungen asymptotisch eine χ2-Verteilung
besitzt.
Genauer ist mit dieser Formulierung gemeint, dass die Verteilung der Teststa-
tistik −2 ln(λ) unter H0 mit wachsender Stichprobengroße schwach gegen eine
χ2-Verteilung konvergiert. Bei hinreichend großen Stichproben kann man also
ohne allzu großen Fehler so tun, als hatte die Statistik unter H0 diese Verteilung,
und die Nullhypothese auf dem Niveau α dann verwerfen, wenn −2 ln(λ) großer
ist als das α-Fraktil dieser χ2-Verteilung.
Den Wert −2 ln(λ) bezeichnet man aus diesem Grund meist auch mit χ2 (was
naheliegend, streng genommen aber nicht ganz korrekt ist).
So oft ubrigens in einigen Bereichen die Existenz der Regularitatsbedingungen
erwahnt wird, so selten werden sie konkret zitiert geschweige denn nachgepruft.
Ein Grund dafur ist vielleicht darin zu suchen, dass man schon fur die korrekte
Formulierung mathematische Konzepte braucht, die nicht jedermann gelaufig sind
(weshalb eine solche Formulierung auch hier unterbleiben muss, da die Einfuhrung
dieser Konzepte einen kaum vertretbaren Aufwand erforderten), wahrend die
Nachprufung der Bedingungen viele Anwender wohl einfach uberfordern wurde.
In vielen Standardfallen sind immerhin die Bedingungen fast immer erfullt (in
einem hier auch nicht naher prazisierbaren Sinn).
Es bleibt noch die Frage nach der Anzahl der Freiheitsgrade der approximieren-
den χ2-Verteilung. Diese Zahl erhalt man in’regularen‘ Fallen als Differenz der
’Dimensionen‘ von Ω und ω. Im hier betrachteten Beispiel ist ziemlich plausibel,
dass diese Dimensionen 2 und 1 sind, weshalb die Anzahl der Freiheitsgrade hier
1 ist.
Die Teststatistik χ2 = −2 ln(λ) kann fur das Beispiel einfach bestimmt werden:
−2 ln(λ) = −2 ln((S/S0)n) = n ln(S2
0/S2) = n ln
(1 + (x− µ)2/S2
).
Die Nullhypothese ist (bei Verwendung der Approximation) auf dem Niveau α
dann zu verwerfen, wenn dieser Wert mindestens gleich dem α-Fraktil χ21;α der
3.3 Vorlaufiges zu”
Losungen“ FA13 67
χ21-Verteilung ist.
In diesem Fall kann man ubrigens leicht den Fehler untersuchen, den man bei der
Approximation macht. Berucksichtigt man namlich, dass unter H0 die Statistik
(n − 1)(x − µ0)2/S2 eine F1, n−1-Verteilung besitzt, so bestimmt man analog zu
den oben angestellten Uberlegungen den korrekten kritischen Wert fur den Test
mit −2 ln(λ) zu
n ln (1 + F1,n−1;α/(n− 1)) .
Fur α = .05 wird bei der Approximation als kritischer Wert χ21; .05 = 3.84146
benutzt, wahrend man fur n = 5, 10, 50, 100 die korrekten kritischen Werte zu
5.37017, 4.5018, 3.95979, 3.89984 bestimmt. In diesem Fall wird also die Nullhy-
pothese bei Benutzung der Approximation bei relativ kleinen Werten von n zu
leicht verworfen.
Der Fall, dass man das Maximum der Likelihood-Funktion unter H0 wie in den
bisherigen Beispielen explizit bestimmen kann, ist in vielen Anwendungsberei-
chen eher die Ausnahme. In den Fallen, in denen eine explizite Berechnung durch
eine Formel nicht moglich ist oder scheint, werden iterative Such-Algorithmen
zur Suche des Maximums verwendet. Haufig wird dabei die Aufgabe etwas um-
formuliert. Die Schwierigkeit beschrankt sich dabei meist nur auf den Fall des
eingeschrankten Modells, das H0 entspricht; fur das allgemeine Modell stehen oft
Formeln zur Verfugung.
Eine solche Anderung in der Herangehensweise soll nun fur ein Beispiel geschildert
werden, das dem gerade behandelten ziemlich ahnlich ist; dabei soll so getan
werden, als ware die direkte Bestimmung des Maximums im eingeschrankten
Modell nicht moglich.
In dem neuen Beispiel soll es wieder um eine normalverteilte Zufallsvariable X
mit unbekanntem Erwartungswert µ und unbekannter Streuung σ gehen. Das ein-
geschrankte Modell besagt jetzt, dass der Erwartungswert positiv ist und genau
zwei Streuungseinheit vom Nullpunkt entfernt liegt. Die zugehorige Hypothesen
sind dann
H0 : µ = 2σ
H1 : µ 6= 2σ .
Zur Parametrisierung des eingeschrankten Modells kann man den Parameter θ
als σ wahlen; der Parameterraum Θ ist dann die Menge der positiven reellen
3.3 Vorlaufiges zu”
Losungen“ FA13 68
Zahlen (ohne Null), und die parametrisierende Abbildung F ist dann durch die
Vorschrift
F (θ) =
(2θ
θ
)gegeben.
Verwendet man wieder als Parameter des allgemeinen Modells µ und σ, und
bezeichnet in dem zugehorigen Parameterraum Ω die zum eingeschrankten Modell
passenden Parametervektoren wie ublich mit ω (ω ist also das Bild der positiven
reellen Zahlen unter F ), so erhalt man nun folgendes Bild:
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................
...................
µ
σ
(0, 0)
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
............................
.........................
ωΩ
Auch hier wird man ω sicher als eindimensional bezeichnen.
Es ist ubrigens eher ublich, als Parameter des allgemeinen Modells µ und σ2
(statt µ und σ) zu verwenden. In diesem Fall ist das Bild von Θ unter F kein
Geradenstuck mehr, sondern ein Stuck einer Parabel. Da hier ein Beispiel fur
eine’eindimensionale‘ Teilmenge ω in einem allgemeineren Sinn vorliegt, soll auch
3.3 Vorlaufiges zu”
Losungen“ FA13 69
diese Situation illustriert werden:
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................
...................
µ
σ2
(0, 0)
ωΩ
.................................................................
........................................................................................................................................................................................................................................................................................................................................................................................................................................................
Die erste Aufgabe bei der Entwicklung eines Tests fur die neuen Hypothesen
lautet nun (vorlaufig), das Maximum der Funktion
L(µ, σ; x) =1
(2π)n/2 σne− n
2σ2(S2 + (x− µ)2)
zu finden, wobei (µ, σ) den Bedingungen des eingeschrankten Modells genugen
muss. Anders ausgedruckt muss also (µ, σ) nun in ω liegen; praktisch wird die
Suche meist unter Vermittlung der Funktion F in Θ durchgefuhrt.
Um die Einschrankung bei der Suche zu verdeutlichen, konnte man in der Formel
µ durch µ(θ) und σ durch σ(θ) ersetzen, womit naturlich die beiden Komponenten
der Funktion F gemeint sind (Einsetzen ergibt dann µ(θ) = 2θ und σ(θ) = θ). In
dieser Schreibweise ist das Maximum von
L(θ; x) =1
(2π)n/2 σ(θ)ne− n
2σ(θ)2(S2 + (x− µ(θ))2)
zu ermitteln, was nach Einsetzen auch als
L(θ; x) =1
(2π)n/2 θne− n
2θ2(S2 + (x− 2θ)2)
geschrieben werden kann.
Diese Einsetzungen sollen jedoch noch nicht vorgenommen werden, da es zunachst
um eine Umformulierung der Aufgabe geht, wie sie auch in anderen Situationen
oft vorkommt.
3.3 Vorlaufiges zu”
Losungen“ FA13 70
Das Maximum fur den allgemeinen Fall ist im Beispiel gleich
1
(2π)n/2 Sne−n
2
und soll kurz mit M1 bezeichnet werden.
Hatte man nun die Aufgabe gelost, also ein (µ, σ) aus ω gefunden, das die
Likelihood-Funktion maximiert, so wurde man zum Testen diesen Wert in die
Likelihood-Funktion einsetzen und damit den Likelihood-Quotienten λ bestim-
men oder besser gleich χ2 = −2 ln(λ), da diese Statistik ja schließlich wegen ihrer
naherungsweisen χ2-Verteilung zum Testen verwendet wird.
Diese Teststatistik χ2 = −2 ln(λ) berechnet sich fur jeden moglichen Wert (µ, σ)
zu
−2 ln(L(µ, σ; x)/M1) = −2 ln(L(µ, σ; x)) + 2 ln(M1) .
Die alternative Vorgehensweise besteht nun darin, zum Auffinden der ML-Schat-
zung gleich diese Funktion zu benutzen, die dann allerdings minimiert und nicht
maximiert werden muss; ein Vorteil liegt dann darin, dass das gefundene Mini-
mum gleichzeitig die Teststatistik −2 ln(λ) ist.
Dies Vorgehen soll kurz gerechtfertigt werden. Die Funktion f mit
f(u) = −2 ln(u) + 2 ln(M1)
ist offenbar streng monoton fallend in u. Die ursprungliche Aufgabe bestand dar-
in, ein Paar (µ, σ) zu finden, das den Wert von L(µ, σ; x) maximiert. Die alter-
native Vorgehensweise besteht jetzt darin, ein (µ, σ) zu finden, das die Funktion
f(L(µ, σ; x)) minimiert.
Wegen der Monotonieeigenschaft von f haben diese beiden Aufgaben genau die
gleichen Losungen (die Beziehung L(µ, σ; x) > L(µ′, σ′; x) gilt ja genau dann,
wenn die Beziehung f(L(µ, σ; x)) < f(L(µ′, σ′; x)) gilt). Daher kann in der Tat
die ML-Schatzung (µ, σ) der Parameter µ und σ auch uber die Suche nach einem
Minimum von f(L(µ, σ; x)) gefunden werden. (Eigentlich musste man im Ein-
klang mit den allgemeinen Formulierungen ˆµ und ˆσ schreiben, da dort ein Dach
die Schatzer im allgemeinen Modell bezeichnet und zwei Dacher fur die Schatzer
im eingeschrankten Modell benutzt werden.)
Bestimmt man fur die so gefundene ML-Schatzung nun die Statistik χ2 = −2 ln(λ),
so erhalt man offenbar den Wert f(L(µ, σ; x)), also gerade das Minimum der al-
ternativen Vorgehensweise.
3.3 Vorlaufiges zu”
Losungen“ FA13 71
Das Schatz- und Testproblem wird also alternativ so behandelt, dass die ML-
Schatzer fur µ und σ als Werte gesucht werden, die die Funktion f(L(µ, σ; x))
minimieren. Das Minimum dieser Funktion selbst ist dann bereits die χ2-Test-
Statistik.
Im hier betrachteten Fall errechnet sich f(L(µ, σ; x)) zu
−2 ln(L(µ, σ; x)) + 2 ln(M1)
= n ln(2π) + n ln(σ2) + (n/σ2)(S2 + (x− µ)2)
+ (−n ln(2π)− n ln(S2)− n)
= n(ln(σ2) + S2/σ2 − ln(S2) + (x− µ)2/σ2 − 1
).
Fur diese Funktion gilt es also, ein Minimum zu finden, bei dem (µ, σ) in ω
liegt; dieses Minimum ist dann auch schon die χ2-Test-Statistik. Zur praktischen
Berechnung sollen nun sogleich durch Einsetzen µ und σ als Funktionen von θ
bestimmt werden. Zuvor sei bemerkt, dass man in Anwendungen die Aufgabe der
Maximierung bzw. Minimierung oft in Bezug auf eine Funktion gestellt wird, die
eine ganz ahnliche Form hat wie die gerade fur das Beispiel hergeleitete.
Setzt man nun also zur praktischen Durchfuhrung der Minimierung den Parame-
ter θ schließlich ein, und bezeichnet man die entstehende Funktion zur Abkurzung
mit g(θ), so erhalt man
g(θ) = n(ln(θ2) + S2/θ2 − ln(S2) + (x− 2θ)2/θ2 − 1
).
Dieser Ausdruck ist in Abhangigkeit von θ zu minimieren. Der Wert θ, an dem
das Minimum erreicht wird, ist dann die gesuchte ML-Schatzung, die uber F
sofort in µ und σ uberfuhrt werden kann. Das Minimum der Funktion g selbst ist
die χ2-Statistik, mit der die untersuchten Hypothesen getestet werden konnen,
und bei der so getan wird, als besaße sie unter H0 eine χ21-Verteilung (was ja auch
naherungsweise stimmt).
Sahe man nun keine Moglichkeit, auf analytischem Wege das Minimum von g
zu bestimmen, so wurde man zu numerischen Verfahren greifen, die mit einigem
Rechenaufwand (der dem Computer uberlassen bleibt) hoffentlich das Minimum
ermitteln.
Dabei konnen verschiedene Schwierigkeiten auftreten, die kurz erwahnt seien:
Zunachst ist keineswegs klar, dass die Funktion g uberhaupt ein Minimum besitzt.
In einem solchen Fall wurde die Rechnung zu keinem Ziel gelangen. Es kann
3.3 Vorlaufiges zu”
Losungen“ FA13 72
auch sein, dass g mehrere lokale Minima hat; in diesem Fall konnte das Problem
auftreten, dass zwar ein (lokales) Minimum gefunden wird, dass dieses lokale
Minimum jedoch kein globales Minimum ist. Ein Grund fur ein solches Ergebnis
kann darin liegen, dass der Algorithmus, der nach dem Minimum sucht, seine
Startwerte in der Nahe eines nur lokalen Minimums wahlt (oder vorgeschrieben
bekommt), von dem er sich dann nicht mehr entfernen kann, so dass das globale
Minimum verfehlt wird (wenn es uberhaupt existiert).
Zur Veranschaulichung zeigt die nachste Graphik zwei Funktionen, die beide ein
lokales Minimum besitzen, und von denen die eine auch ein globales Minimum
hat, die andere jedoch nicht, weil sie sich dem Wert 0 beliebig annahert, ohne ihn
je zu erreichen.
1
1
................................................................................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
x
y
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..................................................................................................................................................
...............................................................................................................................................
1
1
................................................................................................................................................................................................................................................................................................................ ..........................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
x
y.............................................................................................
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
Wahrend so allgemein mit Problemen zu rechnen ist, die zudem nicht uberschau-
bar sind, ist die Funktion g des Beispiels harmlos. Sie besitzt namlich auf den po-
sitiven Zahlen ein eindeutiges Minimum, das man zudem analytisch leicht durch
Differenzieren bestimmen kann, so dass man nicht auf numerische Minimierungs-
algorithmen angewiesen ist. Dieses Minimum befindet sich an der Stelle
θ = −x+√
2x2 + S2 ,
woraus sofort fur das eingeschrankte Modell die ML-Schatzungen
µ = 2√
2x2 + S2 − 2x und σ =√
2x2 + S2 − x
resultieren.
Setzt man schließlich fur θ den Wert −x +√
2x2 + S2 in die Funktion g ein, so
erhalt man den Wert der χ2-Teststatistik −2 ln(λ), die mit dem kritischen Wert
der χ2-Verteilung mit einem Freiheitsgrad zu vergleichen ist (der eine Freiheits-
grad ergibt sich wieder aus der Differenz der’Dimensionen‘ von Ω und ω). Da
das Einsetzen in diesem Fall nicht zu einer schonen Formel fuhrt, mag es hier
unterbleiben.
3.4 Rotationen FA13 73
3.4 Rotationen
Prinzip der Rotation. Charakteristisch fur die multivariate Statistik ist die
Sichtweise, dass man mit Variablen lineare oder affine Transformationen durch-
fuhren kann, sofern es moglich ist, diese Transformationen ruckgangig zu machen.
Ist die Umkehrung einer Transformation namlich moglich, so hat man keinen In-
formationsverlust, da die Werte vor der Transformation rekonstruierbar sind. Die
transformierten neuen Variablen konnen unterschiedliche Vorteile haben, manch-
mal den einer leichteren inhaltlichen Interpretierbarkeit.
Dies Prinzip soll nun auf die Faktorenanalyse angewendet werden, wobei zunachst
die Existenz der Faktoren und die Richtigkeit des Modells vorausgesetzt werden
sollen. Die Argumentation findet daher zuerst auf theoretischer Ebene statt.
An die Stelle der ursprunglichen Faktoren sollen also nun neue Faktoren gesetzt
werden, die sich aus den alten durch eine lineare Variablentransformation ergeben.
Eine solche Transformation heißt im Zusammenhang der Faktorenanalyse auch
Rotation. Die Beschreibung der Zusammenhange in terminis der neuen Faktoren
ergibt wieder ein faktorenanalytisches Modell, bei dem sich jedoch (kompensato-
risch) die Ladungsmatrix und oft auch die Interkorrelationsmatrix der Faktoren
andern. Diese Anderungen erscheinen von der multivariaten Sichtweise aus jetzt
aber als harmlos, da sie nichts anderes sind als aquivalente Beschreibungen des-
selben Sachverhalts. Einem Teil der Kritik an der fehlenden Eindeutigkeit wird
so der Boden entzogen.
Es kann sein, dass durch die Rotation aus den ursprunglichen Faktoren neue
entstehen, die inhaltlich leichter interpretierbar sind, was dann der entscheidende
Vorteil der Rotation ist.
In den folgenden Argumentationen wird vorausgesetzt, dass die Korrelationsma-
trix Kf invertierbar ist. Oft setzt man auch von der Ladungsmatrix Λ voraus,
dass ihre Spalten linear unabhangig sind. Fur diese Voraussetzungen spricht,
dass ihre Verletzung ein Hinweis darauf ist, dass irgendwo in dem Modell noch
Abhangigkeiten bestehen, die vielleicht noch beseitigt werden konnten zugunsten
eines okonomischeren Modells mit weniger Faktoren. Dies ist in der Tat richtig,
wie fur besonders Interessierte in der gleich folgenden Vorbemerkung genauer
ausgefuhrt werden soll.
Abkurzend soll eine q-Faktor-Losung (Kf ,Λ) regular heißen, falls die beiden ge-
3.4 Rotationen FA13 74
nannten Bedingungen erfullt sind, falls also sowohl Kf als auch Λ den Rang q
besitzen.
Die nun folgenden Uberlegungen zeigen dann, dass man von einer Losung, die
die Bedingungen nicht erfullt, immer zu einer aquivalenten gelangen kann, die
die Bedingungen erfullt; die Zahl der Faktoren verringert sich dabei.
Vorbemerkung. Fur die anschließenden Uberlegungen ist es nutzlich, zunachst
das folgende Hilfsmittel bereitzustellen:
Feststellung 1. Ist X eine Matrix mit m Spalten und Rang r, so ist es moglich,
eine (m× r)-Matrix B und eine (r×m)-Matrix C zu finden, so dass XBC = X
gilt. Aus der Gultigkeit von XBC = X folgt, dass der Rang von XB gleich r ist.
Die Matrix X besitzt namlich unter den angegebenen Bedingungen r linear un-
abhangige Spalten, mit deren Hilfe sich alle anderen Spalten als Linearkombina-
tionen schreiben lassen. Wahlt man fur die Matrix B die Matrix, deren Spalten
diejenigen Einheitsvektoren ei des Rm sind, deren Nummern i mit den Spalten-
nummern der ausgewahlten r linear unabhangigen Spalten in X ubereinstimmen,
so besteht XB gerade aus diesen linear unabhangigen Spalten. Da sich alle Spal-
ten von X als Linearkombinationen dieser Spalten schreiben lassen, gibt es eine
(r ×m)-Matrix C mit X = (XB)C = XBC.
Gilt nun X = XBC fur Matrizen B und C der angegebenen Große, so muss der
Rang von XB mindestens gleich dem von XBC = X, also mindestens gleich r
sein. Da XB aber nur r Spalten besitzt, muss er sogar gleich r sein.
Es soll nun die Gultigkeit eines Modells x = Λf + e vorausgesetzt werden, bei
dem die Kovarianzmatrix Kf der Faktoren nicht invertierbar ist. Besitzt sie nur
einen Rang r, der kleiner ist als die Zahl der Faktoren, so wahlt man Matrizen B
und C wie in Feststellung 1 so, dass KfBC = Kf gilt und KfB gerade r Spalten
und den Rang r besitzt.
Definiert man nun einen neuen Variablenvektor g der Lange r durch g = B′f , so
ist die Kovarianzmatrix von g gleich B′KfB. Wegen C′(B′KfB) = (KfBC)′B =
KfB besitzt auch B′KfB den Rang r; die Kovarianzmatrix von g ist also inver-
tierbar und damit positiv definit. Die Diagonalelemente dieser Matrix sind daher
alle großer als Null (man erhalt sie ja als e′i(B′KfB)ei und kann dann die po-
sitive Definitheit ausnutzen). Ist D die Diagonalmatrix aus den Wurzeln dieser
Diagonalelemente, so kann man den Vektor f der neuen Faktoren definieren als
3.4 Rotationen FA13 75
f = D−1g. Die Kovarianzmatrix von f ist dann D−1(B′KfB)D−1. Sie hat immer
noch den Rang r und besitzt in der Diagonale zusatzlich Einsen (in der Tat war
ja auch der Ubergang von g zu f gerade variablenweise die z-Transformation).
Der Erwartungswertvektor von f ist E(D−1B′f) = D−1B′E(f) = 0.
Als nachstes soll gezeigt werden, dass man f nun umgekehrt mit Hilfe von f
ausdrucken kann. Setzt man namlich A = C′D, so ist Af gleich C′DD−1B′f =
(BC)′f . Die Kovarianzmatrix von f −Af = (I− (BC)′)f ist daher
(I− (BC)′)Kf (I− (BC)′)′ = (I− (BC)′)(Kf −KfBC) = (I− (BC)′)0 = 0 ,
woraus, zusammen mit der Tatsache, dass E(f) = 0 und E(Af) = AE(f) = 0 ist,
folgt, dass f und Af fast sicher (’f.s.‘) ubereinstimmen.
Setzt man nun noch Λ = ΛA, so gilt Λf = ΛAf , was (f.s.) dasselbe ist wie Λf .
Ersetzt man also f durch f und Λ durch Λ, so erhalt man (f.s.) die gleichen
reduzierten Variablen. Zwischen den beiden Modellen
x = Λf + e und x = Λf + e
(man beachte, dass der Fehler der gleiche bleibt) besteht also kein wesentlicher
Unterschied – wenn das erste gultig ist, ist es das zweite ebenso. Geht man bei der
Bestimmung von B ubrigens genauso vor wie in der Begrundung von Feststellung
1, so erkennt man, dass D die Einheitsmatrix ist und dass es sich bei den neuen
Faktoren um einen Teil der alten handelt.
Wenn also, was die statistische Erklarungskraft angeht, kein Unterschied zwischen
den alten und den neuen Faktoren besteht, so ist doch bei der inhaltlichen In-
terpretation womoglich ein Ruckschlag zu verkraften. Gerade ein Anhanger einer
substantiellen Interpretation erkennt in dem neuen Modell seine ursprunglichen
Vorstellungen moglicherweise uberhaupt nicht wieder. Er wird einwenden, dass
die neuen Faktoren zwar vielleicht okonomischer sind, dafur aber einen womoglich
kunstlichen und willkurlichen Charakter haben.
Bisher wurde von der Gultigkeit des faktorenanalytischen Modells ausgegangen,
und es zeigte sich, dass man von einem Modell mit Faktoren, deren Kovarianzma-
trix nicht invertierbar ist, zu einem ebenso gultigen Modell mit weniger Faktoren
ubergehen kann, bei dem dieser Mangel behoben ist.
Daruber, ob uberhaupt ein faktorenanalytisches Modell gultig ist, kann man aller-
dings in den meisten Fallen streiten. Unabhangig von der Antwort auf diese Frage
3.4 Rotationen FA13 76
kann man – ausgehend von der wahren oder der empirischen Korrelationsmatrix
der beobachtbaren Variablen – trotzdem nach Faktorlosungen suchen. Nuchtern
betrachtet bestehen solche Losungen einfach aus Matrizen, mit denen man die
Korrelationsmatrix der beobachtbaren Variablen exakt oder naherungsweise re-
produzieren kann, und der Skeptiker wird naturlich aus der Moglichkeit einer
solchen Losung nicht auf die Richtigkeit des Modells schließen.
Damit kann er aber auch die gerade durchgefuhrten Uberlegungen nicht nachvoll-
ziehen, in denen standig von Faktoren die Rede war, an die er ja gar nicht glaubt.
Trotzdem erkennt man, dass man fur ihn alle Teile der Argumentation, die sich
auf die Faktoren beziehen, auch weglassen kann, und so zu einer Argumentation
kommt, die zeigt, wie man von einer gegebenen Losung (Kf ,Λ), bei der Kf nicht
invertierbar ist, zu einer weiteren Losung (Kf , Λ) gelangt, in der Kf invertierbar
ist, und die die Eigenschaft ΛKfΛ′ = ΛKf Λ
′hat, womit beide Modelle genau
gleich gut passen, genauer: aquivalent sind.
Dies soll nun kurz ausgefuhrt werden. Ausgehend von Kf findet man wie oben
Matrizen B, C und D, so dass D−1(B′KfB)D−1 positiv definit ist und in der
Diagonale Einsen besitzt. Diese Matrix nimmt man fur die neue Losung als Kf .
Die Matrix Λ der neuen Losung definiert man sodann als ΛA, wobei A wieder
C′D ist. Dann ergibt sich
ΛKf Λ′= (ΛC′D)(D−1(B′KfB)D−1)(ΛC′D)′ = ΛC′B′KfBCΛ′ = ΛKfΛ
′
wegen (C′B′)Kf (BC) = (C′B′)Kf = (KfBC)′ = Kf′ = Kf wie gewunscht. Man
sieht also, dass der Skeptiker die Argumentation oben mit deutlichen Kurzungen
ubernehmen kann und eine Moglichkeit erhalt, aus der gegebenen Losung eine
genauso gut passende weitere zu machen, bei der der Nachteil, dass Kf nicht
invertierbar ist, behoben ist.
Es soll nun auch gleich der Fall behandelt werden, dass die Spalten von Λ nicht
linear unabhangig sind.
Zunachst eine Warnung: Man mag auf die Idee verfallen, dass jetzt einige Fak-
toren Linearkombinationen der ubrigen sind und damit entbehrlich. Dies ist so
keinesfalls richtig – der Fehler liegt womoglich darin, dass unsinnigerweise die
Spalten der Ladungsmatrix mit den Faktoren gleichgesetzt werden.
Zunachst soll wieder fur den Fall, dass man die Gultigkeit des Modells annimmt,
gezeigt werden, wie man zu einem alternativen ebenfalls gultigen Modell gelangt,
bei dem die Ladungsmatrix nur linear unabhangige Spalten besitzt. Man muss
3.4 Rotationen FA13 77
dabei wieder die gegebenen Faktoren durch neue Faktoren ersetzen; fur die gege-
benen Faktoren sei die Invertierbarkeit von Kf vorausgesetzt – notfalls geht man
also erst zu neuen Faktoren uber, deren Korrelationsmatrix diese Eigenschaft hat.
Man findet zuerst fur das gegebene Λ vom Rang r wieder mit Feststellung 1
Matrizen B und C mit ΛBC = Λ, so dass ΛB Spaltenzahl und Rang r hat.
Dann definiert man neue Variablen g = Cf . Die (r× r)-Kovarianzmatrix CKfC′
hat dann den gleichen Rang r wie C, ist also invertierbar und damit positiv
definit. Dass C den Rang r besitzt, folgt wieder daraus, dass ΛBC diesen Rang
hat und dass C gerade r Zeilen besitzt.
Die Diagonalelemente von CKfC′ sind also alle positiv. Man definiert wieder D
als die Diagonalmatrix aus den Wurzeln dieser Diagonalelemente und erhalt mit
f = D−1g die neuen Faktoren mit der Kovarianzmatrix Kf = D−1CKfC′D−1,
deren Diagonalelemente wunschgemaß alle 1 sind.
Fur die neue Ladungsmatrix wahlt man Λ = ΛBD; bei dieser Matrix stimmt die
Spaltenzahl r mit dem Rang uberein. Es gilt weiter
Λf = ΛBDD−1Cf = ΛBCf = Λf ,
so dass aus der Gultigkeit des alten Modells x = Λf + e die des neuen Modells
x = Λf + e unmittelbar folgt.
Der Skeptiker geht wieder mit Kurzungen genauso vor und berechnet nur als
letztes noch ΛKf Λ′
zu
(ΛBD)(D−1CKfC′D−1)(ΛBD)′ = ΛBCKf (ΛBC)′ = ΛKfΛ
′ ,
womit er aus der gegebenen Losung eine neue gemacht hat, die genauso gut passt
(genauer: die zur alten aquivalent ist), und bei der zusatzlich die Spalten der
sogenannten Ladungsmatrix linear unabhangig sind.
Rechnerische Behandlung. Das am Anfang geschilderte Prinzip einer Rota-
tion soll nun genauer beschrieben werden, wobei auch die benotigte Notation
eingefuhrt wird. Vorausgesetzt ist die Gultigkeit des Modells KF
x = Λf + e
mit den ublichen Verteilungsannahmen (die Faktoren konnen also korreliert sein).
Nun soll mit den Faktoren eine lineare Variablentransformation durchgefuhrt
werden. Die (q×q)-Koeffizientenmatrix G, die hier auch Rotationsmatrix genannt
3.4 Rotationen FA13 78
werden soll, enthalt dabei wie ublich in den Spalten die Koeffizienten, mit denen
die neuen Variablen aus den alten hergestellt werden; der neue j-te Faktor, der
fi heißen soll, ergibt sich also zu
fj =∑
gijfi .
Fasst man die neuen Faktoren zu einem Vektor f zusammen, so gilt
f = G′f .
Zunachst muss untersucht werden, welche Bedingungen an die Rotationsmatrix
G zu stellen sind.
Die Forderung der Umkehrbarkeit der Transformation ist gleichbedeutend mit
der nach der Invertierbarkeit von G.
Die Kovarianzmatrix Kf der neuen Faktoren ist dann
Kf = G′KfG′′ = G′KfG .
Da die neuen Faktoren auch wieder Varianz 1 haben sollen, ist zu fordern, dass
die Diagonalelemente von G′KfG alle 1 sein sollen.
Damit sind auch schon die beiden Forderungen an G genannt: G soll invertierbar
sein und die Diagonalelemente von G′KfG sollen alle 1 sein. In Zukunft wird fur
Rotationsmatrizen vorausgesetzt, dass diese Forderungen erfullt sind.
Manchmal geht man von dem Modell UF (unkorrelierte Faktoren) aus und mochte,
dass die neuen Faktoren ebenfalls unkorreliert sind. Aus der zweiten Forderung
wird dann G′G = I, was gleichbedeutend damit ist, dass G Orthogonalmatrix
ist, und auch die erste Forderung (Invertierbarkeit von G) nach sich zieht. Man
spricht in diesem Fall von einer orthogonalen Rotation.
Orthogonalmatrizen G kann man bekanntlich auch charakterisieren durch die
Bedingung G′ = G−1 oder G = G′−1.
Bei einer orthogonalen Rotation handelt es sich also um den Ubergang von einem
UF-Modell zu einem anderen UF-Modell. Es hat sich gerade gezeigt, dass eine
Bedingung fur eine solche orthogonale Rotation darin besteht, dass die Rotati-
onsmatrix eine Orthogonalmatrix ist, was jedoch noch keine ausreichende Cha-
rakterisierung ist – vielmehr kommt hinzu, dass vor der Rotation das Modell UF
gelten muss.
3.4 Rotationen FA13 79
Als nachstes ist die Ladungsmatrix zu den neuen Faktoren zu bestimmen, die Λ
heißen soll.
Die reduzierten Variable xi ist die Linearkombinationen der Faktoren, deren Ko-
effizienten in der i-ten Zeile von Λ stehen. Das Umschreiben des Koeffizienten-
vektors einer Linearkombination auf die transformierten Variablen bewirkt man
allgemein durch Multiplikation mit der Matrix G−1. Die Matrix G−1Λ′ enthalt
daher nacheinander spaltenweise die Koeffizientenvektoren zur Bildung der redu-
zierten Variablen mit Hilfe der neuen Faktoren. Die Matrix G−1Λ′ ist damit Λ′.
Mit Transponieren folgt
Λ = ΛG′−1 ,
und tatsachlich gilt dann
Λf = ΛG′−1G′f = Λf .
Mit dem (kompensatorischen) Ubergang von Λ zu Λ erhalt man so aus den neuen
Faktoren die gleichen reduzierten Variablen wie im alten Modell aus den alten
Faktoren.
Die beiden Modelle
x = Λf + e und x = Λf + e
sind also, trotz der unterschiedlichen Ladungsmatrizen,’in Wirklichkeit‘ gar nicht
verschieden, sondern nur unterschiedliche Sichtweisen desselben Sachverhalts; da
die reduzierten Variablen ubereinstimmen, stimmt auch deren Kovarianzmatrix
uberein, weshalb die beiden Modelle auch aquivalent sind.
Da die Matrix G invertierbar ist, andern sich durch die Multiplikation mit G, G′
und G′−1 die Range nicht. Daraus folgt, dass aus regularen q-Faktor-Losungen
durch Rotieren wieder regulare q-Faktor-Losungen entstehen.
Ausdrucklich ist zu vermerken, dass die reduzierten Variablen x die gleichen blei-
ben, damit auch die Matrizen Kx und insbesondere die Kommunalitaten.
In dem Spezialfall, dass man aus unkorrelierten alten Faktoren wieder unkorre-
lierte neue Faktoren gewinnt, ist G eine Orthogonalmatrix und folglich Λ = ΛG.
Erganzend soll noch die Faktorstruktur des neuen Modells ausgerechnet werden:
Sie ergibt sich zu
ΛKf = ΛG′−1G′KfG = (ΛKf )G ,
entsteht also aus der alten Faktorstruktur ΛKf durch Rechtsmultiplikation mit
der Rotationsmatrix G.
3.4 Rotationen FA13 80
Wahrend man also das neue Faktormuster aus dem alten durch Rechtsmultipli-
kation mit G′−1 erhalt, ergibt sich die neue Faktorstruktur aus der alten durch
Rechtsmultiplikation mit G.
Hieraus folgt ubrigens sofort, dass bei orthogonalen Rotationen auch nach der
Rotation Faktormuster und Faktorstruktur gleich sind (was aber auch ohne die-
ses Argument klar ist, da diese Ubereinstimmung im Modell UF ja allgemein
besteht).
Feststellung 2. Werden in einem faktorenanalytischen Modell mit Interkorrela-
tionsmatrix Kf der Faktoren f , Ladungsmatrix Λ und Faktorstruktur KfΛ die
Faktoren nach einer Rotation mit Rotationsmatrix G ersetzt durch neue Faktoren
f = G′f , so ist die neue Interkorrelationsmatrix Kf der Faktoren gleich G′KfG,
die zugehorige neue Ladungsmatrix Λ gleich ΛG′−1 und die neue Faktorstruktur
gleich (ΛKf )G.
Die bisherigen Ergebnisse sollen noch einmal in zwei Tabellen zusammengefasst
werden. Hier sind zuerst die Formeln fur den allgemeinen Fall:
KF −→ KF alt neu
Korrelationsmatrix der Faktoren Kf G′KfG
Ladungsmatrix Λ ΛG′−1
Faktorstruktur ΛKf (ΛKf ) G
Im Falle einer orthogonalen Rotation vereinfacht sich vieles:
UF −→ UF alt neu
Korrelationsmatrix der Faktoren I I
Ladungsmatrix Λ ΛG
Faktorstruktur Λ ΛG
Die bisherige Schilderung fand auf der theoretischen Ebene statt und setzte die
Gultigkeit eines Modells voraus.
Es gibt aber noch andere Situationen, in denen das Konzept der Rotation eben-
falls nutzlich ist, und zwar Situationen, in denen es darum geht, aus gegebenen
Losungen neue Losungen herzustellen.
3.4 Rotationen FA13 81
Zur Erinnerung: Losungen waren Paare (Kf ,Λ) bei denen Kf positiv semidefinit
war und in der Diagonale Einsen enthielt, und bei denen ΛKfΛ′ auf der Diago-
nalen keine Werte besaß, die großer als 1 waren, und außerhalb der Diagonale
mit der wahren Korrelationsmatrix der beobachtbaren Variablen ubereinstimmte
bzw. mit der empirischen Korrelationsmatrix naherungsweise ubereinstimmte.
Die erste (theoretische) Situation ist hierbei die, in der man theoretisch nach
der Eindeutigkeit beziehungsweise nach dem Grad der Uneindeutigkeit moglicher
(theoretischer) Losungen bei bekannter wahrer Korrelationsmatrix fragt, und die
zweite (praktische) Situation die, in der man zu einer empirischen Losung Al-
ternativen sucht, die genauso gut passen, aber vielleicht besser interpretierbar
sind.
In der praktischen Situation steht bei der Frage der Interpretierbarkeit meist das
Faktormuster im Mittelpunkt des Interesses, und das Bestreben geht dahin, durch
Rotation dieses Muster durch ein einfacher interpretierbares zu ersetzen. Hier
liegt naturlich die Frage auf der Hand, warum eigentlich nicht die Faktorstruktur
statt des Faktormusters’behandelt‘ wird. Immerhin lasst die Bevorzugung des
Musters vermuten, dass die intendierte Interpretation eine substantielle ist. Bei
orthogonalen Rotationen tritt diese Frage ubrigens erfreulicherweise nicht auf, da
hier immer Muster und Struktur ubereinstimmen.
Die bisherige Diskussion gibt Hinweise darauf, wie eine solche Abanderung von
Losungen vor sich gehen konnte. Allerdings setzte sie die Gultigkeit und Bekannt-
heit des Modells voraus. Nun ist das wahre Modell sicher nie bekannt, und auch
daran, ob uberhaupt ein derartiges Modell gilt, konnen Zweifel bestehen. Die bis-
herige Diskussion geht daher an den geschilderten Situationen vorbei. Deshalb soll
nun untersucht werden, wieviel von den Argumenten sich fur diese Situationen
retten lasst.
Man kann sich naturlich fragen, wieso jemand, der gar nicht an das Modell
glaubt, sich trotzdem fur die Herstellung von Alternativlosungen interessieren
sollte. Warum sollte aber nicht auch ein Skeptiker die Hoffnung haben, zu ver-
stehen, was bei Rotationen geschieht, oder gar Spaß daran entwickeln, das Spiel
des Bastelns neuer sogenannter Losungen mitzuspielen, auch wenn fur ihn sol-
che Losungen nur Matrizen sind, an denen man Einfallsreichtum und Kreativitat
uben kann?
Die Uberlegungen in der theoretischen und der praktischen Situation unterschei-
den sich nur unwesentlich. Die folgende Argumentation auf theoretischer Ebene
3.4 Rotationen FA13 82
kann daher ohne Muhe auch auf die praktische Ebene ubertragen werden.
Es sei also nun eine Losung (Kf ,Λ) gegeben, die aus einer positiv semidefiniten
Matrix Kf besteht, in deren Diagonalen sich nur Einsen finden, und aus einer
Matrix Λ, so dass ΛKfΛ′ auf der Diagonalen nur Elemente ≤ 1 besitzt und au-
ßerhalb der Diagonalen mit der wahren Korrelationsmatrix der beobachtbaren
Variablen ubereinstimmt (bei Modellgultigkeit ist ΛKfΛ′ gerade Kx, die redu-
zierte Korrelationsmatrix).
Die Rotation wird beschrieben durch eine Rotationsmatrix G, von der gefordert
wird, dass sie invertierbar ist, und dass G′KfG in der Diagonalen nur Einsen
besitzt.
Dann kann man sofort mit (Kf , Λ) = (G′KfG,ΛG′−1) eine neue Losung her-
stellen, denn einerseits ist Kf = G′KfG positiv semidefinit, und andererseits
gilt
ΛKf Λ′= (ΛG′−1)(G′KfG)(ΛG′−1)′ = ΛKfΛ
′ ,
so dass die neue Losung zur alten aquivalent ist. Aquivalent heißen Losungen ja
dann, wenn sogar die Diagonalelemente von ΛKfΛ′ und ΛKf Λ
′ubereinstimmen,
die – wenn man an das Modell glaubt – gerade die Kommunalitaten sind.
Fur den Skeptiker ist zu bemerken, dass die Bezeichnung Kf einfach nur eine
Bezeichnung ist, die im Einklang mit den bisherigen Erorterungen gewahlt wurde
und keineswegs bedeutet, dass man nun etwa an die Existenz von Faktoren f
glauben wurde oder musste – genauso verhalt es sich ja auch mit Kf .
Ferner erkennt man sofort, dass in dem Fall, dass Kf invertierbar ist, dasselbe
auch fur Kf gilt.
Bemerkenswert ist ubrigens auch, dass diese eher nuchterne Argumentation viel
sparsamer ist als die, die die Gultigkeit des Modells voraussetzt und sich dann
immer noch um die hypothetischen Faktoren kummern muss. Dennoch ist auch
diese vorherige Argumentation wichtig, beispielsweise in der Hinsicht, dass sie
einen Einwand gegen die Faktorenanalyse teilweise entkraften kann, den Einwand
der Unbestimmtheit namlich, der aus der Vielzahl moglicher Losungen resultiert.
Dass viele Losungen existieren, ware im Gegenteil einfach eine Folge der Tatsache,
dass man mit den Faktoren Variablentransformationen durchfuhren kann. Ob
dem Einwand damit vollstandig oder nur teilweise der Boden entzogen ist, mussen
spatere Untersuchungen zeigen.
Zum Schluss ist noch der Spezialfall zu behandeln, dass man von einer UF-
3.4 Rotationen FA13 83
Losung, also von einer mit Kf = I, zu einer weiteren UF-Losung kommen will.
Man erkennt sofort, dass die Bedingungen an die Matrix G sich jetzt auf eine
reduzieren, namlich auf die Bedingung G′G = I, mit anderen Worten auf die,
dass G eine Orthogonalmatrix ist. In diesem Fall gilt auch G′−1 = G, so dass
sich der Ubergang von der ursprunglichen zur neuen Losung einfach als Λ = ΛG
schreibt (im Fall UF sind Losungen ja durch Λ schon vollstandig gegeben).
Insgesamt kann man zu einer gegebenen Losung mit Hilfe von Rotationen viele
neue aquivalente Losungen finden. Die Rotationen sind dabei durch die moglichen
Rotationsmatrizen gegeben, an die nur geringe Anforderungen gestellt werden.
Die Vielfalt moglicher Rotationsmatrizen ist daher sehr groß, wenn nicht unuber-
schaubar, und damit ebenso die Vielfalt moglicher Losungen.
Graphische Veranschaulichung des Modells. Man kann sich die Vorgange
bei der Rotation graphisch veranschaulichen und oft auch graphisch eine gute
Rotation finden. Der erste Schritt ist dabei die graphische Veranschaulichung des
Modells in Form einer kovarianztreuen Darstellung.
Es sei nun generell vorausgesetzt, dass die Matrix Kf invertierbar ist (die Vor-
bemerkung hat ja gezeigt, dass man sonst notfalls das Modell durch eines mit
weniger Faktoren ersetzen kann, bei dem diese Bedingung erfullt ist).
In der kovarianztreuen Darstellung werden zunachst die Faktoren durch Vektoren
reprasentiert, die wegen der Voraussetzung uber die Invertierbarkeit von Kf linear
unabhangig sind. Diese Vektoren bestimmen dann ein Koordinatensystem, in
dem die Koeffizienten von Linearkombinationen direkt als Koordinaten abgelesen
werden konnen.
Insbesondere sind die reduzierten Variablen solche Linearkombinationen, so dass
man ihre Reprasentanten leicht einzeichnen kann – die Koordinaten sind dann
gleichzeitig die Ladungen. Da alle Variablen zentriert sind, entsprechen sich hier
ubrigens Vektoren und Variablen eindeutig.
In einem ersten Beispiel seien die Faktoren als orthogonal vorausgesetzt. Die
Ladungsmatrix soll die folgende sein:
3.4 Rotationen FA13 84
Λ =
0.3 0.6
0.2 0.8
0.7 0.3
−0.5 0.6
0.5 −0.7
.
Die folgende Graphik gibt eine kovarianztreue Darstellung der Situation, in der
die Achsen den Faktoren entsprechen, wahrend die Punkte die reduzierten Varia-
blen reprasentieren (der Ubersichtlichkeit halber sind hier Punkte statt Vektoren
als Darstellungsform gewahlt). Die Faktoren selber werden durch die Vektoren re-
prasentiert, die jeweils bei der 1 der zughorigen Achse enden (auch diese Vektoren
selbst sind zur besseren Uberschaubarkeit nicht eingezeichent – die Pfeilspitzen
gehoren zur Darstellung der Achsen).
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................
......................
...........
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
........
........
...........
...........
...........
rrr
r
r
...................................................................................................................................................................................................................................................................
..
..
......................
....
.....
......
..........
...................................................................................................................................
......
......................................
..
..
..
..
..
..
..
..
..
.............
f1
f2
x1x4
Die Einzelheiten der Abbildung werden jetzt ausfuhrlich erlautert.
Wegen der Unkorreliertheit der Faktoren stehen die beiden Achsen senkrecht
aufeinander. Die die reduzierten Variablen reprasentierenden Punkte haben in
diesem Koordinatensystem ihre Ladungen als Koordinaten. Beispielsweise ist
x1 = .3f1 + .6f2 als Punkt mit den Koordinaten (.3, .6) eingezeichnet.
Wegen der Kovarianztreue der Darstellung ist das Skalarprodukt zwischen zwei
Vektoren gleich der Kovarianz zwischen den zugehorigen Variablen. So ist bei-
spielsweise die Kovarianz zwischen x1 und x4 gleich dem Skalarprodukt der ent-
sprechenden Vektoren, die in der Graphik als Strecken mit eingezeichnet sind.
Die Korrelation zwischen x1 und x4 ist der Kosinus des Winkels zwischen den
beiden Strecken.
3.4 Rotationen FA13 85
Die Korrelation zwischen zwei reduzierten Variablen ist ubrigens betragsmaßig
mindestens so groß wie die zwischen den entsprechenden Originalvariablen und
hat auch das gleiche Vorzeichen. Das gleiche gilt fur die Korrelationen zwischen
einem Faktor und einer reduzierten Variablen einerseits und diesem Faktor und
der entsprechenden Originalvariablen andererseits. Diese beiden Aussagen wur-
den schon in Kapitel 3.1 begrundet, wo sich auch genauere Formeln finden.
Die Ubereinstimmung von Kovarianzen mit den entsprechenden Skalarprodukten
gilt naturlich auch fur die reduzierten Variablen und die Faktoren und fur die
Faktoren untereinander (wo Kovarianzen gleichzeitig Korrelationen sind).
Speziell ist die Streuung einer reduzierten Variablen oder eines Faktors gleich der
Lange des entsprechenden Vektors. Die Vektoren, die die Faktoren darstellen,
haben folglich die Lange 1, wahrend die Abstande der die reduzierten Variablen
darstellenden Punkte vom Nullpunkt die Wurzeln aus den Kommunalitaten sind.
Diese Sachverhalte sollen durch den mit eingezeichneten Einheitskreis verdeut-
licht werden: Die Vektoren, die die Faktoren darstellen, haben ihre Endpunkte
auf dem Einheitskreis, wahrend die Punkte, die die reduzierten Variablen dar-
stellen, sich alle innerhalb des Kreises befinden mussen oder im Extremfall auf
der Kreislinie (das wurde einer Kommunalitat von 1 entsprechen). Die Kommu-
nalitat einer Variable ist also umso großer, je naher sich der zugehorige Punkt
am Einheitskreis befindet.
Es folgt noch ein weiteres Beispiel fur eine mogliche Ausgangssituation, jetzt eines
mit korrelierten Faktoren.
Ausgangspunkt fur ein Beispiel sei nun die folgende Ladungsmatrix:
Λ =
−0.9 1.5
−0.87 1.35
1.59 −1.35
−1.56 1.2
−1.12 0.8
.
Die Korrelation der Faktoren soll hier gleich .8 sein. Es gilt also
Kf =
(1 0.8
0.8 1
).
Zur Kontrolle wird gleich die zugehorige reduzierte Korrelationsmatrix gebildet:
3.4 Rotationen FA13 86
Kx = ΛKfΛ′ =
0.9 0.792 −0.576 0.468 0.288
0.792 0.7002 −0.549 0.4572 0.288
−0.576 −0.549 0.9162 −0.8892 −0.6336
0.468 0.4572 −0.8892 0.8784 0.6336
0.288 0.288 −0.6336 0.6336 0.4608
.
Auch die Faktorstruktur ist von Interesse; hier ergibt sich
ΛKf =
0.3 0.78
0.21 0.654
0.51 −0.078
−0.6 −0.048
−0.48 −0.096
.
Nun soll die Situation graphisch dargestellt werden; man ermittelt hierzu als er-
stes noch den zum Kosinus .8 gehorenden Winkel 36.87 der Faktorachsen. Zur
Kontrolle der Kommunalitaten sind der Einheitskreis eingezeichnet und als Ver-
anschaulichung der Koordinatisierung die Hilfslinien zum Ablesen der Ladungen
von x2.
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................
...........
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
rr
r
r r..........................
....
.....
......
..........
...................................................................................................................................
......
.......................................
............................................................................
f1
f2x2
Wieder sind naturlich die Abstande der Punkte zum Nullpunkt die Wurzeln aus
den Kommunalitaten, was man mit der Kontrollrechnung oben leicht nachprufen
kann.
Nicht unangebracht ist vielleicht der Hinweis, dass die Ladungen in einem schief-
winkligen Koordinatensystem abgelesen werden. Daher muss es nicht uberraschen,
wenn Ladungen auch einen Betrag großer als 1 haben konnen, obwohl sich die
entsprechenden Punkte im Einheitskreis befinden (die zweite Koordinate von x2ist ein Beispiel).
3.4 Rotationen FA13 87
Das Faktormuster erkennt man in der Darstellung also direkt durch das Ablesen
von Koordinaten.
Man kann aber auch die Faktorstruktur in der Darstellung wiederfinden, indem
man die Lote auf die Achsen fallt.
Genauer erhalt man die Korrelation der Variable xi mit dem Faktor fj, indem
man von dem Punkt, der xi reprasentiert auf die zum Faktor fj gehorende Ach-
se das Lot fallt und die Koordinate des Lotfußpunktes auf der zu dem Faktor
gehorenden Skala abliest (da die Einheit dieser Skala ihrerseits die Lange 1 be-
sitzt, ist der Betrag der Korrelation auch gleich dem Abstand des Lotfußpunktes
zum Nullpunkt).
Zur Begrundung benutzt man die Gleichung
ρ(xi, fj) = ρ(xi, fj)σ(xi) = ρ(xi, fj)σ(xi)
σ(fj),
deren erster Teil aus Kapitel 3.1 bekannt ist, und deren zweiter Teil aus σ(fj) = 1
folgt. Der Ausdruck auf der rechten Seite ist ja bekanntlich gerade die Koordinate
des Lotfußpunktes auf der durch fj gegebenen Achse, wenn die Einheit dieser
Achse durch den zu fj gehorenden Vektor definiert wird, was ja hier der Fall ist.
Als Illustration sollen fur die Variable x2, fur die oben schon die Ladungen als Ko-
ordinaten veranschaulicht wurden, auch noch die Korrelationen mit den beiden
Faktoren graphisch bestimmt werden. Zum Vergleich sind auch die Koordinaten-
linien noch mit eingezeichnet – dies demonstriert die Diskrepanz, die zwischen
Ladungen und Korrelationen im Falle korrelierter Faktoren bestehen kann.
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................
...........
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
rr
r
r r..........................
....
.....
......
..........
...................................................................................................................................
......
.......................................
............................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
......................................
f1
f2
x2
Die abgelesenen Werte stimmen mit den oben rechnerisch ermittelten Korrelatio-
nen von 0.21 und 0.654 uberein.
3.4 Rotationen FA13 88
Im Falle unkorrelierter Faktoren fallen ubrigens – anders als in dieser Situation
– Lote und Koordinatenlinien zusammen, so dass man die gleichen Werte erhalt
(dann ist ja auch das Faktormuster gleichzeitig die Faktorstruktur).
Graphische Veranschaulichung der Rotation. Nachdem nun fur faktoren-
anlytische Modelle befriedigende graphische Veranschaulichungen gefunden sind,
sollen die Verhaltnisse bei einer Rotation in dem gewonnenen Bild verdeutlicht
werden.
Es werden dafur die beiden Beispiele aus dem letzten Abschnitt wieder aufge-
griffen. Zuerst wird der einfachere Fall behandelt, bei dem aus einem Modell mit
unkorrelierten Faktoren ein neues mit derselben Eigenschaft hergestellt wird, also
der Fall einer orthogonalen Rotation.
Ausgangspunkt ist also jetzt das erste Modell mit der Ladungsmatrix
Λ =
0.3 0.6
0.2 0.8
0.7 0.3
−0.5 0.6
0.5 −0.7
und unkorrelierten Faktoren.
Die Rotationsmatrix soll
G =
(.8 .6
−.6 .8
)sein. Diese Matrix ist eine Orthogonalmatrix, und da die ursprunglichen Faktoren
orthogonal waren, sind die Bedingungen fur eine Rotation erfullt.
Die neue Ladungsmatrix ist dann
Λ = ΛG′−1 = ΛG =
0.3 0.6
0.2 0.8
0.7 0.3
−0.5 0.6
0.5 −0.7
(.8 .6
−.6 .8
)=
−0.12 0.66
−0.32 0.76
0.38 0.66
−0.76 0.18
0.82 −0.26
.
Die Faktoren konnen nun, da sie ja Linearkombinationen der alten Faktoren sind,
in das Koordinatensystem der kovarianztreuen Darstellung eingetragen werden
– ihre Koordinatenvektoren sind die Spalten der Matrix G (dies ist ein Grund,
3.4 Rotationen FA13 89
warum die Rotation gerade durch diese Matrix charakterisiert wurde). Der Winkel
zwischen den beiden Faktoren betragt 90, entsprechend der Tatsache, dass die
Transformationsmatrix eine Orthogonalmatrix ist und dass die ursprunglichen
Faktoren unkorreliert waren.
Die Spitzen der neuen Faktoren mussen naturlich wieder auf dem Einheitskreis
liegen, da die Darstellung kovarianztreu ist und da die neuen Faktoren auch
wieder standardisiert sein sollen. In der Darstellung wird jedoch aus Grunden
der Ubersichtlichkeit auf die Einzeichnung dieser Vektoren verzichtet; statt dessen
werden die neuen Achsen mit ihrer Skala versehen.
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................
......................
...........
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
........
........
...........
...........
...........
rrr
r
r..........................
....
.....
......
..........
...................................................................................................................................
......
.......................................
...
...
...
...
...
...
...
...
...
...
.....................
f1
f2
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................
...................
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
....................................................................................
........
........
...........
...........
...........
...............................................
f1
f2
Die Elemente der neue Ladungsmatrix, also die Koeffizienten der reduzierten Va-
riablen bezuglich der neuen Faktoren, kann man jetzt (wie allgemein bei Varia-
blentransformationen) einfach als Koordinaten in dem neuen Koordinatensystem
ablesen. Als Beispiel sind die Koordinatenlinien zum Ablesen der alten und der
neuen Koordinaten von x1 eingezeichnet – man uberzeugt sich unmittelbar von
der Ubereinstimmung mit der Rechnung.
In diesem Beispiel kann der Ubergang von der alten Losung zur neuen auch an-
schaulich als eine Rotation des Koordinatensystems beschrieben werden – daher
der Name’Rotation‘, der allerdings die Verhaltnisse nicht immer so gut beschreibt
wie hier.
Wurde man beispielsweise die Zahlen in der zweiten Spalte der Rotationsmatrix
mit durch ihr (−1)-faches ersetzen, so wurde man fast das gleiche Bild erhalten,
nur mit dem Unterschied, dass die zweite Achse nun die umgekehrte Richtung
hatte. Dann ware der Ubergang von dem ersten Achsensystem zu dem zweiten nur
3.4 Rotationen FA13 90
mit Hilfe einer zusatzlichen Achsenspiegelung zu erreichen gewesen, also nicht mit
einer Rotation im umgangssprachlichen Sinn. Beispiele, in denen die Bezeichnung
noch weniger passt, liefern die nichtorthogonalen Rotationen.
Die hier willkurlich gewahlte Rotation erweist sich als nicht schlecht, denn die
neue Ladungsmatrix ist womoglich leichter interpretierbar wegen des Musters von
hohen und niedrigen Ladungen. Dieses Muster findet seine Entsprechung in der
Tatsache, dass die Variablenpunkte nun naher bei den Faktorachsen liegen.
Man kann sich die Moglichkeit der graphischen Veranschaulichung auch so zu
Nutze machen, dass man eine gute Rotation graphisch findet, dass man also die
Achsen selber so festlegt, dass sie nahe bei den Variablenpunkten liegen.
Jede Festlegung der Achsen entspricht namlich einer moglichen Rotation, sofern
die Achsen den ganzen Raum aufspannen und die Spitzen der Vektoren, die die
Faktoren reprasentieren sollen, auf dem Rand des Einheitskreises liegen. Diese
beiden Bedingungen sind namlich offenbar gerade die geometrische Ubersetzung
der Bedingungen, die allgemein bei der Rotation an die Matrix G gestellt wurden.
Als Beispiel soll die zweite im vorangehenden Abschnitt behandelte Situation
dienen, bei der die Faktoren korreliert waren.
Die ursprungliche Ladungsmatrix ist also
Λ =
−0.9 1.5
−0.87 1.35
1.59 −1.35
−1.56 1.2
−1.12 0.8
und die Korrelationsmatrix der Faktoren
Kf =
(1 0.8
0.8 1
).
Die Ladungsmatrix sieht nicht besonders schon aus, weil die Ladungen generell
recht hoch sind, was fur die Interpretation Unannehmlichkeiten verheißt. Gra-
phisch hat dies seine Entsprechung darin, dass die Variablenpunkte weit von den
Achsen entfernt sind.
Daher soll nun eine Rotation versucht werden, bei der die Achsen nahe an die
Punkte heranrucken. Wahlt man zum Beispiel als ersten Faktor den, der zu dem
3.4 Rotationen FA13 91
Vektor (5/3,−4/3)′, und als zweiten den, der zum Vektor (−1, 8/5)′ gehort, so
erhalt man das folgendes Bild, in dem auch die Hilfslinien zum Einzeichnen der
Vektoren mit aufgenommen sind.
Praktisch wird es ubrigens eher so sein, dass man zuerst die gewunschten Achsen
einzeichnet und dann die Koordinaten der Schnittpunkte der Achsen mit dem
Einheitskreis abliest, um auf diese Weise die Rotationsmatrix zu erhalten.
................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ ...................
...................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................
...........
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
rr
r
r r..........................
....
.....
......
..........
...................................................................................................................................
......
....................................
f1
f2
f1
f2.............................................................................................................................................................................................................................................................................................................................................................................................................................................
...........................
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................
...................
....................................................................................
........
........
...........
...........
...........
....................................................................................
........
........
...........
...........
...........
.............................................................................................
...........................................................................................................
Die Punkte liegen dicht bei den neuen Achsen, was eine gute Interpretierbarkeit
erwarten lasst. Die neuen Ladungen kann man direkt im neuen Koordinatensy-
stem ablesen, hier sollen sie jedoch zur Kontrolle auch berechnet werden.
Die Matrix G ist hier gleich (5/3 −1
−4/3 8/5
).
Als erstes soll nachgepruft werden, ob die Matrix wirklich die Bedingungen erfullt.
Dass die Matrix invertierbar ist, ist offensichtlich, die Inverse ist
G−1 =
(1.2 0.75
1. 1.25
).
Die Berechnung von G′KfG ergibt fur Kf die Matrix(1 −0.6
−0.6 1
),
in der Diagonale stehen also die erforderlichen Einsen. Außerdem erhalt man eine
Korrelation von −.6 zwischen den beiden neuen Faktoren, was einem Winkel von
3.4 Rotationen FA13 92
126.87 entspricht, den man auch in der Graphik findet. Schließlich ist die neue
Ladungsmatrix gleich
Λ = ΛG′−1 =
−0.9 1.5
−0.87 1.35
1.59 −1.35
−1.56 1.2
−1.12 0.8
(
1.2 1
0.75 1.25
)=
0.045 0.975
−0.0315 0.8175
0.8955 −0.0975
−0.972 −0.06
−0.744 −0.12
,
was auch im Einklang mit der Graphik steht – hier hat man zeilenweise die neuen
Koordinaten der Variablenpunkte, die nun in der Tat teilweise nahe bei 0 liegen,
was fur eine Interpretation erfreulich sein sollte.
Zum Abschluss soll noch die Faktorstruktur bestimmt werden, sie ergibt sich
rechnerisch zu0.045 0.975
−0.0315 0.8175
0.8955 −0.0975
−0.972 −0.06
−0.744 −0.12
(
1 −0.6
−0.6 1
)=
−0.54 0.948
−0.522 0.8364
0.954 −0.6348
−0.936 0.5232
−0.672 0.3264
,
was leider wegen der fast durchweg hohen Korrelationen wieder einen dunklen
Schatten auf die Interpretierbarkeit wirft.
Auch hier kann man naturlich die Korrelationen auch graphisch ermitteln, indem
man die Lote auf die neuen Koordinatenachsen fallt (denn naturlich hat man mit
den neuen Achsen eine kovarianztreue Darstellung der Situation mit den neuen
Faktoren, fur die daher die oben besprochenen Eigenschaften auch gelten).
Die bisherigen Erorterungen setzen die Gultigkeit des Modells der Faktoren-
analyse voraus und beschrieben die Moglichkeit einer graphischen Veranschau-
lichung einer Rotation, die ja nur einer Variablentransformation der Faktoren
entspricht. Auch hier ist der Nutzen fur diejenigen, die lediglich Losungen in an-
dere Losungen umformen wollen, zweifelhaft. Diejenigen, die an die Gultigkeit des
Modells glauben, konnen die bisherige Darstellung immerhin noch im Potentialis
lesen, wahrend man fur die Skeptiker uberall den Irrealis setzen musste.
Um auch diesen Leserkreis zufrieden zu stellen, sollen die geometrischen Darstel-
lungen nun fur besonders Interessierte noch einmal durchleuchtet werden, diesmal
jedoch mit großerer Zuruckhaltung, also ohne die Existenz von Faktoren voraus-
zusetzen.
3.4 Rotationen FA13 93
Eine Losung wird jetzt wieder einfach als ein Paar (Kf ,Λ) von Matrizen mit den
bekannten Eigenschaften angesehen, unter anderem mit der, dass die vermute-
te reduzierte Korrelationsmatrix Kx gerade gleich ΛKfΛ′ ist, also durch diese
Losung reproduziert werden kann.
Angestrebt wird nun zunachst eine Darstellung dieser Losung in folgender Form:
Die Matrix Kf soll sich ergeben als Matrix der Skalarprodukte geeigneter Vek-
toren vj (die Reprasentanten der Faktoren waren, wenn man an das Modell
glaubte), die Zeilen der Matrix Λ sollen die Koordinatenvektoren geeigneter
Punkte ui bezuglich der vj sein (diese Punkte wurden den reduzierten Varia-
blen xi entsprechen), wobei diese ui die Eigenschaft haben sollen, dass die Ma-
trix ihrer Skalarprodukte eine Matrix ist, die in der Diagonale Zahlen ≤ 1 be-
sitzt und außerhalb der Diagonale mit der wahren Korrelationsmatrix der Varia-
blen bzw. naherungsweise mit der empirischen Korrelationsmatrix der Variablen
ubereinstimmt (diese Matrix von Skalarprodukten ware also gerade die vermu-
tete reduzierte Korrelationsmatrix Kx, falls man an die Gultigkeit des Modells
glaubt).
Ist dieses Ziel erreicht, so kann man die Losung (Kf ,Λ) direkt aus der Darstellung
rekonstruieren – man hat also sozusagen die in Form zweier Matrizen gegebene
Losung durch eine aquivalente geometrische Darstellung in Form geeigneter Vek-
toren ersetzt.
Da Kf positiv definit sein soll, findet man linear unabhangige Vektoren v1, . . . ,vq,
fur die Kf gerade die Matrix der Skalarprodukte ist. Stellt man die Vektoren
spaltenweise zu einer Matrix V zusammen, so gilt also V′V = Kf .
Die Vektoren vj bestimmen in der ublichen Weise die Achsen eines Koordina-
tensystems. In dieses Koordinatensystem kann man nun genau wie oben Punkte
eintragen, deren Koordinaten in den Zeilen von Λ stehen. Der Vektor, der von
0 zu dem der i-ten Zeile von Λ entsprechenden Punkt weist, sei ui genannt. Die
Vektoren ui sind naturlich gerade die Spalten von VΛ′.
Man erkennt leicht, dass die Matrix der Skalarprodukte der Vektoren ui dann
gerade ΛKfΛ′ ist, also die Matrix Kx. Die Matrix der Skalarprodukte der ui ist
namlich (VΛ′)′(VΛ′) = ΛV′VΛ′ = ΛKfΛ′.
Es ist das also das erste Teilziel einer geometrischen Darstellung der gegebenen
Losung erreicht.
Interessant ist in der Ausgangssituation jedoch auch die Matrix ΛKf , denn diese
3.4 Rotationen FA13 94
Matrix enthalt ja in den Zeilen die Korrelationen der Variablen mit den vermute-
ten Faktoren. Schreibt man ΛKf als ΛV′V, so sieht man dass es sich bei dieser
Matrix um die Matrix der Skalarprodukte der Spalten von VΛ′ mit den Spalten
von V handelt, also als die Matrix der Skalarprodukte der ui mit den vj. Da die
vj alle Lange 1 haben, erhalt man diese Skalarprodukte auch, indem man von
den ui die Lote auf die durch die vj gegebenen Koordinatenachsen fallt und auf
den dort schon vorhandenen Skalen die Skalarprodukte abliest.
In einer geometrischen Darstellung der Ausgangslosung, die den gestellten Forde-
rungen genugt, kann man also auch die Matrix ΛKf direkt mit Hilfe von Loten
der ui auf die Achsen ablesen.
Nun soll mit dem bisher gewonnenen Bild auch der Ubergang von der gegebenen
Losung zu einer neuen rotierten Losung veranschaulicht werden; die Rotations-
matrix sei dabei G.
Zuerst konnen neue Vektoren zusatzlich eingezeichnet werden, deren Koordinaten
die Spalten von G sind. Diese Vektoren wj sind dann die Spalten der Matrix
VG. Die Matrix Kf ihrer Skalarprodukte ist G′V′VG = G′KfG, weshalb die
wj aufgrund der Eigenschaften von G auch die Lange 1 besitzen, ferner bilden
sie wieder eine Basis, da die Spalten von G als linear unabhangig vorausgesetzt
werden.
Die Koordinaten der ui bezuglich dieser neuen Basis sind nach der allgemeinen
Formel fur die Umrechnung von Koordinaten gleich G−1ui, zu den Zeilen einer
Matrix zusammengestellt also ΛG′−1, was gerade Λ ist.
Man hat auf diese Weise fur die rotierte Losung (Kf , Λ) eine Darstellung genau
der gleichen Art vor sich wie fur die ursprungliche Situation; der Unterschied ist
nur, dass das Koordinatensystem jetzt durch die neuen Vektoren wj gegeben ist.
Auch fur diese neue Losung kann man daher die Matrix ΛKf mit Hilfe von Loten
ermitteln. Schließlich ist naturlich auch hier die Matrix der Skalarprodukte der
die Zeilen von Λ reprasentierenden Punkte gleich Kx, denn dies sind ja nach wie
vor die ui. Anders ausgedruckt bedeutet das, dass die alte und die neue Losung
aquivalent sind.
Die Rotation entspricht damit gerade dem Ubergang von den vj zu den wj,
insbesondere also einem Wechsel des Koordinatensystems.
Damit sind die Verhaltnisse bei einer Rotation auch fur den Fall geometrisch
veranschaulicht, in dem die Existenz von Faktoren nicht vorausgesetzt wird.
3.4 Rotationen FA13 95
Man erkennt ubrigens leicht, dass man auch hier anders hatte vorgehen konnen:
Anstatt eine Matrix G fur die Rotation vorzugeben, hatte man genauso gut die
neuen Vektoren wj als linear unabhangig Vektoren der Lange 1 wahlen konnen.
Stellt man ihre Koordinaten bezuglich der ursprunglichen Vektoren vj spalten-
weise zu einer Matrix zusammen, so erfullt diese offenbar die Bedingungen fur
eine Rotationsmatrix und ist dann in der Tat die zugehorige Matrix G. Damit
hat man auch das Verfahren der graphischen Rotation’technisch‘ gerechtfertigt,
ohne die Existenz von Faktoren vorauszusetzen.
Varimax-Rotation. Zum Schluss soll noch ein prominentes Rotationsverfah-
ren erwahnt werden, namlich die sogenannte Varimax-Rotation. Die Varimax-
Rotation ist eine orthogonale Rotation, bei der grob gesprochen angestrebt wird,
dass die Betrage der Zahlen, die in einer Spalte stehen, moglichst stark variie-
ren; in jeder Spalte sollen also nach Moglichkeit sowohl betragsmaßig große als
auch betragsmaßig kleine Zahlen stehen. Der Faktor, der einer solchen Spalte
entspricht, ist dann hoffentlich nicht allzu schwer interpretierbar, da er mit einer
Gruppe von Variablen ziemlich viel und mit einer anderen Gruppe ziemlich wenig
zu tun hat.
Prazisieren kann man das dadurch, dass man fordert, dass die Varianz der qua-
drierten Ladungen in den Spalten moglichst groß ist, denn eine große Varianz der
quadrierten Ladungen erzielt man eben dann, wenn viele große und viele kleine
quadrierte Ladungen in den Spalten vorliegen, also viele betragsmaßig große und
viele betragsmaßig kleine Ladungen.
Dies ist jedoch noch nicht genau das Kriterium, nach dem bei der Varimax-
Rotation vorgegangen wird, vielmehr werden die quadrierten Ladungen vorher
noch durch die zugehorigen Kommunalitaten geteilt. Maximiert werden soll dann
insgesamt die Summe der faktorweise gebildeten Varianzen der durch ihre Kom-
munalitaten dividierten quadrierten Ladungen.
Es folgen nun zunachst einige Erlauterungen zu diesem nicht unmittelbar ein-
leuchtenden Kriterium.
Da man es mit der Situation orthogonaler Faktoren zu tun hat, sind die Ladun-
gen gleichzeitig die Korrelationen der Variablen mit den Faktoren. Ist nun σ(xi)
die Streuung von xi, so gilt die Beziehung ρ(xi, fj) = ρ(xi, fj)/σ(xi), und da
σ(xi) die Wurzel aus der Kommunalitat von xi ist, folgt, dass eine durch ihre
Kommunalitat dividierte quadrierte Ladung gerade die quadrierte Korrelation
zwischen der zugehorigen reduzierten Variable und dem zugehorigen Faktor ist
3.4 Rotationen FA13 96
oder anders ausgedruckt der Determinationskoeffizient bei der Vorhersage der
reduzierten Variable mit Hilfe des Faktors.
Das Varimaxkriterium kann also auch so umformuliert werden, dass die Sum-
me der faktorweise gebildeten Varianzen der Determinationskoeffizienten aus der
Vorhersage der reduzierten Variablen durch die Faktoren maximal werden soll.
Es sollen also die Varianzaufklarungen nicht der Variablen sondern der reduzier-
ten Variablen durch die Faktoren moglichst stark variieren, was auch sinnvoll
erscheint, da die reduzierten Variablen ja gerade die’fehlerfreien‘ Anteile der
Variablen sind.
Um auch noch eine geometrische Deutung zu erhalten, bemerkt man zunachst,
dass in einer kovarianztreuen Darstellung die durch σ(xi) dividierten Koordina-
ten des xi darstellenden Vektors gleichzeitig die Koordinaten des durch σ(xi)
dividierten Vektors sind, die durch ihre Kommunalitaten dividierten quadrierten
Ladungen also die quadrierten Koordinaten des neuen Vektors. Dabei ist σ(xi)
die Lange des Vektors, so dass die Division durch σ(xi) gerade bewirkt, dass der
Vektor auf Lange 1 gebracht wird, was man als Standardisierung interpretieren
kann, da es in der Tat der z-Transformation entspricht.
In einer Situation mit zwei Faktoren bedeutet diese Standardisierung geometrisch,
dass die Punkte, die die reduzierten Variablen darstellen, auf die Kreislinie des
Einheitskreises’projiziert‘ werden; die linke Seite der folgenden Graphik illustriert
dies fur das schon oben benutzte erste Beispiel, wobei die projizierten Punkte
großer dargestellt sind.
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................
......................
...........
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
........
........
...........
...........
...........
qqq
q
q..........................
....
.....
......
..........
...................................................................................................................................
......
....................................
f1
f2 rrr
r
r
........................
........................
. . .. . .
. . .. . .
. . .. . .
. . .. . .
....
....
....
....
....
....
........................
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................
......................
...........
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
........
........
...........
...........
...........
..
..
......................
....
.....
......
..........
...................................................................................................................................
......
....................................
f1
f2 qqq
q
q
. . . . . . . . . . ......................
. . . . . ........................
. . . . . . . . . . . . . . . . . . . . . ...........
..................................
. . . . . . . . . . . . . .....................
rrrr
r
rr rr r
Auf der rechten Seite der Graphik sind die Koordinaten der neuen Punkte her-
3.4 Rotationen FA13 97
vorgehoben. Man erkennt nun insgesamt, dass die Varianz der durch ihre Kom-
munalitaten dividierten quadrierten Ladungen der Variablen auf einem Faktor
gleichzeitig die Varianz der quadrierten Koordinaten der neuen Punkte auf die-
sem Faktor ist.
Ziel der Varimax-Rotation ist es daher, das Koordinatensystem so zu rotieren,
dass die Summe der faktorweise gebildeten Varianzen der quadrierten Koordina-
ten der neuen Punkte auf den Faktorachsen maximal wird.
Nach diesen Erlauterungen kann das das Ziel der Varimax-Rotation noch einmal
folgendermaßen beschrieben werden:
Gesucht ist eine Rotation, die (bei orthogonalen Faktoren) zu einer Ladungsma-
trix fuhrt, fur die die Summe φ der spaltenweisen Varianzen der quadrierten und
durch ihre Kommunalitaten dividierten Ladungen maximal wird.
Zur weiteren Verdeutlichung soll nun in einem ersten Beispiel dieses φ fur ver-
schiedene Rotationen bestimmt werden. Das Beispiel ist so gewahlt, dass die
Rechnungen besonders einfach werden.
Die (orthogonale) Ausgangslosung soll die Ladungsmatrix0.5 0.5
0.4 0.4
0.5 −0.5
0.4 −0.4
besitzen. Um fur diese Matrix, also fur die unrotierte Losung, die Zahl φ zu
berechnen, werden zunachst die Kommunalitaten bestimmt: .5, .32, .5, .32. Die
Matrix der quadrierten Ladungen und die Matrix der quadrierten und durch die
Kommunalitaten dividierten Ladungen sind0.25 0.25
0.16 0.16
0.25 0.25
0.16 0.16
und
0.5 0.5
0.5 0.5
0.5 0.5
0.5 0.5
.
In beiden Spalten ist hier die Varianz gleich 0, also ist auch die Summe φ dieser
Varianzen gleich 0. Die angegebene Matrix ist also in Bezug auf das Varimax-
Kriterium von der schlechtest-moglichen Sorte (ist sie deshalb auch schlecht in-
terpretierbar??).
3.4 Rotationen FA13 98
Nun soll eine orthogonale Rotation mit der Matrix(0.8 0.6
−0.6 0.8
)durchgefuhrt werden. Die neue Ladungsmatrix ist dann
0.1 0.7
0.08 0.56
0.7 −0.1
0.56 −0.08
,
die Kommunalitaten sind naturlich gleichgeblieben, so dass man hier als Matrix
der quadrierten Ladungen und als Matrix der quadrierten und durch die Kom-
munalitaten dividierten Ladungen0.01 0.49
0.0064 0.3136
0.49 0.01
0.3136 0.0064
und
0.02 0.98
0.02 0.98
0.98 0.02
0.98 0.02
erhalt. Wieder sind hier die Varianzen in den beiden Spalten der zweiten Matrix
gleich groß, jetzt jedoch gleich .2304, was fur φ den Wert .4608 liefert. Der Wert
des Kriteriums ist also hier schon bedeutend großer.
Das maximale φ wird allerdings durch diese Rotation noch nicht erreicht; vielmehr
kann man berechnen, dass eine mogliche Rotation, die zu einem maximalen φ
fuhrt, die durch die Matrix1√2
(1 1
−1 1
)gegebene ist. Die rotierte Ladungsmatrix ist dann
1√2
0 1
0 .8
1 0
.8 0
,
und die Matrix der quadrierten Ladungen und die der quadrierten und durch die
Kommunalitaten dividierten Ladungen sind0 0.5
0 0.32
0.5 0
0.32 0
und
0 1
0 1
1 0
1 0
,
3.4 Rotationen FA13 99
was zu φ = .5 fuhrt. In der Tat gibt diese Ladungsmatrix hinsichtlich Interpre-
tierbarkeit zu Hoffnungen Anlass.
Nachdem nun fur dieses fur Demonstrationszwecke besonders einfache Beispiel die
Varimax-Rotation gefunden ist, soll noch fur das erste Beispiel aus dem Abschnitt
uber graphische Rotation zum Vergleich auch die Varimax-Rotation vorgestellt
werden.
Die Ladungsmatrix war hier
Λ =
0.3 0.6
0.2 0.8
0.7 0.3
−0.5 0.6
0.5 −0.7
.
Fur diese Ausgangsmatrix erhalt man ein φ von 0.141525. Als eine im Hinblick
auf das Varimax-Kriterium optimale Rotationsmatrix findet man beispielsweise
die folgende Matrix: (0.727039 −0.686596
0.686596 0.727039
),
die zu folgender neuen Ladungsmatrix fuhrt:0.630069 0.230245
0.694685 0.444312
0.714906 −0.262506
0.0484382 0.779521
−0.117098 −0.852225
.
Das Kriterium φ ist hier 0.32533. Es folgt noch die Darstellung der rotierten
Faktoren:
..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
........................
...................
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................
......................
...........
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
........
........
...........
...........
...........
rrr
r
r..........................
....
.....
......
..........
...................................................................................................................................
......
....................................
f1
f2
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................
...................
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
........
........
........
........
........
........
........
........
........
........
....
........
........
...........
...........
...........
f2 f1
3.5 Faktorenextraktion FA13 100
Im Fall von zwei Faktoren kann man die Varimax-Rotation ubrigens durch geeig-
nete Formeln ermitteln, wahrend bei mehr als zwei Faktoren iterative Verfahren
Anwendung finden.
In der Praxis wird fast standardmaßig und geradezu reflexhaft die Varimax-
Rotation angewendet; ein kritischer Beobachter, der immerhin noch an Faktoren
glaubt, wird sich fragen, warum ausgerechnet diese Rotation zu den’wahren‘ Fak-
toren fuhren soll, oder, anders formuliert, warum denn die Natur so eingerichtet
sein sollte, dass ihre Faktoren alle ausgerechnet die Varimax-Bedingung erfullen?
3.5 Faktorenextraktion
In diesem Abschnitt geht es um die Frage, wie man zu einer Losung fur die
Faktorenanalyse kommt, wie man also zu einer Ladungsmatrix und gegebenen-
falls zu einer Interkorrelationsmatrix der Faktoren gelangt, fur die die zugehorige
Korrelationsmatrix der Variablen der empirischen Korrelationsmatrix so ahnlich
ist, dass man (falls man uberhaupt die Faktorenanalyse fur sinnvoll erachtet) die
Richtigkeit des entsprechenden Modells fur moglich halt. Ein Teilproblem ist es
dabei, die Anzahl der Faktoren zu bestimmen. Man spricht dabei auch davon,
dass man aus den Daten Faktoren extrahiert (im Gegensatz zu den Vorgangen
beim Zahnarzt ist das Extrahierte hier das Wertvolle, das, was ubrigbleibt, hinge-
gen nur Datenschrott). Trotz der berechtigten Einwande des Skeptikers, dass mit
solchen Formulierungen womoglich nur das Vertrauen in unsinnige Vorgehenswei-
sen gestarkt wird, soll diese putzige Bezeichnung auch hier verwendet werden. Die
folgenden Erorterungen werden hoffentlich deutlich machen, wie unangemessen
die durch die Bezeichnung wachgerufenen Assoziationen sind (es sei denn, diese
beziehen sich auf die Schmerzen beim Zahnarzt).
Ein wichtiges Teilthema ist dabei die Frage, ob die Losung eindeutig ist, was im
wesentlichen die Frage nach der Identifizierbarkeit der Parameter ist, die Frage
also, ob es in dem (mehr als) bestmoglichen Fall einer bekannten Interkorrelati-
onsmatrix der Variablen moglich ist, die Parameter des Modells zu erschließen.
Die Parameter sind dabei die Elemente der Ladungsmatrix und gegebenenfalls
Korrelationen der Faktoren.
Diese wichtige Frage macht Untersuchungen auch auf der theoretischen Ebene er-
forderlich. Eine Teilantwort ist schon bekannt: Identifizierbarkeit kann bestenfalls
bis auf Rotationen gelten, was jedoch vom multivariaten Standpunkt aus nicht
3.5 Faktorenextraktion FA13 101
schlimm war. Die Frage, die bleibt, ist dann die, ob die Parameter wenigstens bis
auf Rotationen erschließbar sind.
Man erleichtert sich das Vorhaben, wenn man von Losungen fordert, dass sie
die Bedingungen erfullen, dass die Spalten der Ladungsmatrix linear unabhangig
sind und dass die Interkorrelationsmatrix der Faktoren positiv definit ist.
Eine Losung mit q Faktoren, die diese beiden Bedingungen erfullt, soll kurz auch
eine regulare q-Faktor-Losung heißen.
Im letzten Kapitel hat sich bereits gezeigt, dass sowohl auf theoretischer Ebene als
auch auf empirischer Ebene in dem Fall, dass diese Bedingungen nicht erfullt sind,
die Modelle bzw. Losungen so modifiziert werden konnen, dass die Bedingungen
gelten – ein wichtiger Aspekt ist dabei die Reduzierung der Anzahl der Faktoren.
Der ernsthafte Anhanger einer substantiellen Interpretation wird womoglich mit
diesen Modifikationen nicht zufrieden sein und seinen alten Faktoren nachtrauern,
da die neuen Faktoren im Gegensatz zu den alten nur noch einen kunstlichen und
willkurlichen Charakter besitzen. Wir konnen an dieser Stelle leider nicht mehr
tun, als ihm fur seinen Idealismus unseren Respekt auszudrucken und ihm fur
seine weiteren Bemuhungen alles Gute zu wunschen.
Im Folgenden soll also vorausgesetzt werden, dass die Korrelationsmatrix Kf der
Faktoren positiv definit ist und die Ladungsmatrix Λ linear unabhangige Spalten
besitzt, was gerade bedeutet, dass ihr Rang q ist. Hieraus folgt, dass auch die
Kovarianzmatrix Kx = ΛKfΛ′ der reduzierten Variablen den Rang q besitzt.
Man kann jetzt also die Zahl der Faktoren direkt am Rang von Kx ablesen –
genauer: man konnte es, besaße man diese Matrix.
Unter der genannten Einschrankung soll nun das Problem der Faktorenextrakti-
on in drei Stufen behandelt werden: Im ersten Schritt soll vorausgesetzt werden,
dass die wahre reduzierte Korrelationsmatrix der beobachtbaren Variablen be-
kannt ist, im zweiten Schritt, dass immerhin die wahre Korrelationsmatrix zur
Verfugung steht, und erst im dritten Schritt soll die realistische Situation in An-
griff genommen werden, dass nur eine empirische Korrelationsmatrix vorliegt.
Losungen bei bekannter wahrer reduzierter Korrelationsmatrix. Es wird
in diesem Abschnitt vorausgesetzt, dass die wahre reduzierte Korrelationsmatrix
Kx bekannt (– fur den Skeptiker: vorgegeben –) ist. Die Frage ist, ob und wie sich
Losungen finden lassen, also eine (potentielle) Ladungsmatrix Λ und eine positiv
definite Matrix Kf (die Interkorrelationsmatrix der potentiellen Faktoren), deren
3.5 Faktorenextraktion FA13 102
Diagonalelemente alle 1 sind, so dass
Kx = ΛKfΛ′
gilt.
Die Uberlegungen dieses Abschnitts bewegen sich also auf der theoretischen Ebe-
ne.
Wie schon weiter oben festgestellt wurde, ist jetzt die Zahl q der Faktoren wegen
der Voraussetzungen gleich dem Rang von Kx. Klammert man Kx = Λ(KfΛ′),
so sieht man außerdem, dass alle Spalten von Kx im Bild von Λ liegen mussen,
und dass sogar wegen der Gleichheit der Range von Λ und Kx die Bilder von
Kx und Λ ubereinstimmen mussen. Dies ist eine erste Einschrankung fur die
moglichen Matrizen Λ.
Zuerst soll nun gezeigt werden, dass es tatsachlich Losungen mit q Faktoren gibt.
Man kann dazu verschiedene Methoden benutzen; die hier als erste gewahlte
macht deutlich, wie umfangreich die Menge der moglichen Losungen ist.
Die Bedingung, dass die Spalten von Λ das Bild von Kx aufspannen sollen, legt
nahe, als Ausgangspunkt fur die Wahl von Λ irgendeine (p × q) Matrix Λ0 zu
wahlen, deren Spalten eine Basis des Bildes von Kx sind (es wird sich zeigen,
dass dies bis auf eine Ersetzung der Spalten durch Vielfache schon eine Losung
ist). Setzt man nun Λ′0Λ0 =: A so hat A Rang q und ist daher invertierbar.
Außerdem ist A symmetrisch. Setzt man jetzt
K0 := A−1Λ′0KxΛ0A−1 ,
so ist K0 offenbar positiv semidefinit, und ferner gilt
Λ0K0Λ′0 = Kx
(wie noch zu zeigen ist), so dass man fast fertig ist.
Um die Gleichung Λ0K0Λ′0 = Kx einzusehen, schreibt man zunachst die linke
Seite aus:
Λ0K0Λ′0 = Λ0A
−1Λ′0KxΛ0A−1Λ′0 = PKxP ,
wenn man P := Λ0A−1Λ′0 = Λ0(Λ
′0Λ0)
−1Λ′0 setzt. Man erkennt, dass P die
orthogonale Projektion auf das Bild von Λ0 ist, weshalb PKxP = KxP ist (die
Spalten von KxP liegen alle im Bild von Λ0, weshalb sie durch P nicht mehr
geandert werden). Wegen (KxP)′ = P′Kx′ = PKx = Kx = Kx
′ ist schließlich
3.5 Faktorenextraktion FA13 103
KxP = Kx und die Gleichung gezeigt. Weiter folgt, dass K0 mit Kx den Rang q
besitzen muss.
Der einzige Nachteil ist der, dass die Diagonale von K0 nicht aus Einsen besteht.
Immerhin konnen dort nur echt positive Zahlen auftreten (K0 ist invertierbar,
daher positiv definit, weshalb alle Diagonalelemente, die ja mindestens gleich dem
kleinsten Eigenwert sind, positiv sein mussen). Ist dann D die Diagonalmatrix,
deren Diagonalelemente die Wurzeln der Diagonalelemente von K0 sind, so ist D
invertierbar und die Matrix D−1K0D−1 ist mit K0 positiv definit und besitzt in
der Diagonale nur Einsen. Setzt man also Kf = D−1K0D−1 und kompensatorisch
Λ = Λ0D, so gilt
ΛKfΛ′ = Λ0DD−1K0D
−1DΛ′0 = Λ0K0Λ′0 = Kx ,
und eine Losung ist gefunden.
Die gefundene Ladungsmatrix Λ = Λ0D entsteht aus Λ0 dadurch, dass die Spal-
ten mit den Diagonalelementen von D multipliziert werden. Da Λ0 spaltenweise
eine beliebige Basis war, kann man insgesamt also jede Basis des Bildes von Kx
als Ladungsmatrix verwenden, wenn man ihre Elemente nur noch geeignet um-
skaliert. Dies macht deutlich, wie riesig die Menge der moglichen Losungen ist.
Kurz zusammengefasst gelangt man also folgendermaßen zu einer Losung: Man
stellt eine beliebige Basis von Bild(Kx) zu einer Matrix Λ0 zusammen, bildet dann
K0 = (Λ′0Λ0)−1Λ′0KxΛ0(Λ
′0Λ0)
−1 und die Diagonalmatrix D mit den Wurzeln
der Diagonalelemente von K0 in der Diagonale, und erhalt schließlich mit Λ =
Λ0D und Kf = D−1K0D−1 eine Losung (Kf ,Λ) mit ΛKfΛ
′ = Kx.
Aus dieser Losung bekommt man ubrigens mit Λ(Kf )1/2 als Ladungsmatrix eine
weitere Losung, die zusatzlich noch orthogonale Faktoren hat; es gilt namlich
(Λ(Kf )1/2)(Λ(Kf )
1/2)′ = ΛKf1/2Kf
1/2Λ′ = ΛKfΛ′ = Kx .
Schließlich gibt es fur das Problem so etwas wie eine’Standardlosung‘, die man
erhalt, wenn man die q normalisierten Eigenvektoren der Matrix Kx mit Eigen-
werten 6= 0 zu einer moglichen Ladungsmatrix Λ zusammenstellt. Ublicherweise
ordnet man die Spalten nach absteigenden Eigenwerten. Da dann ΛΛ′ = Kx gilt,
hat man sogar eine Losung mit orthogonalen Faktoren.
Zu dieser Losung ist ein Kommentar angebracht. Bei orthogonalen Losungen
ist es ja generell so, dass die Summe der quadrierten Ladungen spaltenweise
3.5 Faktorenextraktion FA13 104
als ein Maß fur die Bedeutung des Faktors im Sinne der aufgeklarten Varianz
verwendet werden kann. Hier sind diese Summen die quadrierten Langen der
Spaltenvektoren, und da diese Vektoren normalisierte Eigenvektoren sind, sind
die Summen folglich die zugehorigen Eigenwerte.
Die Eigenwerte von Kx stimmen daher bei dieser speziellen orthogonalen Losung
mit den Maßen der durch die Faktoren aufgeklarten Varianzen uberein.
Es folgt ein Beispiel fur die’Standardlosung‘: Die Matrix Kx sei0.5 0.5 0.
0.5 0.52 0.14
0. 0.14 0.98
.
Man rechnet leicht nach, dass die Eigenwerte der Matrix 1.1, .9 und 0 sind.
Die Matrix hat also Rang 2, weshalb es eine Losung mit zwei Faktoren gibt.
Als Eigenvektoren zu den beiden von 0 verschiedenen Eigenwerten findet man
beispielsweise die Spalten der Matrix0.5 −0.5
0.6 −0.4
0.7 0.7
,
und man rechnet leicht nach, dass diese speziellen Eigenvektoren sogar norma-
lisiert sind (die Summen der quadrierten Eintrage in den Spalten sind 1.1 und
.9, also die Eigenwerte von Kx). Daher ist diese Matrix bereits die Ladungsma-
trix Λ. Nach Konstruktion gilt ΛΛ′ = Kx, wie man ebenfalls leicht nachrechnet;
man hat also in der Tat eine orthogonale Losung. Da die Losung orthogonal ist,
sind die Summen der quadrierten Eintrage in den Spalten (hier also die Eigen-
werte) als Maße fur die Bedeutung der Faktoren im Sinne der Varianzaufklarung
interpretierbar. Ihre Summe ist die Gesamtkommunalitat (hier 2), die mit der
Gesamtvarianz 3 der Variablen verglichen werden kann.
In einer weitgehend ublichen Form mit Kommunalitaten und Maßen fur die Be-
deutungen der Faktoren notiert sieht diese Losung so aus:
λij f1 f2 h2ix1 .5 −.5 .5
x2 .6 −.4 .52
x3 .7 .7 .98∑i λij
2 1.1 .9 2
3.5 Faktorenextraktion FA13 105
Das Besondere dieser speziellen Losung im Vergleich zu anderen orthogonalen
Losungen ist, dass die Summen der quadrierten Ladungen in der letzten Zeile
gleichzeitig die Eigenwerte der reduzierten Korrelationsmatrix sind.
Bisher deutet sich an, dass die Menge moglicher Losungen sehr groß ist, erfreu-
licherweise lassen sich jedoch alle Losungen mit q Faktoren durch eine Rotation
ineinander uberfuhren.
Um dies einzusehen, sollen zwei Losungen mit q Faktoren miteinander vergli-
chen werden, die jeweils aus einer Ladungsmatrix Λi und einer positiv definiten
Interkorrelationsmatrix der Faktoren Ki bestehen (i = 1, 2). Es gilt also
Λ1K1Λ′1 = Kx = Λ2K2Λ
′2 .
Da die Spalten beider Ladungsmatrizen Basen desselben Unterraums Bild(Kx)
sind, lasst sich eine invertierbare (q × q)-Matrix T finden, so dass Λ2 = Λ1T
gilt. Außerdem gibt es eine (q × p)-Matrix A, so dass AΛ1 = I gilt (z.B. A =
(Λ′1Λ1)−1Λ′1). Setzt man das ein, so erhalt man
Λ1K1Λ′1 = Λ2K2Λ
′2 = Λ1TK2T
′Λ′1 ,
und multipliziert man dies von links mit A und von rechts mit A′, so erhalt man
K1 = TK2T′ oder
K2 = T−1K1T′−1 .
Setzt man jetzt noch G = T′−1, also T = G′−1 so gilt
Λ2 = Λ1G′−1 und K2 = G′K1G ,
weshalb man die zweite Losung durch Rotation mit der Matrix G aus der ersten
erhalt.
Insgesamt hat man das Ergebnis, dass bei bekannter reduzierter Korrelationsma-
trix Kx des Ranges q Losungen mit q Faktoren existieren, und dass diese sich
alle durch geeignete Rotationen ineinander uberfuhren lassen. Bis auf Rotationen
(die ja vom multivariaten Standpunkt aus vertretbar erscheinen) ist die Losung
hier also eindeutig (vorausgesetzt, sie hat q Faktoren).
Insbesondere kann jede beliebige Losung durch eine Rotation in eine orthogonale
Losung uberfuhrt werden, denn einige von den gefundenen Losungen waren ja
orthogonal. Naturlich liefert diese auch dieselbe reduzierte Korrelationsmatrix.
Als wichtige Folgerung ergibt sich, dass man sich bei der Suche nach Losungen
3.5 Faktorenextraktion FA13 106
zunachst auf orthogonale Losungen beschranken kann, denn mit anschließenden
Rotationen kann man dann alle Losungen aus einer orthogonalen gewinnen.
Das Modell mit beliebigen Faktoren ist also, entgegen dem ersten Anschein, nicht
’reicher‘ als das mit orthogonalen Faktoren, da bei beiden Modellen die Menge der
mit q Faktoren vertraglichen Korrelationsmatrizen der beobachtbaren Variablen
die gleiche ist.
Zu der Aussage, dass jeweils zwei Losungen durch eine Rotation ineinander
uberfuhrt werden konnen, ist allerdings noch eine einschrankende Bemerkung
zu machen: Als Losung ist eine mogliche Ladungsmatrix (oder ein Paar aus La-
dungsmatrix und Interkorrelationsmatrix der Faktoren) bezeichnet worden mit
der Eigenschaft, dass diese Matrix (bzw. diese Matrizen), formal in die entspre-
chende Gleichung eingesetzt, die reduzierte Korrelationsmatrix liefert. Keines-
wegs gibt also eine Losung die hypothetischen Faktoren selbst an, diese bleiben
vielmehr im Dunkeln, wenn sie denn uberhaupt existieren.
Die angesprochenen Rotationen konnen daher auch nicht etwa hypothetische
Faktoren ineinander uberfuhren, sondern vermitteln nur formal zwischen den La-
dungsmatrizen (und gegebenenfalls Faktoreninterkorrelationsmatrizen). Die Aus-
sage uber die Rotation darf also auf keinen Fall so fehlverstanden werden, als hatte
man bis auf eine Rotation in einem substantiellen Sinne die Faktoren gefunden.
Ebensowenig hat man naturlich – jetzt im Modell gesprochen – die Faktoren als
Zufallsvariablen gefunden, sondern eben nichts anderes als zur Vorstellung solcher
Variablen passende Matrizen.
Leider taucht in Darstellungen praktischer Anwendungen der Faktorenanalyse
immer wieder die notorische Formulierung auf,’man habe soundso viele Fakto-
ren gefunden‘, die genau diese Missverstandnisse nahelegt und bei unkritischen
Lesern einen vollig verkehrten Eindruck hervorrufen muss.
Vielleicht ist es angebracht, diesen Punkt an einem primitiven Beispiel noch weiter
zu verdeutlichen. In diesem Beispiel existiert nur eine Variable, von der voraus-
gesetzt sei, dass ihre reduzierte Korrelationsmatrix aus der Zahl .64 besteht. Dies
ist mit dem Modell eines Faktors vertraglich. Die Ladungsmatrix besteht dann
aus der Zahl .8 (oder −.8). Die beiden Losungen lassen sich in der Tat durch
eine Rotation ineinander uberfuhren, wobei die Rotationsmatrix aus der Zahl −1
besteht.
Einen Faktor im substantiellen Sinn hat man an dieser Stelle uberhaupt nicht
3.5 Faktorenextraktion FA13 107
gefunden. Man kann sich jedoch durch Zusatzuberlegungen klar machen, dass
man – unter unkritischen Zusatzvoraussetzungen – Variablen konstruieren kann,
die als Faktor in Betracht kommen.
Zu diesem Zweck sei vorausgesetzt, dass neben der beobachtbaren Variable x eine
weitere Variable y existiert, die mit x unkorreliert ist und Varianz 1 besitzt (bei
einem hinreichend großen Wahrscheinlichkeitsraum sollte das kein Problem sein).
Definiert man dann f als .8x+ .6y, so hat man eine Variable konstruiert, die die
Rolle des Faktors spielen kann: Die Varianz von f ist 1, und setzt man den Fehler
e gleich x − .8f = x − .64x − .48y = .36x − .48y, so rechnet man sofort nach,
dass e und f unkorreliert sind; das faktorenanalytische Mini-Modell x = .8f + e
ist damit samt seinen Annahmen erfullt.
Dasselbe kann man mit einer weiteren Variable y1 wiederholen, die die gleichen
Eigenschaften wie y hat, von y jedoch verschieden ist. Man erhalt eine weite-
re Variable f1, die ebenfalls die Rolle des Faktors ubernehmen kann, die jedoch
offensichtlich mit f nicht ubereinstimmt. Man sieht also, dass bei dieser Fakto-
renextraktion (die hier nur daraus besteht, dass man die Wurzel aus .64 zieht)
keinesfalls ein Faktor im Sinne einer Zufallsvariable gefunden wurde, wenn man
diese Formulierung so versteht, als hatte man ein vorher verborgenes Objekt ans
Tageslicht gezerrt. Ein Faktor in diesem eindeutigen Sinne existiert eben auf
Modellebene uberhaupt nicht, vielmehr kann man beliebig viele Zufallsvariablen
konstruieren, die die Rolle eines solchen Faktors ubernehmen konnten.
Es sollte klar sein, dass man Faktoren, die nicht eindeutig aus der Ladungs-
matrix hervorgehen, auch nicht durch Rotationen ineinander uberfuhren kann.
Trotzdem auch hierzu noch ein Beispiel. Zu der Losung mit der Ladung −.8 kann
man auf die beschriebene Art ebenso beliebig Zufallsvariablen konstruieren, die
als Faktoren in Betracht kommen konnten. Ein Beispiel erhalt man, wenn man
mit dem schon oben verwendeten y den Faktor f2 als −.8x+ .6y wahlt; die glei-
chen Uberlegungen wie oben zeigen, dass man damit das Modell erfullen kann.
Die Rotation, die formal die Losungen ineinander uberfuhrt, namlich die Multi-
plikation mit −1, macht aus f jedoch die Variable −f = −.8x− .6y, die offenbar
nicht mit f2 ubereinstimmt.
Uberlegungen wie in dem Mini-Modell lassen sich – jedenfalls bei genugend großen
Wahrscheinlichkeitsraumen – in jeder Situation anstellen, in der man eine formale
Losung gefunden hat. Man findet also zu einer formalen Losung dann beliebig
viele q-dimensionale Variable, die alle die Rolle des Faktorvektors ubernehmen
konnen, sonst jedoch wenig miteinander zu tun haben. Keinesfalls mussen sie
3.5 Faktorenextraktion FA13 108
jedenfalls durch die Rotation ineinander uberfuhrbar sein, die formal zwischen
den entsprechenden Modellen vermittelt, die also aus einem Paar von Matrizen
ein anderes Paar von Matrizen herstellt.
Davon, dass man mit einer Losung auch Faktoren gefunden hatte, kann also keine
Rede sein.
Losungen bei bekannter wahrer Korrelationsmatrix. Im nachsten Schritt
soll nun vorausgesetzt werden, dass die wahre Korrelationsmatrix Kx der be-
obachtbaren Variablen bekannt ist, nicht jedoch die wahre reduzierte Korrela-
tionsmatrix Kx. Die Frage ist die, ob dann die Ladungsmatrix wenigstens bis
auf Rotation’identifizierbar‘ ist, also aus der Korrelationsmatrix rekonstruiert
werden kann.
Es soll also weiterhin vorausgesetzt werden, dass das Modell der Faktorenanalyse
mit p Variablen und q Faktoren gilt, wobei die Interkorrelationsmatrix Kf der
Faktoren und die Ladungsmatrix Λ beide Rang q besitzen sollen.
Beobachtbar sind nur die p Variablen, daher ist deren Korrelationsmatrix die
Basis fur die Suche nach den gesuchten Bestimmungsstucken des Modells. Es ist
nun zu fragen, ob die Suche erfolgreich sein kann, wenn man – was schon der
eigentlich nicht erreichbare Grenzfall ist – die (theoretische) Korrelationsmatrix
Kx der Variablen kennt.
Nach den Ergebnissen des letzten Abschnitts ware das Problem schon dann gelost,
wenn man nur die Matrix Kx kennen kennen wurde; insbesondere ware der Rang
dieser Matrix gleich der Anzahl q der Faktoren. Damit bleibt die Frage, ob Kx
aus Kx eindeutig erschließbar ist.
Die Matrizen Kx und Kx unterscheiden sich nur in der Diagonale, wobei die
Einsen in der Diagonale von Kx bei Kx durch die Kommunalitaten ersetzt sind.
Man kann das Problem also auch so formulieren: Sind die Kommunalitaten auf
der Grundlage von Kx eindeutig rekonstruierbar?
Die Frage, ob man von Kx auf Kx schließen kann, bedeutet genauer, ob es nur
auf eine Weise moglich ist, die Diagonale von Kx so abzuandern, dass eine positiv
semidefinite Matrix von kleinerem Rang entsteht (jede derartige Matrix fuhrt ja
zu einer moglichen Losung, wenn auch nicht unbedingt zur richtigen Losung im
Sinne des wahren Modells).
3.5 Faktorenextraktion FA13 109
Die Antwort auf diese Frage ist nur teilweise befriedigend: Eine solche Anderung
der Diagonale ist praktisch immer moglich, jedoch leider meist in vielerlei Weise,
so dass fur die Eindeutigkeit Zusatzbedingungen zu stellen sind.
Sinnvolle Zusatzbedingungen bestehen darin, dass man einerseits Forderungen an
die Zahl der Faktoren stellt und andererseits entsprechende Vorschriften fur die
Losung macht.
Von der Zahl q der Faktoren ist zu fordern, dass q im Verhaltnis zu p’hinreichend
klein‘ ist, und von der Losung wird man entsprechend verlangen, dass der Rang
von Kx durch die Anderung in der Diagonale moglichst stark erniedrigt wird.
Ist, als grobe Regel, die Zahl q der Faktoren kleiner als p/2, also kleiner als die
halbe Anzahl der Variablen, so sollten sich die Kommunalitaten in der Regel
eindeutig rekonstruieren lassen.
Diese sehr grobe Regel lasst sich in vielen Fallen noch verbessern, allerdings darf
die Zahl der Faktoren nicht zu groß werden: Falls die Ungleichung (p+q) > (p−q)2gilt, sind in der Regel die Kommunalitaten nicht rekonstruierbar.
Im Folgenden sollen diese Probleme an ganz einfachen Beispielen illustriert wer-
den.
Als erstes Beispiel sei eine Korrelationsmatrix von 3 Variablen betrachtet: 1 0.1 0.2
0.1 1 0.4
0.2 0.4 1
.
Zunachst soll nach Moglichkeiten gesucht werden, die Diagonale irgendwie so
abzuandern, dass der Rang kleiner wird – eine maximale Verkleinerung des Rangs
wird also noch nicht angestrebt.
Um den Rang zu verkleinern, kann man beispielsweise uberall in der Diagonale
den kleinsten Eigenwert 0.586059 abziehen und erhalt dann mit0.413941 0.1 0.2
0.1 0.413941 0.4
0.2 0.4 0.413941
eine Matrix vom Rang 2.
Das Verfahren, den Rang dadurch zu verkleinern, dass man uberall in der Dia-
gonale den kleinsten Eigenwert abzieht, funktioniert auch im allgemeinen Fall
3.5 Faktorenextraktion FA13 110
immer, man uberlegt sich namlich leicht, dass allgemein die Eigenwerte einer
Matrix A − kI gerade die um k verminderten Eigenwerte von A sind (bei glei-
chen Eigenvektoren). Zieht man also bei einer Matrix den kleinsten Eigenwert
uberall in der Diagonale ab, so erhalt man eine Matrix, deren kleinster Eigenwert
0 ist, weshalb sich der Rang vermindert haben muss.
Diese Moglichkeit ist jedoch nicht die einzige, den Rang der oben gegebenen
Matrix um 1 zu vermindern. Beispielsweise sind hier auch noch 1 0.1 0.2
0.1 0.2 0.4
0.2 0.4 0.8
,
0.3 0.1 0.2
0.1 0.7 0.4
0.2 0.4 0.3
,
0.1 0.1 0.2
0.1 0.5 0.4
0.2 0.4 0.5
positiv semidefinite Matrizen vom Rang 2, die außerhalb der Diagonale mit der
gegebenen Korrelationsmatrix ubereinstimmen. Man kann sich uberlegen, dass
man bei einer (p× p)-Korrelationsmatrix praktisch immer (p− 1) der geanderten
Diagonalelemente in gewissen Bereichen vorschreiben kann und das letzte dann
so bestimmen kann, dass das Ergebnis positiv semidefinit ist und Rang (p − 1)
besitzt.
Dies bedeutet, dass man, gleichgultig, was die Ausgangsvariablen sind, praktisch
immer unendlich viele Losungen mit (p−1) Faktoren findet, die sich zudem nicht
durch eine Rotation ineinander uberfuhren lassen.
Dass sich die Losungen nicht durch eine Rotation ineinander uberfuhren lassen,
folgt daraus, dass sonst die reduzierten Korrelationsmatrizen ubereinstimmen
mussten.
Modelle, bei denen man nicht ausschließt, dass q = p − 1 sein kann, sind also
nicht sehr sinnvoll, da es hier prinzipiell unmoglich ist, an die Modellparameter
zu gelangen (auch nicht bis auf Rotation, was ja harmlos ware).
Das Beispiel illustriert bis jetzt, dass die Rekonstruktion der Kommunalitaten
dann scheitern muss, wenn uber die Zahl der Faktoren keine weitere Einschrankung
gemacht wird. Hier war auch die Moglichkeit von q = p − 1 Faktoren zugelas-
sen, und dies lasst, da dann p + q großer als (p − q)2 = 1 ist, nach der zweiten
angegebenen Regel Schwierigkeiten befurchten.
Um Eindeutigkeit zu erzwingen, soll nun versucht werden, den Rang der Matrix
maximal zu erniedrigen. Da außerhalb der Diagonale Zahlen 6= 0 stehen, kann
der Rang 0 nicht erreicht werden. Es ist daher zu untersuchen, ob der Rang 1
erreicht werden kann.
3.5 Faktorenextraktion FA13 111
In der Tat findet man in dem Beispiel nur eine einzige Moglichkeit, die Diagonale
so abzuandern, dass der Rang der entstehenden Matrix 1 ist, namlich die folgende:0.05 0.1 0.2
0.1 0.2 0.4
0.2 0.4 0.8
.
Zu dieser Matrix gehort dann eine Losung mit nur einem Faktor. Wenn in diesem
Fall also in Wahrheit nur ein Faktor existierte, so konnten damit die Modellpa-
rameter (bis auf eine Rotation, die hier aber nur die Multiplikation mit −1 ist)
gefunden werden. Stand hingegen hinter der gegebenen Matrix ein wahres Modell
mit 2 Faktoren, so ist die jetzt gefundene Losung nicht richtig.
Allgemein kann man sich uberlegen, dass bei drei Variablen in dem Fall, dass die
Korrelationen sich in ihrer Große nicht allzu stark unterscheiden und ihr Produkt
positiv ist, immer eine eindeutige Einfaktorlosung gefunden werden kann.
Ist also in Wahrheit die Zahl q der Faktoren gleich 1, so sollten fur p = 3 die
Kommunalitaten in der Regel rekonstruierbar sein; hier ist auch die Zahl der
Faktoren kleiner als die halbe Anzahl der Variablen, so dass nach der ersten
angegebenen Regel auf Eindeutigkeit zu hoffen ist.
Dies ist ein Ergebnis, welches zwar hinsichtlich der Identifizierbarkeit erfreulich
ist, andererseits jedoch inhaltlich zu Bedenken Anlass gibt, wenn irgendwo eine
Einfaktorlosung gefunden wurde. Diese ist ja, gleichgultig welche Variablen man
untersucht, in weiten Bereichen bei drei Variablen der Normalfall. Mit anderen
Worten spricht die Existenz einer Einfaktorlosung bei drei Variablen allgemein
in keiner Weise dafur, dass’in Wirklichkeit‘ ein Modell mit einem Faktor gilt.
Im Kontrast hierzu uberlegt man sich ubrigens leicht, dass fur den Fall, dass das
Produkt der drei Korrelationen negativ ist, keine Einfaktorlosung existieren kann.
Hier hat man dann praktisch immer das Problem vieler nicht durch Rotation
ineinander uberfuhrbarer Losungen.
Um weiter zu prufen, wieweit die Hoffnung gerechtfertigt ist, weitgehend eindeu-
tige Losungen zu erhalten, wenn zusatzlich gefordert wird, dass der Rang der
reduzierten Korrelationsmatrix minimal ist, soll noch der Fall von 4 Variablen an
einem Beispiel untersucht werden. Die Korrelationsmatrix sei die folgende:
3.5 Faktorenextraktion FA13 112
1 0.2 0.4 0.2
0.2 1 0.3 0.1
0.4 0.3 1 0.15
0.2 0.1 0.15 1
.
An den vier Zahlen rechts oben sieht man, dass durch keine Abanderung der Dia-
gonale ein Rang von 1 erreicht werden kann. Der minimale Rang ist also besten-
falls 2. Andererseits kann man sich klar machen, dass man in gewissen Bereichen
das erste Diagonalelement vorschreiben kann und die restlichen dann geeignet so
erganzen kann, dass der Rang gleich 2 wird. Zwei Beispiele fur Abanderungen,
die zum Rang 2 fuhren, sind0.6 0.2 0.4 0.2
0.2 0.4 0.3 0.1
0.4 0.3 0.35 0.15
0.2 0.1 0.15 0.07
und
0.8 0.2 0.4 0.2
0.2 0.25 0.3 0.1
0.4 0.3 0.4 0.15
0.2 0.1 0.15 0.0625
.
Wenn hinter der gegebenen Korrelationsmatrix also ein Modell mit q = 2 Fakto-
ren stand, so sind die Kommunalitaten nicht rekonstruierbar, was ubrigens wegen
(p+ q) = 6 und (p− q)2 = 4 auch nicht zu erwarten war.
Das Beispiel zeigt, dass die Vorschrift, dass der Rang von Kx durch die Modifi-
kation der Diagonale maximal zu erniedrigen ist, nicht unbedingt eine eindeutige
Losung erzwingen muss.
In diesem Abschnitt ging es um die Frage, ob die Kommunalitaten aus Kx er-
schließbar sind, und es zeigte sich, dass dies dann der Fall ist, wenn die Zahl
der Faktoren im Vergleich zur Zahl der Variablen nicht zu groß ist, und wenn
man nach dem Prinzip vorgeht, die Kommunalitaten so zu schatzen, dass sich
der Rang von Kx maximal erniedrigt.
Naturlich sollte die Voraussetzung uber die Zahl der Faktoren inhaltlich gerecht-
fertigt werden, was jedoch bei exploratorischen Faktorenanalysen wohl eher illu-
sorisch ist.
Die Untersuchung in diesem Abschnitt fand noch auf theoretischer Ebene statt, da
die theoretische Korrelationsmatrix Kx im Mittelpunkt stand. Daher sind auch
die Ergebnisse theoretisch, allerdings durchaus mit praktischen Konsequenzen
– kann man sinnvoll uber Faktoren reden, wenn die Voraussetzungen fur die
Rekonstruierbarkeit der Kommunalitaten nicht erfullt sind?
3.5 Faktorenextraktion FA13 113
Losungen auf Basis der empirischen Korrelationsmatrix. Es soll nun das
Problem angegangen werden, auf der Basis der empirischen Korrelationsmatrix
R eine Losung zu gewinnen.
Fur einen ganz pragmatischen Ansatz wird eine solche Losung einfach aus einer
Ladungsmatrix bestehen, die zu (theoretischen) Interkorrelationen der Variablen
untereinander fuhrt, welche nicht allzu weit von den empirischen Interkorrela-
tionen entfernt sind. Die Faktoren konnen dabei als unkorreliert vorausgesetzt
werden, da sich ja jede Losung durch Rotation aus einer mit unkorrelierten Fak-
toren herstellen lasst.
Formal bedeutet dies, dass ein Λ gesucht ist mit der Eigenschaft, dass ΛΛ′ hin-
reichend nahe bei R liegt – jedenfalls was die Elemente außerhalb der Diagonale
angeht.
Schon ware es dabei, wenn die Ladungsmatrix nicht allzu viele Faktoren hatte.
(Formuliert man dies als Ziel, so ist allerdings die Frage, ob man wirklich noch
die’Wahrheit‘ finden will, oder nur ein in pragmatischer Hinsicht befriedigendes
Modell.)
Die beiden Aspekte der Losung, die jetzt formuliert wurden, sind leider nicht gut
zu vereinbaren: Weniger Faktoren sind nur auf Kosten großerer Distanz zu haben.
Man muss also geeignete Kompromisse schließen.
Zur Erreichung des Ziels existieren unterschiedliche Methoden. Hier soll eine der
prominentesten besprochen werden, namlich die Hauptachsenanalyse mit Kom-
munalitateniteration. Dieses Verfahren bezieht wesentlich die Kommunalitaten
mit in die Uberlegungen ein – ihre Schatzung ist ein zentraler Bestandteil.
Dass gerade die Kommunalitatenschatzung dabei ein kritischer Punkt ist, wird
durch die Uberlegungen des letzten Abschnitts nahegelegt.
Das zu besprechende Verfahren besteht darin, dass zwei Teilschritte mehrfach
durchgefuhrt werden, namlich die Kommunalitatenschatzung und die eigentliche
Faktorenextraktion. Diese Schritte werden abwechselnd so lange ausgefuhrt, bis
die Losung stabil ist.
Zunachst soll der Teilschritt der eigentlichen Faktorenextration behandelt wer-
den. Die Voraussetzung ist hier, dass bereits eine Schatzung der Kommunalitaten
vorliegt. Man hat also schon in der empirischen Korrelationsmatrix die Einsen
in der Diagonale durch Zahlen kleiner 1 ersetzt, von denen man hofft, dass sie
3.5 Faktorenextraktion FA13 114
naherungsweise gleich den Kommunalitaten sind. Die entstehende Matrix moge
Rr heißen, sie sollte hoffentlich nahe bei der reduzierten Korrelationsmatrix Kx
liegen.
Dies liefert schon den Schlussel fur das weitere Vorgehen: Es soll umgekehrt
moglichst nahe bei Rr eine mogliche reduzierte Korrelationsmatrix gefunden wer-
den, von der man dann ja leicht zu einer zugehorigen Ladungsmatrix gelangt. We-
sentlich ist dabei die Tatsache, dass die moglichen reduzierten Korrelationsma-
trizen positiv semidefinit sind, und dass ihr Rang gleich der Zahl der zugehorigen
Faktoren ist.
Umformuliert ist die Aufgabe also die, in der Nahe von Rr eine positiv semide-
finite Matrix mit niedrigerem Rang zu finden. Hierfur ist die Losung bekannt:
Mochte man den Rang q erzielen, so wahlt man Lq als eine Matrix von q nor-
malisierten orthogonalen Eigenvektoren zu den großten Eigenwerten von Rr und
erhalt mit LqL′q eine im Sinne des euklidischen Abstandes nachstgelegene posi-
tiv semidefinite Matrix vom Rang q. Der quadrierte Abstand ist die Summe der
verbleibenden quadrierten Eigenwerte.
Die Matrix Lq ist dann eine mogliche zugehorige Ladungsmatrix, die zusatzlich
die drei folgenden schon bekannten angenehmen Eigenschaften besitzt:
(i) Die Spalten sind orthogonale Eigenvektoren von Rr zu den ersten q Eigen-
werten.
(ii) Die quadrierten Langen der Spalten, also die Summen der quadrierten Ein-
trage in den Spalten, sind die Eigenwerte und geben wegen der Orthogonalitat
der Losung Auskunft uber die Varianzaufklarung durch den zugehorigen Faktor.
Die Summe dieser Eigenwerte ist die Gesamtkommunalitat.
(iii) Die Summen der quadrierten Eintrage in den Zeilen sind die Kommuna-
litaten.
Die Losungen fur unterschiedliche Zahlen von Faktoren hangen eng zusammen:
Definiert man L als eine Matrix von p normalisierten Eigenvektoren von Rr in
absteigender Reihenfolge der Eigenwerte, so kann man ein mogliches Lq aus den
ersten q Spalten von L zusammenstellen.
An diesem Punkt stellt sich nun eine zentrale Frage, namlich die nach der Zahl der
Faktoren. Da alle Losungen aus L durch Weglassen der letzten Spalten entstehen,
kann man die Frage auch aquivalent in die Frage umformulieren, wieviele Spalten
3.5 Faktorenextraktion FA13 115
von L beibehalten werden sollen.
Mogliche Antworten auf diese Frage hangen wesentlich von den Eigenwerten von
Rr ab.
Eine Moglichkeit ist es, soviele Faktoren zu’extrahieren‘, bis man mit der
’Vari-
anzaufklarung‘ zufrieden ist, bis also die Summe der entsprechenden Eigenwerte
hinreichend groß ist. Diese Summe ist die Gesamtkommunalitat und bekanntlich
an der Gesamtvarianz p der Variablen zu messen.
Eine zweite Moglichkeit besteht darin, nur Faktoren ubrigzubehalten, deren Ei-
genwert mindestens so groß ist wie eine vorgegebene Zahl (beispielsweise 1).
Eine dritte Moglichkeit besteht darin, zunachst alle Eigenwerte in absteigender
Große anzuordnen und dann zu prufen, ob an irgendeiner Stelle ein deutlicher
Sprung stattfindet, der so aussieht, dass der Eigenwert vor dem Sprung noch recht
groß ist, wahrend die Eigenwerte danach alle ziemlich klein sind. Beibehalten
werden dann alle Faktoren vor dem Sprung. Die Suche nach einem solchen Sprung
tragt auch den Namen’scree test‘, es wird sozusagen die Felswand der wirklichen
Faktoren von dem Geroll der Fehler getrennt.
Hier drangt sich die Frage auf, wie solche doch recht pragmatischen Verfahrens-
weisen mit dem hohen theoretischen Status des Modells der Faktorenanalyse ver-
traglich sind. Dem Ziel, substantielle Einflusse von statistischem Rauschen zu
trennen, wird vielleicht am ehesten die dritte Moglichkeit gerecht.
Zur Sprechweise, dass man Faktoren extrahiert, sei noch einmal daran erinnert,
dass sie etwas irrefuhrend ist: Das Ergebnis der Bemuhungen sind nuchtern be-
trachtet keineswegs Faktoren, sondern eine einigermaßen passende Matrix, die
Ladungsmatrix sein konnte.
Es folgt ein Beispiel: Die Matrix Rr sei0.38 0.1 0.02 0.06 −0.36
0.1 0.7 0.14 −0.06 −0.2
0.02 0.14 0.86 0.18 −0.04
0.06 −0.06 0.18 0.86 −0.12
−0.36 −0.2 −0.04 −0.12 0.92
.
Hier sind die Einsen in der Diagonale der empirischen Korrelationsmatrix R
bereits durch (irgendwie) geschatzte Kommunalitaten ersetzt. Die Matrix hat die
Eigenwerte 1.28, .96, .8, .48, .2. Eine Matrix aus normalisierten Eigenvektoren zu
3.5 Faktorenextraktion FA13 116
diesen Eigenwerten ist
L =
−0.4 −0.2 −0.1 0.1 0.4
−0.4 −0.2 0.5 −0.5 0
−0.4 0.6 0.5 0.3 0
−0.4 0.6 −0.5 −0.3 0
0.8 0.4 0.2 −0.2 0.2
.
Die Spalten von L sind also orthogonale Eigenvektoren von Rr und ihre qua-
drierten Langen sind die Eigenwerte. Es ist jetzt zu entscheiden, wieviele Fak-
toren extrahiert werden sollen. Hier wird man sich nach den Eigenwerten rich-
ten. Entscheidet man sich beispielsweise fur drei Faktoren, so ist die Gesamt-
kommunalitat gleich 1.28 + .96 + .8 = 3.04 (zum Vergleich: p = 5), und der
quadrierte Abstand der zugehorigen reduzierten Korrelationsmatrix zu Rr ist
.482 + .22 = .2704. Bei zwei Faktoren waren diese Zahlen gleich 1.28 + .96 = 2.24
und .82 + .482 + .22 = .9104. Die zugehorigen Ladungsmatrizen sind
L3 =
−0.4 −0.2 −0.1
−0.4 −0.2 0.5
−0.4 0.6 0.5
−0.4 0.6 −0.5
0.8 0.4 0.2
und L2 =
−0.4 −0.2
−0.4 −0.2
−0.4 0.6
−0.4 0.6
0.8 0.4
.
Die Vorschrift, nur Faktoren beizubehalten, bei denen der zugehorige Eigenwert
großer als 1 ist, fuhrt hier zu einer Einfaktorlosung, namlich der Ladungsmatrix
L1 =
−0.4
−0.4
−0.4
−0.4
0.8
.
Schließlich sei auch die dritte Methode illustriert: Hier tragt man zunachst die
Eigenwerte gegen ihren Platz in der absteigenden Reihenfolge auf. Man erhalt im
Beispiel folgendes Bild:
r r r r r1
3.5 Faktorenextraktion FA13 117
Hier kann man bestenfalls mit viel Phantasie einen deutlichen Bruch im Großen-
verlauf sehen, weshalb diese Methode der Bestimmung der Faktorenzahl in dem
betrachteten Beispiel wenig hilfreich ist.
Nun soll der kompliziertere Fall behandelt werden, dass die Kommunalitaten noch
nicht geschatzt sind; dabei geht es zunachst um die erste Schatzung am Beginn
des Gesamtverfahrens.
Aus den vorangehenden Uberlegungen wird klar, dass die Schatzung der Kom-
munalitaten einen entscheidenden Einfluss auf die Losung hat – unterschiedliche
Kommunalitatenschatzungen werden oft nicht nur zu unterschiedlichen Ladungs-
matrizen fuhren, sondern womoglich auch zu unterschiedlich vielen Faktoren.
Leider ist das Problem der Kommunalitatenschatzung nicht einfach, einerseits, da
man im Grunde keine guten Anhaltspunkte hat, andererseits, weil es womoglich
aufgrund einer fehlenden Identifizierbarkeit uberhaupt nicht losbar ist.
Zunachst sollen einige einigermaßen naheliegende’Schatzmethoden‘ genannt wer-
den.
Falls gute Schatzungen der Reliabilitaten der Variablen vorliegen, konnte man
diese als Schatzung verwenden (Kommunalitaten sind ja immer hochstens so groß
wie Reliabilitaten). Man wird so die Kommunalitaten jedoch uberschatzen.
Weitere Ansatze beruhen auf der Uberlegung, dass die Kommunalitat einer Varia-
ble sich in dem Zusammenhang mit den anderen Variablen wiederspiegeln sollte,
da die anderen Variablen ja auch die gemeinsamen Faktoren enthalten.
Eine Moglichkeit ist dann die, als Kommunalitatsschatzung die hochste Kor-
relation mit den anderen Variablen zu verwenden, eine andere, als Kommuna-
litatsschatzung die im Sinne einer multiplen Regression durch die anderen Varia-
blen aufgeklarte Varianz zu nehmen.
Bemerkenswert bei diesen Moglichkeiten ist, dass die entstehende Matrix womog-
lich nicht mehr positiv semidefinit ist, also als mogliche reduzierte Korrelations-
matrix uberhaupt nicht in Betracht kommt.
Nach der Kommunalitatenschatzung kann nun wie geschildert die Faktorenex-
traktion erfolgen. Dabei werden sich allerdings je nach Schatzmethode unter-
schiedliche Losungen ergeben. Zusatzliche Schwierigkeiten tauchen auf, wenn die
durch die Kommunalitatenschatzung entstehende Matrix negative Eigenwerte
3.5 Faktorenextraktion FA13 118
hat, allerdings sind diese beherrschbar, wenn es sich um wenige und kleine nega-
tive Eigenwerte handelt.
Vielleicht ist das Unbehagen uber die Willkurlichkeit der Schatzmethode ein
Grund dafur, dass man haufig das erheblich kompliziertere Verfahren der Kom-
munalitateniteration verwendet, das nun geschildert werden soll.
Bei der Kommunalitateniteration startet man mit irgendeiner Anfangs-Kommuna-
litatenschatzung (wie eben beschrieben) und fuhrt eine Faktorenextraktion durch.
Auf der Basis der erhaltenen Ladungsmatrix berechnet man dann die Kommuna-
litaten, die zu dieser Ladungsmatrix gehoren. Diese Kommunalitaten wahlt man
als neue Kommunalitatenschatzung und wiederholt das ganze Verfahren. Die Pro-
zedur wird so oft iteriert, bis sich die sukzessiven Kommunalitatenschatzungen
stabilisert haben, bis also aufeinanderfolgende Schatzungen sich nur noch unwe-
sentlich unterscheiden. An diesem Punkt bricht man das Verfahren ab.
Das Verfahren soll an einem kleinen Beispiel verdeutlicht werden. Das Beispiel
ist zwar unrealistisch insofern, als hier die Zahl der Variablen nur 2 ist, dafur
ist es jedoch leicht durchschaubar und demonstriert auch die einzelnen Schritte
hinreichend gut.
Als Ausgangspunkt soll die empirische Korrelationsmatrix
R =
(1 0.36
0.36 1
)vorliegen. In einem ersten Schritt mogen die Kommunalitaten (vielleicht uber die
Reliabilitaten) zu .73 und 52 geschatzt worden sein, so dass sich
Rr =
(0.73 0.36
0.36 0.52
)ergibt. Diese Matrix hat die Eigenwerte 1.0 und .25; normalisierte Eigenvektoren
sind die Spalten der Matrix
L =
(0.8 0.3
0.6 −0.4
).
Hier wird man wohl einen Faktor beibehalten wollen. Die Ladungsmatrix ist dann
die erste Spalte von L. Als Kommunalitaten ergeben sich .82 = .64 und .62 = .36.
Diese Zahlen werden als neue Kommunalitatenschatzungen verwendet und in die
ursprungliche Korrelationsmatrix eingesetzt. Man erhalt die Matrix(0.64 0.36
0.36 0.36
)
3.5 Faktorenextraktion FA13 119
und durchlauft den Prozess mit ihr von vorne.
In der folgenden Tabelle sind fur 15 Schritte die geschatzten Kommunalitaten am
Anfang des Schritts, die Eigenwerte der entsprechenden Matrix und die beiden
Elemente der Ladungsmatrix aufgelistet; man beachte, dass der erste Eigenwert
gleichzeitig die Gesamtkommunalitat ist.
Schritt Kommunalitaten Eigenwerte Ladungsmatrix
1 0.7300 0.5200 1.0000 0.2500 0.8000 0.6000
2 0.6400 0.3600 0.8863 0.1137 0.7770 0.5315
3 0.6037 0.2825 0.8373 0.0489 0.7676 0.4981
4 0.5892 0.2481 0.8170 0.0203 0.7638 0.4833
5 0.5834 0.2336 0.8088 0.0083 0.7623 0.4771
6 0.5811 0.2277 0.8054 0.0033 0.7617 0.4746
7 0.5802 0.2252 0.8041 0.0013 0.7614 0.4736
8 0.5798 0.2243 0.8035 0.0005 0.7614 0.4732
9 0.5797 0.2239 0.8033 0.0002 0.7613 0.4730
10 0.5796 0.2237 0.8032 0.0001 0.7613 0.4729
11 0.5796 0.2237 0.8032 0.0000 0.7613 0.4729
12 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729
13 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729
14 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729
15 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729
Nach diesen 15 Schritten andert sich wohl nichts mehr (sogar schon nach 11
Schritten), und man kann aus der Schleife aussteigen und als Ergebnis die La-
dungsmatrix (.7613
.4729
)notieren. Die Gesamtkommunalitat ist dann .8032. Daran, dass der zweite Eigen-
wert praktisch 0 ist, erkennt man, dass die zur Losung gehorende reduzierte Korre-
lationsmatrix mit der Matrix ubereinstimmt, die man aus der ursprunglichen Kor-
relationsmatrix erhalt, wenn man in der Diagonalen die Kommunalitatenschat-
zungen .5796 und .2236 einsetzt.
Dass das Verfahren hier Kommunalitaten schatzt, die die in diesem Modell gar
nicht geschatzt werden konnen, da sie nicht identifizierbar sind, gibt sicher zum
Nachdenken Anlass. Versucht man das Verfahren erneut mit den anfanglichen
3.5 Faktorenextraktion FA13 120
Kommunalitatenschatzungen .8 und .4, so landet man denn auch bei der La-
dungsmatrix (.8540
.4215
)mit Gesamtkommunalitat .9070. Die stabilisierten Kommunalitatenschatzungen
sind hier .7293 und .1777.
An dieser Stelle muss der Autor bekennen, dass ihm das geschilderte Verfahren in
vielerlei Weise unklar ist. So bleiben fur ihn beispielsweise die folgenden Fragen:
Konvergiert das Verfahren uberhaupt immer? Wenn ja, wohin? wohin??? Was ist
die Logik dahinter? Wieweit ist das Ergebnis von der anfanglichen Kommuna-
litatenschatzung abhangig?
Bemerkenswert an dem Verfahren ist es beispielsweise, dass im Falle einer Konver-
genz die stabilisierte Kommunalitatenschatzung in vielen Fallen nach Einsetzen
in die Diagonale der empirischen Korrelationsmatrix zu einer Matrix mit nega-
tiven Eigenwerten fuhrt, also zu einer Matrix, die nicht als reduzierte Korrelati-
onsmatrix in Frage kommt. Dies ist jedoch kein entscheidender Einwand, wenn
man es als Ziel ansieht, irgendwie zu einer Ladungsmatrix zu gelangen, deren
zugehorige reduzierte Korrelationsmatrix außerhalb der Diagonale einigermaßen
mit der empirischen ubereinstimmt.
Das Ergebnis des Verfahrens hangt entscheidend von dem Kriterium ab, das die
Zahl der zu extrahierenden Faktoren festlegt. Mit der Auswahl dieses Kriteri-
ums kann der Anwender einen massiven Einfluss auf das Endresultat ausuben
(was ihm, da ihm barmherzige Programme oft diese Entscheidung abnehmen,
womoglich gar nicht richtig bewusst ist). Unterschiedliche Methoden der anfang-
lichen Kommunalitatenschatzung konnen ebenfalls in manchen Fallen zu unter-
schiedlichen Endresultaten fuhren, was jedoch im Allgemeinen nicht so kritisch
sein durfte wie die Auswahl der Extraktionskriterien.
Schließlich ist anzumerken, dass es neben dem geschilderten doch recht kuriosen
Gewerkel weitere Verfahren gibt, die zum Teil auch starker inferenzstatistische
Techniken benutzen. Da der Anwender der Faktorenanalyse damit nicht nur zwi-
schen verschiedenen Verfahren die Auswahl hat, sondern auch bei einer festen
Vorgehensweise noch viele Einzelentscheidung auf unterschiedliche Weise treffen
kann, hat er gute Chancen, zu einer Losung zu gelangen, die ihn befriedigt (nur
fur den Leser, der es nicht gemerkt hat: dieser Satz ist ironisch gemeint).
Leider herrscht ubrigens auf diesem Gebiet eine große Uneinheitlichkeit, was Be-
3.6 Schatzung der Faktorwerte FA13 121
nennungen angeht. So wird gelegentlich auch die Hauptkomponentenanalyse als
eine Spielart der Faktorenanalyse aufgefasst, obwohl ihr Ansatz von dem hier
zur Debatte stehenden fundamental verschieden ist (durchaus bei einigen ober-
flachlichen Gemeinsamkeiten). Nun sind Klassifikations- und Bezeichnungsfra-
gen sicher zweitrangig, bedauerlich ist es jedoch, dass in manchen Darstellungen
die Modelle und ihre Prinzipien in einer verwirrenden und gelegentlich wider-
spruchlichen Weise durcheinandergeworfen und vermischt werden.
3.6 Schatzung der Faktorwerte
Als letztes bleibt noch das Problem zu behandeln, auf welche Weise man die
Werte ermitteln kann, die die Probanden auf den Faktoren besitzen.
Da die beobachtbaren Variablen alle fehlerbehaftet sind, ist klar, dass diese Werte
nicht aus den Variablen berechnet werden konnen, sondern geschatzt werden
mussen.
Es soll vorausgesetzt werden, dass die wahre Ladungsmatrix Λ und die wahre
Interkorrelationsmatrix Kf der Faktoren bekannt sind; in der Praxis wird man
an dieser Stelle geeignete’Schatzungen‘ einsetzen.
Die wahre Korrelationsmatrix wird wieder mit Kx bezeichnet.
Eine naheliegende Moglichkeit ist es, mit Hilfe einer multiplen Regression (auf
theoretischer Ebene) die Gleichung herzuleiten, mit der die Faktoren f durch die
beobachtbaren Variablen x vorhergesagt werden. In diese Gleichung konnen dann
die beobachteten x-Werte neuer Probanden eingesetzt werden, um so die Werte
zu schatzen, die sie auf den Faktoren besitzen.
Fur die Normalengleichungen braucht man die Kovarianzmatrix der Pradiktoren,
die hier Kx ist, und die Matrix der Kovarianzen der Pradiktoren und der Krite-
riumsvariablen. Wegen der Standardisierung der Variablen stimmen Kovarianzen
und Korrelationen uberein, und die zweite Matrix ist daher die Faktorstruktur
ΛKf . Bezeichnet man mit B die Matrix der Regressionsgewichte, so lauten die
Normalengleichungen folglich
KxB′ = ΛKf .
Setzt man wie ublich fur Kx Invertierbarkeit voraus, so errechnet man die Matrix
3.6 Schatzung der Faktorwerte FA13 122
der Regressionsgewichte zu B = KfΛ′Kx
−1 und erhalt als Vorhersage
f = KfΛ′Kx
−1x ,
womit der geschatzte Vektor f der Faktorwerte sich durch Anwendung der linea-
ren Abbildung KfΛ′Kx
−1 auf den Vektor der beobachtbaren Variablen x ergibt;
die additiven Konstanten fur die Vorhersage sind ja wegen der Zentriertheit aller
beteiligten Variablen gleich 0.
Das Verfahren mit der Regressionsmethode hat zwar den Vorteil, dass die Feh-
lervarianz (im Sinne der Spur) minimiert wird, es hat jedoch (bei einer Zusatz-
voraussetzung) einen Nachteil, das die Suche nach einer Alternative nahelegt.
Die Zusatzvoraussetzung ist die, dass die Fehler nicht nur insgesamt, sondern
sogar fur jeden moglichen Wert des Vektors f der Faktoren den Erwartungswert
0 besitzen sollen. (Streng genommen musste man sich hier mit den Begriffen
der bedingten Verteilungen und bedingten Erwartungswerte auseinandersetzen,
jedoch sollten die Aussagen dieses Abschnitts auch intuitiv einleuchten.)
Fur jeden festen moglichen Wert von f hat dann jedenfalls der Vektor
x = Λf + e
eine Verteilung mit Erwartungwert Λf , da jetzt f konstant ist. (Man kann sich
zur Veranschaulichung auch vorstellen, dass nur die Subpopulation der Perso-
nen betrachtet wird, die f als Vektor der Faktorwerte haben – trotzdem werden
auf Grund des Fehlers diese Personen naturlich nicht alle die gleichen Testwerte
erhalten.)
Man kann sich nun fragen, ob fur einen festen moglichen Wert f der Faktoren die
Schatzung der Faktorwerte’bedingt erwartungstreu‘ ist, was bedeuten soll, dass
der Erwartungswert der Schatzung wieder f ist. (Anschaulich heißt das, dass bei
der Subpopulation der Personen, die f als Vektor der Faktorwerte besitzen, als
Schatzung im Durchschnitt eben dieses f herauskommen sollte.)
Der (bedingte) Erwartungswert von x bei festem f ist jedenfalls Λf , und daher ist
der Erwartungswert der Schatzung f nach der Regressionsmethode KfΛ′Kx
−1Λf ,
da die Schatzung ja dadurch geschieht, dass auf x die durch die Matrix KfΛ′Kx
−1
gegebene lineare Abbildung angewendet wird.
Im Allgemeinen wird nun KfΛ′Kx
−1Λf leider nicht mit f ubereinstimmen – damit
dies fur alle moglichen Werte von f der Fall ware, musste namlich KfΛ′Kx
−1Λ
die Einheitsmatrix sein.
3.6 Schatzung der Faktorwerte FA13 123
Dass dies im Allgemeinen nicht der Fall ist, macht man sich leicht an Beispielen
klar. Ist beispielsweise in einem Modell mit unkorrelierten Faktoren die Ladungs-
matrix gleich
Λ =
.4 .3
.3 −.4−.5 .5
,
so findet man
KfΛ′Kx
−1Λ =1
56
(23 −9
−9 23
),
was sich deutlich von der Einheitsmatrix unterscheidet (Kf ist hier die Einheits-
matrix).
Die Schatzung der Faktorwerte mit der Regressionsmethode fuhrt also im Allge-
meinen zu systematischen Verzerrungen.
Als Alternative sollen nun die Faktorwerte nach Bartlett besprochen werden, die
dieses Problem vermeiden.
Neben den bisher gemachten Voraussetzungen wird dabei zusatzlich angenom-
men, dass die Matrix De invertierbar ist, und dass die Ladungsmatrix Λ maxi-
malen Rang besitzt.
Es soll also auf der Basis des Wertes x einer Person der Wert von f geschatzt
werden. Ware die Messung fehlerfrei, so ware x gleich Λf und lage damit im
Bild von Λ. Da fur Λ Maximalrang vorausgesetzt wird, konnte nun f eindeutig
rekonstruiert werden.
Leider ist jedoch die Messung nicht fehlerfrei. Es liegt daher nahe, zu dem tatsach-
lichen x-Wert der Person zunachst einen moglichst nahe liegenden Vektor im Bild
von Λ zu suchen und den zu diesem Vektor gehorenden Wert von f als Schatzung
der Faktorwerte zu benutzen.
Es fragt sich dabei allerdings, welcher Distanzbegriff zu verwenden ist. Hier liegt
nun die Mahalanobisdistanz bezuglich De nahe.
Damit ist das Programm der Schatzung abgesteckt: Zuerst wird ermittelt, welcher
Wert aus dem Bild von Λ zu x die kleinste Mahalanobisdistanz hat, und dann
wird das zugehorige f ermittelt.
Die Mahalanobisdistanz ist nun aber gleich der euklidischen Distanz, wenn man
eine Transformation zu multivariaten z-Werten macht. Hierfur bietet sich als
3.6 Schatzung der Faktorwerte FA13 124
Transformationsmatrix De−1/2 an. Der Verschiebungsvektor ist 0, da x bereits
Erwartungswert 0 hat (die Transformation wird also auf der Basis der Gesamt-
verteilung gemacht).
Der Punkt x hat dann die neuen Koordinaten De−1/2x, und das Bild von Λ
wird in neuen Koordinaten zum Bild von De−1/2Λ. Auch diese Matrix hat Ma-
ximalrang, die Spalten sind also linear unabhangig und bilden eine Basis von
Bild(De−1/2Λ). Zu dem Faktorwert f gehort der Punkt mit den Koordinaten
De−1/2Λf ; der Wert von f bei einer fehlerfreien Messung kann also hier direkt als
Koordinatenvektor abgelesen werden.
Insgesamt ist also zuerst der Punkt De−1/2x orthogonal auf Bild(De
−1/2Λ) zu
projizieren, und dann sind seine Koordinaten bezuglich der angegebenen Basis
zu bestimmen. Die Abbildung, die die Koordinaten nach der Projektion liefert,
ist aber bekanntlich
((De−1/2Λ)′(De
−1/2Λ))−1(De−1/2Λ)′ = (Λ′De
−1Λ)−1Λ′De−1/2 ,
und der Wert dieser Abbildung angewendet auf De−1/2x ist
(Λ′De−1Λ)−1Λ′De
−1/2De−1/2x = (Λ′De
−1Λ)−1Λ′De−1x .
Damit ist die gesuchte lineare Abbildung fur die Schatzung der Faktorwerte gleich
(Λ′De−1Λ)−1Λ′De
−1 .
Berechnet man auch hier den (bedingten) Erwartungswert der Schatzung fur den
Fall, dass die Faktorwerte f sind, so erhalt man wie oben((Λ′De
−1Λ)−1Λ′De−1) (Λf) = (Λ′De
−1Λ)−1Λ′De−1Λf = f .
Hier stimmt also der bedingte Erwartungwert mit dem tatsachlichen Wert f
uberein und die Verzerrung bei der Schatzung ist vermieden.
Allerdings ist bei dieser Methode die Fehlervarianz der Schatzung (im Sinne der
Spur) nicht minimal, denn dies ist nach Konstruktion bei der Regressionsmethode
der Fall, die ja im Allgemeinen zu anderen Ergebnissen fuhrt.
Der Wunsch, bei der Schatzung die Faktorwerte im Mittel richtig zu treffen
und der Wunsch, einen moglichst kleinen Fehler zu machen, lassen sich also
leider nicht gleichzeitig befriedigen, sondern fuhren zu zwei unterschiedlichen
Schatzmethoden.
3.6 Schatzung der Faktorwerte FA13 125
Eine ahnliche Situation sollte ubrigens aus der klassischen Testtheorie bekannt
sein, wo es darum geht, den wahren Wert auf der Basis des beobachteten Werts zu
schatzen. Auch hier gibt es ja eine Schatzmethode auf der Basis der Regression
mit dem Vorteil der kleinsten Varianz des Vorhersagefehlers, die jedoch nicht
bedingt erwartungstreu ist, und demgegenuber die Methode, den wahren Wert
direkt durch den beobachtbaren zu schatzen, was zwar bedingt erwartungstreu
ist, dafur jedoch eine großere Varianz des Vorhersagefehlers hat.
Schließlich sei noch erwahnt, dass es neben den beiden hier besprochenen Metho-
den zur Schatzung der Faktorwerte noch weitere gibt.