3 faktorenanalyse - uni-kiel.de · fa13 1 3 faktorenanalyse 3.1 modell bei der faktorenanalyse geht...

FA13 1

3 Faktorenanalyse

3.1 Modell

Bei der Faktorenanalyse geht es um den Versuch einer’Erklarung‘ der korrelativen

Zusammenhange zwischen mehreren Variablen, beispielsweise aus dem Bereich

der Personlichkeitspsychologie oder der Intelligenzforschung.

Leider ist die Terminologie recht uneinheitlich. So ist es recht verbreitet, den

Terminus’Faktorenanalyse‘ als Oberbegriff fur Modelle, wie sie hier untersucht

werden sollen, einerseits und fur die Hauptkomponentenanalyse andererseits zu

gebrauchen. Es wird klar werden, dass eine solche Terminologie ganz unglucklich

ist, da sie fundamentale Unterschiede zwischen zwei grundverschiedenen Ansatzen

vernebelt.

Zunachst ein Beispiel fur ein typisches Anwendungsfeld: Ein Personlichkeitsfrage-

bogen besteht meist aus mehreren Einzelitems, bei denen eine Vp als Antwort

eine Zahl auf einer Skala ankreuzen kann: (Item:”Ich habe meist gute Laune“,

Antwort:”trifft uberhaupt nicht zu“ (−3) . . .

”trifft voll und ganz zu“ (+3))

Legt man den Fragebogen einer großeren Stichprobe von Versuchspersonen vor

und korreliert die Antworten auf die einzelnen Items, so erhalt man eine Kor-

relationsmatrix, die so viele Zeilen und Spalten hat, wie Items vorhanden sind.

Zum Teil werden die Korrelationen recht hoch sein, was man dadurch zu er-

klaren sucht, dass man hinter den Antworten Personlichkeitseigenschaften an-

nimmt, die die Antworten auf die Einzelitems beeinflussen. Wirkt sich eine solche

Personlichkeitseigenschaft auf mehrere Items aus, so sollte dies zu Korrelationen

der Items untereinander fuhren.

Allgemein stellt man sich vor, dass hinter den beobachtbaren Variablen (z. B. den

Einzelitems) gewisse latente Variablen oder Faktoren stehen, die diese Variablen

’beeinflussen‘, und dadurch die Korrelationen bewirken. Allerdings nimmt man

keine’deterministischen‘ Einflusse an, sondern lasst zusatzlich noch Fehler, also

Abweichungen von dem Resultat der Einflusse zu.

Die Prazisierung des Ausdrucks’Einfluss‘ im Modell ist die folgende: Der Wert

der beeinflussenden Variable wird mit einem festen Koeffizienten multipliziert

und das Ergebnis wird dann zur beeinflussten Variable hinzuaddiert. Der Wert

einer Variable ergibt sich als Summe aller derartiger Einzelanteile und Fehler.

3.1 Modell FA13 2

Zu beachten ist, dass die Werte, die die beeinflussenden Variablen annehmen,

von Person zu Person unterschiedlich sind, ebenso die Fehler (die vielleicht so-

gar von Situation zu Situation als variabel angenommen werden), wahrend die

Koeffizienten, mit denen multipliziert wird, uber die Personen hinweg konstant

sind.

Die beobachtbaren Variablen und die Faktoren werden dabei als standardisiert

angenommen; ihr Erwartungswert soll also 0 sein und ihre Varianz 1. Dies kann

durch lineare Reskalierung (z-Transformation) und Anpassung der Koeffizienten

immer leicht erreicht werden, so dass diese Zusatzvoraussetzungen unkritisch sind.

(Zu der Frage der Anpassung der Koeffizienten sei an die sogenannten b-Gewichte

und β-Gewichte in der multiplen Regression erinnert.)

Eine Folge dieser Voraussetzungen ist, dass die Kovarianzmatrix der Faktoren

mit der entsprechenden Korrelationsmatrix ubereinstimmt; das gleiche gilt fur

die beobachtbaren Variablen.

Zunachst ein Beispiel: Ein kleiner Personlichkeitsfragebogen besteht aus 3 Items:

1. Ich fahre gerne Riesenrad

2. Ich liebe laute Musik

3. Ich habe Angst vor Spinnen

Ein mogliches faktorenanalytisches Modell konnte annehmen, dass hinter diesen

drei Items zwei Faktoren stehen, namlich Extraversion und Neurotizismus. Die

Einflusskoeffizienten seien bekannt und in der folgenden Graphik eingetragen:

f1 .......................................................

...............................................................................................................................................................................................................................................................................................................

f2 .......................................................

...............................................................................................................................................................................................................................................................................................................

x1

x2

x3

e1

e2

e3

....................................................

....................................................

....................................................

....................................................................

......................................

.7

..........................................................................................................................................................................................................................................................................................................................

......................................

−.4

........................................................................................................................................................................................................................................ .....................

.................

.8

....................................

....................................

....................................

....................................

....................................

....................................................

......................................

0

................................................................................................................................................................................................................................................................................................................

..........

......................................

−.2

................................................................................................................................................................................................................................ .........................

.............

.9

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

3.1 Modell FA13 3

Eine Versuchsperson, Silvia Sorglos, moge die folgenden Faktorwerte besitzen: .6

fur Extraversion und −.4 fur Neurotizismus. Die Werte in den Items sind dadurch

bis auf die Fehler bestimmt, die .2, −.1 und .4 betragen mogen. Es ergeben sich

dann die Werte der beobachtbaren Variablen wie folgt:

.6 .......................................................

...............................................................................................................................................................................................................................................................................................................

−.4 .......................................................

...............................................................................................................................................................................................................................................................................................................

.78

.38

−.08

.2

−.1

.4

....................................................

....................................................

....................................................

....................................................................

......................................

.7

..........................................................................................................................................................................................................................................................................................................................

......................................

−.4

........................................................................................................................................................................................................................................ .....................

.................

.8

....................................

....................................

....................................

....................................

....................................

....................................................

......................................

0

................................................................................................................................................................................................................................................................................................................

..........

......................................

−.2

................................................................................................................................................................................................................................ .........................

.............

.9

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

Die Werte fur die Items ergeben sich dabei so:

x1 = (.7) (.6) + (−.4) (−.4) + .2 = .78

x2 = (.8) (.6) + (0) (−.4) + (−.1) = .38

x3 = (−.2) (.6) + (.9) (−.4) + .4 = −.08

oder kurz

x1x2x3

=

.7 −.4.8 0

−.2 .9

( .6

−.4

)+

.2

−.1.4

=

.78

.38

−.08

.

3.1 Modell FA13 4

Eine weitere Versuchsperson, Zacharias Zaghaft, besitze dagegen die folgenden

Faktorwerte: −.3 fur Extraversion und .5 fur Neurotizismus. Die Werte in den

Items sind dadurch wieder bis auf die Fehler bestimmt, die −.1, .2 und .1 betragen

mogen. Es ergeben sich dann die Werte der beobachtbaren Variablen wie folgt:

−.3 .......................................................

...............................................................................................................................................................................................................................................................................................................

.5 .......................................................

...............................................................................................................................................................................................................................................................................................................

−.51

−.04

.61

−.1

.2

.1

....................................................

....................................................

....................................................

....................................................................

......................................

.7

..........................................................................................................................................................................................................................................................................................................................

......................................

−.4

........................................................................................................................................................................................................................................ .....................

.................

.8

....................................

....................................

....................................

....................................

....................................

....................................................

......................................

0

................................................................................................................................................................................................................................................................................................................

..........

......................................

−.2

................................................................................................................................................................................................................................ .........................

.............

.9

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................


x1 = (.7) (−.3) + (−.4) (.5) + (−.1) = −.51

x2 = (.8) (−.3) + (0) (.5) + .2 = −.04

x3 = (−.2) (−.3) + (.9) (.5) + .1 = .61

oder kurz

x1x2x3

=

.7 −.4.8 0

−.2 .9

(−.3.5

)+

−.1.2.1

=

−.51

−.04

.61

.

3.1 Modell FA13 5

Betrachtet man die beiden Rechnungen, so sieht man, dass die Werte in den

Faktoren und den Fehlern (und folglich den Items) bei beiden Personen unter-

schiedlich sind, wahrend die Koeffizienten, in denen sich die Große des Einflusses

ausdruckt, uber die Personen hinweg konstant sind.

Hat nun eine beliebige Versuchsperson die Werte f1 und f2 in den beiden Faktoren

und die Werte e1, e2 und e3 als Fehler, so ergibt sich das folgende Bild:

f1 .......................................................

...............................................................................................................................................................................................................................................................................................................

f2 .......................................................

...............................................................................................................................................................................................................................................................................................................

x1

x2

x3

e1

e2

e3

....................................................

....................................................

....................................................

....................................................................

......................................

.7

..........................................................................................................................................................................................................................................................................................................................

......................................

−.4

........................................................................................................................................................................................................................................ .....................

.................

.8

....................................

....................................

....................................

....................................

....................................

....................................................

......................................

0

................................................................................................................................................................................................................................................................................................................

..........

......................................

−.2

................................................................................................................................................................................................................................ .........................

.............

.9

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................


x1 = (.7) f1 + (−.4) f2 + e1x2 = (.8) f1 + (0) f2 + e2x3 = (−.2) f1 + (.9) f2 + e3

oder kurz

x1x2x3

=

.7 −.4.8 0

−.2 .9

(f1f2

)+

e1e2e3

Die Matrix .7 −.4

.8 0

−.2 .9

heißt Ladungsmatrix. Die Zeilen entsprechen den Items und die Spalten den Fak-

toren. In der i-ten Zeile und j-ten Spalte steht der Koeffizient, der den Einfluss

3.1 Modell FA13 6

des j-ten Faktors auf das i-te Item angibt, die Indizierung ist sozusagen der Ein-

flussrichtung entgegengerichtet (hilfreiche Sprechweise: “i-tes Item durch j-ten

Faktor“). Die Koeffizienten heißen auch Ladungen.

Als Bezeichnung fur die Ladungsmatrix wird meist Λ verwendet, die Ladungen

heißen entsprechend λij.

In dieser allgemeinen Schreibweise sieht das Modell so aus:

f1 .......................................................

...............................................................................................................................................................................................................................................................................................................

f2 .......................................................

...............................................................................................................................................................................................................................................................................................................

x1

x2

x3

e1

e2

e3

....................................................

....................................................

....................................................

....................................................................

......................................

λ11

..........................................................................................................................................................................................................................................................................................................................

......................................

λ12

........................................................................................................................................................................................................................................ .....................

.................

λ21

....................................

....................................

....................................

....................................

....................................

....................................................

......................................

λ22

................................................................................................................................................................................................................................................................................................................

..........

......................................

λ31

................................................................................................................................................................................................................................ .........................

.............

λ32

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

.................................................................................................................................................

......................................

Ladungsmatrix:λ11 λ12λ21 λ22λ31 λ32

Die Gleichungen sehen so aus:

x1 = λ11 f1 + λ12 f2 + e1x2 = λ21 f1 + λ22 f2 + e2x3 = λ31 f1 + λ32 f2 + e3

oder kurz

x1x2x3

=

λ11 λ12λ21 λ22λ31 λ32

(f1f2

)+

e1e2e3

oder noch kurzer

x = Λf + e ,

wenn man die x-, f - und e-Variablen jeweils zu einem Vektor zusammenfasst.

3.1 Modell FA13 7

Das Modell ist offen gegenuber unterschiedlichen Interpretationen:

Eine Interpretation konnte die Gleichungen wortlich nehmen und behaupten,

dass die beobachtbaren Variablen tatsachlich von den Faktoren durch Prozesse

erzeugt werden, die sich durch Additionen und Multiplikationen beschreiben las-

sen (Hirn als primitive Rechenmaschine). Die Faktoren mussen dann womoglich

ein physikalisch-physiologisches Korrelat haben. Diese Interpretation sei als sub-

stantielle Interpretation bezeichnet.

Eine zuruckhaltendere Interpretation ware die, dass es gewisse Personlichkeits-

eigenschaften (’traits‘) gibt, mit deren Hilfe man die beobachtbaren Variable im

Sinne einer multiplen Regression vorhersagen kann. Addition und Multiplikation

haben also hier keine inhaltliche Bedeutung, entsprechend unbestimmt kann der

Status der Faktoren bleiben. Diese Interpretation soll Regressionsinterpretation

heißen.

Wahrend die erste Interpretation reichlich naiv wirkt, hat die zweite den Nachteil,

dass ihr das kausale Flair fehlt.

Gelegentlich werden die Fehler noch weiter in zwei Anteile zerlegt. Der Fehler

zu einer beobachtbaren Variablen setzt sich dann zusammen aus einem weiteren

Faktor, der nur diese Variable und keine andere beeinflusst (spezifischer Faktor,

unique factor) und einem eigentlichen Fehler. Auf diese Weise versucht man der

Moglichkeit Rechnung zu tragen, dass der Teil der Variablen, der nicht durch

die gemeinsamen Faktoren bestimmt ist, nicht nur vom Zufall abhangt, sondern

vielleicht auch noch von weiteren Einflussen, die in der Versuchsperson stabil

sind. Bei einer wiederholten Messung des Merkmals wird dann nur der eigentliche

Fehler zufallig schwanken, wahrend der spezifische Faktor sich nicht andert.

f1 ...............................................

...................................................................................................................................................................................................................................................................................

f2 ...............................................

...................................................................................................................................................................................................................................................................................

u1 ...............................................

...................................................................................................................................................................................................................................................................................

u2 ...............................................

...................................................................................................................................................................................................................................................................................

u3 ...............................................

...................................................................................................................................................................................................................................................................................

x1

x2

x3

e1

e2

e3

....................................................

....................................................

....................................................

.................................................

......................................

λ11

..............................................................................................................................................................................................................................................................................................

......................................

λ12

..................................................................................................................................................................................................................... .....................

.................

λ21

....................................

....................................

....................................

....................................

.....................................................................

......................................

λ22

....................................................................................................................................................................................................................................................................................

..........

......................................

λ31

............................................................................................................................................................................................................. .........................

.............

λ32

........................................................

...........................................................................

.............................................

........................................................

...........................................................................

.............................................

........................................................

...........................................................................

.............................................

.......................................................................................

......................................

.......................................................................................

......................................

.......................................................................................

......................................

3.2 Annahmen und Konsequenzen FA13 8

In der Modellgleichung werden die Fehler ei durch jeweils eine Summe ui+ei von

spezifischem (unique) Faktor ui und (eigentlichem) Fehler ei ersetzt. Fasst man

auch die spezifischen Faktoren zu einem Vektor u zusammen, so erhalt man fur

das Modell mit spezifischen Faktoren die Modellgleichung

x = Λf + u + e .

Im Folgenden wird auf dieses etwas kompliziertere Modell nur am Rande einzu-

gehen sein. Was die hier zu behandelnden Themen angeht, lasst es sich namlich

dem einfacheren Modell als eine Verfeinerung unterordnen, die eben darin be-

steht, dass uber den Fehler genauere Annahmen gemacht werden (der Fehler im

einfacheren Modell wird in zwei Teile zerlegt).

3.2 Annahmen und Konsequenzen

Verteilungsannahmen. Uber die Faktoren und Fehler, also die Variablen, die

in dem Modell

x = Λf + e

die beobachtbaren Variablen bestimmen, werden weitere Verteilungsannahmen

gemacht.

Allgemein sei vorausgesetzt, dass die Anzahl der Variablen gleich p ist und die

der Faktoren gleich q. Die Matrix Λ ist dann eine (p× q)-Matrix, die Vektoren x

und e sind p-Zufallsvektoren, und der Zufallsvektor f ist q-dimensional.

Die Variablen und die Faktoren werden als standardisiert vorausgesetzt, also mit

Erwartungswert 0 und Varianz 1. Es ergibt sich daraus

E(e) = E(x−Λf) = E(x)−ΛE(f) = 0−Λ0 = 0 ,

so dass also auch die Erwartungswerte der Fehler Null sind.

Generell wird uber die Fehler vorausgesetzt, dass sie untereinander und mit den

Faktoren unkorreliert sind.

Bei den Faktoren kann man zwei Modelle unterscheiden: Das orthogonale Modell

(UF), bei dem die Faktoren unkorreliert sind (UF:’Unkorrelierte Faktoren‘), und

das allgemeinere schiefwinklige oder oblique Modell (KF), bei dem die Faktoren


auch miteinander korrelieren durfen (KF:’Korrelierte Faktoren‘). Das orthogo-

nale Modell ist also ein Spezialfall des schiefwinkligen.

An dieser Stelle konnen nun die unterschiedlichen Modellannahmen diskutiert

werden.

Hier ist zunachst die Modellgleichung, gemaß der die beobachtbaren Variablen

sich in linearer Weise aus den Faktoren ergeben sollen. Bei der Regressionsinter-

pretation gilt dies kraft Konstruktion, bei der substantiellen Interpretation durfte

es hingegen meist nur schwer zu rechtfertigen sein, dass der Einfluss der Faktoren

auf die beobachtbaren Variablen in dieser einfachen Form geschrieben werden

kann.

Die Voraussetzung, dass Variablen und Faktoren standardisiert vorliegen, ist un-

problematisch, da dies jederzeit durch eine geeignete Reskalierung erreicht werden

kann.

Die Voraussetzung, dass Faktoren und Fehler unkorreliert sind, folgt bei der Re-

gressionsinterpretation wieder aus der Konstruktion. Bei der substantiellen Inter-

pretation, bei der die Fehler wohl so etwas sein sollen, wie die Wirkung weiterer,

in den Faktoren nicht erfasster Einflussgroßen, zu denen noch Zufallsschwankun-

gen hinzukommen, ist dies nicht unmittelbar einsehbar, selbst dann nicht, wenn

man meint, mit den Faktoren alle gemeinsamen Einflusse erfasst zu haben. (Mit

gemeinsamen Einflussen sind Einflusse auf die beobachtbaren Variablen gemeint,

die auf mehr als eine von ihnen – oder gar alle – wirken.)

Die Voraussetzung unkorrelierter Fehler ist bei beiden Versionen nicht unmittel-

bar einleuchtend. Wenn man bei der substantiellen Interpretation die Hoffnung

hat, mit den Faktoren alle gemeinsamen Einflusse zu erfassen, so ist die Voraus-

setzung nicht ganz unplausibel, denn großere Korrelationen zwischen den Fehlern

wurden darauf hindeuten, dass es doch noch weitere gemeinsame Einflusse gibt,

die mit weiteren Faktoren erfasst werden konnten. Bei der Regressionsinterpre-

tation hingegen ist eine solche Argumentation nicht so naheliegend.

Bei Gegenuberstellung der Modelle KF und UF wird man sich fragen, was eigent-

lich fur unkorrelierte Faktoren spricht. Diese Annahme wird bei beiden Interpre-

tationsmoglichkeiten schwer zu rechtfertigen sein. Es wird sich allerdings zeigen,

dass sie uberraschenderweise unkritisch ist, wenn man bei der inhaltlichen Inter-

pretation der Faktoren Abstriche macht.


Reduzierte Variablen. In gewisser Weise werden die beobachtbaren Variablen

xi durch die Modellgleichung in zwei Teile zerlegt, namlich einen Anteil, der durch

die gemeinsamen Faktoren fj bestimmt ist und den verbleibenden Fehler. Es ist

praktisch, fur den ersten Anteil eine eigene Bezeichnung einzufuhren, was jetzt

geschehen soll.

Die Modellgleichung der Faktorenanalyse, namlich

x = Λf + e ,

schreibt sich in der i-ten Komponente als

xi =

q∑j=1

λijfj + ei .

Der erste Summand in dieser Zerlegung soll auch die reduzierte i-te Variable

heißen und mit xi bezeichnet werden. Es gilt also

xi =

q∑j=1

λijfj ,

und man kann die so definierten xi auch als die durch die gemeinsamen Faktoren

bestimmten Anteile der xi oder als die’fehlerfrei gemachten‘ xi auffassen.

Die Bezeichnung xi ist in Anlehnung an die multiple Regression gewahlt, wobei

es sich um mehr als eine bloße Analogie handelt – die xi erweisen sich namlich

tatsachlich als optimale Vorhersagen der xi durch die fj im Sinne der multiplen

linearen Regression (genauer: einer Regression auf theoretischer Ebene).

Fasst man die xi wieder zu einem Vektor x zusammen, so gilt in Vektorschreib-

weise

x = Λf

und man bekommt die Zerlegung

x = x + e .

Der Vektor x ist dabei wieder sozusagen der Anteil von x, der durch die gemein-

samen Faktoren bestimmt ist.

Aus der Voraussetzung, dass die Faktoren und die Fehler unkorreliert sind, folgt

fur die Matrix der Kovarianzen C(x, e) von x und e die Gleichung

C(x, e) = C(Λf , e) = ΛC(f , e) = Λ0 = 0 ,


die gerade besagt, dass die Komponenten von x und e unkorreliert sind.

Wegen xi = xi + ei folgt daraus weiter

1 = V(xi) = V(xi) + V(ei) .

Die Varianz von xi lasst sich also zerlegen in einen Anteil, der durch die gemein-

samen Faktoren aufgeklart wird, und in einen Fehleranteil. Da die Varianz von xigleich 1 ist, ist V(xi) gleichzeitig der Anteil der durch die gemeinsamen Faktoren

aufgeklarten Varianz an der Gesamtvarianz von xi. Man bezeichnet V(xi) auch

als die Kommunalitat von xi und fuhrt dafur die Abkurzung h2i ein.

In dieser neuen Terminologie gilt also

Kommunalitat + Fehlervarianz = 1 .

An dieser Stelle soll nochmals auf das etwas kompliziertere speziellere Modell mit

den spezifischen Faktoren eingegangen werden. Die zusatzliche Voraussetzung

fur die spezifischen Faktoren ist die, dass diese Faktoren sowohl untereinander

als auch mit den gemeinsamen Faktoren und mit den Fehlern unkorreliert sind.

Damit folgt

1 = V(xi) + V(ui) + V(ei) .

Die Varianz des spezifischen Faktors bezeichnet man auch als Spezifitat oder als

Uniqueness.

Man betrachtet meist die Werte der gemeinsamen und spezifischen Faktoren als

zeitlich stabil und den Restfehler als reinen Zufallsfehler, der bei Messwieder-

holungen zufallig neu auftritt, so dass die Korrelation zwischen den Restfehlern

bei verschiedenen Messungen gleich 0 ist. Daraus folgt, dass man im Sinne der

klassischen Testtheorie den wahren Wert ti der Variablen xi als xi + ui erhalt.

Fur die wahre Varianz V(ti) gilt daher

V(ti) = V(xi) + V(ui) ,

und da die Varianz von xi gleich 1 ist, ist dies gleich der Reliabiltat. Es gilt also

Reliabilitat = Kommunalitat + Spezifitat.

In der Zerlegung der Fehlervarianz in zwei Anteile und der dadurch moglich ge-

machten Einbeziehung der Reliabilitat liegt der einzige Vorteil des komplizierte-

ren Modells mit spezifischen Faktoren.


Fur die weiteren Untersuchungen ist diese Verfeinerung der Betrachtungsweise

jedoch irrelevant, und so soll in Zukunft auf die mogliche Ausdifferenzierung des

Fehlers in einen spezifischen Anteil und einen eigentlichen Fehleranteil nicht mehr

weiter eingegangen werden.

Zum Schluss sollen noch die Korrelationen bestimmt werden, die die reduzierten

Variablen untereinander und mit den Faktoren besitzen.

Wegen xi = xi+ei, wegen der Unkorreliertheit der Faktoren mit den Fehlern und

der Fehler untereinander und wegen der Standardisiertheit der Variablen und der

Faktoren errechnet man zunachst die Korrelation ρ(xi, xk) von zwei beobachtba-

ren Variablen zu

ρ(xi, xk) = Kov(xi, xk) = Kov(xi + ei, xk + ek) = Kov(xi, xk)

= ρ(xi, xk)σ(xi)σ(xk) ,

wobei wie ublich mit σ und ρ wie ublich Streuungen und Korrelationen bezeichnet

werden.

Zur Bestimmung der Korrelationen der xi untereinander braucht man die Formel

nur umzustellen und erhalt

ρ(xi, xk) =ρ(xi, xk)

σ(xi)σ(xk).

Dabei ist σ(xi) gleich der Wurzel aus der Kommunalitat von xi, also gleich hi,

entsprechend σ(xk). Da diese beiden Zahlen positiv und hochstens 1 sind, zeigt

sich, dass die Korrelationen zwischen zwei reduzierten Variablen betragsmaßig

mindestens so groß sind wie die zwischen den zugehorigen Originalvariablen und

außerdem immer das gleiche Vorzeichen besitzen.

Ebenso folgt fur die Korrelation ρ(xi, fj) zwischen der Variable xi und dem Faktor

fj die Beziehung

ρ(xi, fj) = Kov(xi, fj) = Kov(xi + ei, fj) = Kov(xi, fj) = ρ(xi, fj)σ(xi) ,

was man leicht zu

ρ(xi, fj) =ρ(xi, fj)

σ(xi)

umstellt; auch hier ist also die Korrelation zwischen einer reduzierten Variable

und einem Faktor betragsmaßig mindestens so groß wie die zwischen der zu-

gehorigen Originalvariablen und dem Faktor, und dies bei gleichem Vorzeichen.


Sieht man im Sinne der klassischen Testtheorie noch xi als den wahren Wert von

xi an, so ist die Kommunalitat gleich der Reliabilitat und man erkennt in den

Formeln zwei Verdunnungsformeln wieder.

Grundgleichungen. In diesem Abschnitt sollen die zentralen Gleichungen der

Faktorenanalyse hergeleitet werden. Zunachst mussen dafur noch einige Bezeich-

nungen eingefuhrt werden.

Die Kovarianzmatrix der Faktoren wird mit Kf bezeichnet; wegen der Standardi-

sierung ist sie gleichzeitig die Korrelationsmatrix, besitzt also nur Einsen in der

Diagonale. Im Modell UF gilt Kf = I.

Entsprechend seien Kx und De die Kovarianzmatrizen der beobachtbaren Va-

riablen und der Fehler – die besondere Bezeichnung fur die Kovarianzmatrix der

Fehler soll daran erinnern, dass diese Matrix eine Diagonalmatrix ist, da die Fehler

ja als unkorreliert angenommen werden. Die Kovarianzmatrix der beobachtbaren

Variablen ist ebenso wie die der Faktoren gleich der entsprechenden Korrelati-

onsmatrix, hat also in der Diagonale ebenfalls nur Einsen. Die Diagonalelemente

von De sind die Varianzen der Fehler.

Die Kovarianzmatrix von x soll mit Kx bezeichnet werden. Man nennt diese Ma-

trix auch die reduzierte Korrelationsmatrix. Die reduzierte Korrelationsmatrix ist

also die Kovarianzmatrix der reduzierten Variablen. Die Terminologie ist dabei

sehr unglucklich, da die reduzierte Korrelationsmatrix eben gerade keine Korre-

lationsmatrix ist, denn in der Diagonalen stehen im Allgemeinen keine Einsen.

Diese Diagonalelemente sind vielmehr die Varianzen der reduzierten Variablen,

also die Kommunalitaten h2i .

Nun soll untersucht werden, wie sich Kx und Kx aus den’Parametern‘ des Mo-

dells errechnen. Die Parameter des Modells sind dabei die Elemente der Kovari-

anzmatrizen Kf und De, sowie der Ladungsmatrix Λ. Die Untersuchung wird im

allgemeinen Fall KF durchgefuhrt.

Fur die Kovarianzmatrix von x gilt:

Kx = V(Λf) = ΛKfΛ′ ,

daher ergibt sich mit der Unkorreliertheit von x und e

Kx = V(x + e) = V(x) + V(e) = Kx + De = ΛKfΛ′ + De .


Im Spezialfall UF gilt:

Kx = ΛΛ′ .

Die Gleichung

Kx = Kx + De

zeigt, dass sich die beiden Matrizen Kx und Kx nur in der Diagonale unter-

scheiden. Die reduzierte Korrelationsmatrix Kx entsteht also aus der Korrelati-

onsmatrix Kx der beobachteten Variablen dadurch, dass man die Einsen in der

Diagonale durch die Kommunalitaten ersetzt, oder gleichwertig, dass man von

diesen Einsen die Fehlervarianzen abzieht.

Die Gleichung

Kx = ΛKfΛ′ + De

ist fur die Faktorenanalyse von zentraler Bedeutung. Sie vereinfacht sich fur das

Modell UF zu

Kx = ΛΛ′ + De .

Diese beiden Gleichungen sollen wegen ihrer Wichtigkeit in Zukunft meist als

Grundgleichungen bezeichnet werden.

Ausformulierung der Grundgleichungen. Die gerade hergeleiteten Matrizen-

gleichungen sollen nun genauer untersucht und in Einzelgleichungen ausformuliert

werden.

Dabei wird zunachst die allgemeinere Gleichung

Kx = ΛKfΛ′ + De

behandelt, die Aussagen fur die Gleichung des spezielleren Modells UF ergeben

sich dann durch Vereinfachung.

Es handelt sich bei den beiden Matrizen auf der linken und der rechten Sei-

te des Gleichheitszeichens um (p × p)-Matrizen; betrachtet man die Gleichung

elementweise, so ergeben sich also zunachst p2 Einzelgleichungen fur die p2 Ma-

trixelemente.

Da die drei Matrizen Kx, ΛKfΛ′ und De jedoch symmetrisch sind, stimmen je

zwei der Gleichungen außerhalb der Diagonale uberein, so dass in Wirklichkeit

nur

p+

(p

2

)=p (p+ 1)

2


verschiedene Einzelgleichungen vorhanden sind. Diese Gleichungen sollen nun

ausformuliert werden.

Zu diesem Zweck seien die Korrelationen der Faktoren untereinander mit ρ′klbezeichnet, die der beobachtbaren Variablen untereinander mit ρij und die Vari-

anzen der Fehler mit σ2i .

Als erstes sollen die Elemente von Kx = ΛKfΛ′ bestimmt werden.

Das (i, j)-Element dieser Matrix ist nun gerade das Produkt aus der i-ten Zeile

von Λ, der Matrix Kf und der j-ten Spalte von Λ′, die ihrerseits die (transpo-

nierte) j-te Zeile von Λ ist. Man erhalt das (i, j)-Element von Kx damit als∑k,l

λikλjlρ′kl .

Aus der Matrix Λ gehen hier also gerade die i-te und die j-te Zeile ein.

Im Spezialfall UF unkorrelierter Faktoren erhalt man∑k

λikλjk ,

was man auch als Produkt der i-ten und der j-ten Zeile von Λ verstehen kann.

In der untersuchten Matrixgleichung Kx = ΛKfΛ′ + De stehen auf der rechten

Seite außerhalb der Diagonalen die Korrelationen der beobachtbaren Variablen

untereinander, die Diagonalmatrix De liefert hier nur Nullen. Man erhalt also fur

i 6= j die Gleichung

ρij =∑k,l

λikλjlρ′kl ,

im Spezialfall UF

ρij =∑k

λikλjk .

In der Diagonalen der Matrixgleichung steht an i-ter Stelle die Gleichung

1 =∑k,l

λikλilρ′kl + σ2

i ,

im Spezialfall UF

1 =∑k

λ2ik + σ2i .


Hier hat man die schon bekannte Varianzzerlegung vor sich; der erste Summand

auf der rechten Seite in diesen Gleichungen ist jeweils die Varianz von xi, also die

Kommunalitat h2i .

Es zeigt sich hier ubrigens, dass die Parameter des Modells nicht unabhangig von-

einander sind, vielmehr lassen sich auf Grund der Varianzzerlegung die Fehlerva-

rianzen σ2i aus den Elementen λij der Ladungsmatrix und den Interkorrelationen

ρ′kl der Faktoren errechnen.

Man konnte auch sagen, dass eigentlich nur die λij und ρ′kl ’wirkliche‘ Parameter

des Modells sind.

Die Formeln fur die Kommunalitaten, die sich gerade nebenbei ergeben haben,

seien noch einmal hervorgehoben: Es gilt

h2i =∑k,l

λikλilρ′kl

bzw. im Fall UF

h2i =∑k

λ2ik .

Der Spezialfall UF soll nun noch etwas genauer betrachtet werden.

Die Gleichung

ρij =∑k

λikλjk

zeigt, dass man die Korrelation der Variablen xi und xj erhalt, indem man ent-

sprechende Ladungen der Variablen miteinander multipliziert und aufaddiert.

Man’multipliziert‘ also sozusagen die zu den beiden Variablen gehorenden Zei-

len der Ladungsmatrix miteinander.

Die Kommunalitat

h2i =∑k

λ2ik

der Variable xi ergibt sich hingegen als Summe ihrer quadrierten Ladungen.

Als Beispiel sollen unter der Voraussetzung unkorrelierter Faktoren bei der schon

oben verwendeten Ladungsmatrix

Λ =

.7 −.4.8 0

−.2 .9


Kommunalitaten, Interkorrelationen der beobachtbaren Variablen und Fehlerva-

rianzen bestimmt werden. Es ergibt sich hier

Kx = ΛΛ′ =

.7 −.4.8 0

−.2 .9

( .7 .8 −.2−.4 0 .9

)=

.65 .56 −.5.56 .64 −.16

−.5 −.16 .85

Im Ergebnis rechts stehen außerhalb der Diagonalen die Korrelationen der beob-

achtbaren Variablen und in der Diagonale ihre Kommunalitaten.

Die Fehlervarianzen σ2i sind folglich .35, .36 und .15.

Die Korrelation der ersten beiden Variablen ergibt sich als Produkt der ersten

beiden Zeilen von Λ:

ρ12 = (.7)(.8) + (−.4)(0) = .56 ,

wahrend die Kommunalitat der ersten Variable die Summe ihrer quadrierten

Ladungen ist:

h21 = (.7)2 + (−.4)2 = .49 + .16 = .65 .

Faktormuster und Faktorstruktur. Interessant ist auch die Matrix der Korre-

lationen zwischen den Variablen xi und den Faktoren fj. Da sowohl Variablen als

auch Faktoren standardisiert sind, ist dies zugleich die Matrix der Kovarianzen.

Wegen C(e, f) = 0 ergibt sich

C(x, f) = C(Λf + e, f) = ΛC(f , f) + C(e, f) = ΛKf .

Auch diese Matrixgleichung soll fur die einzelnen Elemente ausformuliert werden:

die Korrelation ρ(xi, fj) zwischen xi und fj ist

ρ(xi, fj) =∑k

λikρ′kj .

Im speziellen Fall UF ist die Korrelationsmatrix der Faktoren die Einheitsmatrix,

so dass sich hier C(x, f) = Λ ergibt, insbesondere also ρ(xi, fj) = λij.

Was den Zusammenhang zwischen Faktoren und Variablen angeht, so hat man

jetzt zur Beschreibung dieses Zusammenhangs zwei Matrizen, namlich die La-

dungsmatrix Λ, die man auch als Faktormuster bezeichnet, und die Matrix ΛKf

der Korrelationen zwischen Variablen und Faktoren, die man auch Faktorstruktur

nennt.


Im Spezialfall UF fallen die beiden Matrizen zusammen, hier ist also Faktormuster

gleich Faktorstruktur.

Gesamtkommunalitat. Zum Abschluss sollen noch weitere Indizes zur Bedeu-

tung der Faktoren im Sinne der Varianzaufklarung angesprochen werden.

Bildet man in der Grundgleichung Kx = Kx + De auf beiden Seiten die Spur, so

erhalt man

Spur(Kx) = Spur(Kx) + Spur(De) .

Da die Spur auch als multivariate Varianz interpretiert werden kann, ist dies eine

(multivariate) additive Varianzzerlegung der Varianz von x in die Varianz von x

und die Varianz von e.

Es liegt nahe, die Varianz von x als die von den Faktoren aufgeklarte Varianz

zu bezeichnen – dies erweist sich auch als korrekt im Sinne der Regression. Die

(multivariate) Varianz von x lasst sich damit zerlegen in einen durch die Faktoren

erklarten Anteil und einen Fehleranteil.

Die Varianz von x ist dabei als Spur von Kx die Summe der Diagonalelemente

dieser Matrix, also die Summe der Kommunalitaten h2i :

Spur(Kx) =

p∑i=1

h2i .

Die Spur von Kx wird daher auch als Gesamtkommunalitat bezeichnet. Nun gibt

eine einzelne Kommunalitat h2i gerade an, wieviel Varianz die gemeinsamen Fak-

toren an der Variablen xi erklaren. Damit ist die multivariat durch die Faktoren

erklarte Varianz die Summe der univariat bei den einzelnen Variablen erklarten

Varianzen.

Die Gesamtkommunalitat ist sinnvollerweise mit der Gesamtvarianz von x zu

vergleichen, also mit der Spur von Kx oder der Summe der Einzelvarianzen, die

hier p · 1 = p ist.

Im Falle UF verhalten sich die Faktoren bei der Varianzaufklarung der Einzelva-

riablen additiv, was sich in der Formel

h2i =

q∑j=1

λ2ij

ausdruckt. Die quadrierte Ladung λ2ij gibt dabei den Varianzanteil an, der durch

fj bei xi aufgeklart wird. Bei korrelierten Faktoren ist eine derartige verfeinerte


Varianzzerlegung, bei der die einzelnen Faktoren fur ihnen spezifisch zurechenbare

Anteile der Varianz der Variablen’verantwortlich gemacht werden konnen‘, nicht

moglich.

Es liegt jetzt – wieder nur im Falle UF – nahe, analog nach der Bedeutung eines

Faktors nicht nur fur eine Variable xi, sondern fur alle beobachtbaren Variablen

zu fragen.

Ein naheliegendes Maß fur diese Bedeutung des Faktors fj erhalt man dadurch,

dass man die durch diesen Faktor bei den einzelnen Variablen erklarten Varianzen

aufaddiert. Man bildet als Maß fur die Bedeutung von fj also die Summe

p∑i=1

λ2ij .

Summiert man diese Maße fur alle Faktoren auf, so ergibt sich

q∑j=1

(p∑i=1

λ2ij

)=

p∑i=1

q∑j=1

λ2ij =

p∑i=1

h2i .

Die Summe dieser Maße ist also die Gesamtkommunalitat, weshalb das Maß fur

die Bedeutung des Faktors fj auch als die durch ihn (multivariat) aufgeklarte

Varianz interpretierbar ist.

Auch im multivariaten Sinn ist es damit moglich, die durch die Faktoren gemein-

sam (multivariat) aufgeklarte Varianz additiv in Anteile zu zerlegen, fur die die

einzelnen Faktoren verantwortlich sind.

Das Maß∑

i λ2ij der durch den j-ten Faktor multivariat aufgeklarten Varianz

ist mit der Gesamtkommunalitat zu vergleichen oder mit der Gesamtvarianz p

aller beobachtbaren Variablen, je nachdem, ob man eher die relative Bedeutung

des Faktors fj in der Gesamtheit aller Faktoren im Auge hat oder den Teil der

Gesamtvarianz, den dieser Faktor aufklart.

Als Beispiel sollen die neuen Kennwerte fur die schon mehrfach verwendete La-

dungsmatrix bestimmt werden, immer naturlich unter der Voraussetzung unkor-

relierter Faktoren. Es folgt zur Erinnerung zunachst links die Ladungsmatrix.

In dem Schema rechts daneben sind die quadrierten Ladungen aufgefuhrt samt

Zeilen- und Spaltensummen; rechts stehen also die Kommunalitaten und unten

die Maße fur die Bedeutung der Faktoren.

3.3 Vorlaufiges zu”

Losungen“ FA13 20

Λ =

.7 −.4.8 0

−.2 .9

λ2ij f1 f2 h2ix1 .49 .16 .65

x2 .64 .00 .64

x3 .04 .81 .85∑i λij

2 1.17 .97 2.14

Die Gesamtkommunalitat unten rechts ist die Summe sowohl der zeilenweisen

als auch der spaltenweisen Teilsummen, also einerseits die Summe der bei den

Einzelvariablen durch alle Faktoren aufgeklarten Varianzen und andererseits die

Summe der durch die einzelnen Faktoren multivariat bei allen Variablen aufge-

klarten Varianzen. Sie ist zur Beurteilung mit der Gesamtvarianz der Variablen

zu vergleichen, die hier 3 ist.

3.3 Vorlaufiges zu”Losungen“

Aus einem Promotions-Kolloquium:

Primus Doctor.

... Tres scavanti Bacheliero,

Quem estimo et honoro,

Domandabo causam et rationem quare

Opium facit dormire.

Bachelierus.

Mihi a docto Doctore

Domandatur causam et rationem quare

Opium facit dormire:

A quoi respondeo,

Quia est in eo

Virtus dormativa,

Cujus est natura

Sensus assoupire.

Chorus.

Bene, bene, bene, bene respondere ...

Moliere, Le Malade imaginaire

Empirische Losungen. Bisher wurde die Gultigkeit eines faktorenanalytischen

Modells vorausgesetzt. Zudem waren die Ladungsmatrix Λ und die Korrelati-


Losungen“ FA13 21

onsmatrix Kf der Faktoren gegeben. Auf dieser Grundlage wurden dann weitere

Eigenschaften und Kenngroßen des Modells hergeleitet, unter anderem die Kor-

relationsmatrix Kx der beobachtbaren Variablen.

Ganz anders ist die Situation, wenn man in der Praxis eine Faktorenanalyse

durchfuhren will. Hier liegt nur eine empirische Korrelationsmatrix R der p be-

obachtbaren Variablen vor. Man macht dann die Annahme, dass hinter den Varia-

blen eine gewisse Anzahl von Faktoren steht, setzt also genauer gesagt das Modell

der Faktorenanalyse voraus. Die Anzahl q der Faktoren und ihre inhaltlichen Be-

deutungen bleiben dabei zunachst unbekannt. Je nach Geschmack nimmt man

ferner entweder an, dass die Faktoren unkorreliert sind (UF), oder man lasst auch

die Moglichkeit korrelierter Faktoren zu (KF) – diese Festlegung ist allerdings,

wie sich zeigen wird, unkritischer als man meinen konnte.

Die Frage, die sich nun stellt, ist die nach der Ladungsmatrix Λ (und im Fall

KF zusatzlich nach der Korrelationsmatrix Kf der Faktoren). Waren diese Ma-

trizen bekannt, so konnte man daraus mit Hilfe der bereits hergeleiteten Formeln

die theoretische Korrelationsmatrix Kx der beobachtbaren Variablen bestimmen,

und diese Matrix sollte der empirischen Korrelationsmatrix R moglichst ahnlich

sein. Naturlich wird man nicht die Gleichheit von Kx und R fordern, da R ja

auf einer zufalligen Stichprobe beruht und wegen der Zufallsfehler nicht mit der

wahren Korrelationsmatrix der beobachtbaren Variablen ubereinstimmen wird;

allerdings konnen Unterschiede nur außerhalb der Diagonale auftreten, da ja so-

wohl Kx als auch R Korrelationsmatrizen sind und daher in den Diagonalen nur

Einsen besitzen.

Sucht man nun nach den Matrizen Kf und Λ, so ist es klug, sich zuvor zu ver-

gegenwartigen, dass diese Matrizen einige einschrankende Bedingungen erfullen

mussen. Als Korrelationsmatrix der Faktoren muss Kf positiv semidefit sein und

außerdem in der Diagonale Einsen besitzen. Die reduzierte Korrelationsmatrix

Kx, die sich ja aus Kf und Λ zu ΛKfΛ′ berechnet, unterscheidet sich von Kx

nur in der Diagonalen, wobei die Diagonalelemente von ΛKfΛ′, also die Kom-

munalitaten, alle hochstens 1 sein durfen. Die zu erstrebende’Ahnlichkeit‘ von

Kx und R liegt daher dann vor, wenn R und ΛKfΛ′ außerhalb der Diagonale

etwa ubereinstimmen.

Die’wahren‘ Matrizen Kf und Λ sollten folglich den Bedingungen genugen, die

in der folgenden Definition von einer’formalen‘ Losung des Problems gefordert

werden:


Losungen“ FA13 22

Unter einer q-Faktorlosung zu einer gegebenen empirischen Korrelationsmatrix R

unter KF soll ein Paar (Kf ,Λ) aus einer (q × q)-Matrix Kf und einer (p × q)-Matrix Λ verstanden werden, das die folgenden Bedingungen erfullt:

(i) Kf ist positiv semidefinit mit Einsen in der Diagonale,

(ii) ΛKfΛ′ hat Diagonalelemente ≤ 1 und stimmt außerhalb der Diagonale

einigermaßen mit R uberein.

Bei den Matrizen Kf und Λ soll es sich naturlich um eine mogliche hypothetische

Korrelationsmatrix der Faktoren und um eine mogliche hypothetische Ladungs-

matrix handeln, was die Wahl der Bezeichnungen erklart.

Die Kennzeichnung dieses Losungsbegriffs als’formal‘ soll darauf hindeuten, dass

Matrizen Kf und Λ wie in der Definition keineswegs mit den’wahren‘ Matrizen

gleichen Namens ubereinstimmen mussen, sondern nur bestimmte Eigenschaften

haben, die diese’wahren‘ Matrizen ebenfalls besitzen, weshalb bislang nichts

dagegen spricht, dass eine solche Losung auch’richtig‘ sein konnte.

Insbesondere ist die Matrix Kf aus der Definition keineswegs automatisch eine

Kovarianzmatrix von irgendeiner’wirklich existierenden‘ Variablen f (so darf der

Index f also nicht missverstanden werden), sie konnte es bestenfalls sein, da sie

ja positiv semidefinit ist.

Die Bezeichnung der’wahren‘ Matrizen und moglicher Losungen mit denselben

Namen ist sicher unschon, unterschiedliche Bezeichnungen wurden aber womoglich

noch mehr Verwirrung stiften. Der Kontext wird jeweils zeigen, was im Einzelfall

gemeint ist.

Die Formulierung’einigermaßen‘ in der Definition ist ubrigens dermaßen schwam-

mig, dass man vielleicht eher von einer Sprechweise als von einer Definition spre-

chen mochte.

Es ist vor diesem Hintergrund naturlich mit der Moglichkeit zu rechnen, dass es

viele Losungen (im formalen Sinne der Definition) gibt. Manche solche Losungen

unterscheiden sich dabei im Hinblick auf den Zweck der gegenwartigen Unter-

suchung nur unwesentlich, was die folgende Begriffsbildung sinnvoll macht: Zwei

Losungen sollen dann aquivalent heißen, wenn die aus diesen Losungen konstru-

ierten Matrizen ΛKfΛ′ ubereinstimmen (ware eine Losung

’richtig‘, so ware das

die Matrix Kx). Aquivalenz bedeutet also nicht nur, dass zwei Losungen gleich


Losungen“ FA13 23

gut zur empirischen Korrelationsmatrix R passen, sondern daruber hinaus auch,

dass die zugehorigen (hypothetischen) Kommunalitaten gleich sind.

Etwas informell soll weiter unter der’Gute der Losung‘ der Grad an Ubereinstim-

mung der empirischen Korrelationen mit den auf Grund der Losung berechneten

bezeichnet werden. Aquivalente Losungen sind in diesem Sinne dann auch gleich

gut.

Das Modell UF ist der speziellere Fall von KF, bei dem die Matrix Kf eine Ein-

heitsmatrix ist. Die Bedingungen an eine Losung konnen daher fur UF knapper

formuliert werden:

Unter einer q-Faktorlosung zu einer gegebenen empirischen Korrelationsmatrix

R unter UF soll eine (p × q)-Matrix Λ verstanden werden, fur die ΛΛ′ Dia-

gonalelemente ≤ 1 besitzt und außerhalb der Diagonale einigermaßen mit R

ubereinstimmt.

Die folgende Diskussion untersucht den einfacheren Fall UF. Der Fall KF ist ganz

genauso zu behandeln, nur werden die Formulierungen an einigen Stellen etwas

umstandlicher.

Mit welchem Recht kann man ein Λ, das die empirischen Korrelationen einiger-

maßen reproduziert, als Losung bezeichnen?

Bisher kann man sagen: Es scheint durchaus moglich, dass Faktoren existieren, die

auf die beobachtbaren Variablen in der durch Λ beschriebenen Weise’einwirken‘.

Die empirischen Korrelationsmatrix R wurde jedenfalls recht gut dazu passen,

wenn man noch annimmt, dass die Varianzen der Fehler die Diagonalelemente

von ΛΛ′ gerade zu 1 erganzen.

Kaum jemand wird jedoch wohl bei dem gegenwartigen Stand der Dinge auf die

vermessene Idee kommen, dass man damit die’wahre‘ Ladungsmatrix ermittelt

hatte oder dass man gar die verborgenen Faktoren ans Licht gebracht hatte (man

vergleiche aber notorische Formulierungen bei der Mittelung von Ergebnissen von

Faktorenanalysen wie:”... wurden 3 Faktoren gefunden ...“).

Vielleicht wird jemand, der an die Gultigkeit des Modells der Faktorenanalyse

fur die untersuchten beobachtbaren Variablen glaubt, immerhin hoffen, dass das

gefundene Λ einigermaßen mit dem’wahren‘ Λ ubereinstimmt und damit Hin-

weise auf die’wahren‘ Faktoren geben kann. Ob er diese Hoffnung zu Recht hegt,

wird zu untersuchen sein.


Losungen“ FA13 24

Den Skeptiker jedoch, der ohnehin an der Gultigkeit des Modells zweifelt, und der

womoglich den bisherigen Erorterungen nur mit Widerwillen gefolgt ist, wird die

Tatsache, dass eine Losung Λ in dem beschriebenen Sinn gefunden wurde, kaum

veranlassen, seine Bedenken aufzugeben und hinfort an die Existenz von Fakto-

ren zu glauben. Dafur sind Formulierungen wie”es konnte sein, dass Faktoren

existieren ...‘ denn doch zu vage.

Was man sich wunschen wurde, ist also mehr als das bislang mit einer Losung

Erreichte, namlich am besten so etwas wie eine konstruktive Ermittlung von

Faktoren. Davon ist man jedoch weit entfernt: Real existierende Faktoren hat

man keineswegs gefunden, sondern eigentlich eben nur eine Matrix Λ, die nach

gewissen Rechenregeln die gegebenen Korrelationen einigermaßen reproduziert.

Alle Aussagen, die sich auf Faktoren beziehen, stehen im Potentialis (”Es konnte

so sein . . .“).

Dabei ist es noch nicht einmal selbstverstandlich, dass man zu der Aussage”Es

konnte so sein . . .“ berechtigt ist – da keine konstruktive Losung vorliegt, ist

es im Gegenteil noch fraglich, ob es’wirklich‘ so sein konnte. Zwar sind die

empirischen Korrelationen gut mit der Losung vertraglich, jedoch hat man eben

bisher auch nichts weiter als diese Korrelationen betrachtet. Man musste also eher

formulieren:”Was die Korrelationen angeht, so spricht bisher nichts dagegen, dass

moglicherweise . . .“.

Es folgt ein anschauliches Beispiel fur das, was hier gemeint ist: Vielleicht kommt

man nach Untersuchung vieler klimatischer Gegebenheiten zu dem Ergebnis, dass

unter diesem Gesichtspunkt nichts dagegen spricht, dass noch irgendwo Dinosau-

rier existieren. Dies bedeutet jedoch keineswegs, dass die Existenz von Dinosauri-

ern’wirklich‘ moglich ist – vielleicht hat man ja entscheidende Fakten ubersehen,

wie die zu niedrige Konzentration eines bestimmten Edelgases. Selbst dann je-

doch, wenn wirklich keine Umstande gegen die Moglichkeit ihrer Existenz spe-

chen, ist noch keineswegs gesagt, dass es sie wirklich gibt – hierfur braucht man

ein reales Exemplar.

Bei der Faktorenanalyse konnten sich Einwande dagegen, dass die gegebene for-

male Losung tatsachlich moglich ist, beispielsweise aus der genaueren Kenntnis

der Verteilungen ergeben.

Zur Verdeutlichung zwei Beispiele.

Hat man eine binare Variable mit Varianz .1, so ware es durchaus denkbar,


Losungen“ FA13 25

dass diese Variable die Summe von zwei unabhangigen Variablen der Varianz

.05 ware, jedenfalls spricht unter dem Gesichtspunkt der Rechenregeln mit Vari-

anzen nichts dagegen. Man kann sich jedoch klarmachen, dass eine Summe von

zwei unabhangigen Variablen der Varianz .05 nicht binar sein kann. Aus der

Tatsache, dass unter dem Gesichtspunkt der Varianzrechenregeln eine solche Zer-

legung denkbar ist, folgt also keineswegs, dass sie auch moglich ist – um dies zu

zeigen, musste man beispielsweise konstruktiv zwei derartige Variablen angeben,

was bedeutend mehr ist, als zu demonstrieren, dass eine Rechnung mit Varianzen

aufgeht.

Im zweiten Beispiel sei ein zugrundeliegender diskreter Wahrscheinlichkeitsraum

vorausgesetzt (einer sehr kleinen Population entsprechend), auf dem die beob-

achtbaren Variablen definiert seien. Selbst wenn man nun eine Matrix Λ findet,

die die Korrelationsmatrix perfekt reproduziert, heißt dies keineswegs, dass eine

solche Losung moglich ist. Auf einem Wahrscheinlichkeitsraum mit k Elemen-

ten konnen namlich nicht mehr als k − 1 Zufallsvariablen mit positiver Varianz

existieren, die paarweise unkorreliert sind. Es ist daher moglich, dass zwar eine

Matrix Λ die Korrelationen von gegebenen Variablen perfekt rekonstruiert, dass

jedoch dennoch das zugehorige Modell unmoglich ist, weil es auf dem gegebenen

Wahrscheinlichkeitsraum gar nicht so viele unkorrelierte Variablen geben kann,

wie es dann Faktoren und Fehler geben musste.

Die genannten Beispiele sollen nur verdeutlichen, dass es keinesfalls selbstver-

standlich ist, dass ein Modell, das mit den gegebenen Korrelationen kompatibel

ist, auch wirklich moglich ist. Praktisch reichen relativ schwache Zusatzannahmen

aus, um bei Vorliegen einer Losung konstruktiv weitere Variablen anzugeben, die

die Rolle der Faktoren und Fehler spielen konnten – womit dann gezeigt ist,

dass eine solche Faktorenstruktur auch wirklich existieren konnte, in dem Sinne,

dass die Annahme einer derartigen Struktur jedenfalls nicht zu Widerspruchen

fuhrt. Damit ist naturlich aber andererseits keineswegs gezeigt, dass eine solche

mogliche Losung auch real ist in dem Sinne, dass es beispielsweise die vermuteten

Faktoren wirklich gibt.

Interpretation der Faktoren. Neben der Frage, ob eine Losung numerisch

gut passt, ist auch die Frage wichtig, ob sie inhaltlich vertretbar ist. Hat man

also irgendwie (!) ein passendes Λ (bzw. ein Paar (Kf , Λ)) gefunden, so fragt

man sich, ob man dies auch inhaltlich fur eine mogliche Losung halt. Dabei geht

es darum, ob die gefundene Losung interpretierbar ist in dem Sinne, dass den

hypothetischen Faktoren plausible Bedeutungen beigelegt werden konnen.


Losungen“ FA13 26

Das einzige, was uber diese hypothetischen Faktoren bis zu diesem Zeitpunkt

bekannt ist, ist die Ladungsmatrix (bzw. Ladungsmatrix und Interkorrelations-

matrix der Faktoren). Die Suche nach Bedeutungen der Faktoren muss also jetzt

mit dem Ziel erfolgen, dass diese Bedeutungen gut zu Λ (bzw. Λ und Kf ) pas-

sen. Wo sich starke Zusammenhange zwischen einem Faktor und einer Variable

andeuten, soll also auch der Faktor mit der ihm verliehenen Bedeutung gut zu

der beobachtbaren Variable passen etc.

Ein solcher Interpretationsversuch ist vergleichsweise einfach im Modell UF, da

hier nur Λ als Hinweis auf die Zusammenhange zur Verfugung steht – Ladungen

und Korrelationen stimmen unter UF namlich uberein.

Schwieriger wird es bei KF, da man hier, was den Zusammenhang zwischen Va-

riablen und Faktoren angeht, zwei Matrizen zur Verfugung hat, das Faktormuster

Λ (Ladungen) und die Faktorstruktur ΛKf (Korrelationen). Will man namlich

die inhaltliche Bedeutung der Faktoren’erschließen‘, so konnen die beiden Ma-

trizen’gegensatzliche‘ Informationen liefern. So ist es durchaus moglich, dass die

Ladung einer Variablen auf einem Faktor positiv ist, die Korrelation derselben

Variablen mit diesem Faktor jedoch negativ (andere Moglichkeiten: die Ladung ist

deutlich positiv, die Korrelation fast Null, etc. etc., man vergleiche die bekannten

ahnlichen Phanomene bei der multiplen Regression).

Die Interpretation eines Faktors will man also aus seinem’Zusammenhang‘ mit

den Variablen erschließen – es fragt sich nur, ob man nun die Ladung oder die

Korrelation als Maß fur den Zusammenhang heranziehen soll. Wesentlich in die

Uberlegungen muss hier sicher die Frage eingehen, ob man eine substantielle oder

eine Regressions-Interpretation der Faktoren im Auge hat. Interpretiert man die

Grundgleichung der Faktorenanalyse substantiell, so entsprechen den Ladungen

auch tatsachliche’Einflusse‘, wahrend die Korrelationen nur von sekundarem

Interesse sind. Hier waren also die Ladungen wichtiger. Bei der Regressionsinter-

pretation hingegen sind die Ladungen technische Hilfsmittel zur Erzielung einer

optimalen Vorhersage, weshalb sie zunachst auch keinerlei inhaltliche Bedeutung

haben. Hier waren dann wohl die Korrelationen ernster zu nehmen.

Findet man zu einer denkbaren passenden Ladungsmatrix nun keine sinnvolle

Interpretation, so muss man nach einer anderen Ladungsmatrix weitersuchen,

die besser interpretierbar ist; Ziel ist es, eine zu finden, mit der man sowohl

bezuglich der Gute der Reproduktion der empirischen Korrelationsmatrix als

auch bezuglich der Interpretierbarkeit zufrieden ist. Dieses Weitersuchen kann

dadurch geschehen, dass man eine einmal gefundene Ladungsmatrix systematisch


Losungen“ FA13 27

bei unveranderter Losungsgute solange abandert, bis die rechte Interpretation sich

einstellt. Verfahren, die solche systematischen Abanderungen vornehmen, nennt

man Rotationen.

Durch die bisherige Erorterung mag der Eindruck entstanden sein, dass man im

Fall UF (der Fall KF ist analog) eine Faktorenanalyse auch so durchfuhren konnte,

dass man sich irgendwie (!) eine Matrix Λ einfallen lasst, die die Eigenschaft hat,

dass ΛΛ′ in der Diagonalen kleiner als 1 ist und außerhalb der Diagonalen etwa

mit R ubereinstimmt, und dann an der Matrix Λ noch etwas’dreht‘, damit man

sie einigermaßen interpretieren kann.

Nun gibt es mehrere Methoden fur Faktorenanalysen. Bei einigen davon ist die

gerade gegebene Beschreibung ziemlich zutreffend, wobei nur noch technische De-

tails nachzuliefern sind, was die Produktion des’Einfalls‘ und die Art der Drehung

betrifft. Bei anderen wird immerhin die Suche nach Λ von Verteilungsannahmen

geleitet und das Ergebnis in gewisser Weise statistisch abgesichert. Im vorlie-

genden Kapitel wird am Ende ein Beispiel fur diese zweite Art des Vorgehens

skizziert, in einem spateren Kapitel folgt eine Schilderung eines weit verbreiteten

Vorgehens der ersten Art.

Der Eindruck von Willkurlichkeit, der an dieser Stelle entstehen konnte, durfte

fur Anhanger des Modells der Faktorenanalyse recht ernuchternd sein. Da er an

die Gultigkeit des Modells glaubt, ohne jedoch die Ladungsmatrix zu kennen,

drangen sich ihm sogleich die folgenden Fragen auf: Fuhren die unterschiedlichen

Methoden eigentlich zur richtigen Zahl von Faktoren? Und stimmt, wenn dies

der Fall sein sollte, die Ladungsmatrix der Losung einigermaßen mit der’wahren‘

Ladungsmatrix uberein?

Um diese Probleme genauer behandeln zu konnen, sind weitere Uberlegungen auf

theoretischer Ebene notig, denen die folgenden Abschnitte gewidmet sind.

Losungen auf theoretischer Ebene. Um die Eigenheiten des empirischen Vor-

gehens einigermaßen wurdigen zu konnen, ist es unerlasslich, die Sachverhalte

auch auf theoretischer Ebene zu verstehen. Hier ist es wesentlich, dass nicht ir-

gendeine empirische Korrelationsmatrix im Mittelpunkt der Uberlegungen steht,

die sich in einer Untersuchung so, in einer anderen anders ergeben kann, sondern

vielmehr die wahre theoretische Korrelationsmatrix (die durch die empirische bei

hinreichend großen Stichproben einigermaßen zuverlassig geschatzt werden kann,

jedoch genau betrachtet immer unbekannt ist).


Losungen“ FA13 28

Auf der theoretischen Ebene soll nun die Frage nach Existenz und Eindeutigkeit

von Losungen unter dem Aspekt der Parametrisierung des Modells betrachtet

werden. Der Losungsbegriff ist jetzt etwas verschieden von dem vorangehenden,

der sich auf das empirische Vorgehen bezog. Der einzige Unterschied liegt dar-

in, dass jetzt die wahre Korrelationsmatrix Kx der beobachtbaren Variablen als

bekannt vorausgesetzt wird.

Obwohl der Unterschied also nur gering ist, sollen die Bedingungen der Klarheit

halber noch einmal formuliert werden:

Unter einer q-Faktorlosung zu der wahren Korrelationsmatrix Kx unter KF soll

ein Paar (Kf ,Λ) aus einer (q×q)-Matrix Kf und einer (p×q)-Matrix Λ verstanden

werden, das die folgenden Bedingungen erfullt:

(i) Kf ist positiv semidefinit mit Einsen in der Diagonale,

(ii) ΛKfΛ′ hat Diagonalelemente ≤ 1 und stimmt außerhalb der Diagonale mit

Kx uberein.

Unter einer q-Faktorlosung zu der wahren Korrelationsmatrix Kx unter UF soll

eine (p × q)-Matrix Λ verstanden werden, fur die ΛΛ′ Diagonalelemente ≤ 1

besitzt und außerhalb der Diagonale mit Kx ubereinstimmt.

Der Unterschied zu den Formulierungen fur die empirische Ebene besteht also

nur darin, dass die auf der Grundlage der Losung konstruierte Matrix ΛKfΛ′

(bzw. ΛΛ′ bei UF) – also die reduzierte Korrelationsmatrix, wenn die Losung

’richtig‘ ist – außerhalb der Diagonale vollstandig mit Kx ubereinstimmen soll,

was die unbefriedigende Formulierung’einigermaßen‘ in diesem Zusammenhang

beseitigt.

Es ist wichtig, sich klar zu machen, dass auch hier der Begriff der Losung nicht

automatisch bedeutet, dass die Matrizen Λ und Kf (bzw. Λ bei UF), die die

Losung ausmachen, mit den’wahren‘ Matrizen gleichen Namens ubereinstimmen

(diese Formulierung ist naturlich nur sinnvoll, wenn die Richtigkeit des Modells

vorausgesetzt wird).

Als aquivalent sollen zwei Losungen wieder dann bezeichnet werden, wenn die

zugehorigen Matrizen ΛKfΛ′ (bzw. ΛΛ′ bei UF) ubereinstimmen. Die Uberein-

stimmung soll jetzt also auch fur die Diagonale gelten, also fur die Zahlen, die

die Rolle der Kommunalitaten spielen.


Losungen“ FA13 29

Festzuhalten ist, dass es zunachst nur um die’Reproduktion‘ der Korrelations-

matrix durch ein Modell geht, nicht aber um Interpretierbarkeit.

Zunachst wird das Modell UF untersucht; es wird sich spater herausstellen, dass

dies erstaunlicherweise keine wesentliche Einschrankung ist. Die Frage nach der

Existenz einer Losung mit q Faktoren kann so formuliert werden:

Gibt es eine (p × q)-Matrix Λ mit der Eigenschaft, dass ΛΛ′ außerhalb

der Diagonale mit Kx ubereinstimmt und auf der Diagonale keine Elemente

großer als 1 besitzt?

Falls eine Losung existiert, so stellt sich als nachstes die Frage der Eindeutigkeit:

Gibt es nur eine solche Matrix Λ oder mehrere?

In den meisten Konstellationen ist es nun so, dass es fur manche Matrizen Kx

Losungen gibt und fur andere nicht. Diejenigen Korrelationsmatrizen, fur die es

eine Losung mit q Faktoren gibt, bezeichnet man auch als modellvertraglich (mit

dem q-Faktormodell); ist die theoretische Korrelationsmatrix Kx in diesem Sin-

ne modellvertraglich, so bedeutet das also, dass es denkbar ist, dass hinter den

empirischen Variablen q Faktoren stehen. Ist dagegen die Matrix Kx nicht mo-

dellvertraglich mit dem q-Faktormodell, so bedeutet das, dass es ausgeschlossen

ist, dass die beobachtbaren Variablen durch q Faktoren bestimmt sind.

Die Fragen nach Existenz und Eindeutigkeit von Losungen sollen nun in terminis

der Parameter des Modells genauer beleuchtet werden. Parameter sind hier die

Elemente der Matrix Λ, so dass die Anzahl der Parameter gleich pq ist. Die Be-

dingungen, die diese Parameter erfullen sollen, zerfallen in zwei Teilmengen: Au-

ßerhalb der Diagonale soll ΛΛ′ mit Kx ubereinstimmen und auf der Diagonalen

sollen die Elemente hochstens 1 sein. Die erste Teilmenge von Bedingungen be-

steht aus p (p−1)/2 Gleichungen, den Nichtdiagonalelementen der symmetrischen

Matrix Kx entsprechend. Die zweite Teilmenge besteht aus p Ungleichungen.

Im Beispiel von vier beobachtbaren Variablen, fur die eine Zweifaktorlosung ge-

sucht wird, sollen diese Gleichungen zur Illustration aufgeschrieben werden.

Die Elemente der (4×2)-Matrix Λ sollen dabei mit λij bezeichnet werden und die

der wahren (4×4)-Korrelationsmatrix Kx wie schon oben mit ρij. Die Rechnungen

wurden schon durchgefuhrt, und man erhalt die folgenden 4·3/2 = 6 Gleichungen


Losungen“ FA13 30

mit 8 Unbekannten fur die Korrelationen:

λ11λ21 + λ12λ22 = ρ12

λ11λ31 + λ12λ32 = ρ13

λ11λ41 + λ12λ42 = ρ14

λ21λ31 + λ22λ32 = ρ23

λ21λ41 + λ22λ42 = ρ24

λ31λ41 + λ32λ42 = ρ34

Dazu kommen 4 Ungleichungen fur die Diagonalelemente:

λ211 + λ212 ≤ 1

λ221 + λ222 ≤ 1

λ231 + λ232 ≤ 1

λ241 + λ242 ≤ 1

In diesen Gleichungen tauchen Produkte und Quadrate der Unbekannten λij auf,

so dass die Methoden zur Losung linearer Gleichungssysteme leider nicht ange-

wandt werden konnen.

Konkret sollen nun zwei Matrizen untersucht werden. Die erste Matrix ist

Kx =

1 0 0 .5

0 1 0 .5

0 0 1 .5

.5 .5 .5 1

.

Diese Matrix ist positiv semidefinit und damit tatsachlich eine mogliche Korrela-

tionsmatrix, wie sich spater mit einfachen Kriterien feststellen lassen wird. Diese

Matrix ist nicht vertraglich mit einem Modell mit zwei Faktoren, wie nun fur

Interessierte genauer gezeigt werden soll.

Die Gleichungen lauten hier, etwas anders angeordnet

λ11λ21 + λ12λ22 = 0

λ11λ31 + λ12λ32 = 0

λ21λ31 + λ22λ32 = 0

λ11λ41 + λ12λ42 = .5

λ21λ41 + λ22λ42 = .5

λ31λ41 + λ32λ42 = .5


Losungen“ FA13 31

Die ersten drei Gleichungen formuliert man um zu

λ11λ21 = −λ12λ22λ11λ31 = −λ12λ32λ21λ31 = −λ22λ32

Das Produkt dieser Gleichungen ergibt

λ211λ221λ

231 = −λ212λ222λ232 ,

was wegen der Nichtnegativitat von Quadratzahlen nur dann erfullt sein kann,

wenn beide Seiten gleich 0 sind. Dazu muss jeweils mindestens einer der Faktoren

0 sein.

Es soll nun die Teilmatrix λ11 λ12λ21 λ22λ31 λ32

der unbekannten Matrix Λ untersucht werden. Das Argument eben hat gezeigt,

dass in jeder der Spalten eine Unbekannte 0 sein muss.

Aus der vierten Gleichung λ11λ41 + λ12λ42 = .5 folgt, dass nicht sowohl λ11 als

auch λ12 gleich 0 sein konnen, und in derselben Weise folgert man aus den anderen

Gleichungen insgesamt, dass in jeder Zeile der Matrix hochstens eine Null stehen

kann.

Ware nun beispielsweise λ11 = 0, so musste wegen der ersten Gleichung λ11λ21 =

−λ12λ22 eine der beiden Zahlen λ12 oder λ22 Null sein; wegen des vorangegangenen

Arguments kann dies nicht λ12 sein, und es folgt λ22 = 0. Ganz analog folgt, dass

auch λ32 = 0 gilt; allgemein hat eine Null in einer Spalte der Teilmatrix zur Folge,

dass in der anderen Spalte zwei Nullen stehen mussen, und zwar in den beiden

’komplementaren‘ Zeilen.

Da in jeder Spalte der Teilmatrix mindestens eine Null steht, mussen in der

anderen Spalte mindestens zwei Nullen stehen; mit anderen Worten mussen in

jeder Spalte mindestens zwei Nullen stehen, was aber mit der Forderung nicht

vereinbar ist, dass in jeder Zeile hochstens eine Null stehen darf.

Die Gleichungen sind folglich nicht erfullbar, und die angegebene Matrix Kx ist

damit nicht mit dem Modell UF mit zwei Faktoren vertraglich.


Losungen“ FA13 32

Als zweites Beispiel sei

Kx =

1 0. −0.36 0.

0. 1 0. −0.36

−0.36 0. 1 0.

0. −0.36 0. 1

.

Diese Matrix ist mit dem Modell UF mit zwei Faktoren vertraglich, denn fur die

Matrizen

Λ1 =

0.6 0

0 0.6

−0.6 0

0 −0.6

, Λ2 =

0.54 0.72

−0.72 0.54

−0.24 −0.32

0.32 −0.24

und Λ3 =

0.9 0

0 0.9

−0.4 0

0 −0.4

gilt

Λ1Λ′1 =

0.36 0. −0.36 0.

0. 0.36 0. −0.36

−0.36 0. 0.36 0.

0. −0.36 0. 0.36

und

Λ2Λ′2 = Λ3Λ

′3 =

0.81 0. −0.36 0.

0. 0.81 0. −0.36

−0.36 0. 0.16 0.

0. −0.36 0. 0.16

.

Die zu den angegebenen Ladungsmatrizen gehorenden reduzierten Korrelations-

matrizen stimmen also außerhalb der Diagonale mit Kx uberein und besitzen auf

der Diagonale keine Zahlen, die großer als 1 sind. Man hat damit drei Losungen

gefunden, von denen die beiden letzten zudem aquivalent sind, da sie zu denselben

Kommunalitaten fur die Variablen fuhren.

Die Beispiele sollten deutlich gemacht haben, dass der Nachweis, dass eine Losung

nicht moglich ist, oder auch das Auffinden einer Losung (das hier gar nicht ver-

sucht wurde – es wurden ja nur mehrere Losungen zum Nachrechnen mitgeteilt)

kompliziert ist. Die Techniken zum Losen linearer Gleichungssysteme fuhren je-

denfalls hier nicht zum Erfolg.

Entscheidend ist die Frage, ob die Gleichungen erfullbar sind – die Ungleichungen

sollten dann in den meisten Fallen auch erfullt sein, was aber zum Schluss noch

gesondert nachzuprufen ist.


Losungen“ FA13 33

Hierzu eine Anmerkung: In ahnlichen (oft komplizierteren) Situationen versucht

man ublicherweise mit Hilfe von Computerprogrammen die Gleichungen zu losen,

wahrend man den Ungleichungen weniger Beachtung schenkt. Dies kann dazu

fuhren, dass sie zwar noch kontrolliert werden, dass aber bei Nichterfullung das

Programm nicht etwa abbricht, sondern nur eine (manchmal kryptische) Warnung

ausgibt. Die Unsinnigkeit der Losung (hier: negative Fehlervarianzen) wird dann

moglicherweise vom Anwender gar nicht erkannt.

Die Beispiele zeigen, dass es bei dem Zweifaktormodell UF fur 4 Variablen Kor-

relationsmatrizen gibt, zu denen keine Losung existiert, und auch solche, fur die

mehrere Losungen moglich sind.

Am zweiten Beispiel sieht man, dass auch von einer modellvertraglichen wah-

ren Korrelationsmatrix nicht unbedingt auf die zugehorige Ladungsmatrix ge-

schlossen werden kann, da es hier ja zumindest drei Losungen und daher keine

eindeutige gibt.

Saturiertheit und Identifizierbarkeit. Beobachtungen wie die an den beiden

Beispielen motivieren zwei wichtige Begriffe, die zur Beurteilung eines Modells

sehr nutzlich sind.

Ein Modell heißt saturiert, wenn jede (sinnvolle) Verteilung der beobachtbaren

Variablen mit dem Modell vertraglich ist.

Ein Modell heißt identifizierbar, wenn aus der wahren Verteilung der beobacht-

baren Variablen auf die Parameter geschlossen werden kann.

Man sagt dann alternativ auch, dass die Parameter identifizierbar sind.

In diesen Formulierungen taucht das Wort’Verteilung‘ auf. Meist lasst man da-

bei nicht beliebige Verteilungen zu (daher der Zusatz’sinnvoll‘), sondern macht,

damit die Modelle handhabbar bleiben, generelle Voraussetzungen uber diese Ver-

teilungen, so dass sie sich mit wenigen Kenngroßen charakterisieren lassen. Im

Falle der Faktorenanalyse konnte man beispielsweise fordern, dass die beobacht-

baren Variablen gemeinsam normalverteilt sein sollen.

Macht man diese Voraussetzung, so ist wegen der Standardisierungsvorausset-

zung die Verteilung der beobachtbaren Variablen durch deren Kovarianzmatrix

vollig bestimmt (dies wird sich spater aus der Definition der gemeinsamen Nor-

malverteilung ergeben). Die Verteilung ist offenbar dann sogar schon durch die

Elemente der Korrelationsmatrix bestimmt, die außerhalb der Diagonalen liegen,


Losungen“ FA13 34

also durch die Korrelationen der Variablen untereinander.

In diesem Fall ist ein Modell genau dann saturiert, wenn jede mogliche Kon-

stellation von Interkorrelationen der beobachtbaren Variablen mit dem Modell

vertraglich ist, und es ist dann identifizierbar, wenn aus diesen Interkorrelationen

eindeutig auf die Parameter geschlossen werden kann.

Fur das Zwei-Faktormodell UF bei vier beobachtbaren Variablen zeigen die oben

untersuchten Beispiele, dass dies Modell weder saturiert noch identifizierbar ist.

Als nachstes soll die Bedeutung von Saturiertheit und Identifizierbarkeit fur den

epistemologischen Status von Modellen und Parametern diskutiert werden.

Ein saturiertes Modell passt zu jeder moglichen Verteilung und kann daher nicht

mit der Empirie kollidieren. Ein radikaler Empiriker wurde solchen Modellen

daher womoglich jeden empirischen Gehalt absprechen und sie als sinnleer be-

zeichnen.

Beispielsweise kann man sich bei saturierten Modellen irgendwelche beobacht-

baren Variablen aus ganz unterschiedlichen Bereichen hernehmen (also solche,

bei denen keinerlei plausibler Grund fur die Annahme gemeinsamer Faktoren be-

steht) und wird immer eine vollstandig passende Losung finden. Umgekehrt heißt

das, dass die Tatsache, dass eine vollstandig passende Losung existiert, eben nicht

zur Uberzeugung veranlassen sollte, dass die Variablen etwas theoretisch Interes-

santes gemeinsam haben.

Auf jeden Fall gibt es keine Moglichkeit, ein solches Modell auf seine Richtigkeit

zu testen, da ja jede Situation mit dem Modell kompatibel ist.

Ist ein Modell hingegen nicht saturiert, so ruckt ein statistischer Test in den

Bereich des Moglichen; ein solcher Test wird darauf hinauslaufen, zu untersuchen,

ob die empirischen Daten einigermaßen zu einer modellvertraglichen Verteilung

passen oder nicht.

Im Beispiel der Faktorenanalyse wird man die empirische Korrelationsmatrix

daraufhin untersuchen, ob sie’hinreichend nahe‘ bei einer modellvertraglichen

Korrelationsmatrix liegt, oder ob die’nachstgelegenen‘ modellvertraglichen Kor-

relationsmatrizen zu weit’entfernt‘ sind.

Ein Modell mit nicht identifizierbaren Parametern hat den großen Nachteil, dass

selbst im Falle vollstandiger Information uber die wahre Verteilung nicht auf die


Losungen“ FA13 35

Parameter geschlossen werden kann. Hier bleibt also eine prinzipielle Unsicherheit

uber die Parameter bestehen, die nicht auf empirischem Wege zu beseitigen ist.

In einem solchen Fall konnte ein Empiriker konstatieren, dass ein Reden uber

nicht identifizierbare Parameter sinnlos ist, da das, woruber man zu reden meint,

gar nicht fassbar ist. Ein radikaler Empiriker wurde Außerungen uber solche

Parameter womoglich ganz verbieten.

Das Modell der Faktorenanalyse mit einer festen Anzahl q > 1 von Faktoren ist

ein Beispiel fur ein Modell, bei dem (mit gewissen uninteressanten Ausnahmen)

die Parameter nie identifizierbar sind. Versuche von Antworten auf die Frage

nach der wahren Ladungsmatrix bleiben also grundsatzlich im Spekulativen, da

es prinzipiell unmoglich ist, diese wahre Ladungsmatrix zu bestimmen.

Bei Modellen mit einem Faktor sind die Parameter ubrigens auch praktisch nie

identifizierbar, allerdings ist der Grad der Unbestimmtheit hier kleiner: In den

meisten Fallen lassen sich zwei Losungen finden, die sich nur um den Faktor −1

unterscheiden, was nur eine Art’Umpolung‘ des Faktors und damit harmlos ist.

Von einem radikalen Standpunkt aus waren wegen der fehlenden Identifizierbar-

keit die bisherigen Erorterungen der Faktorenanalyse weitgehend leeres Gerede.

Schließlich ist noch anzumerken, dass die Begriffe der Saturiertheit und der Iden-

tifizierbarkeit unabhangig voneinander sind in dem Sinne, dass aus der Saturiert-

heit weder die Identifizierbarkeit noch das Gegenteil davon folgt und umgekehrt.

Die Faktorenanalyse ist ein Beispiel, in dem Modelle sehr oft nicht saturiert sind

und außerdem praktisch nie identifizierbar. Dies bedeutet, dass man zwar oft

testen kann, ob ein Modell mit einer bestimmten Anzahl von Faktoren richtig ist,

dass man aber fast immer uber die Ladungsmatrix prinzipiell keine bestimmte

Aussage machen kann (eine gewisse Ausnahme stellt der Fall der Modelle mit

einem Faktor dar).

Die Aussage uber die Testbarkeit darf nicht missverstanden werden und soll des-

halb noch weiter erlautert werden. Ein solcher Test kann verschiedene Ziele haben.

Manchmal verfolgt man mit einem solchen Test die Absicht, zu zeigen, dass q

Faktoren nicht ausreichen. Man wunscht sich dann ein signifikantes Ergebnis,

aber nur, um ein Modell mit mehr als q Faktoren gegen eines mit q Faktoren

durchzusetzen. Die faktorielle Struktur generell wird dabei nicht in Frage gestellt.


Losungen“ FA13 36

In anderen Situationen mochte man die Richtigkeit des untersuchten Modells

belegen. Dabei taucht allerdings die bekannte Schwierigkeit auf, dass das gete-

stete Modell den Status der Nullhypothese bekommt, weshalb aus einem (dann

erwunschten) nicht signifikanten Ergebnis nicht ernsthaft auf die Richtigkeit des

Modells geschlossen werden kann.

Schließlich ist auf die Verteilungsannahmen hinzuweisen, die man bei solchen

Tests machen muss; hier wird meist gemeinsame Normalverteilung aller Variablen

vorausgesetzt. Dieser Schwachstelle muss man mit geeigneten Untersuchungen zur

Robustheit begegnen.

Parametrisierende Abbildung. Es sollen im Folgenden einige Uberlegungen

zu der Existenz und Eindeutigkeit von Losungen angestellt werden, bei denen

sich der Begriff der parametrisierenden Abbildung als nutzlich erweist. Die Dar-

stellung ist so gehalten, dass die Verallgemeinerung wesentlicher Zuge auf andere

Modelle als die Faktorenanalyse nicht schwer fallen sollte. Zunachst geht es um

den Aspekt des Vergleichs der Anzahl der Parameter und der Gleichungen.

Im Modell UF mit q Faktoren lautete die Grundgleichung

Kx = ΛΛ′ + De .

Fur die Elemente außerhalb der Diagonale von Kx ließ sich diese Gleichung aus-

schreiben in ein System von p (p − 1)/2 Gleichungen mit pq Unbekannten. Die

Frage nach der Existenz und Eindeutigkeit von Losungen ist daher gleichbedeu-

tend mit der Frage, ob dies System eine Losung besitzt und ob diese eindeutig ist

– die spater noch zu kontrollierenden Ungleichungen fur die Diagonalemente seien

dabei vorlaufig außer Acht gelassen. Die p (p− 1)/2 Gleichungen entsprechen da-

bei den Korrelationen der beobachtbaren Variablen untereinander, wahrend die

pq Unbekannten gerade die Parameter, also die Elemente der Ladungsmatrix Λ

sind.

Leider sind die Gleichungen keine linearen Gleichungen, es treten namlich auch

Produkte von Unbekannten (also der λij) auf. Das Problem der Existenz und Ein-

deutigkeit von Losungen ist daher hier komplizierter als im Fall linearer Gleichun-

gen. Gleichwohl konnen die Kenntnisse der Eigenschaften linearer Gleichungssy-

steme Hinweise fur den hier vorliegenden Fall liefern.

So ist zu vermuten, dass im Fall p(p − 1)/2 > pq, d.h. (p − 1)/2 > q (mehr

Gleichungen als Unbekannte) im Allgemeinen keine Losung zu existieren braucht.


Losungen“ FA13 37

Hier ist also damit zu rechnen, dass es Korrelationsmatrizen gibt, die mit einem q-

Faktor-Modell nicht vertraglich sind, dass mit anderen Worten derartige Modelle

nicht saturiert sind. Diese Vermutung trifft auch zu.

Eine oberflachliche Uberlegung konnte weiter zu der Vermutung fuhren, dass im

Fall (p − 1)/2 > q hochstens eine Losung existiert, im Fall (p − 1)/2 = q genau

eine, wahrend es im Fall (p − 1)/2 < q immer mehr als eine Losung gibt –

diese Falle sind namlich genau die mit mehr Gleichungen als Unbekannten, mit

genauso vielen Gleichungen wie Unbekannten und mit weniger Gleichungen als

Unbekannten.

Eine genauere Untersuchung lehrt jedoch, dass analoge Aussagen nicht einmal bei

linearen Gleichungssystemen gelten mussen. Im vorliegenden Fall nichtlinearer

Gleichungen trifft die genannte Vermutung im Allgemeinen erst recht nicht zu.

Zu einer weiteren Verdeutlichung der Verhaltnisse ist das Konzept der parame-

trisierenden Abbildung hilfreich, das nun entwickelt werden soll.

Man fasst dazu als erstes alle moglichen Korrelationsmatrizen zu einer Menge

zusammen, die hier der Tradition entsprechend Ω genannt werden soll (diese Be-

zeichnung hat jetzt nichts mit einem Wahrscheinlichkeitsraum zu tun). Nun sind

die (p × p)-Korrelationsmatrizen gekennzeichnet durch die p (p − 1)/2 Elemen-

te oberhalb der Diagonalen. Setzt man n = p (p − 1)/2, so kann man sich Ω

daher auch als eine Teilmenge des Rn vorstellen (man identifiziert einfach eine

Korrelationsmatrix mit dem Vektor ihrer in einer fest gewahlten Reihenfolge an-

geordneten Elemente oberhalb der Diagonale). Im Fall der Faktorenanalyse sieht

man (gegebenenfalls mit Zusatzannahmen) die Verteilung der beobachtbaren Va-

riablen als durch ihre Korrelationsmatrix ausreichend charakterisiert an, so dass

man etwas abstrakter sagen kann, dass Ω gerade aus den moglichen Verteilungen

der beobachtbaren Variablen besteht.

Als Parameter wurden die Elemente einer moglichen Ladungsmatrix bezeichnet.

Fasst man alle Parameter zu einem Vektor zusammen, so nennt man das Ergebnis

auch’Parametervektor‘. Im Modell UF mit q Faktoren besteht ein Parametervek-

tor aus den in Vektorform angeordneten Elementen einer moglichen Ladungsma-

trix; die Anzahl der Komponenten eines solchen Vektors ist pq, wofur auch kurz

m geschrieben werden soll. Die moglichen Ladungsmatrizen kann man sich also

auf diese Weise als m-Vektoren reprasentiert denken. Die Menge aller moglichen

Parametervektoren (hier also die Menge der moglichen Ladungsmatrizen) fasst

man dann ebenfalls zu einer Menge zusammen, die man meist Θ nennt. Beim


Losungen“ FA13 38

Modell UF ist Θ dann also eine Teilmenge des Rm.

Durch das Modell UF ist festgelegt, welche Korrelationsmatrix zu einer bestimm-

ten Ladungsmatrix Λ gehort, namlich die, bei der die Elemente außerhalb der Dia-

gonale mit denen von ΛΛ′ ubereinstimmen. Etwas abstrakter formuliert steckt in

diesem Modell eine Vorschrift, wie man aus einem Parametervektor die zugehorige

Verteilung der beobachtbaren Variablen ermitteln kann. Die entsprechende Abbil-

dung soll parametrisierende Abbildung heißen und F genannt werden. Die Abbil-

dung F ist – abstrakt gesprochen – diejenige Abbildung von Θ nach Ω, die jedem

Parametervektor die zugehorige Verteilung der untersuchten Variablen zuordnet.

Im Modell UF ordnet F konkret jeder moglichen Ladungsmatrix Λ ∈ Θ den Vek-

tor der Elemente oberhalb der Diagonale von ΛΛ′ zu, durch den ja die Korrela-

tionsmatrix der beobachtbaren Variablen eindeutig festgelegt ist, und der daher

mit der Korrelationsmatrix identifiziert werden kann.

Das Gesagte soll noch einmal an dem konkreten Beispiel von 4 Variablen und 2

Faktoren illustriert werden. Hier wird die Verteilung der beobachtbaren Variablen

durch deren (4 × 4)-Korrelationsmatrix charakterisiert, die jedoch schon durch

die 6 Elemente oberhalb der Diagonale vollstandig gegeben ist. Daher kann Ω hier

als Teilmenge des R6 aufgefasst werden. Der Parametervektor besteht gerade aus

den 4 · 2 = 8 in Vektorform angeordneten Elementen der Ladungsmatrix, so

dass Θ hier eine Teilmenge des R8 ist. Die parametrisierende Abbildung F , die

jeder Ladungsmatrix die zugehorige Korrelationsmatrix zuordnet, wird schließlich

durch 6 Gleichungen beschrieben, die oben schon ausformuliert wurden; es ergibt

sich dann bei geeigneter Anordnung

F (

λ11λ21λ31λ41λ12λ22λ32λ42

) =

λ11λ21 + λ12λ22λ11λ31 + λ12λ32λ11λ41 + λ12λ42λ21λ31 + λ22λ32λ21λ41 + λ22λ42λ31λ41 + λ32λ42

.

Diejenigen Elemente von Ω, die von der Form F (Λ) sind fur ein Λ ∈ Θ, sind

offenbar genau die mit q-Faktor-Modell vertraglichen Korrelationsmatrizen. Fasst

man diese Elemente zu einer Menge zusammen, so erhalt man die Menge der

modellvertraglichen Korrelationsmatrizen, die auch ωq heißen soll (genauer ist


Losungen“ FA13 39

dies die Menge der mit dem q-Faktor-Modell vertraglichen Korrelationsmatrizen).

Allgemein gesprochen ist ωq also das Bild von Θ unter der Abbildung F , kurz:

ωq = F (Θ). Es sei dabei daran erinnert, dass ja allgemein fur jede Teilmenge A

des Definitionsbereiches einer Abbildung f das Bild von A unter f gerade die

Menge f(A) = f(a) | a ∈ A ist.

Mit diesen Bezeichnungen kann man sich die Verhaltnisse, wie sie typischerweise

in der Faktorenanalyse auftreten, mit Illustrationen der folgenden Art veran-

schaulichen:

..................................................

........................

.....................

................................................................................................................................................

.............................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................................................... ..........................

.............................

.......................

....................

....................

..........................................................................................................................

.......................................

.......................................................................................................................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................

................................

...................................

..........................................

.........................................................

........................................................................................................................................................................................................................................................................................

.......................

F

Θ

Ω

ωq

Diese Illustration, die lediglich als Schema zu verstehen ist, soll nun schrittweise

erlautert werden. Auf der linken Seite ist zunachst der Parameterraum Θ ⊂ Rm

veranschaulicht, also die Menge der Ladungsmatrizen fur q Faktoren, auf der

rechten Seite ist die Menge Ω ⊂ Rn der Korrelationsmatrizen der beobachtbaren

Variablen. Die Abbildung F ordnet jeder Ladungsmatrix die zugehorige Korrela-

tionsmatrix zu.

Die Menge ωq der modellvertraglichen Korrelationsmatrizen ist in der hypothe-

tischen Situation der Illustration eine echte Teilmenge von Ω. Alle Elemente von

Θ werden auf Punkte von ωq abgebildet (ωq besteht genau aus diesen Bildern).

Die Menge ωq hat hier eine niedrigere’Dimension‘ als Ω, was typisch fur viele

faktorenanalytischen Modelle ist. Die Tatsache, dass ωq eine echte Teilmenge von

Ω ist, bedeutet gerade, dass das betrachtete Modell nicht saturiert ist: Fur alle

Korrelationsmatrizen außerhalb ωq lasst sich keine Ladungsmatrix finden, die zu

diesen Matrizen fuhrt.

In der betrachteten hypothetischen Situation moge es nun so sein, dass in der

Regel modellvertragliche Korrelationsmatrizen nicht nur durch eine Ladungsma-

trix erzeugt werden, sondern durch mehrere. Dies ist in der folgenden Erganzung

der ersten Illustration angedeutet:


Losungen“ FA13 40

........................................................

.........................

........................

.....................

....................................................................................................................................................................

..................................................................................................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................................................................

.............................................

...........................

.......................

.....................

....................

....................

.......................................................................................................................................

.......................................

.............................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

....................................................................................................................................................................................................................................

....

................................

...................................

......................................

............................................

...........................................................

......................................................................................................................................................................................................................................................................................................................

.........................................

.............................................

.....................................................

....................................................................

..................................................................................................................................................

..................................................................................................................................................

.................................

.......................

............................... .......................

F

Θ

Ω

ωq•

Der hervorgehobene Punkt in ωq ist eine mogliche feste Korrelationsmatrix und

die Linie in Θ steht fur alle Ladungsmatrizen, die durch F auf diesen Punkt

abgebildet werden. Es fuhren also hier viele Ladungsmatrizen zu der gegebenen

Korrelationsmatrix, namlich alle, aus denen sich die Linie zusammensetzt. Ein

Ruckschluss von der Korrelationsmatrix auf die’wahre‘ Ladungsmatrix ist daher

unmoglich. Das Modell der Illustration ist also nicht identifizierbar.

Als Folge der fehlenden Identifizierbarkeit ist hier die’Dimension‘ von ωq kleiner

als die von Θ; der Verlust an Dimensionen entspricht in gewisser Weise dem Grad

an Uneindeutigkeit, wenn zu einer gegebenen Korrelationsmatrix ein passendes

Λ gesucht werden soll (man kann dies noch genauer fassen: auch der Menge der

Λ-Matrizen, die zu einer festen Korrelationsmatrix fuhren, kann man meist eine

’Dimension‘ zuordnen; diese

’Dimension‘ addiert sich dann mit der von ωq zu der

von Θ).

Die beiden besonderen Eigenschaften der illustrierten hypothetischen Situation

sind allgemein fur viele faktorenanalytische Modelle gultig: Die Menge der mo-

dellvertraglichen Korrelationsmatrizen ist eine Teilmenge ωq ⊂ Ω von’niedrigerer

Dimension‘, und die einzelnen modellvertraglichen Korrelationsmatrizen passen

zu jeweils mehr als einer Ladungsmatrix.

Erganzend ist noch auf die Merkmale der Illustrationen hinzuweisen, die nicht

wortlich genommen werden durfen: Die Dimensionen von Θ und Ω werden im

Allgemeinen nicht ubereinstimmen und sind insbesondere fast nie gleich 2. Auch

die’Dimension‘ von ωq ist fast immer großer als 1.

Der mehrfach gebrauchte Ausdruck’Dimension‘ kann hier leider nicht genauer

erlautert werden; es moge der Hinweis genugen, dass die Dimension einer ge-

krummten Linie gleich 1 ist und die einer verformten (’verbeulten‘) Flache gleich

2 etc.. Die prazise Definition findet man in der elementaren Differentialtopologie.


Losungen“ FA13 41

Bekanntlich heißt eine Abbildung f : X → Y surjektiv, wenn jedes y ∈ Y durch

die Abbildung’erfasst‘ wird, wenn also zu jedem solchen y ein x ∈ X existiert mit

f(x) = y. Ferner heißt eine Abbildung f : X → Y injektiv, wenn verschiedene

Punkte aus X auf verschiedene Werte abgebildet werden, wenn also aus x1 6= x2folgt, dass auch f(x1) 6= f(x2) gilt.

Die oben illustrierte Abbildung F ist beispielsweise weder injektiv (alle Punkte

auf der Linie in Θ werden auf den gleichen Punkt abgebildet) noch surjektiv (nur

die Punkte in ωq sind Funktionswerte von F ).

In dieser Terminologie gilt, dass ein Modell genau dann saturiert ist, wenn die

parametrisierende Abbildung F surjektiv ist und genau dann identifizierbar, wenn

F injektiv ist.

Im Falle fehlender Identifizierbarkeit kann die wahre Korrelationsmatrix Kx von

mehr als nur von einer Ladungsmatrix herstammen. Hier kann man eine noch

feinere Unterscheidung einfuhren und fragen, ob die Losungen alle aquivalent

sind oder nicht, ob also die moglichen Ladungsmatrizen alle zu denselben Kom-

munalitaten fuhren oder nicht. Im ersten Fall konnte man davon sprechen, dass

wenigstens die Kommunalitaten’identifizierbar‘ sind. Das Beispiel von 4 Varia-

blen und 2 Faktoren ist eines, in dem dies nicht der Fall ist, wie sich oben schon

gezeigt hat.

Suchen von Losungen. Zur Ermittlung von empirischen Losungen eines fak-

torenanalytischen Problems gibt es mehrere Verfahren. Das Konzept der para-

metrisierenden Abbildung kann dabei helfen, die Vorgehensweisen grob zu ver-

anschaulichen.

Zunachst soll das Problem der Bestimmung der Anzahl der Faktoren ausgeklam-

mert werden. Es soll also bereits feststehen, dass nur Losungen mit q Faktoren

in Frage kommen, und die Aufgabe besteht jetzt darin, eine passende Ladungs-

matrix zu ermitteln.

Tragt man in die Illustration der parametrisierenden Abbildung noch die empi-

rische Korrelationsmatrix R ein, so erhalt eine Darstellung der folgenden Art:


Losungen“ FA13 42

........................................................

.........................

........................

.....................

....................................................................................................................................................................

..................................................................................................................................................................

.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ............................

...............................

.........................

......................

....................

....................

.................................................................................................................................................

.......................................

.............................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

....................................................................................................................................................................................................................................

....

................................

...................................

......................................

............................................

...........................................................

..................................................................................................................................................................................................................................................................................................................................................

............................

F

Θ

Ω

ωq

•R

Beim Finden einer Losung geht es nun darum, eine der empirischen Korrela-

tionsmatrix R moglichst ahnliche modellvertragliche Korrelationsmatrix K zu

finden, und dann unter den moglicherweise vielen zu K passenden Λ-Matrizen

eine auszuwahlen, die gut interpretierbar ist.

Da die modellvertraglichen Korrelationsmatrizen gerade ωq ausmachen, muss K

ein Element von ωq sein. Die anzustrebende Ahnlichkeit zwischen R und K sollte

sich geometrisch in einem moglichst kleinen Abstand ausdrucken. Geometrisch

betrachtet sollte K damit der Punkt von ωq sein, der zu R den kleinsten Abstand

hat.

Das Losungsverfahren kann damit geometrisch durch die nachste Abbildung ver-

anschaulicht werden, in der K als der am nachsten bei R gelegene Punkt von ωqbestimmt ist, und in der in Θ die Menge all der Ladungsmatrizen eingezeichnet

ist, die zu diesem K fuhren. Von diesen Λ-Matrizen wurde dann auch schon nach

(hier nicht zu diskutierenden) Kriterien der Interpretierbarkeit eine ausgewahlt,

die dann die endgultige Losung Λ darstellt.

........................................................

.........................

........................

.....................

....................................................................................................................................................................

..................................................................................................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................................................................

.............................................

...........................

.......................

.....................

....................

....................

.......................................................................................................................................

.......................................

.............................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

....................................................................................................................................................................................................................................

....

................................

...................................

......................................

............................................

...........................................................

......................................................................................................................................................................................................................................................................................................................

.........................................

.............................................

.....................................................

....................................................................

..................................................................................................................................................

..................................................................................................................................................

.................................

.......................

............................... .......................

F

Θ

Ω

ωq•

•R

K•Λ


Losungen“ FA13 43

Die gerade gegebene Beschreibung ist allerdings nur eine recht grobe. Unklar ist

dabei vor allem das Konzept des Abstands. Bei einigen Verfahren lasst sich ein

Abstandsbegriff so definieren, dass die Beschreibung sehr gut passt, wobei aller-

dings dieser Abstandsbegriff nicht unbedingt der von der Geometrie nahegelegte

ist. Bei anderen Verfahren ist die gegebene Beschreibung lediglich ein vages Bild

zu einer oberflachlichen Orientierung, wobei das Wort Abstand nur metaphorisch

zu verstehen ist.

Es bleibt noch das Problem, in einem allerersten Schritt die Anzahl q der Faktoren

zu bestimmen.

Betrachtet man Modelle mit unterschiedlichen Anzahlen q von Faktoren, so ist

klar, dass fur die zugehorigen Mengen ωq der modellvertraglichen Korrelations-

matrizen die Beziehung ω1 ⊆ ω2 ⊆ . . . ⊆ ωp ⊆ Ω gilt, wobei zumindest die ersten

Relationen echte Enthaltenseinsrelationen sein sollten (der Genauigkeit halber ist

anzumerken, dass die Parameterraume fur die Modelle mit unterschiedlichen Fak-

torzahlen naturlich verschieden sind, ebenso die parametrisierenden Abbildungen

– man wurde sie wohl als Θq und Fq indizieren).

Andeutungsweise konnte die Situation etwa so aussehen:

.............................................

...........................

.......................

.....................

....................

....................

.......................................................................................................................................

.......................................

.............................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

....................................................................................................................................................................................................................................

....

..........................................................

.................................

.........................

.............................................................................

...............................

..................................

........................................................................................................................................................................

................................................................................................................................................................................................................................................................................................................................................................................................................................................................

•

Ω

ω1

ω2

ω3

Die Illustration ist wieder nur metaphorisch gemeint, daher mussen die zu ver-

anschaulichenden Tatsachen nun genauer benannt werden.

In einem Ω, das die Korrelationsmatrizen einer gewissen Zahl von beobachtba-

ren Variablen reprasentiert, sind die Mengen ω1, ω2 und ω3 der mit den Model-

len mit einem, zwei und drei Faktoren vertraglichen Korrelationsmatrizen ein-

gezeichnet. Wesentlich ist, dass diese Mengen ineinandergeschachtelt sind, dass


Losungen“ FA13 44

also ω1 ⊆ ω2 ⊆ ω3 ⊆ Ω gilt. Mit Absicht haben auch ω1, ω2 und ω3 unter-

schiedliche’Dimensionen‘, was in vielen Fallen eine zutreffende Beschreibung der

Verhaltnisse ist.

Nun sind jedoch auch die Eigenschaften der Illustration zu nennen, die irrefuhrend

sind. Die Dimension von Ω ist zunachst meist deutlich großer als 2. Die’Dimensio-

nen‘ aufeinanderfolgender ωq unterscheiden sich meist um mehr als 1. Die Menge

ω1 hat nie die’Dimension‘ 0. Es kann durchaus sein, dass fur große Werte von q

die Mengen ωq mit Ω ubereinstimmen.

Als konkreteres Beispiel soll nun die oben schon behandelte Situation mit 4 Va-

riablen in ahnlicher Weise illustriert werden:

.........................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................................................

.............................

...................................................................................................................................................................................................................................................................................

.......................

...........................

...............................................................................................................................................................

........................................

........................................................................................................................................................................................................................................................................................................................................................................................................ ......................................................................................................................................................................................................................................................................................................

............................................................

..........................................

....................................

...................................

................................................................................................

...................

......................................

............................................................................................................................................................................................................................................................................................................................................................................................. .............................................................................................................................................

.......................................................................................................................

ω3 = ω4 = Ω

ω1

ω2

Auch diese Illustration ist naturlich nicht wortlich zu nehmen, daher soll wieder

erlautert werden, was an ihr wesentlich ist (leider konnen die Eigenschaften nur

referiert werden, eine Begrundung liegt außerhalb des hier Moglichen).

Die Mengen ω1, ω2, ω3 und ω4 der mit einem Ein-, Zwei-, Drei- und Vier-Faktor-

Modell (UF) vertraglichen Korrelationsmatrizen sind ineinander geschachtelt, es

gilt also ω1 ⊆ ω2 ⊆ ω3 ⊆ ω4. Die’Dimension‘ von ω1 ist kleiner als die von

Ω, wahrend die Dimension von ω2 schon gleich der von Ω ist. Allerdings ist das

Zweifaktormodell noch nicht saturiert. Dies trifft hingegen auf die Modelle mit 3

und 4 Faktoren zu, weshalb ω3 = ω4 = Ω gilt.

Die’Dimension‘ von ω1 ist ubrigens 4, wahrend die anderen Dimensionen 6 sind.

Das Modell mit 2 Faktoren ist unter dem Aspekt interessant, dass es nicht satu-

riert ist, obwohl die’Dimension‘ von ω2 bereits 6 und damit maximal ist.

Nach dieser Veranschaulichung der Verhaltnisse der ωq untereinander kann jetzt

der noch fehlende erste Schritt bei der Faktorenanalyse beschrieben werden, bei

dem es um die Anzahl der Faktoren geht.


Losungen“ FA13 45

Wird in der (in der beschriebenen Weise metaphorisch zu verstehenden) ersten

Illustration noch die empirische Korrelationsmatrix R eingezeichnet, so konnte

sich etwa folgendes Bild ergeben:

.............................................

...........................

.......................

.....................

....................

....................

.......................................................................................................................................

.......................................

.............................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

....................................................................................................................................................................................................................................

....

..........................................................

.................................

.........................

.............................................................................

...............................

..................................

........................................................................................................................................................................

................................................................................................................................................................................................................................................................................................................................................................................................................................................................

•

Ω

ω1

ω2

ω3

•R

Die Frage sei nun die, ob ein Modell mit q = 1, 2 oder 3 Faktoren als angemessen

auszuwahlen ist. Wahlt man die Korrelationsmatrizen zu moglichen Losungen

mit einem, zwei oder drei Faktoren jeweils wieder als die Elemente der ωq, die

von R den jeweils geringsten Abstand haben, und deutet man diese Abstande

als Maße dafur, wie gut die Modelle passen, so ist klar, dass die Anpassung mit

wachsendem q jedenfalls nicht schlechter werden kann und meistens echt besser

wird. Unter dem Aspekt der Anpassung wird man also eine moglichst hohe Zahl

von Faktoren wahlen.

Auf der anderen Seite sind Modelle mit vielen Faktoren fur die Interpretation und

womoglich fur die angestrebte Sparsamkeit der inhaltlichen Theorie unangenehm.

Unter diesem Aspekt wird man also eher Modelle mit wenig Faktoren bevorzugen.

Zwischen den beiden sich widersprechenden Forderungen nach moglichst guter

Anpassung einerseits und moglichst wenig Faktoren andererseits muss man nun

einen Kompromiss schließen.

Waren die Abstande in der Illustration ernst zu nehmen, so wurden sie vielleicht

darauf hindeuten, dass ein Modell mit zwei Faktoren nur unwesentlich besser

passt als eines mit nur einem Faktor, wahrend im Dreifaktormodell die Anpassung

deutlich besser ist. Man wurde also wohl nur das Modell mit einem und mit

drei Faktoren in die Kandidaten fur die Endauswahl aufnehmen. Moglicherweise

wurde die letzte Entscheidung zwischen diesen Modellen schließlich auf Grund

ganz anderer Kriterien fallen.

Nach den bisherigen Uberlegungen kann das Vorgehen fur den Fall einer gegebe-


Losungen“ FA13 46

nen empirischen Korrelationsmatrix R zusammenfassend im Prinzip so beschrie-

ben werden: Zuerst wird die Zahl der Faktoren festgelegt, dann wird zu dieser

Zahl von Faktoren eine moglichst gut passende modellvertragliche Korrelations-

matrix ermittelt, zu der schließlich als letztes eine Ladungsmatrix Λ ausgewahlt

wird, die dem Interpretationsbedurfnis moglichst weit entgegenkommt.

Praktisch sind die drei in dieser schematischen Darstellung deutlich getrennten

Schritte allerdings oft nicht so klar voneinander zu scheiden, was sich in den

genaueren Ausfuhrungen ja auch schon angedeutet hat.

Die einzelnen Verfahren der Faktorenanalyse unterscheiden sich vor allem darin,

wie die einzelnen Schritte und ihre Kombination genau aussehen.

Das Modell KF. Zum Abschluss folgt noch eine Bemerkung zu den theoreti-

schen Losungen im Modell KF im Unterschied zu UF.

Hier besteht eine Losung ja aus einer moglichen Ladungmatrix Λ und einer

moglichen Interkorrelationsmatrix Kf der Faktoren. Fur die Losung muss gelten,

dass ΛKfΛ′ außerhalb der Diagonale mit Kx ubereinstimmt und auf der Diago-

nale Werte ≤ 1 hat. Im Vergleich zu UF kommen mit den Elementen der Matrix

Kf weitere Parameter hinzu – die Anzahl der Parameter des q-Faktormodells ist

also großer als im Fall UF.

Die großere Komplexitat soll am schon oben betrachteten Fall von 4 beobacht-

baren Variablen und 2 Faktoren illustriert werden. Hier kommt als weiterer Pa-

rameter die Korrelation der beiden Faktoren hinzu, die ρ′ heißen soll.

Die Gleichungen fur die Elemente außerhalb der Diagonalen sind dann

λ11λ21 + λ12λ22 + ρ′λ11λ22 + ρ′λ12λ21 = ρ12

λ11λ31 + λ12λ32 + ρ′λ11λ32 + ρ′λ12λ31 = ρ13

λ11λ41 + λ12λ42 + ρ′λ11λ42 + ρ′λ12λ41 = ρ14

λ21λ31 + λ22λ32 + ρ′λ21λ32 + ρ′λ22λ31 = ρ23

λ21λ41 + λ22λ42 + ρ′λ21λ42 + ρ′λ22λ41 = ρ24

λ31λ41 + λ32λ42 + ρ′λ31λ42 + ρ′λ32λ41 = ρ34


Losungen“ FA13 47

und die 4 Ungleichungen fur die Diagonalelemente

λ211 + λ212 + 2ρ′λ11λ12 ≤ 1

λ221 + λ222 + 2ρ′λ21λ22 ≤ 1

λ231 + λ232 + 2ρ′λ31λ32 ≤ 1

λ241 + λ242 + 2ρ′λ41λ42 ≤ 1 .

Zum Vergleich folgen noch einmal die entsprechenden Gleichungen im Modell UF

mit den Ungleichungen fur die Diagonalelemente:

λ11λ21 + λ12λ22 = ρ12

λ11λ31 + λ12λ32 = ρ13

λ11λ41 + λ12λ42 = ρ14

λ21λ31 + λ22λ32 = ρ23

λ21λ41 + λ22λ42 = ρ24

λ31λ41 + λ32λ42 = ρ34

λ211 + λ212 ≤ 1

λ221 + λ222 ≤ 1

λ231 + λ232 ≤ 1

λ241 + λ242 ≤ 1

Offenbar sind diese Gleichungen tatsachlich einfacher als die im Modell KF.

Da das allgemeinere q-Faktor-Modell KF eine großere Zahl von Parametern be-

sitzt, ist zu vermuten, dass auch die Menge der modellvertraglichen Korrelati-

onsmatrizen großer ist als fur das q-Faktor-Modell UF. Die Chancen, bei einer

gegebenen empirischen Korrelationsmatrix eine passende KF-Losung mit q Fakto-

ren zu finden, sollten also großer sein, als wenn man Unkorreliertheit der Faktoren

fordert.

Wie sich herausstellen wird, trifft diese Vermutung jedoch uberraschenderweise

nicht zu: Die Korrelationsmatrizen, die mit dem Modell KF mit q Faktoren ver-

traglich sind, sind genau dieselben wie die, die mit dem Modell UF mit q Faktoren

vertraglich sind.

Es ist klar, dass daher die Situation, was die Identifizierbarkeit angeht, im Modell

KF noch schlechter ist als schon im Modell UF. Hingegen unterscheiden sich die

Modelle bei einer festen Zahl von Faktoren hinsichtlich der Saturiertheit nicht.


Losungen“ FA13 48

Eine weitere Konsequenz daraus, dass die modellvertraglichen Korrelationsma-

trizen in den beiden Modellen die gleichen sind, ist die, dass man sich bei vielen

weiteren Untersuchungen auf den einfachereren Fall UF beschranken kann.

Maximum-Likelihood-Faktorenanalyse. Es soll nun skizzenhaft ein Verfah-

ren der Faktorenanalyse vorgestellt werden, das sich gut in das eben entworfene

Bild einfugt und zudem den Vorzug besitzt, in gewisser Weise statistisch prufbar

zu sein. Bei diesem Modell ist die Zusatzvoraussetzung zu machen, dass die Fak-

toren und Fehler gemeinsam normalverteilt sind.

Die Schilderung ist sehr oberflachlich und enthalt der Anschaulichkeit halber eini-

ge Ungenauigkeiten, auf die jedoch der interessierte Leser am Ende des Abschnitts

aufmerksam gemacht wird.

Zunachst sei wieder vorausgesetzt, dass man sich schon fur eine Losung mit q

Faktoren entschieden hat. Es geht dann darum, diejenige modellvertragliche Kor-

relationsmatrix K ∈ ωq zu ermitteln, die am besten zu der empirischen Matrix

R passt.

Zu diesem Zweck wird ein spezielles Schatzverfahren benutzt, namlich die so-

genannte Maximum-Likelihood-Schatzung, bei der – grob gesprochen – unter den

moglichen Matrizen K ∈ ωq diejenige ausgewahlt wird, die die gegeben empirische

Matrix R am wahrscheinlichsten macht.

Genauer wird nicht die Wahrscheinlichkeit maximiert, sondern die Wahrschein-

lichkeitsdichtefunktion. Als praktische Sprechweise sei dafur die eingefuhrt, dass

die Likelihood maximiert wird.

Man kann eine ahnliche ML-Schatzung auch fur den Fall durchfuhren, dass man

das faktorenanalytische Modell nicht voraussetzt, sondern theoretisch alle Korre-

lationsmatrizen fur moglich halt; das Ergebnis dieser Schatzung ist (nicht uber-

raschend) die Matrix R selbst. Die Abkurzung ML steht dabei naturlich fur

’Maximum Likelihood‘.

Der große Vorteil der ML-Faktorenanalyse besteht darin, dass jetzt ein Modell-

test durchgefuhrt werden kann, bei dem die Gultigkeit des faktorenanalytischen

Modells die Nullhypothese ist, wahrend die Alternativhypothese keine solchen

einschrankenden Voraussetzungen macht.

Anschaulich gesprochen vergleicht dieser Test die Likelihood der empirisch er-

hobenen Korrelationsmatrix bei Modellgultigkeit mit der, die diese Korrelati-


Losungen“ FA13 49

onsmatrix besitzt, wenn keine Voraussetzungen gemacht werden. Ist die Wahr-

scheinlichkeit von R im Fall der Gultigkeit des Modells (H0) deutlich kleiner als

im allgemeinen Fall ohne einschrankende Voraussetzungen (H1), so spricht das

gegen die Nullhypothese, dass das q-Faktor-Modell richtig ist.

Etwas technischer formuliert werden diese Likelihoods fur jeweils den Fall be-

stimmt, dass die durch die vorangehende ML-Schatzung bestimmte Korrelations-

matrix die wahre Korrelationsmatrix ist; es handelt sich dann genauer um die

maximalen Likelihoods von R unter H0 und H1. Von diesen beiden Likelihoods

wird dann der Quotient gebildet, der meist mit λ bezeichnet wird. Kleine Werte

dieses Quotienten sprechen gegen die Nullhypothese.

Naheliegenderweise heißen derartige Tests auch Likelihood-Quotienten-Tests.

Zum Testen wird haufig nicht der Quotient selber benutzt, sondern (aquivalent)

das (−2)-fache seines naturlichen Logarithmus, also −2 lnλ. Da die entsprechen-

de Transformation streng monoton fallend ist, sprechen nun große Werte gegen

die Nullhypothese des q-Faktor-Modells.

Die Teststatistik −2 lnλ wird genau dann Null, wenn die Matrix R bereits selbst

modellvertraglich ist, also in ωq liegt, und da sie um so großer wird, je schlechter

R vergleichsweise zum q-Faktor-Modell passt, kann −2 lnλ nun in der Tat als

eine Art Abstand interpretiert werden, den R zu ωq hat; allerdings ist dieses

Abstandsmaß eher statistisch als geometrisch zu verstehen.

Die logarithmische Transformation wird deshalb durchgefuhrt, weil fur −2 lnλ

die Verteilung bei Gultigkeit von H0 naherungsweise bekannt ist; asymptotisch

(fur eine wachsende Zahl von Versuchspersonen) handelt es sich hier namlich um

eine χ2-Verteilung.

Die Anzahl der Freiheitsgrade dieser χ2-Verteilung ist gerade die Differenz zwi-

schen den’Dimensionen‘ von Ω und ωq.

Oben war davon die Rede, dass die Schatzung eine Schatzung der wahren Korre-

lationsmatrix ist. Praktisch ist aber diese Korrelationsmatrix weniger interessant

als die Ladungsmatrix. Die Suche nach einer Losung findet dann auch im Parame-

terraum Θ statt, so dass die Schatzung der wahren Korrelationsmatrix eigentlich

eine Schatzung der Ladungsmatrix ist, die zu dieser Korrelationsmatrix fuhrt.

Merkwurdig ist hierbei, dass eine Ladungsmatrix geschatzt wird, die gar nicht

identifizierbar ist, ein Problem, das aber (technisch) dadurch beherrscht werden

kann, dass man unter den vielen gleichwertigen moglichen Losungen jeweils eine


Losungen“ FA13 50

Standardlosung auszeichnet. Inhaltlich ist das Problem dadurch naturlich nicht

gelost.

Nach dieser oberflachlichen Schilderung soll wenigstens auf ihre grobsten Unge-

nauigkeiten hingewiesen werden.

Eigentlich musste man nach der allgemeinen Theorie der Likelihood-Quotienten-

tests die Untersuchung auf der Ebene von Kovarianzmatrizen durchfuhren und

nicht auf der von Korrelationsmatrizen. So ist die Likelihood in terminis von

Kovarianzmatrizen und nicht von Korrelationsmatrizen definiert.

Dennoch sind die besonderen Gegebenheiten bei der Faktorenanalyse so, dass

man weitgehend mit Korrelationsmatrizen arbeiten kann. Mit teilweise nicht un-

komplizierten Argumenten kann man zeigen, dass sogar die Aussagen uber den

Zusammenhang von’Dimensionen‘ und Freiheitsgraden auf der Ebene der Kor-

relationsmatrizen korrekt sind, was allerdings an speziellen Eigenschaften fakto-

renanalytischer Modelle liegt.

Die Aussagen uber die Tests, speziell uber die asymptotische Verteilung der Test-

statistik beruht auf der Annahme gewisser’Regularitatsvoraussetzungen‘, auf die

hier nicht genauer eingegangen werden kann, die jedoch’in der Regel‘ erfullt sind

(auch dieser vage Ausdruck kann leider nicht erlautert werden).

Exploratorische und Konfirmatorische Faktorenanalyse. Die gerade be-

schriebene ML-Faktorenanalyse ist in gewisser Weise ein Grenzfall zwischen den

exploratorischen Faktorenanalysen, die hier behandelt werden, und den konfir-

matorischen, die nun wenigstens kurz erwahnt werden sollen.

Der Unterschied zwischen diesen beiden Klassen von Faktorenanalysen besteht

darin, dass bei exploratorischen Faktorenanalysen zunachst keine Vermutungen

uber die Zahl der Faktoren vorliegen, schon gar nicht uber die genauere Struktur

der Ladungsmatrix.

Dies ist bei den konfirmatorischen Faktorenanalysen anders, bei denen in der

Regel genauere Vorstellungen uber die Zahl der Faktoren und meist auch uber

die Struktur der Ladungsmatrix bestehen.

Solche genaueren Vorstellungen uber die Struktur der Ladungsmatrix konnen

spezifische Angaben uber die Ladungen sein. Beispielsweise kann vermutet wer-

den, dass ein bestimmter Faktor eine beobachtbare Variable nicht’beeinflusst‘,

was dadurch prazisiert wird, dass die entsprechende Ladung gleich 0 ist.


Losungen“ FA13 51

Auf diese Weise ist bei konfirmatorischen Faktorenanalysen von Anfang an ein

recht spezifisches Modell vorhanden.

Dieses Modell kann nun (mit zusatzlichen Verteilungsnannahmen) als Nullhypo-

these getestet werden.

In diesem Sinn kann die ML-Faktorenanalyse, wenn die Zahl der Faktoren vor-

gegeben wird, auch als konfirmatorische Faktorenanalyse aufgefasst werden.

Ein Hauptproblem bei konfirmatorischen Faktorenanalysen besteht darin, dass

die zu untersuchenden Modelle meist den Status einer Nullhypothese haben, wes-

halb sie aus den bekannten Grunden eigentlich nicht bestatigt werden konnen;

der Ausdruck’konfirmatorisch‘ ist also – wie vieles in der Statistik – etwas hoch-

staplerisch.

Allerdings sind im Rahmen solcher Verfahren auch andere Arten von Tests mog-

lich, so beispielsweise solche, ob eine bestimmte Ladung 0 ist. Hier kann die favo-

risierte Hypothese (dass die Ladung nicht 0 ist) die Rolle der Alternativhypothese

ubernehmen und sich gegen die Nullhypothese (dass die Ladung 0 ist) im ublichen

statistischen Sinn durchsetzen; allerdings vor dem Hintergrund, dass man das et-

was allgemeinere Modell als richtig annimmt. Was hier dann (in statistisch ernst

zu nehmender Weise) abgesichert wird, ist daher das etwas allgemeinere Modell in

Konkurrenz zu einem spezielleren Modell (wo eine Ladung 0 ist), nicht jedoch das

allgemeinere Modell selbst in Konkurrenz zu der noch allgemeineren Annahme,

dass gar kein faktorenanalytisches Modell Gultigkeit besitzt.

Die Modelle der konfirmatorischen Faktorenanalysen sind verallgemeinert worden

zu den so genannten Strukturgleichungsmodellen, bei denen man bei den latenten

Variablen noch zusatzliche Beeinflussungen untereinander annimmt, beispielswei-

se im Sinne der Regression. Pfadanalysen mit latenten Variablen sind ein Beispiel.

Die bisherigen Ausfuhrungen waren so gehalten, dass sie unter vielen Aspekten

fur derartige komplexere Sitationen ihre Gultigkeit behalten und eine ungefahre

Vorstellung von Vorgehen und Schwierigkeiten geben konnen.

Die Probleme, was beispielsweise die meist zunachst fehlende Identifizierbarkeit

und damit zusammenhangend die Interpretation von Modellen angeht, sind meist

deutlich komplizierter als die bei der Faktorenanalyse, und ohne tiefergehende

mathematische Kenntnisse oft noch nicht einmal richtig einzuschatzen, geschweige

denn zu behandeln.


Losungen“ FA13 52

Ein Typ von Problemen, die noch ziemlich leicht zu erkennen sind, entsteht da-

durch, dass die Computerprogramme, die nach Losungen suchen, oft nicht nach-

prufen, ob diese Losungen auch sinnvoll sind. Beispielsweise werden oft Varianzen

einfach als Parameter behandelt, die alle moglichen Werte annehmen konnen – es

werden also bei der Suche nach Losungen auch negative Werte zugelassen. Dies ist

deshalb moglich, weil bei den Gleichungen, die die parametrisierende Abbildung

definieren, formal beliebige Werte eingesetzt werden konnen, auch eben solche,

die eigentlich gar nicht moglich sind, wie negative’Varianzen‘. Ob der Anwender

die Unsinnigkeit einer solchen Losung uberhaupt bemerkt, ist nicht garantiert.

Vielleicht wird er darauf aufmerksam gemacht, dass eine bestimmte geschatzte

Kovarianzmatrix nicht positiv semidefinit ist, weiß aber mit diesem Ausdruck

nichts anzufangen und ignoriert die Warnung.

Auch bei der Berechnung von Freiheitsgraden kann es zu Merkwurdigkeiten kom-

men, so dass vielleicht als (angebliche) Zahl der Freiheitsgrade eine Null oder gar

eine negative Zahl auftaucht.

Vor dem Hintergrund solcher Schwierigkeiten sollte unsere Bewunderung fur For-

scher um so großer sein, die derartige Modelle auch (oder gerade) ohne mathe-

matischen Hintergrund mit großer Virtuositat handhaben.

Maximum-Likelihood-Schatzungen. Erganzend sollen nun noch die Maxi-

mum-Likelihood-Schatzung und der Likelihood-Quotienten-Test an einfachsten

Beispielen illustriert werden. Zunachst soll es um ML-Schatzungen gehen (ML

ist immer die Abkurzung fur’Maximum Likelihood‘).

Das erste Beispiel ist das der Binomialverteilung, bei dem die untersuchten Ver-

teilungen diskret sind, wodurch viele Schwierigkeiten gar nicht auftreten.

Vorausgesetzt sein soll, dass n Mal unabhangig ein Bernoulli-Experiment mit

Erfolgswahrscheinlichkeit p durchgefuhrt wird. Ziel ist es, mit dem oben schon

kurz skizzierten ML-Prinzip auf der Basis des Ergebnisses einen Schatzer von p

zu finden.

Bernoulli-Experimente sind Experimente mit nur zwei moglichen Ergebnissen,

die hier mit 1 (Erfolg) und 0 (Misserfolg) codiert werden sollen. Die Anzahl k der

Erfolge bei n-maliger unabhangiger Durchfuhrung eines Bernoulli-Experiments

ist bekanntlich binomialverteilt.

Das Ergebnis des Gesamtexperiments sind die n Ergebnisse x1, . . . , xn der einzel-


Losungen“ FA13 53

nen Durchgange, die jeweils nur 0 oder 1 sein konnen. Ein solches Ergebnis soll

auch kurz zu einem Vektor x = (x1, . . . , xn) zusammengefasst werden.

Die Wahrscheinlichkeit fur ein konkretes Ergebnis x = (x1, . . . , xn) ist wegen der

vorausgesetzten Unabhangigkeit gleich dem Produkt der Wahrscheinlichkeiten

der einzelnen xi bei einmaliger Durchfuhrung des Bernoulli-Experiments. Diese

Wahrscheinlichkeiten sind p, wenn xi = 1 gilt, und q = (1 − p), wenn xi = 0

gilt. Dies kann man auch so zusammenfassen, dass die Wahrscheinlichkeit fur

den Wert xi beim i-ten Durchgang gleich

pxiq(1−xi)

ist – man beachte dabei die Beziehung a0 = 1 fur alle a > 0.

Die Wahrscheinlichkeit eines konkreten Ergebnisses (x1, . . . , xn) errechnet sich

dann zun∏i=1

pxiq(1−xi) ,

wobei das Zeichen∏

analog zum Summenzeichen∑

angibt, dass die zugehorigen

Terme alle zu multiplizieren sind.

Die Wahrscheinlichkeit fur das Ergebnis (1, 0, 1) bei dreimaliger Durchfuhrung

ist dann beispielsweise

3∏i=1

pxiq(1−xi) = (px1q(1−x1))(px2q(1−x2))(px3q(1−x3))

= (p1q0)(p0q1)(p1q0) = pqp = p2q ,

wie es ja schon aus der Elementarstatistik bekannt ist.

Allgemein erhalt man

n∏i=1

pxiq(1−xi) =∏

pxi∏

q(1−xi) = p∑xiq

∑(1−xi) ,

wobei die Indexgrenzen der Produkte und Summen immer 1 und n sind.

Bezeichnet man wie ublich mit k die Anzahl der Erfolge, also die der i mit xi = 1,

so gilt∑xi = k und

∑(1− xi) = n−

∑xi = n− k, und das Gesamtergebnis ist

n∏i=1

pxiq(1−xi) = pkq(n−k) ,


Losungen“ FA13 54

was ebenfalls aus der Elementarstatistik bekannt ist.

Den Wert

L(p; x) =n∏i=1

pxiq(1−xi) = pkq(n−k)

nennt man auch die zu p und x = (x1, . . . , xn) gehorende Likelihood (da q = 1−pist, reicht es, nur p als Parameter bei L anzugeben).

Hielte man nun p fest und variierte x = (x1, . . . , xn) so lieferte L offenbar gerade

die Wahrscheinlichkeitsfunktion auf der Menge der moglichen Ergebnisse x.

Gerade dies wird jedoch meistens nicht getan, vielmehr halt man den Wert x

des Ergebnisses fest und betrachtet L dann als eine Funktion von p. Dies ist der

wesentliche erste Schritt auf dem Weg zur ML-Schatzung und zum Likelihood-

Quotienten-Test.

Betrachtet man so L bei festgehaltenem x, so erhalt man fur unterschiedliche Pa-

rameter p die Wahrscheinlichkeiten dafur, dass das Ergebnis des Versuchs gerade

x ist.

Da das festgehaltene x meist das Ergebnis eines bereits durchgefuhrten Ver-

suchs ist, ist der Ausdruck’Wahrscheinlichkeit‘ ubrigens etwas irrefuhrend, denn

Wahrscheinlichkeiten sollen sich ja auf mogliche Ergebnisse beziehen. Dies ist ein

Grund fur die Verwendung des Wortes’Likelihood‘ (im Englischen statt

’proba-

bility‘, im Deutschen gibt es leider kein analoges gelaufiges Begriffspaar).

Ist nun beispielsweise bei siebenmaliger Durchfuhrung eines Bernoulli-Experiments

das Ergebnis gleich x = (0, 0, 1, 1, 0, 1, 1), so gilt

L(p; x) = p4q3 = p4(1− p)3 .

Der Graph dieser Funktion sieht folgendermaßen aus:


Losungen“ FA13 55

0.1 .05 1

0.002

......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

p

L(p; x)

................................................................................................................

..............................................................................................................................................................................................................................................................................................................................................................................................................

.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Das Prinzip der ML-Schatzung von p ist es nun, denjenigen Parameter aus-

zuwahlen, fur den die Likelihood maximal wird, fur den also das aufgetretene

Ergebnis eine maximale Wahrscheinlichkeit besitzt.

Dies Maximum durfte hier etwa fur p = .57 angenommen werden. Naturlich

wird man den maximierenden Wert von p nach Moglichkeit ausrechnen und nicht

graphisch bestimmen – in vielen etwas komplizierteren Fallen ist dies allerdings

nur naherungsweise mit geeigneten Such-Algorithmen moglich und nicht durch

eine einfache Formel.

Hier jedoch ist die Bestimmung einfach. Ein moglicher Losungsweg besteht darin,

nicht das p zu suchen, das L maximiert, sondern das p, das den naturlichen

Logarithmus der Funktion, also von ln(L), maximiert. Da der Logarithmus eine

streng monoton wachsende Funktion ist, ist klar, dass ein p, fur den ln(L) maximal

wird, gleichzeitig ein p ist, fur das L maximal wird.

Was den naturlichen Logarithmus angeht, so sei daran erinnert, dass er der Lo-

garithmus zur Basis e ist, und dass die Ableitung der Funktion ln(x) gerade die

Funktion 1/x ist.

Die logarithmierte Likelihood ist nun im allgemeinen Fall gleich

ln(L(p; x)) = ln(pk(1− p)n−k) = k ln(p) + (n− k) ln(1− p) .

Um das Maximum zu finden, wird die Ableitung davon gleich 0 gesetzt. Diese

Ableitung ist unter Benutzung der Kettenregel gleich

k1

p− (n− k)

1

(1− p).


Losungen“ FA13 56

Nullsetzen und Umstellen liefert

1− pp

=n− kk

oder1

p− 1 =

n

k− 1 ,

was sofort die Losung p = k/n liefert. Bezeichnet man diese Losung zur Vermei-

dung von Unklarheiten nun mit p, so ist nun also mit p = k/n der ML-Schatzer

des unbekannten Parameters p gefunden.

Eigentlich ware jetzt noch mit der zweiten Ableitung zu untersuchen, ob es sich

hier wirklich um ein Maximum handelt. Dies ist in der Tat der Fall, wie man sich

ubrigens auch mit anderen Methoden klar machen kann. Außerdem ist anzumer-

ken, dass die Argumentation im Falle k = 0 und k = n nicht korrekt ist.

Im Beispiel oben erhalt man p = 4/7 = .5714, in Ubereinstimmung mit dem

Augenschein.

Die Schatzung k/n fur p ist schon aus der Elementarstatistik bekannt. Vielleicht

mag es enttauschend sein, dass die ML-Methode zu nichts Neuem fuhrt, vielleicht

starkt es aber auch das Vertrauen, dass diese Heuristik gute Ergebnisse liefern

kann.

Der Maximalwert von L selber ist nun(k

n

)n(1− k

n

)n−k,

der Maximalwert von ln(L) hingegen

k ln(k/n) + (n− k) ln(1− k/n) .

Erganzend sei noch auf die Ahnlichkeit des Prinzips der ML-Schatzung mit dem

Abduktionsprinzip hingewiesen, dass ja darin besteht, dass man aus mehreren

moglichen Erklarungen eines Sachverhalts diejenige auswahlt, bei der dieser Sach-

verhalt am wenigsten uberraschend ist.

Als weiteres Beispiel sollen Erwartungswert und Streuung einer normalverteilten

Variable auf der Basis einer unabhangigen Stichprobe vom Umfang n nach dem

ML-Prinzip geschatzt werden.


Losungen“ FA13 57

In dieser Situation einer stetigen Variable gibt es keine Wahrscheinlichkeitsfunk-

tion; ihre Rolle wird nun von der Wahrscheinlichkeitsdichte ubernommen. Eigent-

lich mussten deshalb einige Sprechweisen geandert werden; so sucht man jetzt die

Parameter, die den Wert der Wahrscheinlichkeitsdichte an der Stelle des aufge-

tretenen Ergebnisses maximieren und nicht etwa dessen Wahrscheinlichkeit (die

Wahrscheinlichkeit fur jedes mogliche Ergebnis ist ja 0, da die Verteilungen stetig

sind). Die korrekten Sprechweisen sind jedoch etwas unhandlich, weshalb es oft

bei den eigentlich falschen Ausdrucksweisen bleibt; vielfach wird auch der Begriff

’Likelihood‘ benutzt, bei dem man ja vereinbaren kann, dass man je nach Situa-

tion damit einmal Wahrscheinlichkeiten und einmal Wahrscheinlichkeitsdichten

meint.

Dass die Wahrscheinlichkeitsdichte in einem bestimmten Punkt maximal ist, be-

deutet (was auch noch prazisiert werden musste und konnte), dass Werte in

kleinen Umgebungen dieses Punktes wahrscheinlicher sind als Werte in ebenso

großen Umgebungen anderer Punkte. In diesem Sinne ist die Verwendung von

Wahrscheinlichkeitsdichten eine naturliche Erweiterung der Heuristik im diskre-

ten Fall auf den stetigen.

Sind µ und σ Erwartungwert und Streuung der zugrundeliegenden Normalvertei-

lung, so ist die Dichtefunktion der Verteilung bekanntlich

g(x) =1√2π σ

e−x− µ

2σ2 .

Wegen der Unabhangigkeit der Ziehungen ist die Dichtefunktion gn der Stichpro-

be gleich dem Produkt der einzelnen Dichten, es gilt also

gn(x1, . . . , xn) =n∏i=1

1√2π σ

e−xi − µ

2σ2 =1

(2π)n/2 σne

− 1

2σ2

n∑i=1

(xi − µ)2

.

Schreibt man fur den Mittelwert der Stichprobe x, so kann man die Summe im


Losungen“ FA13 58

Exponenten umformen:

n∑i=1

(xi − µ)2 =∑

((xi − x) + (x− µ))2

=∑

(xi − x)2 + 2∑

((xi − x)(x− µ)) +∑

(x− µ)2

= nS2 + 2 (x− µ)∑

(xi − x) + n(x− µ)2

= nS2 + n(x− µ)2 .

Dabei steht S2 fur die unkorrigierte Stichprobenvarianz (1/n)∑

(xi−x)2, und der

mittlere Summand fallt weg, weil die Summe der Abweichungen vom Mittelwert

ja immer 0 ist (das Ergebnis der Zwischenrechnung ist ubrigens in allgemeinerer

Form aus der multivariaten Statistik bekannt).

Die unbekannten Parameter der Verteilung sind hier µ und σ, daher lautet nun

die Likelihoodfunktion so:

L(µ, σ; x) =1

(2π)n/2 σne− n

2σ2(S2 + (x− µ)2)

.

Es geht nun wieder darum, das Maximum dieser Funktion in Abhangigkeit von

µ und σ zu finden. Halt man zunachst σ > 0 konstant, so ist der Exponent

offenbar immer negativ, weshalb der Ausdruck dann maximal wird, wenn der

Exponent betragsmaßig minimal wird. Dies ist offenbar genau fur µ = x der Fall,

da ja µ nun die einzige Große ist, die noch variieren kann, und da (x− µ)2 stets

nichtnegativ ist und minimal (eben fur µ = x) gleich 0. Fur jeden moglichen

Wert von σ wird also die Likelihood maximal fur µ = x, weshalb man dies

Zwischenergebnis schon festhalten und einsetzen kann und schließlich noch das

Maximum der Maximalwerte

1

(2π)n/2 σne−nS

2

2σ2

in Abhangigkeit von σ finden muss.

Hier ist es wieder praktisch, den Weg uber den Logarithmus zu gehen; logarith-

miert man also den letzten Ausdruck, so erhalt man

−(n/2) ln(2π)− n ln(σ)− nS2

2σ2.


Losungen“ FA13 59

Hiervon ist die Ableitung nach σ gleich

−nσ− nS2

2· (−2)

σ3=n

σ

(S2

σ2− 1

).

Nullsetzen der Ableitung fuhrt zu

S2

σ2= 1

oder

σ = S .

Erganzend musste noch der Nachweis gefuhrt werden, dass man insgesamt tatsach-

lich ein Maximum gefunden hat, was aber hier unterbleiben kann.

Das Ergebnis der Uberlegungen ist also, dass das Maximum der Likelihood-

Funktion angenommen wird fur µ = x und σ = S. Diese Werte werden nun

sinnvollerweise wieder mit µ und σ bezeichnet. Mit µ = x und σ = S hat man

also ML-Schatzer fur die unbekannten Verteilungsparameter µ und σ gefunden.

Der Wert des Maximums kann nun durch Einsetzen leicht bestimmt werden; es

ergibt sich fur die Likelihood-Funktion der Wert

1

(2π)n/2 Sne−n

2

und fur ihren Logarithmus der Wert

−(n/2) ln(2π)− n ln(S)− n/2 = −(n/2)(ln(2π) + ln(S2) + 1

).

Interessant ist, dass die ML-Schatzungen hier nur teilweise mit den ublicherweise

benutzten Schatzern aus der Elementarstatistik ubereinstimmen. Zwar wird auch

hier µ durch x geschatzt, die Schatzung fur σ ist jedoch nicht die korrigierte Stich-

probenstreuung, sondern die unkorrigierte. Dies bedeutet, dass die ML-Schatzung

fur σ2 gleich S2 ist und damit nicht erwartungstreu.

Ganz ahnlich geht man vor, wenn man bei einer normalverteilten Variable, bei

der der Erwartungswert µ bekannt ist, die Streuung σ schatzen will.

Die Likelihoodfunktion ist hier gleich

L(σ; x) =1

(2π)n/2 σne− n

2σ2(S2 + (x− µ)2)

,


Losungen“ FA13 60

wobei der Unterschied zu oben nur darin besteht, dass der nun bekannte Para-

meter µ nicht mehr als Argument von L auftritt.

Schreibt man kurz S20 fur den Ausdruck S2 + (x − µ)2, so kann man genauso

wie im allgemeinen Fall weiterargumentieren, wenn man nur uberall S2 durch S20

ersetzt. Als Resultat erhalt man als ML-Schatzer fur σ jetzt den Wert S0. Der

hierzu gehorende Maximalwert der Likelihood-Funktion ist dann

1

(2π)n/2 Sn0e−n

2 .

Der Logarithmus dieses Wertes ist

−(n/2) ln(2π)− n ln(S0)− n/2 = −(n/2)(ln(2π) + ln(S2

0) + 1).

Likelihood-Quotienten-Test. Nun soll noch der Likelihood-Quotiententest an

einem einfachsten Beispiel auf der Grundlage der Ergebnisse des letzten Ab-

schnitts illustriert werden.

Es geht um die Frage, ob der Erwartungswert einer normalverteilten Variable

(mit unbekannter Varianz) gleich einem gewissen µ0 ist oder nicht.

Als Datenbasis zur Beantwortung dieser Frage soll eine Stichprobe von n un-

abhangigen Werten x1, . . . , xn gezogen werden.

Die Situation ist bekannt: es geht um die Testung des Hypothesenpaars

H0 : µ = µ0

H1 : µ 6= µ0 ,

wobei vorausgesetzt wird, dass die untersuchte Variable normalverteilt ist mit

unbekannter Varianz; der ublicherweise benutzte Test ist der zweiseitige Einstich-

proben-t-Test.

Es soll jedoch nun ein alternativer Test nach der Likelihood-Quotienten-Methode

konstruiert werden.

Zunachst soll die Beschreibung der Situation den Prinzipien dieser Methode an-

gepasst werden; diese neue Beschreibung erfolgt analog zu der Beschreibung der

Faktorenanalyse und benutzt auch die gleichen Bezeichnungen.


Losungen“ FA13 61

Vielleicht mag die Darstellung an einigen Stellen unangemessen kompliziert er-

scheinen (und ist es auch), der Zweck ist jedoch der, die bei der Besprechung der

Faktorenanalyse benutzten Konzepte jetzt in einem einfachen Fall zu verwenden

und so deutlicher zu machen. Wahrend die graphischen Darstellungen dort nur

metaphorisch gemeint waren, sind diese Darstellungen hier korrekt, wodurch ihre

wesentlichen Aspekte noch klarer werden sollten.

Es geht um die Verteilung einer Variable X, von der die allgemeine Voraussetzung

gelten soll, dass sie normalverteilt ist bei unbekannter Varianz.

Dies bedeutet, dass die unbekannte Verteilung vollstandig durch zwei Parameter

beschrieben werden kann, namlich durch den Erwartungswert µ und die Streu-

ung σ. Die moglichen Verteilungen entsprechen also genau den Kombinationen

(µ, σ) mit σ > 0. Im Falle der Faktorenanalyse wurde die Menge der dort die

moglichen Verteilungen charakterisierenden Korrelationsmatrizen einer allgemei-

nen Konvention folgend mit Ω bezeichnet, und daher soll auch hier die Menge

R× (0,∞) mit Ω bezeichnet werden; jeder Punkt dieser Menge entspricht dann

genau einer moglichen Verteilung.

Bei dem eingeschrankten Modell (das der Nullhypothese oben entspricht) liegt

µ0 fest, wahrend nur σ noch variieren kann. Dieses σ ist so der einzige Parame-

ter des Modells, und als Menge Θ der Modellparameter kann die Menge (0,∞)

aller moglichen Werte fur σ genommen werden. Als Parametervektor θ des ein-

geschrankten Falles kann hier also einfach σ verwendet werden.

Die parametrisierende Abbildung F hat dann eine besonders einfache Gestalt, sie

ordnet namlich jedem σ ∈ Θ den Wert (µ0, σ) in Ω zu, der die zu σ gehorende

Verteilung des eingeschrankten Modells charakterisiert.

Das Bild von Θ unter F soll ω heißen, es ist offenbar die Menge aller Punkte

(µ0, σ) mit σ > 0.

Die Situation kann nun folgendermaßen dargestellt werden (die Darstellung ist


Losungen“ FA13 62

diesmal nicht metaphorisch):

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................

...................

µ

σ

(0, 0)

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

......

ωΩ

µ0

Hier besteht Ω aus allen Punkten oberhalb der µ-Achse; diese Achse selber gehort

also nicht mehr dazu. Die Menge ω ist die Halbgerade die vom Punkt (µ0, 0) nach

oben weist (der Punkt (µ0, 0) gehort naturlich nicht dazu).

Bezeichnet man der Kurze halber die Paare (µ, σ) von moglichen Verteilungspa-

rametern mit τ und das Paar der wahren Verteilungsparameter mit τw (’w‘ fur

’wahr‘), so geht es jetzt um die Frage, ob τw in ω liegt (was gerade die Aussage

von H0 ist) oder nicht (was H1 entspricht). Die Hypothesen konnen also nun auch

als

H0 : τw ∈ ωH1 : τw /∈ ω

formuliert werden.

Das Modell der Nullhypothese entspricht geometrisch der Menge ω, wahrend das

allgemeinere Modell der Menge Ω entspricht. Hier ist es also so, dass das allgemei-

nere Modell das der Nullhypothese einschließt, insofern entsprechen die Modelle

nicht genau den Hypothesen, da ja die Alternativhypothese die Nullhypothese

ausschließt.

In diesem Fall wurde man sicher ω als eine’eindimensionale‘ Menge bezeichnen

(es ist ja Teil einer Gerade) und Ω als eine’zweidimensionale‘. In der Tat lasst

sich der Begriff der Dimension verallgemeinern, so dass man mehr Teilmengen

eine Dimension zuordnen kann als nur den linearen und affinen Unterraumen

(beispielsweise ist die Dimension einer Kugeloberflache dann 2). Bei Verwendung

dieser Definition sind die Dimensionen von ω und Ω tatsachlich 1 und 2.


Losungen“ FA13 63

Nun soll der Likelihood-Quotienten-Test fur die untersuchten Hypothesen kon-

struiert werden. Allgemein ist das Vorgehen bei einer derartigen Konstruktion

so, dass man ML-Schatzer fur die Modellparameter im allgemeinen und einge-

schrankten Modell ermmittelt und dann den Quotienten der zugehorigen maxi-

malen Likelihoods als Teststatistik verwendet.

Sind die ML-Schatzer fur τw im allgemeinen Modell gleich τ und im einge-

schrankten Modell gleich ˆτ und ist die L(τ ; x) die Likelihood-Funktion fur einen

moglichen Parameter τ und den Vektor x der Werte einer moglichen Stichprobe,

so ist der Likelihood-Quotient definiert als die Zahl

λ =L(ˆτ ; x)

L(τ ; x),

wobei x der Vektor der Werte der untersuchten Stichprobe ist.

Hier wird also der Quotient gebildet aus der maximalen Likelihood der tatsachlichen

Stichprobe bei Gultigkeit des eingeschrankten Modells und der maximalen Like-

lihood dieser Stichprobe bei Gultigkeit des allgemeinen Modells.

Da das allgemeine Modell das eingeschrankte umfasst, ist der Zahler hier immer

hochstens so groß wie der Nenner, so dass λ maximal den Wert 1 annehmen kann.

Ist das eingeschrankte Modell gultig, so sollten sich die maximalen Likelihoods

nicht allzu stark unterscheiden, wahrend im anderen Fall damit zu rechnen ist,

dass die Likelihood im eingeschrankten Fall deutlich kleiner ist. Die Nullhypothese

ist daher fur kleine Werte von λ zu verwerfen.

Man kann λ auch interpretieren als ein Maß dafur, wie gut das eingeschrankte

Modell zu den Daten passt im Vergleich zum allgemeinen (suggestiv (und falsch)

formuliert bedeutet ein kleines λ, dass die aufgetretenen Daten unter dem allge-

meinen Modell viel wahrscheinlicher sind als unter dem eingeschrankten). Auch

dies spricht dafur, die Nullhypothese bei kleinen Werten von λ zu verwerfen.

Die eben angestellten Uberlegungen sind naturlich nur heuristisch und nicht un-

bedingt zwingend. Genauere mathematische Untersuchungen zeigen jedoch, dass

in vielen Situationen der Likelihood-Quotienten-Test ein vernunftiger Test ist,

was sich nun auch am hier betrachteten einfachen Beispiel erweisen soll.

Setzt man namlich die oben schon bestimmten ML-Schatzungen ein, so erhalt

man

λ =1

(2π)n/2 Sn0e−n

2

/1

(2π)n/2 Sne−n

2 =

(S

S0

)n.


Losungen“ FA13 64

Dabei sind S0 und S die ML-Streuungsschatzungen unter den beiden Modellen.

Der Test vergleicht also hier die Streuungsschatzungen unter den beiden Model-

len, wobei eine deutlich großere Streuungsschatzung unter H0 gegen die Nullhy-

pothese spricht, weil sie zu einem kleinen Wert von λ fuhrt.

Der so gewonnene Test soll nun noch etwas umgeformt werden. Dabei wird die

Teststatistik monoton transformiert, um zu einem anderen Ausdruck zu gelan-

gen, bei dem ein Vergleich mit dem schon bekannten t-Test fur die untersuchten

Hypothesen moglich wird.

Zunachst ist zu bemerken, dass eine (streng) monotone Transformation einer

Teststatistik nichts Wesentliches an einem Test andert, wobei nur bei monoton

fallenden Transformationen die Richtung des Tests geandert werden muss.

Ist namlich f eine (streng) monoton wachsende Transformation und T eine Test-

statistik, so gilt fur jede Zahl k im Definitionsbereich von f , dass T ≤ k genau

dann eintritt, wenn f(T ) ≤ f(k) gilt. Bei (streng) monoton fallenden Funktionen

f gilt entsprechend T ≤ k genau dann, wenn f(T ) ≥ f(k) gilt.

Daraus folgt, dass fur einen Wert k, der bei der Verteilung von T unter H0

links α abschneidet, gilt, dass f(k) bei der Verteilung von f(T ) ebenfalls links α

abschneidet im Falle einer monoton wachsenden Transformation f (entsprechend

fur monoton fallende, nur dass durch f(k) dann α rechts abgeschnitten wird). Es

folgt, dass kritische Werte fur T durch f in kritische Werte fur f(T ) transformiert

werden.

Bei monoton wachsendem f fuhrt daher die Entscheidungsregel, H0 dann zu

verwerfen, wenn T kleiner oder gleich dem kritischen Wert der Verteilung von T

unterH0 ist, stets zu derselben Entscheidung wie die Regel,H0 dann zu verwerfen,

wenn f(T ) kleiner oder gleich dem kritischen Wert der Verteilung von f(T ) unter

H0 ist. Bei monoton fallendem f fuhrt hingegen die erste Regel stets zu demselben

Ergebnis wie die Regel, H0 dann zu verwerfen, wenn f(T ) großer oder gleich dem

kritischen Wert der Verteilung von f(T ) unter H0 ist.

Hier soll nun die Funktion f mit

f(λ) =1

λ2/n− 1 ,

verwendet werden, von der man leicht nachweist, dass sie die Zahlen zwischen 0

und 1 streng monoton fallend auf die Zahlen zwischen 0 und ∞ abbildet (wobei

1 auf 0 abgebildet wird). Das Schaubild dieser Funktion sieht beispielsweise fur


Losungen“ FA13 65

den Fall n = 5 so aus:

1

1

2

................................................................................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

..........................

...................

λ

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Setzt man fur λ jetzt die Teststatistik (S/S0)n ein, so erhalt man

f(λ) = f((S/S0)n) =

1

(S/S0)2− 1 =

S20

S2− 1 =

S2 + (x+ µ0)2

S2− 1 =

(x− µ0)2

S2.

Die Nullhypothese ist nun fur große Werte dieser Statistik zu verwerfen.

Man erkennt leicht, dass (x−µ0)2/S2 bis auf einen unwesentlichen Faktor gerade

die quadrierte Einstichproben-t-Statistik fur den Test von H0 : µ = µ0 ist (es

gilt namlich (x−µ0)2/S2 = t2/(n−1)), und da man statt des zweiseitigen t-Tests

bekanntlich aquivalent auch einen (rechtsseitigen) F -Test mit dem Quadrat der t-

Statistik durchfuhren kann, folgt insgesamt, dass der Likelihood-Quotienten-Test

in dem betrachteten Fall aquivalent zum zweiseitigen Einstichproben-t-Test ist.

Die Anwendung des Likelihood-Quotienten-Prinzips hat also nichts wesentlich

Neues mit sich gebracht, sondern nur auf einem anderen Weg zu dem schon be-

kannten zweiseitigen t-Test gefuhrt. Einerseits mag dies als enttauschend empfun-

den werden, andererseits kann es aber auch ein Anlass sein, ein gewisses Vertrauen

zu fassen, dass dies Prinzip auch in anderen Fallen vernunftige Tests liefert.

Dass sich die Teststatistik λ des Likelihood-Quotienten-Tests so wie im Beispiel

durch eine einfache Transformation in eine Statistik mit bekannter Verteilung

unter der Nullhypothese transformieren lasst, ist eher die Ausnahme. Wenn kein

derartiger Ausnahmefall vorliegt, benutzt man als Teststatistik meist −2 ln(λ).

Zunachst bemerkt man, dass auf Grund der Tatsache, dass der Likelihood-Quo-


Losungen“ FA13 66

tient λ nicht großer werden kann als 1, die neue Teststatistik −2 ln(λ) nicht

negativ werden kann. Die Transformation von λ zu −2 ln(λ) ist außerdem streng

monoton fallend, weshalb der Test der Nullhypothese genauso gut auch mit der

neuen Teststatistik durchgefuhrt werden kann. Allerdings ist dann die Nullhypo-

these fur große Werte von −2 ln(λ) zu verwerfen.

Sinnvoll ist die Transformation deshalb, weil −2 ln(λ) bei Gultigkeit der Nullhy-

pothese unter gewissen Regularitatsbedingungen asymptotisch eine χ2-Verteilung

besitzt.

Genauer ist mit dieser Formulierung gemeint, dass die Verteilung der Teststa-

tistik −2 ln(λ) unter H0 mit wachsender Stichprobengroße schwach gegen eine

χ2-Verteilung konvergiert. Bei hinreichend großen Stichproben kann man also

ohne allzu großen Fehler so tun, als hatte die Statistik unter H0 diese Verteilung,

und die Nullhypothese auf dem Niveau α dann verwerfen, wenn −2 ln(λ) großer

ist als das α-Fraktil dieser χ2-Verteilung.

Den Wert −2 ln(λ) bezeichnet man aus diesem Grund meist auch mit χ2 (was

naheliegend, streng genommen aber nicht ganz korrekt ist).

So oft ubrigens in einigen Bereichen die Existenz der Regularitatsbedingungen

erwahnt wird, so selten werden sie konkret zitiert geschweige denn nachgepruft.

Ein Grund dafur ist vielleicht darin zu suchen, dass man schon fur die korrekte

Formulierung mathematische Konzepte braucht, die nicht jedermann gelaufig sind

(weshalb eine solche Formulierung auch hier unterbleiben muss, da die Einfuhrung

dieser Konzepte einen kaum vertretbaren Aufwand erforderten), wahrend die

Nachprufung der Bedingungen viele Anwender wohl einfach uberfordern wurde.

In vielen Standardfallen sind immerhin die Bedingungen fast immer erfullt (in

einem hier auch nicht naher prazisierbaren Sinn).

Es bleibt noch die Frage nach der Anzahl der Freiheitsgrade der approximieren-

den χ2-Verteilung. Diese Zahl erhalt man in’regularen‘ Fallen als Differenz der

’Dimensionen‘ von Ω und ω. Im hier betrachteten Beispiel ist ziemlich plausibel,

dass diese Dimensionen 2 und 1 sind, weshalb die Anzahl der Freiheitsgrade hier

1 ist.

Die Teststatistik χ2 = −2 ln(λ) kann fur das Beispiel einfach bestimmt werden:

−2 ln(λ) = −2 ln((S/S0)n) = n ln(S2

0/S2) = n ln

(1 + (x− µ)2/S2

).

Die Nullhypothese ist (bei Verwendung der Approximation) auf dem Niveau α

dann zu verwerfen, wenn dieser Wert mindestens gleich dem α-Fraktil χ21;α der


Losungen“ FA13 67

χ21-Verteilung ist.

In diesem Fall kann man ubrigens leicht den Fehler untersuchen, den man bei der

Approximation macht. Berucksichtigt man namlich, dass unter H0 die Statistik

(n − 1)(x − µ0)2/S2 eine F1, n−1-Verteilung besitzt, so bestimmt man analog zu

den oben angestellten Uberlegungen den korrekten kritischen Wert fur den Test

mit −2 ln(λ) zu

n ln (1 + F1,n−1;α/(n− 1)) .

Fur α = .05 wird bei der Approximation als kritischer Wert χ21; .05 = 3.84146

benutzt, wahrend man fur n = 5, 10, 50, 100 die korrekten kritischen Werte zu

5.37017, 4.5018, 3.95979, 3.89984 bestimmt. In diesem Fall wird also die Nullhy-

pothese bei Benutzung der Approximation bei relativ kleinen Werten von n zu

leicht verworfen.

Der Fall, dass man das Maximum der Likelihood-Funktion unter H0 wie in den

bisherigen Beispielen explizit bestimmen kann, ist in vielen Anwendungsberei-

chen eher die Ausnahme. In den Fallen, in denen eine explizite Berechnung durch

eine Formel nicht moglich ist oder scheint, werden iterative Such-Algorithmen

zur Suche des Maximums verwendet. Haufig wird dabei die Aufgabe etwas um-

formuliert. Die Schwierigkeit beschrankt sich dabei meist nur auf den Fall des

eingeschrankten Modells, das H0 entspricht; fur das allgemeine Modell stehen oft

Formeln zur Verfugung.

Eine solche Anderung in der Herangehensweise soll nun fur ein Beispiel geschildert

werden, das dem gerade behandelten ziemlich ahnlich ist; dabei soll so getan

werden, als ware die direkte Bestimmung des Maximums im eingeschrankten

Modell nicht moglich.

In dem neuen Beispiel soll es wieder um eine normalverteilte Zufallsvariable X

mit unbekanntem Erwartungswert µ und unbekannter Streuung σ gehen. Das ein-

geschrankte Modell besagt jetzt, dass der Erwartungswert positiv ist und genau

zwei Streuungseinheit vom Nullpunkt entfernt liegt. Die zugehorige Hypothesen

sind dann

H0 : µ = 2σ

H1 : µ 6= 2σ .

Zur Parametrisierung des eingeschrankten Modells kann man den Parameter θ

als σ wahlen; der Parameterraum Θ ist dann die Menge der positiven reellen


Losungen“ FA13 68

Zahlen (ohne Null), und die parametrisierende Abbildung F ist dann durch die

Vorschrift

F (θ) =

(2θ

θ

)gegeben.

Verwendet man wieder als Parameter des allgemeinen Modells µ und σ, und

bezeichnet in dem zugehorigen Parameterraum Ω die zum eingeschrankten Modell

passenden Parametervektoren wie ublich mit ω (ω ist also das Bild der positiven

reellen Zahlen unter F ), so erhalt man nun folgendes Bild:

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................

...................

µ

σ

(0, 0)

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

.........................

ωΩ

Auch hier wird man ω sicher als eindimensional bezeichnen.

Es ist ubrigens eher ublich, als Parameter des allgemeinen Modells µ und σ2

(statt µ und σ) zu verwenden. In diesem Fall ist das Bild von Θ unter F kein

Geradenstuck mehr, sondern ein Stuck einer Parabel. Da hier ein Beispiel fur

eine’eindimensionale‘ Teilmenge ω in einem allgemeineren Sinn vorliegt, soll auch


Losungen“ FA13 69

diese Situation illustriert werden:

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................................

...................

µ

σ2

(0, 0)

ωΩ

.................................................................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................

Die erste Aufgabe bei der Entwicklung eines Tests fur die neuen Hypothesen

lautet nun (vorlaufig), das Maximum der Funktion

L(µ, σ; x) =1

(2π)n/2 σne− n

2σ2(S2 + (x− µ)2)

zu finden, wobei (µ, σ) den Bedingungen des eingeschrankten Modells genugen

muss. Anders ausgedruckt muss also (µ, σ) nun in ω liegen; praktisch wird die

Suche meist unter Vermittlung der Funktion F in Θ durchgefuhrt.

Um die Einschrankung bei der Suche zu verdeutlichen, konnte man in der Formel

µ durch µ(θ) und σ durch σ(θ) ersetzen, womit naturlich die beiden Komponenten

der Funktion F gemeint sind (Einsetzen ergibt dann µ(θ) = 2θ und σ(θ) = θ). In

dieser Schreibweise ist das Maximum von

L(θ; x) =1

(2π)n/2 σ(θ)ne− n

2σ(θ)2(S2 + (x− µ(θ))2)

zu ermitteln, was nach Einsetzen auch als

L(θ; x) =1

(2π)n/2 θne− n

2θ2(S2 + (x− 2θ)2)

geschrieben werden kann.

Diese Einsetzungen sollen jedoch noch nicht vorgenommen werden, da es zunachst

um eine Umformulierung der Aufgabe geht, wie sie auch in anderen Situationen

oft vorkommt.


Losungen“ FA13 70

Das Maximum fur den allgemeinen Fall ist im Beispiel gleich

1

(2π)n/2 Sne−n

2

und soll kurz mit M1 bezeichnet werden.

Hatte man nun die Aufgabe gelost, also ein (µ, σ) aus ω gefunden, das die

Likelihood-Funktion maximiert, so wurde man zum Testen diesen Wert in die

Likelihood-Funktion einsetzen und damit den Likelihood-Quotienten λ bestim-

men oder besser gleich χ2 = −2 ln(λ), da diese Statistik ja schließlich wegen ihrer

naherungsweisen χ2-Verteilung zum Testen verwendet wird.

Diese Teststatistik χ2 = −2 ln(λ) berechnet sich fur jeden moglichen Wert (µ, σ)

zu

−2 ln(L(µ, σ; x)/M1) = −2 ln(L(µ, σ; x)) + 2 ln(M1) .

Die alternative Vorgehensweise besteht nun darin, zum Auffinden der ML-Schat-

zung gleich diese Funktion zu benutzen, die dann allerdings minimiert und nicht

maximiert werden muss; ein Vorteil liegt dann darin, dass das gefundene Mini-

mum gleichzeitig die Teststatistik −2 ln(λ) ist.

Dies Vorgehen soll kurz gerechtfertigt werden. Die Funktion f mit

f(u) = −2 ln(u) + 2 ln(M1)

ist offenbar streng monoton fallend in u. Die ursprungliche Aufgabe bestand dar-

in, ein Paar (µ, σ) zu finden, das den Wert von L(µ, σ; x) maximiert. Die alter-

native Vorgehensweise besteht jetzt darin, ein (µ, σ) zu finden, das die Funktion

f(L(µ, σ; x)) minimiert.

Wegen der Monotonieeigenschaft von f haben diese beiden Aufgaben genau die

gleichen Losungen (die Beziehung L(µ, σ; x) > L(µ′, σ′; x) gilt ja genau dann,

wenn die Beziehung f(L(µ, σ; x)) < f(L(µ′, σ′; x)) gilt). Daher kann in der Tat

die ML-Schatzung (µ, σ) der Parameter µ und σ auch uber die Suche nach einem

Minimum von f(L(µ, σ; x)) gefunden werden. (Eigentlich musste man im Ein-

klang mit den allgemeinen Formulierungen ˆµ und ˆσ schreiben, da dort ein Dach

die Schatzer im allgemeinen Modell bezeichnet und zwei Dacher fur die Schatzer

im eingeschrankten Modell benutzt werden.)

Bestimmt man fur die so gefundene ML-Schatzung nun die Statistik χ2 = −2 ln(λ),

so erhalt man offenbar den Wert f(L(µ, σ; x)), also gerade das Minimum der al-

ternativen Vorgehensweise.


Losungen“ FA13 71

Das Schatz- und Testproblem wird also alternativ so behandelt, dass die ML-

Schatzer fur µ und σ als Werte gesucht werden, die die Funktion f(L(µ, σ; x))

minimieren. Das Minimum dieser Funktion selbst ist dann bereits die χ2-Test-

Statistik.

Im hier betrachteten Fall errechnet sich f(L(µ, σ; x)) zu

−2 ln(L(µ, σ; x)) + 2 ln(M1)

= n ln(2π) + n ln(σ2) + (n/σ2)(S2 + (x− µ)2)

+ (−n ln(2π)− n ln(S2)− n)

= n(ln(σ2) + S2/σ2 − ln(S2) + (x− µ)2/σ2 − 1

).

Fur diese Funktion gilt es also, ein Minimum zu finden, bei dem (µ, σ) in ω

liegt; dieses Minimum ist dann auch schon die χ2-Test-Statistik. Zur praktischen

Berechnung sollen nun sogleich durch Einsetzen µ und σ als Funktionen von θ

bestimmt werden. Zuvor sei bemerkt, dass man in Anwendungen die Aufgabe der

Maximierung bzw. Minimierung oft in Bezug auf eine Funktion gestellt wird, die

eine ganz ahnliche Form hat wie die gerade fur das Beispiel hergeleitete.

Setzt man nun also zur praktischen Durchfuhrung der Minimierung den Parame-

ter θ schließlich ein, und bezeichnet man die entstehende Funktion zur Abkurzung

mit g(θ), so erhalt man

g(θ) = n(ln(θ2) + S2/θ2 − ln(S2) + (x− 2θ)2/θ2 − 1

).

Dieser Ausdruck ist in Abhangigkeit von θ zu minimieren. Der Wert θ, an dem

das Minimum erreicht wird, ist dann die gesuchte ML-Schatzung, die uber F

sofort in µ und σ uberfuhrt werden kann. Das Minimum der Funktion g selbst ist

die χ2-Statistik, mit der die untersuchten Hypothesen getestet werden konnen,

und bei der so getan wird, als besaße sie unter H0 eine χ21-Verteilung (was ja auch

naherungsweise stimmt).

Sahe man nun keine Moglichkeit, auf analytischem Wege das Minimum von g

zu bestimmen, so wurde man zu numerischen Verfahren greifen, die mit einigem

Rechenaufwand (der dem Computer uberlassen bleibt) hoffentlich das Minimum

ermitteln.

Dabei konnen verschiedene Schwierigkeiten auftreten, die kurz erwahnt seien:

Zunachst ist keineswegs klar, dass die Funktion g uberhaupt ein Minimum besitzt.

In einem solchen Fall wurde die Rechnung zu keinem Ziel gelangen. Es kann


Losungen“ FA13 72

auch sein, dass g mehrere lokale Minima hat; in diesem Fall konnte das Problem

auftreten, dass zwar ein (lokales) Minimum gefunden wird, dass dieses lokale

Minimum jedoch kein globales Minimum ist. Ein Grund fur ein solches Ergebnis

kann darin liegen, dass der Algorithmus, der nach dem Minimum sucht, seine

Startwerte in der Nahe eines nur lokalen Minimums wahlt (oder vorgeschrieben

bekommt), von dem er sich dann nicht mehr entfernen kann, so dass das globale

Minimum verfehlt wird (wenn es uberhaupt existiert).

Zur Veranschaulichung zeigt die nachste Graphik zwei Funktionen, die beide ein

lokales Minimum besitzen, und von denen die eine auch ein globales Minimum

hat, die andere jedoch nicht, weil sie sich dem Wert 0 beliebig annahert, ohne ihn

je zu erreichen.

1

1

................................................................................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

x

y

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..................................................................................................................................................

...............................................................................................................................................

1

1

................................................................................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

x

y.............................................................................................

.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Wahrend so allgemein mit Problemen zu rechnen ist, die zudem nicht uberschau-

bar sind, ist die Funktion g des Beispiels harmlos. Sie besitzt namlich auf den po-

sitiven Zahlen ein eindeutiges Minimum, das man zudem analytisch leicht durch

Differenzieren bestimmen kann, so dass man nicht auf numerische Minimierungs-

algorithmen angewiesen ist. Dieses Minimum befindet sich an der Stelle

θ = −x+√

2x2 + S2 ,

woraus sofort fur das eingeschrankte Modell die ML-Schatzungen

µ = 2√

2x2 + S2 − 2x und σ =√

2x2 + S2 − x

resultieren.

Setzt man schließlich fur θ den Wert −x +√

2x2 + S2 in die Funktion g ein, so

erhalt man den Wert der χ2-Teststatistik −2 ln(λ), die mit dem kritischen Wert

der χ2-Verteilung mit einem Freiheitsgrad zu vergleichen ist (der eine Freiheits-

grad ergibt sich wieder aus der Differenz der’Dimensionen‘ von Ω und ω). Da

das Einsetzen in diesem Fall nicht zu einer schonen Formel fuhrt, mag es hier

unterbleiben.

3.4 Rotationen FA13 73

3.4 Rotationen

Prinzip der Rotation. Charakteristisch fur die multivariate Statistik ist die

Sichtweise, dass man mit Variablen lineare oder affine Transformationen durch-

fuhren kann, sofern es moglich ist, diese Transformationen ruckgangig zu machen.

Ist die Umkehrung einer Transformation namlich moglich, so hat man keinen In-

formationsverlust, da die Werte vor der Transformation rekonstruierbar sind. Die

transformierten neuen Variablen konnen unterschiedliche Vorteile haben, manch-

mal den einer leichteren inhaltlichen Interpretierbarkeit.

Dies Prinzip soll nun auf die Faktorenanalyse angewendet werden, wobei zunachst

die Existenz der Faktoren und die Richtigkeit des Modells vorausgesetzt werden

sollen. Die Argumentation findet daher zuerst auf theoretischer Ebene statt.

An die Stelle der ursprunglichen Faktoren sollen also nun neue Faktoren gesetzt

werden, die sich aus den alten durch eine lineare Variablentransformation ergeben.

Eine solche Transformation heißt im Zusammenhang der Faktorenanalyse auch

Rotation. Die Beschreibung der Zusammenhange in terminis der neuen Faktoren

ergibt wieder ein faktorenanalytisches Modell, bei dem sich jedoch (kompensato-

risch) die Ladungsmatrix und oft auch die Interkorrelationsmatrix der Faktoren

andern. Diese Anderungen erscheinen von der multivariaten Sichtweise aus jetzt

aber als harmlos, da sie nichts anderes sind als aquivalente Beschreibungen des-

selben Sachverhalts. Einem Teil der Kritik an der fehlenden Eindeutigkeit wird

so der Boden entzogen.

Es kann sein, dass durch die Rotation aus den ursprunglichen Faktoren neue

entstehen, die inhaltlich leichter interpretierbar sind, was dann der entscheidende

Vorteil der Rotation ist.

In den folgenden Argumentationen wird vorausgesetzt, dass die Korrelationsma-

trix Kf invertierbar ist. Oft setzt man auch von der Ladungsmatrix Λ voraus,

dass ihre Spalten linear unabhangig sind. Fur diese Voraussetzungen spricht,

dass ihre Verletzung ein Hinweis darauf ist, dass irgendwo in dem Modell noch

Abhangigkeiten bestehen, die vielleicht noch beseitigt werden konnten zugunsten

eines okonomischeren Modells mit weniger Faktoren. Dies ist in der Tat richtig,

wie fur besonders Interessierte in der gleich folgenden Vorbemerkung genauer

ausgefuhrt werden soll.

Abkurzend soll eine q-Faktor-Losung (Kf ,Λ) regular heißen, falls die beiden ge-


nannten Bedingungen erfullt sind, falls also sowohl Kf als auch Λ den Rang q

besitzen.

Die nun folgenden Uberlegungen zeigen dann, dass man von einer Losung, die

die Bedingungen nicht erfullt, immer zu einer aquivalenten gelangen kann, die

die Bedingungen erfullt; die Zahl der Faktoren verringert sich dabei.

Vorbemerkung. Fur die anschließenden Uberlegungen ist es nutzlich, zunachst

das folgende Hilfsmittel bereitzustellen:

Feststellung 1. Ist X eine Matrix mit m Spalten und Rang r, so ist es moglich,

eine (m× r)-Matrix B und eine (r×m)-Matrix C zu finden, so dass XBC = X

gilt. Aus der Gultigkeit von XBC = X folgt, dass der Rang von XB gleich r ist.

Die Matrix X besitzt namlich unter den angegebenen Bedingungen r linear un-

abhangige Spalten, mit deren Hilfe sich alle anderen Spalten als Linearkombina-

tionen schreiben lassen. Wahlt man fur die Matrix B die Matrix, deren Spalten

diejenigen Einheitsvektoren ei des Rm sind, deren Nummern i mit den Spalten-

nummern der ausgewahlten r linear unabhangigen Spalten in X ubereinstimmen,

so besteht XB gerade aus diesen linear unabhangigen Spalten. Da sich alle Spal-

ten von X als Linearkombinationen dieser Spalten schreiben lassen, gibt es eine

(r ×m)-Matrix C mit X = (XB)C = XBC.

Gilt nun X = XBC fur Matrizen B und C der angegebenen Große, so muss der

Rang von XB mindestens gleich dem von XBC = X, also mindestens gleich r

sein. Da XB aber nur r Spalten besitzt, muss er sogar gleich r sein.

Es soll nun die Gultigkeit eines Modells x = Λf + e vorausgesetzt werden, bei

dem die Kovarianzmatrix Kf der Faktoren nicht invertierbar ist. Besitzt sie nur

einen Rang r, der kleiner ist als die Zahl der Faktoren, so wahlt man Matrizen B

und C wie in Feststellung 1 so, dass KfBC = Kf gilt und KfB gerade r Spalten

und den Rang r besitzt.

Definiert man nun einen neuen Variablenvektor g der Lange r durch g = B′f , so

ist die Kovarianzmatrix von g gleich B′KfB. Wegen C′(B′KfB) = (KfBC)′B =

KfB besitzt auch B′KfB den Rang r; die Kovarianzmatrix von g ist also inver-

tierbar und damit positiv definit. Die Diagonalelemente dieser Matrix sind daher

alle großer als Null (man erhalt sie ja als e′i(B′KfB)ei und kann dann die po-

sitive Definitheit ausnutzen). Ist D die Diagonalmatrix aus den Wurzeln dieser

Diagonalelemente, so kann man den Vektor f der neuen Faktoren definieren als


f = D−1g. Die Kovarianzmatrix von f ist dann D−1(B′KfB)D−1. Sie hat immer

noch den Rang r und besitzt in der Diagonale zusatzlich Einsen (in der Tat war

ja auch der Ubergang von g zu f gerade variablenweise die z-Transformation).

Der Erwartungswertvektor von f ist E(D−1B′f) = D−1B′E(f) = 0.

Als nachstes soll gezeigt werden, dass man f nun umgekehrt mit Hilfe von f

ausdrucken kann. Setzt man namlich A = C′D, so ist Af gleich C′DD−1B′f =

(BC)′f . Die Kovarianzmatrix von f −Af = (I− (BC)′)f ist daher

(I− (BC)′)Kf (I− (BC)′)′ = (I− (BC)′)(Kf −KfBC) = (I− (BC)′)0 = 0 ,

woraus, zusammen mit der Tatsache, dass E(f) = 0 und E(Af) = AE(f) = 0 ist,

folgt, dass f und Af fast sicher (’f.s.‘) ubereinstimmen.

Setzt man nun noch Λ = ΛA, so gilt Λf = ΛAf , was (f.s.) dasselbe ist wie Λf .

Ersetzt man also f durch f und Λ durch Λ, so erhalt man (f.s.) die gleichen

reduzierten Variablen. Zwischen den beiden Modellen

x = Λf + e und x = Λf + e

(man beachte, dass der Fehler der gleiche bleibt) besteht also kein wesentlicher

Unterschied – wenn das erste gultig ist, ist es das zweite ebenso. Geht man bei der

Bestimmung von B ubrigens genauso vor wie in der Begrundung von Feststellung

1, so erkennt man, dass D die Einheitsmatrix ist und dass es sich bei den neuen

Faktoren um einen Teil der alten handelt.

Wenn also, was die statistische Erklarungskraft angeht, kein Unterschied zwischen

den alten und den neuen Faktoren besteht, so ist doch bei der inhaltlichen In-

terpretation womoglich ein Ruckschlag zu verkraften. Gerade ein Anhanger einer

substantiellen Interpretation erkennt in dem neuen Modell seine ursprunglichen

Vorstellungen moglicherweise uberhaupt nicht wieder. Er wird einwenden, dass

die neuen Faktoren zwar vielleicht okonomischer sind, dafur aber einen womoglich

kunstlichen und willkurlichen Charakter haben.

Bisher wurde von der Gultigkeit des faktorenanalytischen Modells ausgegangen,

und es zeigte sich, dass man von einem Modell mit Faktoren, deren Kovarianzma-

trix nicht invertierbar ist, zu einem ebenso gultigen Modell mit weniger Faktoren

ubergehen kann, bei dem dieser Mangel behoben ist.

Daruber, ob uberhaupt ein faktorenanalytisches Modell gultig ist, kann man aller-

dings in den meisten Fallen streiten. Unabhangig von der Antwort auf diese Frage


kann man – ausgehend von der wahren oder der empirischen Korrelationsmatrix

der beobachtbaren Variablen – trotzdem nach Faktorlosungen suchen. Nuchtern

betrachtet bestehen solche Losungen einfach aus Matrizen, mit denen man die

Korrelationsmatrix der beobachtbaren Variablen exakt oder naherungsweise re-

produzieren kann, und der Skeptiker wird naturlich aus der Moglichkeit einer

solchen Losung nicht auf die Richtigkeit des Modells schließen.

Damit kann er aber auch die gerade durchgefuhrten Uberlegungen nicht nachvoll-

ziehen, in denen standig von Faktoren die Rede war, an die er ja gar nicht glaubt.

Trotzdem erkennt man, dass man fur ihn alle Teile der Argumentation, die sich

auf die Faktoren beziehen, auch weglassen kann, und so zu einer Argumentation

kommt, die zeigt, wie man von einer gegebenen Losung (Kf ,Λ), bei der Kf nicht

invertierbar ist, zu einer weiteren Losung (Kf , Λ) gelangt, in der Kf invertierbar

ist, und die die Eigenschaft ΛKfΛ′ = ΛKf Λ

′hat, womit beide Modelle genau

gleich gut passen, genauer: aquivalent sind.

Dies soll nun kurz ausgefuhrt werden. Ausgehend von Kf findet man wie oben

Matrizen B, C und D, so dass D−1(B′KfB)D−1 positiv definit ist und in der

Diagonale Einsen besitzt. Diese Matrix nimmt man fur die neue Losung als Kf .

Die Matrix Λ der neuen Losung definiert man sodann als ΛA, wobei A wieder

C′D ist. Dann ergibt sich

ΛKf Λ′= (ΛC′D)(D−1(B′KfB)D−1)(ΛC′D)′ = ΛC′B′KfBCΛ′ = ΛKfΛ

′

wegen (C′B′)Kf (BC) = (C′B′)Kf = (KfBC)′ = Kf′ = Kf wie gewunscht. Man

sieht also, dass der Skeptiker die Argumentation oben mit deutlichen Kurzungen

ubernehmen kann und eine Moglichkeit erhalt, aus der gegebenen Losung eine

genauso gut passende weitere zu machen, bei der der Nachteil, dass Kf nicht

invertierbar ist, behoben ist.

Es soll nun auch gleich der Fall behandelt werden, dass die Spalten von Λ nicht

linear unabhangig sind.

Zunachst eine Warnung: Man mag auf die Idee verfallen, dass jetzt einige Fak-

toren Linearkombinationen der ubrigen sind und damit entbehrlich. Dies ist so

keinesfalls richtig – der Fehler liegt womoglich darin, dass unsinnigerweise die

Spalten der Ladungsmatrix mit den Faktoren gleichgesetzt werden.

Zunachst soll wieder fur den Fall, dass man die Gultigkeit des Modells annimmt,

gezeigt werden, wie man zu einem alternativen ebenfalls gultigen Modell gelangt,

bei dem die Ladungsmatrix nur linear unabhangige Spalten besitzt. Man muss


dabei wieder die gegebenen Faktoren durch neue Faktoren ersetzen; fur die gege-

benen Faktoren sei die Invertierbarkeit von Kf vorausgesetzt – notfalls geht man

also erst zu neuen Faktoren uber, deren Korrelationsmatrix diese Eigenschaft hat.

Man findet zuerst fur das gegebene Λ vom Rang r wieder mit Feststellung 1

Matrizen B und C mit ΛBC = Λ, so dass ΛB Spaltenzahl und Rang r hat.

Dann definiert man neue Variablen g = Cf . Die (r× r)-Kovarianzmatrix CKfC′

hat dann den gleichen Rang r wie C, ist also invertierbar und damit positiv

definit. Dass C den Rang r besitzt, folgt wieder daraus, dass ΛBC diesen Rang

hat und dass C gerade r Zeilen besitzt.

Die Diagonalelemente von CKfC′ sind also alle positiv. Man definiert wieder D

als die Diagonalmatrix aus den Wurzeln dieser Diagonalelemente und erhalt mit

f = D−1g die neuen Faktoren mit der Kovarianzmatrix Kf = D−1CKfC′D−1,

deren Diagonalelemente wunschgemaß alle 1 sind.

Fur die neue Ladungsmatrix wahlt man Λ = ΛBD; bei dieser Matrix stimmt die

Spaltenzahl r mit dem Rang uberein. Es gilt weiter

Λf = ΛBDD−1Cf = ΛBCf = Λf ,

so dass aus der Gultigkeit des alten Modells x = Λf + e die des neuen Modells

x = Λf + e unmittelbar folgt.

Der Skeptiker geht wieder mit Kurzungen genauso vor und berechnet nur als

letztes noch ΛKf Λ′

zu

(ΛBD)(D−1CKfC′D−1)(ΛBD)′ = ΛBCKf (ΛBC)′ = ΛKfΛ

′ ,

womit er aus der gegebenen Losung eine neue gemacht hat, die genauso gut passt

(genauer: die zur alten aquivalent ist), und bei der zusatzlich die Spalten der

sogenannten Ladungsmatrix linear unabhangig sind.

Rechnerische Behandlung. Das am Anfang geschilderte Prinzip einer Rota-

tion soll nun genauer beschrieben werden, wobei auch die benotigte Notation

eingefuhrt wird. Vorausgesetzt ist die Gultigkeit des Modells KF

x = Λf + e

mit den ublichen Verteilungsannahmen (die Faktoren konnen also korreliert sein).

Nun soll mit den Faktoren eine lineare Variablentransformation durchgefuhrt

werden. Die (q×q)-Koeffizientenmatrix G, die hier auch Rotationsmatrix genannt


werden soll, enthalt dabei wie ublich in den Spalten die Koeffizienten, mit denen

die neuen Variablen aus den alten hergestellt werden; der neue j-te Faktor, der

fi heißen soll, ergibt sich also zu

fj =∑

gijfi .

Fasst man die neuen Faktoren zu einem Vektor f zusammen, so gilt

f = G′f .

Zunachst muss untersucht werden, welche Bedingungen an die Rotationsmatrix

G zu stellen sind.

Die Forderung der Umkehrbarkeit der Transformation ist gleichbedeutend mit

der nach der Invertierbarkeit von G.

Die Kovarianzmatrix Kf der neuen Faktoren ist dann

Kf = G′KfG′′ = G′KfG .

Da die neuen Faktoren auch wieder Varianz 1 haben sollen, ist zu fordern, dass

die Diagonalelemente von G′KfG alle 1 sein sollen.

Damit sind auch schon die beiden Forderungen an G genannt: G soll invertierbar

sein und die Diagonalelemente von G′KfG sollen alle 1 sein. In Zukunft wird fur

Rotationsmatrizen vorausgesetzt, dass diese Forderungen erfullt sind.

Manchmal geht man von dem Modell UF (unkorrelierte Faktoren) aus und mochte,

dass die neuen Faktoren ebenfalls unkorreliert sind. Aus der zweiten Forderung

wird dann G′G = I, was gleichbedeutend damit ist, dass G Orthogonalmatrix

ist, und auch die erste Forderung (Invertierbarkeit von G) nach sich zieht. Man

spricht in diesem Fall von einer orthogonalen Rotation.

Orthogonalmatrizen G kann man bekanntlich auch charakterisieren durch die

Bedingung G′ = G−1 oder G = G′−1.

Bei einer orthogonalen Rotation handelt es sich also um den Ubergang von einem

UF-Modell zu einem anderen UF-Modell. Es hat sich gerade gezeigt, dass eine

Bedingung fur eine solche orthogonale Rotation darin besteht, dass die Rotati-

onsmatrix eine Orthogonalmatrix ist, was jedoch noch keine ausreichende Cha-

rakterisierung ist – vielmehr kommt hinzu, dass vor der Rotation das Modell UF

gelten muss.


Als nachstes ist die Ladungsmatrix zu den neuen Faktoren zu bestimmen, die Λ

heißen soll.

Die reduzierten Variable xi ist die Linearkombinationen der Faktoren, deren Ko-

effizienten in der i-ten Zeile von Λ stehen. Das Umschreiben des Koeffizienten-

vektors einer Linearkombination auf die transformierten Variablen bewirkt man

allgemein durch Multiplikation mit der Matrix G−1. Die Matrix G−1Λ′ enthalt

daher nacheinander spaltenweise die Koeffizientenvektoren zur Bildung der redu-

zierten Variablen mit Hilfe der neuen Faktoren. Die Matrix G−1Λ′ ist damit Λ′.

Mit Transponieren folgt

Λ = ΛG′−1 ,

und tatsachlich gilt dann

Λf = ΛG′−1G′f = Λf .

Mit dem (kompensatorischen) Ubergang von Λ zu Λ erhalt man so aus den neuen

Faktoren die gleichen reduzierten Variablen wie im alten Modell aus den alten

Faktoren.

Die beiden Modelle

x = Λf + e und x = Λf + e

sind also, trotz der unterschiedlichen Ladungsmatrizen,’in Wirklichkeit‘ gar nicht

verschieden, sondern nur unterschiedliche Sichtweisen desselben Sachverhalts; da

die reduzierten Variablen ubereinstimmen, stimmt auch deren Kovarianzmatrix

uberein, weshalb die beiden Modelle auch aquivalent sind.

Da die Matrix G invertierbar ist, andern sich durch die Multiplikation mit G, G′

und G′−1 die Range nicht. Daraus folgt, dass aus regularen q-Faktor-Losungen

durch Rotieren wieder regulare q-Faktor-Losungen entstehen.

Ausdrucklich ist zu vermerken, dass die reduzierten Variablen x die gleichen blei-

ben, damit auch die Matrizen Kx und insbesondere die Kommunalitaten.

In dem Spezialfall, dass man aus unkorrelierten alten Faktoren wieder unkorre-

lierte neue Faktoren gewinnt, ist G eine Orthogonalmatrix und folglich Λ = ΛG.

Erganzend soll noch die Faktorstruktur des neuen Modells ausgerechnet werden:

Sie ergibt sich zu

ΛKf = ΛG′−1G′KfG = (ΛKf )G ,

entsteht also aus der alten Faktorstruktur ΛKf durch Rechtsmultiplikation mit

der Rotationsmatrix G.


Wahrend man also das neue Faktormuster aus dem alten durch Rechtsmultipli-

kation mit G′−1 erhalt, ergibt sich die neue Faktorstruktur aus der alten durch

Rechtsmultiplikation mit G.

Hieraus folgt ubrigens sofort, dass bei orthogonalen Rotationen auch nach der

Rotation Faktormuster und Faktorstruktur gleich sind (was aber auch ohne die-

ses Argument klar ist, da diese Ubereinstimmung im Modell UF ja allgemein

besteht).

Feststellung 2. Werden in einem faktorenanalytischen Modell mit Interkorrela-

tionsmatrix Kf der Faktoren f , Ladungsmatrix Λ und Faktorstruktur KfΛ die

Faktoren nach einer Rotation mit Rotationsmatrix G ersetzt durch neue Faktoren

f = G′f , so ist die neue Interkorrelationsmatrix Kf der Faktoren gleich G′KfG,

die zugehorige neue Ladungsmatrix Λ gleich ΛG′−1 und die neue Faktorstruktur

gleich (ΛKf )G.

Die bisherigen Ergebnisse sollen noch einmal in zwei Tabellen zusammengefasst

werden. Hier sind zuerst die Formeln fur den allgemeinen Fall:

KF −→ KF alt neu

Korrelationsmatrix der Faktoren Kf G′KfG

Ladungsmatrix Λ ΛG′−1

Faktorstruktur ΛKf (ΛKf ) G

Im Falle einer orthogonalen Rotation vereinfacht sich vieles:

UF −→ UF alt neu

Korrelationsmatrix der Faktoren I I

Ladungsmatrix Λ ΛG

Faktorstruktur Λ ΛG

Die bisherige Schilderung fand auf der theoretischen Ebene statt und setzte die

Gultigkeit eines Modells voraus.

Es gibt aber noch andere Situationen, in denen das Konzept der Rotation eben-

falls nutzlich ist, und zwar Situationen, in denen es darum geht, aus gegebenen

Losungen neue Losungen herzustellen.


Zur Erinnerung: Losungen waren Paare (Kf ,Λ) bei denen Kf positiv semidefinit

war und in der Diagonale Einsen enthielt, und bei denen ΛKfΛ′ auf der Diago-

nalen keine Werte besaß, die großer als 1 waren, und außerhalb der Diagonale

mit der wahren Korrelationsmatrix der beobachtbaren Variablen ubereinstimmte

bzw. mit der empirischen Korrelationsmatrix naherungsweise ubereinstimmte.

Die erste (theoretische) Situation ist hierbei die, in der man theoretisch nach

der Eindeutigkeit beziehungsweise nach dem Grad der Uneindeutigkeit moglicher

(theoretischer) Losungen bei bekannter wahrer Korrelationsmatrix fragt, und die

zweite (praktische) Situation die, in der man zu einer empirischen Losung Al-

ternativen sucht, die genauso gut passen, aber vielleicht besser interpretierbar

sind.

In der praktischen Situation steht bei der Frage der Interpretierbarkeit meist das

Faktormuster im Mittelpunkt des Interesses, und das Bestreben geht dahin, durch

Rotation dieses Muster durch ein einfacher interpretierbares zu ersetzen. Hier

liegt naturlich die Frage auf der Hand, warum eigentlich nicht die Faktorstruktur

statt des Faktormusters’behandelt‘ wird. Immerhin lasst die Bevorzugung des

Musters vermuten, dass die intendierte Interpretation eine substantielle ist. Bei

orthogonalen Rotationen tritt diese Frage ubrigens erfreulicherweise nicht auf, da

hier immer Muster und Struktur ubereinstimmen.

Die bisherige Diskussion gibt Hinweise darauf, wie eine solche Abanderung von

Losungen vor sich gehen konnte. Allerdings setzte sie die Gultigkeit und Bekannt-

heit des Modells voraus. Nun ist das wahre Modell sicher nie bekannt, und auch

daran, ob uberhaupt ein derartiges Modell gilt, konnen Zweifel bestehen. Die bis-

herige Diskussion geht daher an den geschilderten Situationen vorbei. Deshalb soll

nun untersucht werden, wieviel von den Argumenten sich fur diese Situationen

retten lasst.

Man kann sich naturlich fragen, wieso jemand, der gar nicht an das Modell

glaubt, sich trotzdem fur die Herstellung von Alternativlosungen interessieren

sollte. Warum sollte aber nicht auch ein Skeptiker die Hoffnung haben, zu ver-

stehen, was bei Rotationen geschieht, oder gar Spaß daran entwickeln, das Spiel

des Bastelns neuer sogenannter Losungen mitzuspielen, auch wenn fur ihn sol-

che Losungen nur Matrizen sind, an denen man Einfallsreichtum und Kreativitat

uben kann?

Die Uberlegungen in der theoretischen und der praktischen Situation unterschei-

den sich nur unwesentlich. Die folgende Argumentation auf theoretischer Ebene


kann daher ohne Muhe auch auf die praktische Ebene ubertragen werden.

Es sei also nun eine Losung (Kf ,Λ) gegeben, die aus einer positiv semidefiniten

Matrix Kf besteht, in deren Diagonalen sich nur Einsen finden, und aus einer

Matrix Λ, so dass ΛKfΛ′ auf der Diagonalen nur Elemente ≤ 1 besitzt und au-

ßerhalb der Diagonalen mit der wahren Korrelationsmatrix der beobachtbaren

Variablen ubereinstimmt (bei Modellgultigkeit ist ΛKfΛ′ gerade Kx, die redu-

zierte Korrelationsmatrix).

Die Rotation wird beschrieben durch eine Rotationsmatrix G, von der gefordert

wird, dass sie invertierbar ist, und dass G′KfG in der Diagonalen nur Einsen

besitzt.

Dann kann man sofort mit (Kf , Λ) = (G′KfG,ΛG′−1) eine neue Losung her-

stellen, denn einerseits ist Kf = G′KfG positiv semidefinit, und andererseits

gilt

ΛKf Λ′= (ΛG′−1)(G′KfG)(ΛG′−1)′ = ΛKfΛ

′ ,

so dass die neue Losung zur alten aquivalent ist. Aquivalent heißen Losungen ja

dann, wenn sogar die Diagonalelemente von ΛKfΛ′ und ΛKf Λ

′ubereinstimmen,

die – wenn man an das Modell glaubt – gerade die Kommunalitaten sind.

Fur den Skeptiker ist zu bemerken, dass die Bezeichnung Kf einfach nur eine

Bezeichnung ist, die im Einklang mit den bisherigen Erorterungen gewahlt wurde

und keineswegs bedeutet, dass man nun etwa an die Existenz von Faktoren f

glauben wurde oder musste – genauso verhalt es sich ja auch mit Kf .

Ferner erkennt man sofort, dass in dem Fall, dass Kf invertierbar ist, dasselbe

auch fur Kf gilt.

Bemerkenswert ist ubrigens auch, dass diese eher nuchterne Argumentation viel

sparsamer ist als die, die die Gultigkeit des Modells voraussetzt und sich dann

immer noch um die hypothetischen Faktoren kummern muss. Dennoch ist auch

diese vorherige Argumentation wichtig, beispielsweise in der Hinsicht, dass sie

einen Einwand gegen die Faktorenanalyse teilweise entkraften kann, den Einwand

der Unbestimmtheit namlich, der aus der Vielzahl moglicher Losungen resultiert.

Dass viele Losungen existieren, ware im Gegenteil einfach eine Folge der Tatsache,

dass man mit den Faktoren Variablentransformationen durchfuhren kann. Ob

dem Einwand damit vollstandig oder nur teilweise der Boden entzogen ist, mussen

spatere Untersuchungen zeigen.

Zum Schluss ist noch der Spezialfall zu behandeln, dass man von einer UF-


Losung, also von einer mit Kf = I, zu einer weiteren UF-Losung kommen will.

Man erkennt sofort, dass die Bedingungen an die Matrix G sich jetzt auf eine

reduzieren, namlich auf die Bedingung G′G = I, mit anderen Worten auf die,

dass G eine Orthogonalmatrix ist. In diesem Fall gilt auch G′−1 = G, so dass

sich der Ubergang von der ursprunglichen zur neuen Losung einfach als Λ = ΛG

schreibt (im Fall UF sind Losungen ja durch Λ schon vollstandig gegeben).

Insgesamt kann man zu einer gegebenen Losung mit Hilfe von Rotationen viele

neue aquivalente Losungen finden. Die Rotationen sind dabei durch die moglichen

Rotationsmatrizen gegeben, an die nur geringe Anforderungen gestellt werden.

Die Vielfalt moglicher Rotationsmatrizen ist daher sehr groß, wenn nicht unuber-

schaubar, und damit ebenso die Vielfalt moglicher Losungen.

Graphische Veranschaulichung des Modells. Man kann sich die Vorgange

bei der Rotation graphisch veranschaulichen und oft auch graphisch eine gute

Rotation finden. Der erste Schritt ist dabei die graphische Veranschaulichung des

Modells in Form einer kovarianztreuen Darstellung.

Es sei nun generell vorausgesetzt, dass die Matrix Kf invertierbar ist (die Vor-

bemerkung hat ja gezeigt, dass man sonst notfalls das Modell durch eines mit

weniger Faktoren ersetzen kann, bei dem diese Bedingung erfullt ist).

In der kovarianztreuen Darstellung werden zunachst die Faktoren durch Vektoren

reprasentiert, die wegen der Voraussetzung uber die Invertierbarkeit von Kf linear

unabhangig sind. Diese Vektoren bestimmen dann ein Koordinatensystem, in

dem die Koeffizienten von Linearkombinationen direkt als Koordinaten abgelesen

werden konnen.

Insbesondere sind die reduzierten Variablen solche Linearkombinationen, so dass

man ihre Reprasentanten leicht einzeichnen kann – die Koordinaten sind dann

gleichzeitig die Ladungen. Da alle Variablen zentriert sind, entsprechen sich hier

ubrigens Vektoren und Variablen eindeutig.

In einem ersten Beispiel seien die Faktoren als orthogonal vorausgesetzt. Die

Ladungsmatrix soll die folgende sein:


Λ =

0.3 0.6

0.2 0.8

0.7 0.3

−0.5 0.6

0.5 −0.7

.

Die folgende Graphik gibt eine kovarianztreue Darstellung der Situation, in der

die Achsen den Faktoren entsprechen, wahrend die Punkte die reduzierten Varia-

blen reprasentieren (der Ubersichtlichkeit halber sind hier Punkte statt Vektoren

als Darstellungsform gewahlt). Die Faktoren selber werden durch die Vektoren re-

prasentiert, die jeweils bei der 1 der zughorigen Achse enden (auch diese Vektoren

selbst sind zur besseren Uberschaubarkeit nicht eingezeichent – die Pfeilspitzen

gehoren zur Darstellung der Achsen).

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................

......................

...........

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

........

........

...........

...........

...........

rrr

r

r

...................................................................................................................................................................................................................................................................

..

..

......................

....

.....

......

..........

...................................................................................................................................

......

......................................

..

..

..

..

..

..

..

..

..

.............

f1

f2

x1x4

Die Einzelheiten der Abbildung werden jetzt ausfuhrlich erlautert.

Wegen der Unkorreliertheit der Faktoren stehen die beiden Achsen senkrecht

aufeinander. Die die reduzierten Variablen reprasentierenden Punkte haben in

diesem Koordinatensystem ihre Ladungen als Koordinaten. Beispielsweise ist

x1 = .3f1 + .6f2 als Punkt mit den Koordinaten (.3, .6) eingezeichnet.

Wegen der Kovarianztreue der Darstellung ist das Skalarprodukt zwischen zwei

Vektoren gleich der Kovarianz zwischen den zugehorigen Variablen. So ist bei-

spielsweise die Kovarianz zwischen x1 und x4 gleich dem Skalarprodukt der ent-

sprechenden Vektoren, die in der Graphik als Strecken mit eingezeichnet sind.

Die Korrelation zwischen x1 und x4 ist der Kosinus des Winkels zwischen den

beiden Strecken.


Die Korrelation zwischen zwei reduzierten Variablen ist ubrigens betragsmaßig

mindestens so groß wie die zwischen den entsprechenden Originalvariablen und

hat auch das gleiche Vorzeichen. Das gleiche gilt fur die Korrelationen zwischen

einem Faktor und einer reduzierten Variablen einerseits und diesem Faktor und

der entsprechenden Originalvariablen andererseits. Diese beiden Aussagen wur-

den schon in Kapitel 3.1 begrundet, wo sich auch genauere Formeln finden.

Die Ubereinstimmung von Kovarianzen mit den entsprechenden Skalarprodukten

gilt naturlich auch fur die reduzierten Variablen und die Faktoren und fur die

Faktoren untereinander (wo Kovarianzen gleichzeitig Korrelationen sind).

Speziell ist die Streuung einer reduzierten Variablen oder eines Faktors gleich der

Lange des entsprechenden Vektors. Die Vektoren, die die Faktoren darstellen,

haben folglich die Lange 1, wahrend die Abstande der die reduzierten Variablen

darstellenden Punkte vom Nullpunkt die Wurzeln aus den Kommunalitaten sind.

Diese Sachverhalte sollen durch den mit eingezeichneten Einheitskreis verdeut-

licht werden: Die Vektoren, die die Faktoren darstellen, haben ihre Endpunkte

auf dem Einheitskreis, wahrend die Punkte, die die reduzierten Variablen dar-

stellen, sich alle innerhalb des Kreises befinden mussen oder im Extremfall auf

der Kreislinie (das wurde einer Kommunalitat von 1 entsprechen). Die Kommu-

nalitat einer Variable ist also umso großer, je naher sich der zugehorige Punkt

am Einheitskreis befindet.

Es folgt noch ein weiteres Beispiel fur eine mogliche Ausgangssituation, jetzt eines

mit korrelierten Faktoren.

Ausgangspunkt fur ein Beispiel sei nun die folgende Ladungsmatrix:

Λ =

−0.9 1.5

−0.87 1.35

1.59 −1.35

−1.56 1.2

−1.12 0.8

.

Die Korrelation der Faktoren soll hier gleich .8 sein. Es gilt also

Kf =

(1 0.8

0.8 1

).

Zur Kontrolle wird gleich die zugehorige reduzierte Korrelationsmatrix gebildet:


Kx = ΛKfΛ′ =

0.9 0.792 −0.576 0.468 0.288

0.792 0.7002 −0.549 0.4572 0.288

−0.576 −0.549 0.9162 −0.8892 −0.6336

0.468 0.4572 −0.8892 0.8784 0.6336

0.288 0.288 −0.6336 0.6336 0.4608

.

Auch die Faktorstruktur ist von Interesse; hier ergibt sich

ΛKf =

0.3 0.78

0.21 0.654

0.51 −0.078

−0.6 −0.048

−0.48 −0.096

.

Nun soll die Situation graphisch dargestellt werden; man ermittelt hierzu als er-

stes noch den zum Kosinus .8 gehorenden Winkel 36.87 der Faktorachsen. Zur

Kontrolle der Kommunalitaten sind der Einheitskreis eingezeichnet und als Ver-

anschaulichung der Koordinatisierung die Hilfslinien zum Ablesen der Ladungen

von x2.

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................

...........

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

rr

r

r r..........................

....

.....

......

..........

...................................................................................................................................

......

.......................................

............................................................................

f1

f2x2

Wieder sind naturlich die Abstande der Punkte zum Nullpunkt die Wurzeln aus

den Kommunalitaten, was man mit der Kontrollrechnung oben leicht nachprufen

kann.

Nicht unangebracht ist vielleicht der Hinweis, dass die Ladungen in einem schief-

winkligen Koordinatensystem abgelesen werden. Daher muss es nicht uberraschen,

wenn Ladungen auch einen Betrag großer als 1 haben konnen, obwohl sich die

entsprechenden Punkte im Einheitskreis befinden (die zweite Koordinate von x2ist ein Beispiel).


Das Faktormuster erkennt man in der Darstellung also direkt durch das Ablesen

von Koordinaten.

Man kann aber auch die Faktorstruktur in der Darstellung wiederfinden, indem

man die Lote auf die Achsen fallt.

Genauer erhalt man die Korrelation der Variable xi mit dem Faktor fj, indem

man von dem Punkt, der xi reprasentiert auf die zum Faktor fj gehorende Ach-

se das Lot fallt und die Koordinate des Lotfußpunktes auf der zu dem Faktor

gehorenden Skala abliest (da die Einheit dieser Skala ihrerseits die Lange 1 be-

sitzt, ist der Betrag der Korrelation auch gleich dem Abstand des Lotfußpunktes

zum Nullpunkt).

Zur Begrundung benutzt man die Gleichung

ρ(xi, fj) = ρ(xi, fj)σ(xi) = ρ(xi, fj)σ(xi)

σ(fj),

deren erster Teil aus Kapitel 3.1 bekannt ist, und deren zweiter Teil aus σ(fj) = 1

folgt. Der Ausdruck auf der rechten Seite ist ja bekanntlich gerade die Koordinate

des Lotfußpunktes auf der durch fj gegebenen Achse, wenn die Einheit dieser

Achse durch den zu fj gehorenden Vektor definiert wird, was ja hier der Fall ist.

Als Illustration sollen fur die Variable x2, fur die oben schon die Ladungen als Ko-

ordinaten veranschaulicht wurden, auch noch die Korrelationen mit den beiden

Faktoren graphisch bestimmt werden. Zum Vergleich sind auch die Koordinaten-

linien noch mit eingezeichnet – dies demonstriert die Diskrepanz, die zwischen

Ladungen und Korrelationen im Falle korrelierter Faktoren bestehen kann.

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................

...........

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

rr

r

r r..........................

....

.....

......

..........

...................................................................................................................................

......

.......................................

............................................................................

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

......................................

f1

f2

x2

Die abgelesenen Werte stimmen mit den oben rechnerisch ermittelten Korrelatio-

nen von 0.21 und 0.654 uberein.


Im Falle unkorrelierter Faktoren fallen ubrigens – anders als in dieser Situation

– Lote und Koordinatenlinien zusammen, so dass man die gleichen Werte erhalt

(dann ist ja auch das Faktormuster gleichzeitig die Faktorstruktur).

Graphische Veranschaulichung der Rotation. Nachdem nun fur faktoren-

anlytische Modelle befriedigende graphische Veranschaulichungen gefunden sind,

sollen die Verhaltnisse bei einer Rotation in dem gewonnenen Bild verdeutlicht

werden.

Es werden dafur die beiden Beispiele aus dem letzten Abschnitt wieder aufge-

griffen. Zuerst wird der einfachere Fall behandelt, bei dem aus einem Modell mit

unkorrelierten Faktoren ein neues mit derselben Eigenschaft hergestellt wird, also

der Fall einer orthogonalen Rotation.

Ausgangspunkt ist also jetzt das erste Modell mit der Ladungsmatrix

Λ =

0.3 0.6

0.2 0.8

0.7 0.3

−0.5 0.6

0.5 −0.7

und unkorrelierten Faktoren.

Die Rotationsmatrix soll

G =

(.8 .6

−.6 .8

)sein. Diese Matrix ist eine Orthogonalmatrix, und da die ursprunglichen Faktoren

orthogonal waren, sind die Bedingungen fur eine Rotation erfullt.

Die neue Ladungsmatrix ist dann

Λ = ΛG′−1 = ΛG =

0.3 0.6

0.2 0.8

0.7 0.3

−0.5 0.6

0.5 −0.7

(.8 .6

−.6 .8

)=

−0.12 0.66

−0.32 0.76

0.38 0.66

−0.76 0.18

0.82 −0.26

.

Die Faktoren konnen nun, da sie ja Linearkombinationen der alten Faktoren sind,

in das Koordinatensystem der kovarianztreuen Darstellung eingetragen werden

– ihre Koordinatenvektoren sind die Spalten der Matrix G (dies ist ein Grund,


warum die Rotation gerade durch diese Matrix charakterisiert wurde). Der Winkel

zwischen den beiden Faktoren betragt 90, entsprechend der Tatsache, dass die

Transformationsmatrix eine Orthogonalmatrix ist und dass die ursprunglichen

Faktoren unkorreliert waren.

Die Spitzen der neuen Faktoren mussen naturlich wieder auf dem Einheitskreis

liegen, da die Darstellung kovarianztreu ist und da die neuen Faktoren auch

wieder standardisiert sein sollen. In der Darstellung wird jedoch aus Grunden

der Ubersichtlichkeit auf die Einzeichnung dieser Vektoren verzichtet; statt dessen

werden die neuen Achsen mit ihrer Skala versehen.

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................

......................

...........

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

........

........

...........

...........

...........

rrr

r

r..........................

....

.....

......

..........

...................................................................................................................................

......

.......................................

...

...

...

...

...

...

...

...

...

...

.....................

f1

f2

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................

...................

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

....................................................................................

........

........

...........

...........

...........

...............................................

f1

f2

Die Elemente der neue Ladungsmatrix, also die Koeffizienten der reduzierten Va-

riablen bezuglich der neuen Faktoren, kann man jetzt (wie allgemein bei Varia-

blentransformationen) einfach als Koordinaten in dem neuen Koordinatensystem

ablesen. Als Beispiel sind die Koordinatenlinien zum Ablesen der alten und der

neuen Koordinaten von x1 eingezeichnet – man uberzeugt sich unmittelbar von

der Ubereinstimmung mit der Rechnung.

In diesem Beispiel kann der Ubergang von der alten Losung zur neuen auch an-

schaulich als eine Rotation des Koordinatensystems beschrieben werden – daher

der Name’Rotation‘, der allerdings die Verhaltnisse nicht immer so gut beschreibt

wie hier.

Wurde man beispielsweise die Zahlen in der zweiten Spalte der Rotationsmatrix

mit durch ihr (−1)-faches ersetzen, so wurde man fast das gleiche Bild erhalten,

nur mit dem Unterschied, dass die zweite Achse nun die umgekehrte Richtung

hatte. Dann ware der Ubergang von dem ersten Achsensystem zu dem zweiten nur


mit Hilfe einer zusatzlichen Achsenspiegelung zu erreichen gewesen, also nicht mit

einer Rotation im umgangssprachlichen Sinn. Beispiele, in denen die Bezeichnung

noch weniger passt, liefern die nichtorthogonalen Rotationen.

Die hier willkurlich gewahlte Rotation erweist sich als nicht schlecht, denn die

neue Ladungsmatrix ist womoglich leichter interpretierbar wegen des Musters von

hohen und niedrigen Ladungen. Dieses Muster findet seine Entsprechung in der

Tatsache, dass die Variablenpunkte nun naher bei den Faktorachsen liegen.

Man kann sich die Moglichkeit der graphischen Veranschaulichung auch so zu

Nutze machen, dass man eine gute Rotation graphisch findet, dass man also die

Achsen selber so festlegt, dass sie nahe bei den Variablenpunkten liegen.

Jede Festlegung der Achsen entspricht namlich einer moglichen Rotation, sofern

die Achsen den ganzen Raum aufspannen und die Spitzen der Vektoren, die die

Faktoren reprasentieren sollen, auf dem Rand des Einheitskreises liegen. Diese

beiden Bedingungen sind namlich offenbar gerade die geometrische Ubersetzung

der Bedingungen, die allgemein bei der Rotation an die Matrix G gestellt wurden.

Als Beispiel soll die zweite im vorangehenden Abschnitt behandelte Situation

dienen, bei der die Faktoren korreliert waren.

Die ursprungliche Ladungsmatrix ist also

Λ =

−0.9 1.5

−0.87 1.35

1.59 −1.35

−1.56 1.2

−1.12 0.8

und die Korrelationsmatrix der Faktoren

Kf =

(1 0.8

0.8 1

).

Die Ladungsmatrix sieht nicht besonders schon aus, weil die Ladungen generell

recht hoch sind, was fur die Interpretation Unannehmlichkeiten verheißt. Gra-

phisch hat dies seine Entsprechung darin, dass die Variablenpunkte weit von den

Achsen entfernt sind.

Daher soll nun eine Rotation versucht werden, bei der die Achsen nahe an die

Punkte heranrucken. Wahlt man zum Beispiel als ersten Faktor den, der zu dem


Vektor (5/3,−4/3)′, und als zweiten den, der zum Vektor (−1, 8/5)′ gehort, so

erhalt man das folgendes Bild, in dem auch die Hilfslinien zum Einzeichnen der

Vektoren mit aufgenommen sind.

Praktisch wird es ubrigens eher so sein, dass man zuerst die gewunschten Achsen

einzeichnet und dann die Koordinaten der Schnittpunkte der Achsen mit dem

Einheitskreis abliest, um auf diese Weise die Rotationsmatrix zu erhalten.

................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ ...................

...................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ............ ..............................

...........

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

rr

r

r r..........................

....

.....

......

..........

...................................................................................................................................

......

....................................

f1

f2

f1

f2.............................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................

...................

....................................................................................

........

........

...........

...........

...........

....................................................................................

........

........

...........

...........

...........

.............................................................................................

...........................................................................................................

Die Punkte liegen dicht bei den neuen Achsen, was eine gute Interpretierbarkeit

erwarten lasst. Die neuen Ladungen kann man direkt im neuen Koordinatensy-

stem ablesen, hier sollen sie jedoch zur Kontrolle auch berechnet werden.

Die Matrix G ist hier gleich (5/3 −1

−4/3 8/5

).

Als erstes soll nachgepruft werden, ob die Matrix wirklich die Bedingungen erfullt.

Dass die Matrix invertierbar ist, ist offensichtlich, die Inverse ist

G−1 =

(1.2 0.75

1. 1.25

).

Die Berechnung von G′KfG ergibt fur Kf die Matrix(1 −0.6

−0.6 1

),

in der Diagonale stehen also die erforderlichen Einsen. Außerdem erhalt man eine

Korrelation von −.6 zwischen den beiden neuen Faktoren, was einem Winkel von


126.87 entspricht, den man auch in der Graphik findet. Schließlich ist die neue

Ladungsmatrix gleich

Λ = ΛG′−1 =

−0.9 1.5

−0.87 1.35

1.59 −1.35

−1.56 1.2

−1.12 0.8

(

1.2 1

0.75 1.25

)=

0.045 0.975

−0.0315 0.8175

0.8955 −0.0975

−0.972 −0.06

−0.744 −0.12

,

was auch im Einklang mit der Graphik steht – hier hat man zeilenweise die neuen

Koordinaten der Variablenpunkte, die nun in der Tat teilweise nahe bei 0 liegen,

was fur eine Interpretation erfreulich sein sollte.

Zum Abschluss soll noch die Faktorstruktur bestimmt werden, sie ergibt sich

rechnerisch zu0.045 0.975

−0.0315 0.8175

0.8955 −0.0975

−0.972 −0.06

−0.744 −0.12

(

1 −0.6

−0.6 1

)=

−0.54 0.948

−0.522 0.8364

0.954 −0.6348

−0.936 0.5232

−0.672 0.3264

,

was leider wegen der fast durchweg hohen Korrelationen wieder einen dunklen

Schatten auf die Interpretierbarkeit wirft.

Auch hier kann man naturlich die Korrelationen auch graphisch ermitteln, indem

man die Lote auf die neuen Koordinatenachsen fallt (denn naturlich hat man mit

den neuen Achsen eine kovarianztreue Darstellung der Situation mit den neuen

Faktoren, fur die daher die oben besprochenen Eigenschaften auch gelten).

Die bisherigen Erorterungen setzen die Gultigkeit des Modells der Faktoren-

analyse voraus und beschrieben die Moglichkeit einer graphischen Veranschau-

lichung einer Rotation, die ja nur einer Variablentransformation der Faktoren

entspricht. Auch hier ist der Nutzen fur diejenigen, die lediglich Losungen in an-

dere Losungen umformen wollen, zweifelhaft. Diejenigen, die an die Gultigkeit des

Modells glauben, konnen die bisherige Darstellung immerhin noch im Potentialis

lesen, wahrend man fur die Skeptiker uberall den Irrealis setzen musste.

Um auch diesen Leserkreis zufrieden zu stellen, sollen die geometrischen Darstel-

lungen nun fur besonders Interessierte noch einmal durchleuchtet werden, diesmal

jedoch mit großerer Zuruckhaltung, also ohne die Existenz von Faktoren voraus-

zusetzen.


Eine Losung wird jetzt wieder einfach als ein Paar (Kf ,Λ) von Matrizen mit den

bekannten Eigenschaften angesehen, unter anderem mit der, dass die vermute-

te reduzierte Korrelationsmatrix Kx gerade gleich ΛKfΛ′ ist, also durch diese

Losung reproduziert werden kann.

Angestrebt wird nun zunachst eine Darstellung dieser Losung in folgender Form:

Die Matrix Kf soll sich ergeben als Matrix der Skalarprodukte geeigneter Vek-

toren vj (die Reprasentanten der Faktoren waren, wenn man an das Modell

glaubte), die Zeilen der Matrix Λ sollen die Koordinatenvektoren geeigneter

Punkte ui bezuglich der vj sein (diese Punkte wurden den reduzierten Varia-

blen xi entsprechen), wobei diese ui die Eigenschaft haben sollen, dass die Ma-

trix ihrer Skalarprodukte eine Matrix ist, die in der Diagonale Zahlen ≤ 1 be-

sitzt und außerhalb der Diagonale mit der wahren Korrelationsmatrix der Varia-

blen bzw. naherungsweise mit der empirischen Korrelationsmatrix der Variablen

ubereinstimmt (diese Matrix von Skalarprodukten ware also gerade die vermu-

tete reduzierte Korrelationsmatrix Kx, falls man an die Gultigkeit des Modells

glaubt).

Ist dieses Ziel erreicht, so kann man die Losung (Kf ,Λ) direkt aus der Darstellung

rekonstruieren – man hat also sozusagen die in Form zweier Matrizen gegebene

Losung durch eine aquivalente geometrische Darstellung in Form geeigneter Vek-

toren ersetzt.

Da Kf positiv definit sein soll, findet man linear unabhangige Vektoren v1, . . . ,vq,

fur die Kf gerade die Matrix der Skalarprodukte ist. Stellt man die Vektoren

spaltenweise zu einer Matrix V zusammen, so gilt also V′V = Kf .

Die Vektoren vj bestimmen in der ublichen Weise die Achsen eines Koordina-

tensystems. In dieses Koordinatensystem kann man nun genau wie oben Punkte

eintragen, deren Koordinaten in den Zeilen von Λ stehen. Der Vektor, der von

0 zu dem der i-ten Zeile von Λ entsprechenden Punkt weist, sei ui genannt. Die

Vektoren ui sind naturlich gerade die Spalten von VΛ′.

Man erkennt leicht, dass die Matrix der Skalarprodukte der Vektoren ui dann

gerade ΛKfΛ′ ist, also die Matrix Kx. Die Matrix der Skalarprodukte der ui ist

namlich (VΛ′)′(VΛ′) = ΛV′VΛ′ = ΛKfΛ′.

Es ist das also das erste Teilziel einer geometrischen Darstellung der gegebenen

Losung erreicht.

Interessant ist in der Ausgangssituation jedoch auch die Matrix ΛKf , denn diese


Matrix enthalt ja in den Zeilen die Korrelationen der Variablen mit den vermute-

ten Faktoren. Schreibt man ΛKf als ΛV′V, so sieht man dass es sich bei dieser

Matrix um die Matrix der Skalarprodukte der Spalten von VΛ′ mit den Spalten

von V handelt, also als die Matrix der Skalarprodukte der ui mit den vj. Da die

vj alle Lange 1 haben, erhalt man diese Skalarprodukte auch, indem man von

den ui die Lote auf die durch die vj gegebenen Koordinatenachsen fallt und auf

den dort schon vorhandenen Skalen die Skalarprodukte abliest.

In einer geometrischen Darstellung der Ausgangslosung, die den gestellten Forde-

rungen genugt, kann man also auch die Matrix ΛKf direkt mit Hilfe von Loten

der ui auf die Achsen ablesen.

Nun soll mit dem bisher gewonnenen Bild auch der Ubergang von der gegebenen

Losung zu einer neuen rotierten Losung veranschaulicht werden; die Rotations-

matrix sei dabei G.

Zuerst konnen neue Vektoren zusatzlich eingezeichnet werden, deren Koordinaten

die Spalten von G sind. Diese Vektoren wj sind dann die Spalten der Matrix

VG. Die Matrix Kf ihrer Skalarprodukte ist G′V′VG = G′KfG, weshalb die

wj aufgrund der Eigenschaften von G auch die Lange 1 besitzen, ferner bilden

sie wieder eine Basis, da die Spalten von G als linear unabhangig vorausgesetzt

werden.

Die Koordinaten der ui bezuglich dieser neuen Basis sind nach der allgemeinen

Formel fur die Umrechnung von Koordinaten gleich G−1ui, zu den Zeilen einer

Matrix zusammengestellt also ΛG′−1, was gerade Λ ist.

Man hat auf diese Weise fur die rotierte Losung (Kf , Λ) eine Darstellung genau

der gleichen Art vor sich wie fur die ursprungliche Situation; der Unterschied ist

nur, dass das Koordinatensystem jetzt durch die neuen Vektoren wj gegeben ist.

Auch fur diese neue Losung kann man daher die Matrix ΛKf mit Hilfe von Loten

ermitteln. Schließlich ist naturlich auch hier die Matrix der Skalarprodukte der

die Zeilen von Λ reprasentierenden Punkte gleich Kx, denn dies sind ja nach wie

vor die ui. Anders ausgedruckt bedeutet das, dass die alte und die neue Losung

aquivalent sind.

Die Rotation entspricht damit gerade dem Ubergang von den vj zu den wj,

insbesondere also einem Wechsel des Koordinatensystems.

Damit sind die Verhaltnisse bei einer Rotation auch fur den Fall geometrisch

veranschaulicht, in dem die Existenz von Faktoren nicht vorausgesetzt wird.


Man erkennt ubrigens leicht, dass man auch hier anders hatte vorgehen konnen:

Anstatt eine Matrix G fur die Rotation vorzugeben, hatte man genauso gut die

neuen Vektoren wj als linear unabhangig Vektoren der Lange 1 wahlen konnen.

Stellt man ihre Koordinaten bezuglich der ursprunglichen Vektoren vj spalten-

weise zu einer Matrix zusammen, so erfullt diese offenbar die Bedingungen fur

eine Rotationsmatrix und ist dann in der Tat die zugehorige Matrix G. Damit

hat man auch das Verfahren der graphischen Rotation’technisch‘ gerechtfertigt,

ohne die Existenz von Faktoren vorauszusetzen.

Varimax-Rotation. Zum Schluss soll noch ein prominentes Rotationsverfah-

ren erwahnt werden, namlich die sogenannte Varimax-Rotation. Die Varimax-

Rotation ist eine orthogonale Rotation, bei der grob gesprochen angestrebt wird,

dass die Betrage der Zahlen, die in einer Spalte stehen, moglichst stark variie-

ren; in jeder Spalte sollen also nach Moglichkeit sowohl betragsmaßig große als

auch betragsmaßig kleine Zahlen stehen. Der Faktor, der einer solchen Spalte

entspricht, ist dann hoffentlich nicht allzu schwer interpretierbar, da er mit einer

Gruppe von Variablen ziemlich viel und mit einer anderen Gruppe ziemlich wenig

zu tun hat.

Prazisieren kann man das dadurch, dass man fordert, dass die Varianz der qua-

drierten Ladungen in den Spalten moglichst groß ist, denn eine große Varianz der

quadrierten Ladungen erzielt man eben dann, wenn viele große und viele kleine

quadrierte Ladungen in den Spalten vorliegen, also viele betragsmaßig große und

viele betragsmaßig kleine Ladungen.

Dies ist jedoch noch nicht genau das Kriterium, nach dem bei der Varimax-

Rotation vorgegangen wird, vielmehr werden die quadrierten Ladungen vorher

noch durch die zugehorigen Kommunalitaten geteilt. Maximiert werden soll dann

insgesamt die Summe der faktorweise gebildeten Varianzen der durch ihre Kom-

munalitaten dividierten quadrierten Ladungen.

Es folgen nun zunachst einige Erlauterungen zu diesem nicht unmittelbar ein-

leuchtenden Kriterium.

Da man es mit der Situation orthogonaler Faktoren zu tun hat, sind die Ladun-

gen gleichzeitig die Korrelationen der Variablen mit den Faktoren. Ist nun σ(xi)

die Streuung von xi, so gilt die Beziehung ρ(xi, fj) = ρ(xi, fj)/σ(xi), und da

σ(xi) die Wurzel aus der Kommunalitat von xi ist, folgt, dass eine durch ihre

Kommunalitat dividierte quadrierte Ladung gerade die quadrierte Korrelation

zwischen der zugehorigen reduzierten Variable und dem zugehorigen Faktor ist


oder anders ausgedruckt der Determinationskoeffizient bei der Vorhersage der

reduzierten Variable mit Hilfe des Faktors.

Das Varimaxkriterium kann also auch so umformuliert werden, dass die Sum-

me der faktorweise gebildeten Varianzen der Determinationskoeffizienten aus der

Vorhersage der reduzierten Variablen durch die Faktoren maximal werden soll.

Es sollen also die Varianzaufklarungen nicht der Variablen sondern der reduzier-

ten Variablen durch die Faktoren moglichst stark variieren, was auch sinnvoll

erscheint, da die reduzierten Variablen ja gerade die’fehlerfreien‘ Anteile der

Variablen sind.

Um auch noch eine geometrische Deutung zu erhalten, bemerkt man zunachst,

dass in einer kovarianztreuen Darstellung die durch σ(xi) dividierten Koordina-

ten des xi darstellenden Vektors gleichzeitig die Koordinaten des durch σ(xi)

dividierten Vektors sind, die durch ihre Kommunalitaten dividierten quadrierten

Ladungen also die quadrierten Koordinaten des neuen Vektors. Dabei ist σ(xi)

die Lange des Vektors, so dass die Division durch σ(xi) gerade bewirkt, dass der

Vektor auf Lange 1 gebracht wird, was man als Standardisierung interpretieren

kann, da es in der Tat der z-Transformation entspricht.

In einer Situation mit zwei Faktoren bedeutet diese Standardisierung geometrisch,

dass die Punkte, die die reduzierten Variablen darstellen, auf die Kreislinie des

Einheitskreises’projiziert‘ werden; die linke Seite der folgenden Graphik illustriert

dies fur das schon oben benutzte erste Beispiel, wobei die projizierten Punkte

großer dargestellt sind.

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................

......................

...........

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

........

........

...........

...........

...........

qqq

q

q..........................

....

.....

......

..........

...................................................................................................................................

......

....................................

f1

f2 rrr

r

r

........................

........................

. . .. . .

. . .. . .

. . .. . .

. . .. . .

....

....

....

....

....

....

........................

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................

......................

...........

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

........

........

...........

...........

...........

..

..

......................

....

.....

......

..........

...................................................................................................................................

......

....................................

f1

f2 qqq

q

q

. . . . . . . . . . ......................

. . . . . ........................

. . . . . . . . . . . . . . . . . . . . . ...........

..................................

. . . . . . . . . . . . . .....................

rrrr

r

rr rr r

Auf der rechten Seite der Graphik sind die Koordinaten der neuen Punkte her-


vorgehoben. Man erkennt nun insgesamt, dass die Varianz der durch ihre Kom-

munalitaten dividierten quadrierten Ladungen der Variablen auf einem Faktor

gleichzeitig die Varianz der quadrierten Koordinaten der neuen Punkte auf die-

sem Faktor ist.

Ziel der Varimax-Rotation ist es daher, das Koordinatensystem so zu rotieren,

dass die Summe der faktorweise gebildeten Varianzen der quadrierten Koordina-

ten der neuen Punkte auf den Faktorachsen maximal wird.

Nach diesen Erlauterungen kann das das Ziel der Varimax-Rotation noch einmal

folgendermaßen beschrieben werden:

Gesucht ist eine Rotation, die (bei orthogonalen Faktoren) zu einer Ladungsma-

trix fuhrt, fur die die Summe φ der spaltenweisen Varianzen der quadrierten und

durch ihre Kommunalitaten dividierten Ladungen maximal wird.

Zur weiteren Verdeutlichung soll nun in einem ersten Beispiel dieses φ fur ver-

schiedene Rotationen bestimmt werden. Das Beispiel ist so gewahlt, dass die

Rechnungen besonders einfach werden.

Die (orthogonale) Ausgangslosung soll die Ladungsmatrix0.5 0.5

0.4 0.4

0.5 −0.5

0.4 −0.4

besitzen. Um fur diese Matrix, also fur die unrotierte Losung, die Zahl φ zu

berechnen, werden zunachst die Kommunalitaten bestimmt: .5, .32, .5, .32. Die

Matrix der quadrierten Ladungen und die Matrix der quadrierten und durch die

Kommunalitaten dividierten Ladungen sind0.25 0.25

0.16 0.16

0.25 0.25

0.16 0.16

und

0.5 0.5

0.5 0.5

0.5 0.5

0.5 0.5

.

In beiden Spalten ist hier die Varianz gleich 0, also ist auch die Summe φ dieser

Varianzen gleich 0. Die angegebene Matrix ist also in Bezug auf das Varimax-

Kriterium von der schlechtest-moglichen Sorte (ist sie deshalb auch schlecht in-

terpretierbar??).


Nun soll eine orthogonale Rotation mit der Matrix(0.8 0.6

−0.6 0.8

)durchgefuhrt werden. Die neue Ladungsmatrix ist dann

0.1 0.7

0.08 0.56

0.7 −0.1

0.56 −0.08

,

die Kommunalitaten sind naturlich gleichgeblieben, so dass man hier als Matrix

der quadrierten Ladungen und als Matrix der quadrierten und durch die Kom-

munalitaten dividierten Ladungen0.01 0.49

0.0064 0.3136

0.49 0.01

0.3136 0.0064

und

0.02 0.98

0.02 0.98

0.98 0.02

0.98 0.02

erhalt. Wieder sind hier die Varianzen in den beiden Spalten der zweiten Matrix

gleich groß, jetzt jedoch gleich .2304, was fur φ den Wert .4608 liefert. Der Wert

des Kriteriums ist also hier schon bedeutend großer.

Das maximale φ wird allerdings durch diese Rotation noch nicht erreicht; vielmehr

kann man berechnen, dass eine mogliche Rotation, die zu einem maximalen φ

fuhrt, die durch die Matrix1√2

(1 1

−1 1

)gegebene ist. Die rotierte Ladungsmatrix ist dann

1√2

0 1

0 .8

1 0

.8 0

,

und die Matrix der quadrierten Ladungen und die der quadrierten und durch die

Kommunalitaten dividierten Ladungen sind0 0.5

0 0.32

0.5 0

0.32 0

und

0 1

0 1

1 0

1 0

,


was zu φ = .5 fuhrt. In der Tat gibt diese Ladungsmatrix hinsichtlich Interpre-

tierbarkeit zu Hoffnungen Anlass.

Nachdem nun fur dieses fur Demonstrationszwecke besonders einfache Beispiel die

Varimax-Rotation gefunden ist, soll noch fur das erste Beispiel aus dem Abschnitt

uber graphische Rotation zum Vergleich auch die Varimax-Rotation vorgestellt

werden.

Die Ladungsmatrix war hier

Λ =

0.3 0.6

0.2 0.8

0.7 0.3

−0.5 0.6

0.5 −0.7

.

Fur diese Ausgangsmatrix erhalt man ein φ von 0.141525. Als eine im Hinblick

auf das Varimax-Kriterium optimale Rotationsmatrix findet man beispielsweise

die folgende Matrix: (0.727039 −0.686596

0.686596 0.727039

),

die zu folgender neuen Ladungsmatrix fuhrt:0.630069 0.230245

0.694685 0.444312

0.714906 −0.262506

0.0484382 0.779521

−0.117098 −0.852225

.

Das Kriterium φ ist hier 0.32533. Es folgt noch die Darstellung der rotierten

Faktoren:

..................................................................................................................................................................................................................................................................................................................................................................................................................................................... ...................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ....................

......................

...........

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

....

........

........

...........

...........

...........

rrr

r

r..........................

....

.....

......

..........

...................................................................................................................................

......

....................................

f1

f2

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................

...................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

........

........

........

........

........

........

........

........

........

........

....

........

........

...........

...........

...........

f2 f1

3.5 Faktorenextraktion FA13 100

Im Fall von zwei Faktoren kann man die Varimax-Rotation ubrigens durch geeig-

nete Formeln ermitteln, wahrend bei mehr als zwei Faktoren iterative Verfahren

Anwendung finden.

In der Praxis wird fast standardmaßig und geradezu reflexhaft die Varimax-

Rotation angewendet; ein kritischer Beobachter, der immerhin noch an Faktoren

glaubt, wird sich fragen, warum ausgerechnet diese Rotation zu den’wahren‘ Fak-

toren fuhren soll, oder, anders formuliert, warum denn die Natur so eingerichtet

sein sollte, dass ihre Faktoren alle ausgerechnet die Varimax-Bedingung erfullen?

3.5 Faktorenextraktion

In diesem Abschnitt geht es um die Frage, wie man zu einer Losung fur die

Faktorenanalyse kommt, wie man also zu einer Ladungsmatrix und gegebenen-

falls zu einer Interkorrelationsmatrix der Faktoren gelangt, fur die die zugehorige

Korrelationsmatrix der Variablen der empirischen Korrelationsmatrix so ahnlich

ist, dass man (falls man uberhaupt die Faktorenanalyse fur sinnvoll erachtet) die

Richtigkeit des entsprechenden Modells fur moglich halt. Ein Teilproblem ist es

dabei, die Anzahl der Faktoren zu bestimmen. Man spricht dabei auch davon,

dass man aus den Daten Faktoren extrahiert (im Gegensatz zu den Vorgangen

beim Zahnarzt ist das Extrahierte hier das Wertvolle, das, was ubrigbleibt, hinge-

gen nur Datenschrott). Trotz der berechtigten Einwande des Skeptikers, dass mit

solchen Formulierungen womoglich nur das Vertrauen in unsinnige Vorgehenswei-

sen gestarkt wird, soll diese putzige Bezeichnung auch hier verwendet werden. Die

folgenden Erorterungen werden hoffentlich deutlich machen, wie unangemessen

die durch die Bezeichnung wachgerufenen Assoziationen sind (es sei denn, diese

beziehen sich auf die Schmerzen beim Zahnarzt).

Ein wichtiges Teilthema ist dabei die Frage, ob die Losung eindeutig ist, was im

wesentlichen die Frage nach der Identifizierbarkeit der Parameter ist, die Frage

also, ob es in dem (mehr als) bestmoglichen Fall einer bekannten Interkorrelati-

onsmatrix der Variablen moglich ist, die Parameter des Modells zu erschließen.

Die Parameter sind dabei die Elemente der Ladungsmatrix und gegebenenfalls

Korrelationen der Faktoren.

Diese wichtige Frage macht Untersuchungen auch auf der theoretischen Ebene er-

forderlich. Eine Teilantwort ist schon bekannt: Identifizierbarkeit kann bestenfalls

bis auf Rotationen gelten, was jedoch vom multivariaten Standpunkt aus nicht


schlimm war. Die Frage, die bleibt, ist dann die, ob die Parameter wenigstens bis

auf Rotationen erschließbar sind.

Man erleichtert sich das Vorhaben, wenn man von Losungen fordert, dass sie

die Bedingungen erfullen, dass die Spalten der Ladungsmatrix linear unabhangig

sind und dass die Interkorrelationsmatrix der Faktoren positiv definit ist.

Eine Losung mit q Faktoren, die diese beiden Bedingungen erfullt, soll kurz auch

eine regulare q-Faktor-Losung heißen.

Im letzten Kapitel hat sich bereits gezeigt, dass sowohl auf theoretischer Ebene als

auch auf empirischer Ebene in dem Fall, dass diese Bedingungen nicht erfullt sind,

die Modelle bzw. Losungen so modifiziert werden konnen, dass die Bedingungen

gelten – ein wichtiger Aspekt ist dabei die Reduzierung der Anzahl der Faktoren.

Der ernsthafte Anhanger einer substantiellen Interpretation wird womoglich mit

diesen Modifikationen nicht zufrieden sein und seinen alten Faktoren nachtrauern,

da die neuen Faktoren im Gegensatz zu den alten nur noch einen kunstlichen und

willkurlichen Charakter besitzen. Wir konnen an dieser Stelle leider nicht mehr

tun, als ihm fur seinen Idealismus unseren Respekt auszudrucken und ihm fur

seine weiteren Bemuhungen alles Gute zu wunschen.

Im Folgenden soll also vorausgesetzt werden, dass die Korrelationsmatrix Kf der

Faktoren positiv definit ist und die Ladungsmatrix Λ linear unabhangige Spalten

besitzt, was gerade bedeutet, dass ihr Rang q ist. Hieraus folgt, dass auch die

Kovarianzmatrix Kx = ΛKfΛ′ der reduzierten Variablen den Rang q besitzt.

Man kann jetzt also die Zahl der Faktoren direkt am Rang von Kx ablesen –

genauer: man konnte es, besaße man diese Matrix.

Unter der genannten Einschrankung soll nun das Problem der Faktorenextrakti-

on in drei Stufen behandelt werden: Im ersten Schritt soll vorausgesetzt werden,

dass die wahre reduzierte Korrelationsmatrix der beobachtbaren Variablen be-

kannt ist, im zweiten Schritt, dass immerhin die wahre Korrelationsmatrix zur

Verfugung steht, und erst im dritten Schritt soll die realistische Situation in An-

griff genommen werden, dass nur eine empirische Korrelationsmatrix vorliegt.

Losungen bei bekannter wahrer reduzierter Korrelationsmatrix. Es wird

in diesem Abschnitt vorausgesetzt, dass die wahre reduzierte Korrelationsmatrix

Kx bekannt (– fur den Skeptiker: vorgegeben –) ist. Die Frage ist, ob und wie sich

Losungen finden lassen, also eine (potentielle) Ladungsmatrix Λ und eine positiv

definite Matrix Kf (die Interkorrelationsmatrix der potentiellen Faktoren), deren


Diagonalelemente alle 1 sind, so dass

Kx = ΛKfΛ′

gilt.

Die Uberlegungen dieses Abschnitts bewegen sich also auf der theoretischen Ebe-

ne.

Wie schon weiter oben festgestellt wurde, ist jetzt die Zahl q der Faktoren wegen

der Voraussetzungen gleich dem Rang von Kx. Klammert man Kx = Λ(KfΛ′),

so sieht man außerdem, dass alle Spalten von Kx im Bild von Λ liegen mussen,

und dass sogar wegen der Gleichheit der Range von Λ und Kx die Bilder von

Kx und Λ ubereinstimmen mussen. Dies ist eine erste Einschrankung fur die

moglichen Matrizen Λ.

Zuerst soll nun gezeigt werden, dass es tatsachlich Losungen mit q Faktoren gibt.

Man kann dazu verschiedene Methoden benutzen; die hier als erste gewahlte

macht deutlich, wie umfangreich die Menge der moglichen Losungen ist.

Die Bedingung, dass die Spalten von Λ das Bild von Kx aufspannen sollen, legt

nahe, als Ausgangspunkt fur die Wahl von Λ irgendeine (p × q) Matrix Λ0 zu

wahlen, deren Spalten eine Basis des Bildes von Kx sind (es wird sich zeigen,

dass dies bis auf eine Ersetzung der Spalten durch Vielfache schon eine Losung

ist). Setzt man nun Λ′0Λ0 =: A so hat A Rang q und ist daher invertierbar.

Außerdem ist A symmetrisch. Setzt man jetzt

K0 := A−1Λ′0KxΛ0A−1 ,

so ist K0 offenbar positiv semidefinit, und ferner gilt

Λ0K0Λ′0 = Kx

(wie noch zu zeigen ist), so dass man fast fertig ist.

Um die Gleichung Λ0K0Λ′0 = Kx einzusehen, schreibt man zunachst die linke

Seite aus:

Λ0K0Λ′0 = Λ0A

−1Λ′0KxΛ0A−1Λ′0 = PKxP ,

wenn man P := Λ0A−1Λ′0 = Λ0(Λ

′0Λ0)

−1Λ′0 setzt. Man erkennt, dass P die

orthogonale Projektion auf das Bild von Λ0 ist, weshalb PKxP = KxP ist (die

Spalten von KxP liegen alle im Bild von Λ0, weshalb sie durch P nicht mehr

geandert werden). Wegen (KxP)′ = P′Kx′ = PKx = Kx = Kx

′ ist schließlich


KxP = Kx und die Gleichung gezeigt. Weiter folgt, dass K0 mit Kx den Rang q

besitzen muss.

Der einzige Nachteil ist der, dass die Diagonale von K0 nicht aus Einsen besteht.

Immerhin konnen dort nur echt positive Zahlen auftreten (K0 ist invertierbar,

daher positiv definit, weshalb alle Diagonalelemente, die ja mindestens gleich dem

kleinsten Eigenwert sind, positiv sein mussen). Ist dann D die Diagonalmatrix,

deren Diagonalelemente die Wurzeln der Diagonalelemente von K0 sind, so ist D

invertierbar und die Matrix D−1K0D−1 ist mit K0 positiv definit und besitzt in

der Diagonale nur Einsen. Setzt man also Kf = D−1K0D−1 und kompensatorisch

Λ = Λ0D, so gilt

ΛKfΛ′ = Λ0DD−1K0D

−1DΛ′0 = Λ0K0Λ′0 = Kx ,

und eine Losung ist gefunden.

Die gefundene Ladungsmatrix Λ = Λ0D entsteht aus Λ0 dadurch, dass die Spal-

ten mit den Diagonalelementen von D multipliziert werden. Da Λ0 spaltenweise

eine beliebige Basis war, kann man insgesamt also jede Basis des Bildes von Kx

als Ladungsmatrix verwenden, wenn man ihre Elemente nur noch geeignet um-

skaliert. Dies macht deutlich, wie riesig die Menge der moglichen Losungen ist.

Kurz zusammengefasst gelangt man also folgendermaßen zu einer Losung: Man

stellt eine beliebige Basis von Bild(Kx) zu einer Matrix Λ0 zusammen, bildet dann

K0 = (Λ′0Λ0)−1Λ′0KxΛ0(Λ

′0Λ0)

−1 und die Diagonalmatrix D mit den Wurzeln

der Diagonalelemente von K0 in der Diagonale, und erhalt schließlich mit Λ =

Λ0D und Kf = D−1K0D−1 eine Losung (Kf ,Λ) mit ΛKfΛ

′ = Kx.

Aus dieser Losung bekommt man ubrigens mit Λ(Kf )1/2 als Ladungsmatrix eine

weitere Losung, die zusatzlich noch orthogonale Faktoren hat; es gilt namlich

(Λ(Kf )1/2)(Λ(Kf )

1/2)′ = ΛKf1/2Kf

1/2Λ′ = ΛKfΛ′ = Kx .

Schließlich gibt es fur das Problem so etwas wie eine’Standardlosung‘, die man

erhalt, wenn man die q normalisierten Eigenvektoren der Matrix Kx mit Eigen-

werten 6= 0 zu einer moglichen Ladungsmatrix Λ zusammenstellt. Ublicherweise

ordnet man die Spalten nach absteigenden Eigenwerten. Da dann ΛΛ′ = Kx gilt,

hat man sogar eine Losung mit orthogonalen Faktoren.

Zu dieser Losung ist ein Kommentar angebracht. Bei orthogonalen Losungen

ist es ja generell so, dass die Summe der quadrierten Ladungen spaltenweise


als ein Maß fur die Bedeutung des Faktors im Sinne der aufgeklarten Varianz

verwendet werden kann. Hier sind diese Summen die quadrierten Langen der

Spaltenvektoren, und da diese Vektoren normalisierte Eigenvektoren sind, sind

die Summen folglich die zugehorigen Eigenwerte.

Die Eigenwerte von Kx stimmen daher bei dieser speziellen orthogonalen Losung

mit den Maßen der durch die Faktoren aufgeklarten Varianzen uberein.

Es folgt ein Beispiel fur die’Standardlosung‘: Die Matrix Kx sei0.5 0.5 0.

0.5 0.52 0.14

0. 0.14 0.98

.

Man rechnet leicht nach, dass die Eigenwerte der Matrix 1.1, .9 und 0 sind.

Die Matrix hat also Rang 2, weshalb es eine Losung mit zwei Faktoren gibt.

Als Eigenvektoren zu den beiden von 0 verschiedenen Eigenwerten findet man

beispielsweise die Spalten der Matrix0.5 −0.5

0.6 −0.4

0.7 0.7

,

und man rechnet leicht nach, dass diese speziellen Eigenvektoren sogar norma-

lisiert sind (die Summen der quadrierten Eintrage in den Spalten sind 1.1 und

.9, also die Eigenwerte von Kx). Daher ist diese Matrix bereits die Ladungsma-

trix Λ. Nach Konstruktion gilt ΛΛ′ = Kx, wie man ebenfalls leicht nachrechnet;

man hat also in der Tat eine orthogonale Losung. Da die Losung orthogonal ist,

sind die Summen der quadrierten Eintrage in den Spalten (hier also die Eigen-

werte) als Maße fur die Bedeutung der Faktoren im Sinne der Varianzaufklarung

interpretierbar. Ihre Summe ist die Gesamtkommunalitat (hier 2), die mit der

Gesamtvarianz 3 der Variablen verglichen werden kann.

In einer weitgehend ublichen Form mit Kommunalitaten und Maßen fur die Be-

deutungen der Faktoren notiert sieht diese Losung so aus:

λij f1 f2 h2ix1 .5 −.5 .5

x2 .6 −.4 .52

x3 .7 .7 .98∑i λij

2 1.1 .9 2


Das Besondere dieser speziellen Losung im Vergleich zu anderen orthogonalen

Losungen ist, dass die Summen der quadrierten Ladungen in der letzten Zeile

gleichzeitig die Eigenwerte der reduzierten Korrelationsmatrix sind.

Bisher deutet sich an, dass die Menge moglicher Losungen sehr groß ist, erfreu-

licherweise lassen sich jedoch alle Losungen mit q Faktoren durch eine Rotation

ineinander uberfuhren.

Um dies einzusehen, sollen zwei Losungen mit q Faktoren miteinander vergli-

chen werden, die jeweils aus einer Ladungsmatrix Λi und einer positiv definiten

Interkorrelationsmatrix der Faktoren Ki bestehen (i = 1, 2). Es gilt also

Λ1K1Λ′1 = Kx = Λ2K2Λ

′2 .

Da die Spalten beider Ladungsmatrizen Basen desselben Unterraums Bild(Kx)

sind, lasst sich eine invertierbare (q × q)-Matrix T finden, so dass Λ2 = Λ1T

gilt. Außerdem gibt es eine (q × p)-Matrix A, so dass AΛ1 = I gilt (z.B. A =

(Λ′1Λ1)−1Λ′1). Setzt man das ein, so erhalt man

Λ1K1Λ′1 = Λ2K2Λ

′2 = Λ1TK2T

′Λ′1 ,

und multipliziert man dies von links mit A und von rechts mit A′, so erhalt man

K1 = TK2T′ oder

K2 = T−1K1T′−1 .

Setzt man jetzt noch G = T′−1, also T = G′−1 so gilt

Λ2 = Λ1G′−1 und K2 = G′K1G ,

weshalb man die zweite Losung durch Rotation mit der Matrix G aus der ersten

erhalt.

Insgesamt hat man das Ergebnis, dass bei bekannter reduzierter Korrelationsma-

trix Kx des Ranges q Losungen mit q Faktoren existieren, und dass diese sich

alle durch geeignete Rotationen ineinander uberfuhren lassen. Bis auf Rotationen

(die ja vom multivariaten Standpunkt aus vertretbar erscheinen) ist die Losung

hier also eindeutig (vorausgesetzt, sie hat q Faktoren).

Insbesondere kann jede beliebige Losung durch eine Rotation in eine orthogonale

Losung uberfuhrt werden, denn einige von den gefundenen Losungen waren ja

orthogonal. Naturlich liefert diese auch dieselbe reduzierte Korrelationsmatrix.

Als wichtige Folgerung ergibt sich, dass man sich bei der Suche nach Losungen


zunachst auf orthogonale Losungen beschranken kann, denn mit anschließenden

Rotationen kann man dann alle Losungen aus einer orthogonalen gewinnen.

Das Modell mit beliebigen Faktoren ist also, entgegen dem ersten Anschein, nicht

’reicher‘ als das mit orthogonalen Faktoren, da bei beiden Modellen die Menge der

mit q Faktoren vertraglichen Korrelationsmatrizen der beobachtbaren Variablen

die gleiche ist.

Zu der Aussage, dass jeweils zwei Losungen durch eine Rotation ineinander

uberfuhrt werden konnen, ist allerdings noch eine einschrankende Bemerkung

zu machen: Als Losung ist eine mogliche Ladungsmatrix (oder ein Paar aus La-

dungsmatrix und Interkorrelationsmatrix der Faktoren) bezeichnet worden mit

der Eigenschaft, dass diese Matrix (bzw. diese Matrizen), formal in die entspre-

chende Gleichung eingesetzt, die reduzierte Korrelationsmatrix liefert. Keines-

wegs gibt also eine Losung die hypothetischen Faktoren selbst an, diese bleiben

vielmehr im Dunkeln, wenn sie denn uberhaupt existieren.

Die angesprochenen Rotationen konnen daher auch nicht etwa hypothetische

Faktoren ineinander uberfuhren, sondern vermitteln nur formal zwischen den La-

dungsmatrizen (und gegebenenfalls Faktoreninterkorrelationsmatrizen). Die Aus-

sage uber die Rotation darf also auf keinen Fall so fehlverstanden werden, als hatte

man bis auf eine Rotation in einem substantiellen Sinne die Faktoren gefunden.

Ebensowenig hat man naturlich – jetzt im Modell gesprochen – die Faktoren als

Zufallsvariablen gefunden, sondern eben nichts anderes als zur Vorstellung solcher

Variablen passende Matrizen.

Leider taucht in Darstellungen praktischer Anwendungen der Faktorenanalyse

immer wieder die notorische Formulierung auf,’man habe soundso viele Fakto-

ren gefunden‘, die genau diese Missverstandnisse nahelegt und bei unkritischen

Lesern einen vollig verkehrten Eindruck hervorrufen muss.

Vielleicht ist es angebracht, diesen Punkt an einem primitiven Beispiel noch weiter

zu verdeutlichen. In diesem Beispiel existiert nur eine Variable, von der voraus-

gesetzt sei, dass ihre reduzierte Korrelationsmatrix aus der Zahl .64 besteht. Dies

ist mit dem Modell eines Faktors vertraglich. Die Ladungsmatrix besteht dann

aus der Zahl .8 (oder −.8). Die beiden Losungen lassen sich in der Tat durch

eine Rotation ineinander uberfuhren, wobei die Rotationsmatrix aus der Zahl −1

besteht.

Einen Faktor im substantiellen Sinn hat man an dieser Stelle uberhaupt nicht


gefunden. Man kann sich jedoch durch Zusatzuberlegungen klar machen, dass

man – unter unkritischen Zusatzvoraussetzungen – Variablen konstruieren kann,

die als Faktor in Betracht kommen.

Zu diesem Zweck sei vorausgesetzt, dass neben der beobachtbaren Variable x eine

weitere Variable y existiert, die mit x unkorreliert ist und Varianz 1 besitzt (bei

einem hinreichend großen Wahrscheinlichkeitsraum sollte das kein Problem sein).

Definiert man dann f als .8x+ .6y, so hat man eine Variable konstruiert, die die

Rolle des Faktors spielen kann: Die Varianz von f ist 1, und setzt man den Fehler

e gleich x − .8f = x − .64x − .48y = .36x − .48y, so rechnet man sofort nach,

dass e und f unkorreliert sind; das faktorenanalytische Mini-Modell x = .8f + e

ist damit samt seinen Annahmen erfullt.

Dasselbe kann man mit einer weiteren Variable y1 wiederholen, die die gleichen

Eigenschaften wie y hat, von y jedoch verschieden ist. Man erhalt eine weite-

re Variable f1, die ebenfalls die Rolle des Faktors ubernehmen kann, die jedoch

offensichtlich mit f nicht ubereinstimmt. Man sieht also, dass bei dieser Fakto-

renextraktion (die hier nur daraus besteht, dass man die Wurzel aus .64 zieht)

keinesfalls ein Faktor im Sinne einer Zufallsvariable gefunden wurde, wenn man

diese Formulierung so versteht, als hatte man ein vorher verborgenes Objekt ans

Tageslicht gezerrt. Ein Faktor in diesem eindeutigen Sinne existiert eben auf

Modellebene uberhaupt nicht, vielmehr kann man beliebig viele Zufallsvariablen

konstruieren, die die Rolle eines solchen Faktors ubernehmen konnten.

Es sollte klar sein, dass man Faktoren, die nicht eindeutig aus der Ladungs-

matrix hervorgehen, auch nicht durch Rotationen ineinander uberfuhren kann.

Trotzdem auch hierzu noch ein Beispiel. Zu der Losung mit der Ladung −.8 kann

man auf die beschriebene Art ebenso beliebig Zufallsvariablen konstruieren, die

als Faktoren in Betracht kommen konnten. Ein Beispiel erhalt man, wenn man

mit dem schon oben verwendeten y den Faktor f2 als −.8x+ .6y wahlt; die glei-

chen Uberlegungen wie oben zeigen, dass man damit das Modell erfullen kann.

Die Rotation, die formal die Losungen ineinander uberfuhrt, namlich die Multi-

plikation mit −1, macht aus f jedoch die Variable −f = −.8x− .6y, die offenbar

nicht mit f2 ubereinstimmt.

Uberlegungen wie in dem Mini-Modell lassen sich – jedenfalls bei genugend großen

Wahrscheinlichkeitsraumen – in jeder Situation anstellen, in der man eine formale

Losung gefunden hat. Man findet also zu einer formalen Losung dann beliebig

viele q-dimensionale Variable, die alle die Rolle des Faktorvektors ubernehmen

konnen, sonst jedoch wenig miteinander zu tun haben. Keinesfalls mussen sie


jedenfalls durch die Rotation ineinander uberfuhrbar sein, die formal zwischen

den entsprechenden Modellen vermittelt, die also aus einem Paar von Matrizen

ein anderes Paar von Matrizen herstellt.

Davon, dass man mit einer Losung auch Faktoren gefunden hatte, kann also keine

Rede sein.

Losungen bei bekannter wahrer Korrelationsmatrix. Im nachsten Schritt

soll nun vorausgesetzt werden, dass die wahre Korrelationsmatrix Kx der be-

obachtbaren Variablen bekannt ist, nicht jedoch die wahre reduzierte Korrela-

tionsmatrix Kx. Die Frage ist die, ob dann die Ladungsmatrix wenigstens bis

auf Rotation’identifizierbar‘ ist, also aus der Korrelationsmatrix rekonstruiert

werden kann.

Es soll also weiterhin vorausgesetzt werden, dass das Modell der Faktorenanalyse

mit p Variablen und q Faktoren gilt, wobei die Interkorrelationsmatrix Kf der

Faktoren und die Ladungsmatrix Λ beide Rang q besitzen sollen.

Beobachtbar sind nur die p Variablen, daher ist deren Korrelationsmatrix die

Basis fur die Suche nach den gesuchten Bestimmungsstucken des Modells. Es ist

nun zu fragen, ob die Suche erfolgreich sein kann, wenn man – was schon der

eigentlich nicht erreichbare Grenzfall ist – die (theoretische) Korrelationsmatrix

Kx der Variablen kennt.

Nach den Ergebnissen des letzten Abschnitts ware das Problem schon dann gelost,

wenn man nur die Matrix Kx kennen kennen wurde; insbesondere ware der Rang

dieser Matrix gleich der Anzahl q der Faktoren. Damit bleibt die Frage, ob Kx

aus Kx eindeutig erschließbar ist.

Die Matrizen Kx und Kx unterscheiden sich nur in der Diagonale, wobei die

Einsen in der Diagonale von Kx bei Kx durch die Kommunalitaten ersetzt sind.

Man kann das Problem also auch so formulieren: Sind die Kommunalitaten auf

der Grundlage von Kx eindeutig rekonstruierbar?

Die Frage, ob man von Kx auf Kx schließen kann, bedeutet genauer, ob es nur

auf eine Weise moglich ist, die Diagonale von Kx so abzuandern, dass eine positiv

semidefinite Matrix von kleinerem Rang entsteht (jede derartige Matrix fuhrt ja

zu einer moglichen Losung, wenn auch nicht unbedingt zur richtigen Losung im

Sinne des wahren Modells).


Die Antwort auf diese Frage ist nur teilweise befriedigend: Eine solche Anderung

der Diagonale ist praktisch immer moglich, jedoch leider meist in vielerlei Weise,

so dass fur die Eindeutigkeit Zusatzbedingungen zu stellen sind.

Sinnvolle Zusatzbedingungen bestehen darin, dass man einerseits Forderungen an

die Zahl der Faktoren stellt und andererseits entsprechende Vorschriften fur die

Losung macht.

Von der Zahl q der Faktoren ist zu fordern, dass q im Verhaltnis zu p’hinreichend

klein‘ ist, und von der Losung wird man entsprechend verlangen, dass der Rang

von Kx durch die Anderung in der Diagonale moglichst stark erniedrigt wird.

Ist, als grobe Regel, die Zahl q der Faktoren kleiner als p/2, also kleiner als die

halbe Anzahl der Variablen, so sollten sich die Kommunalitaten in der Regel

eindeutig rekonstruieren lassen.

Diese sehr grobe Regel lasst sich in vielen Fallen noch verbessern, allerdings darf

die Zahl der Faktoren nicht zu groß werden: Falls die Ungleichung (p+q) > (p−q)2gilt, sind in der Regel die Kommunalitaten nicht rekonstruierbar.

Im Folgenden sollen diese Probleme an ganz einfachen Beispielen illustriert wer-

den.

Als erstes Beispiel sei eine Korrelationsmatrix von 3 Variablen betrachtet: 1 0.1 0.2

0.1 1 0.4

0.2 0.4 1

.

Zunachst soll nach Moglichkeiten gesucht werden, die Diagonale irgendwie so

abzuandern, dass der Rang kleiner wird – eine maximale Verkleinerung des Rangs

wird also noch nicht angestrebt.

Um den Rang zu verkleinern, kann man beispielsweise uberall in der Diagonale

den kleinsten Eigenwert 0.586059 abziehen und erhalt dann mit0.413941 0.1 0.2

0.1 0.413941 0.4

0.2 0.4 0.413941

eine Matrix vom Rang 2.

Das Verfahren, den Rang dadurch zu verkleinern, dass man uberall in der Dia-

gonale den kleinsten Eigenwert abzieht, funktioniert auch im allgemeinen Fall


immer, man uberlegt sich namlich leicht, dass allgemein die Eigenwerte einer

Matrix A − kI gerade die um k verminderten Eigenwerte von A sind (bei glei-

chen Eigenvektoren). Zieht man also bei einer Matrix den kleinsten Eigenwert

uberall in der Diagonale ab, so erhalt man eine Matrix, deren kleinster Eigenwert

0 ist, weshalb sich der Rang vermindert haben muss.

Diese Moglichkeit ist jedoch nicht die einzige, den Rang der oben gegebenen

Matrix um 1 zu vermindern. Beispielsweise sind hier auch noch 1 0.1 0.2

0.1 0.2 0.4

0.2 0.4 0.8

,

0.3 0.1 0.2

0.1 0.7 0.4

0.2 0.4 0.3

,

0.1 0.1 0.2

0.1 0.5 0.4

0.2 0.4 0.5

positiv semidefinite Matrizen vom Rang 2, die außerhalb der Diagonale mit der

gegebenen Korrelationsmatrix ubereinstimmen. Man kann sich uberlegen, dass

man bei einer (p× p)-Korrelationsmatrix praktisch immer (p− 1) der geanderten

Diagonalelemente in gewissen Bereichen vorschreiben kann und das letzte dann

so bestimmen kann, dass das Ergebnis positiv semidefinit ist und Rang (p − 1)

besitzt.

Dies bedeutet, dass man, gleichgultig, was die Ausgangsvariablen sind, praktisch

immer unendlich viele Losungen mit (p−1) Faktoren findet, die sich zudem nicht

durch eine Rotation ineinander uberfuhren lassen.

Dass sich die Losungen nicht durch eine Rotation ineinander uberfuhren lassen,

folgt daraus, dass sonst die reduzierten Korrelationsmatrizen ubereinstimmen

mussten.

Modelle, bei denen man nicht ausschließt, dass q = p − 1 sein kann, sind also

nicht sehr sinnvoll, da es hier prinzipiell unmoglich ist, an die Modellparameter

zu gelangen (auch nicht bis auf Rotation, was ja harmlos ware).

Das Beispiel illustriert bis jetzt, dass die Rekonstruktion der Kommunalitaten

dann scheitern muss, wenn uber die Zahl der Faktoren keine weitere Einschrankung

gemacht wird. Hier war auch die Moglichkeit von q = p − 1 Faktoren zugelas-

sen, und dies lasst, da dann p + q großer als (p − q)2 = 1 ist, nach der zweiten

angegebenen Regel Schwierigkeiten befurchten.

Um Eindeutigkeit zu erzwingen, soll nun versucht werden, den Rang der Matrix

maximal zu erniedrigen. Da außerhalb der Diagonale Zahlen 6= 0 stehen, kann

der Rang 0 nicht erreicht werden. Es ist daher zu untersuchen, ob der Rang 1

erreicht werden kann.


In der Tat findet man in dem Beispiel nur eine einzige Moglichkeit, die Diagonale

so abzuandern, dass der Rang der entstehenden Matrix 1 ist, namlich die folgende:0.05 0.1 0.2

0.1 0.2 0.4

0.2 0.4 0.8

.

Zu dieser Matrix gehort dann eine Losung mit nur einem Faktor. Wenn in diesem

Fall also in Wahrheit nur ein Faktor existierte, so konnten damit die Modellpa-

rameter (bis auf eine Rotation, die hier aber nur die Multiplikation mit −1 ist)

gefunden werden. Stand hingegen hinter der gegebenen Matrix ein wahres Modell

mit 2 Faktoren, so ist die jetzt gefundene Losung nicht richtig.

Allgemein kann man sich uberlegen, dass bei drei Variablen in dem Fall, dass die

Korrelationen sich in ihrer Große nicht allzu stark unterscheiden und ihr Produkt

positiv ist, immer eine eindeutige Einfaktorlosung gefunden werden kann.

Ist also in Wahrheit die Zahl q der Faktoren gleich 1, so sollten fur p = 3 die

Kommunalitaten in der Regel rekonstruierbar sein; hier ist auch die Zahl der

Faktoren kleiner als die halbe Anzahl der Variablen, so dass nach der ersten

angegebenen Regel auf Eindeutigkeit zu hoffen ist.

Dies ist ein Ergebnis, welches zwar hinsichtlich der Identifizierbarkeit erfreulich

ist, andererseits jedoch inhaltlich zu Bedenken Anlass gibt, wenn irgendwo eine

Einfaktorlosung gefunden wurde. Diese ist ja, gleichgultig welche Variablen man

untersucht, in weiten Bereichen bei drei Variablen der Normalfall. Mit anderen

Worten spricht die Existenz einer Einfaktorlosung bei drei Variablen allgemein

in keiner Weise dafur, dass’in Wirklichkeit‘ ein Modell mit einem Faktor gilt.

Im Kontrast hierzu uberlegt man sich ubrigens leicht, dass fur den Fall, dass das

Produkt der drei Korrelationen negativ ist, keine Einfaktorlosung existieren kann.

Hier hat man dann praktisch immer das Problem vieler nicht durch Rotation

ineinander uberfuhrbarer Losungen.

Um weiter zu prufen, wieweit die Hoffnung gerechtfertigt ist, weitgehend eindeu-

tige Losungen zu erhalten, wenn zusatzlich gefordert wird, dass der Rang der

reduzierten Korrelationsmatrix minimal ist, soll noch der Fall von 4 Variablen an

einem Beispiel untersucht werden. Die Korrelationsmatrix sei die folgende:


1 0.2 0.4 0.2

0.2 1 0.3 0.1

0.4 0.3 1 0.15

0.2 0.1 0.15 1

.

An den vier Zahlen rechts oben sieht man, dass durch keine Abanderung der Dia-

gonale ein Rang von 1 erreicht werden kann. Der minimale Rang ist also besten-

falls 2. Andererseits kann man sich klar machen, dass man in gewissen Bereichen

das erste Diagonalelement vorschreiben kann und die restlichen dann geeignet so

erganzen kann, dass der Rang gleich 2 wird. Zwei Beispiele fur Abanderungen,

die zum Rang 2 fuhren, sind0.6 0.2 0.4 0.2

0.2 0.4 0.3 0.1

0.4 0.3 0.35 0.15

0.2 0.1 0.15 0.07

und

0.8 0.2 0.4 0.2

0.2 0.25 0.3 0.1

0.4 0.3 0.4 0.15

0.2 0.1 0.15 0.0625

.

Wenn hinter der gegebenen Korrelationsmatrix also ein Modell mit q = 2 Fakto-

ren stand, so sind die Kommunalitaten nicht rekonstruierbar, was ubrigens wegen

(p+ q) = 6 und (p− q)2 = 4 auch nicht zu erwarten war.

Das Beispiel zeigt, dass die Vorschrift, dass der Rang von Kx durch die Modifi-

kation der Diagonale maximal zu erniedrigen ist, nicht unbedingt eine eindeutige

Losung erzwingen muss.

In diesem Abschnitt ging es um die Frage, ob die Kommunalitaten aus Kx er-

schließbar sind, und es zeigte sich, dass dies dann der Fall ist, wenn die Zahl

der Faktoren im Vergleich zur Zahl der Variablen nicht zu groß ist, und wenn

man nach dem Prinzip vorgeht, die Kommunalitaten so zu schatzen, dass sich

der Rang von Kx maximal erniedrigt.

Naturlich sollte die Voraussetzung uber die Zahl der Faktoren inhaltlich gerecht-

fertigt werden, was jedoch bei exploratorischen Faktorenanalysen wohl eher illu-

sorisch ist.

Die Untersuchung in diesem Abschnitt fand noch auf theoretischer Ebene statt, da

die theoretische Korrelationsmatrix Kx im Mittelpunkt stand. Daher sind auch

die Ergebnisse theoretisch, allerdings durchaus mit praktischen Konsequenzen

– kann man sinnvoll uber Faktoren reden, wenn die Voraussetzungen fur die

Rekonstruierbarkeit der Kommunalitaten nicht erfullt sind?


Losungen auf Basis der empirischen Korrelationsmatrix. Es soll nun das

Problem angegangen werden, auf der Basis der empirischen Korrelationsmatrix

R eine Losung zu gewinnen.

Fur einen ganz pragmatischen Ansatz wird eine solche Losung einfach aus einer

Ladungsmatrix bestehen, die zu (theoretischen) Interkorrelationen der Variablen

untereinander fuhrt, welche nicht allzu weit von den empirischen Interkorrela-

tionen entfernt sind. Die Faktoren konnen dabei als unkorreliert vorausgesetzt

werden, da sich ja jede Losung durch Rotation aus einer mit unkorrelierten Fak-

toren herstellen lasst.

Formal bedeutet dies, dass ein Λ gesucht ist mit der Eigenschaft, dass ΛΛ′ hin-

reichend nahe bei R liegt – jedenfalls was die Elemente außerhalb der Diagonale

angeht.

Schon ware es dabei, wenn die Ladungsmatrix nicht allzu viele Faktoren hatte.

(Formuliert man dies als Ziel, so ist allerdings die Frage, ob man wirklich noch

die’Wahrheit‘ finden will, oder nur ein in pragmatischer Hinsicht befriedigendes

Modell.)

Die beiden Aspekte der Losung, die jetzt formuliert wurden, sind leider nicht gut

zu vereinbaren: Weniger Faktoren sind nur auf Kosten großerer Distanz zu haben.

Man muss also geeignete Kompromisse schließen.

Zur Erreichung des Ziels existieren unterschiedliche Methoden. Hier soll eine der

prominentesten besprochen werden, namlich die Hauptachsenanalyse mit Kom-

munalitateniteration. Dieses Verfahren bezieht wesentlich die Kommunalitaten

mit in die Uberlegungen ein – ihre Schatzung ist ein zentraler Bestandteil.

Dass gerade die Kommunalitatenschatzung dabei ein kritischer Punkt ist, wird

durch die Uberlegungen des letzten Abschnitts nahegelegt.

Das zu besprechende Verfahren besteht darin, dass zwei Teilschritte mehrfach

durchgefuhrt werden, namlich die Kommunalitatenschatzung und die eigentliche

Faktorenextraktion. Diese Schritte werden abwechselnd so lange ausgefuhrt, bis

die Losung stabil ist.

Zunachst soll der Teilschritt der eigentlichen Faktorenextration behandelt wer-

den. Die Voraussetzung ist hier, dass bereits eine Schatzung der Kommunalitaten

vorliegt. Man hat also schon in der empirischen Korrelationsmatrix die Einsen

in der Diagonale durch Zahlen kleiner 1 ersetzt, von denen man hofft, dass sie


naherungsweise gleich den Kommunalitaten sind. Die entstehende Matrix moge

Rr heißen, sie sollte hoffentlich nahe bei der reduzierten Korrelationsmatrix Kx

liegen.

Dies liefert schon den Schlussel fur das weitere Vorgehen: Es soll umgekehrt

moglichst nahe bei Rr eine mogliche reduzierte Korrelationsmatrix gefunden wer-

den, von der man dann ja leicht zu einer zugehorigen Ladungsmatrix gelangt. We-

sentlich ist dabei die Tatsache, dass die moglichen reduzierten Korrelationsma-

trizen positiv semidefinit sind, und dass ihr Rang gleich der Zahl der zugehorigen

Faktoren ist.

Umformuliert ist die Aufgabe also die, in der Nahe von Rr eine positiv semide-

finite Matrix mit niedrigerem Rang zu finden. Hierfur ist die Losung bekannt:

Mochte man den Rang q erzielen, so wahlt man Lq als eine Matrix von q nor-

malisierten orthogonalen Eigenvektoren zu den großten Eigenwerten von Rr und

erhalt mit LqL′q eine im Sinne des euklidischen Abstandes nachstgelegene posi-

tiv semidefinite Matrix vom Rang q. Der quadrierte Abstand ist die Summe der

verbleibenden quadrierten Eigenwerte.

Die Matrix Lq ist dann eine mogliche zugehorige Ladungsmatrix, die zusatzlich

die drei folgenden schon bekannten angenehmen Eigenschaften besitzt:

(i) Die Spalten sind orthogonale Eigenvektoren von Rr zu den ersten q Eigen-

werten.

(ii) Die quadrierten Langen der Spalten, also die Summen der quadrierten Ein-

trage in den Spalten, sind die Eigenwerte und geben wegen der Orthogonalitat

der Losung Auskunft uber die Varianzaufklarung durch den zugehorigen Faktor.

Die Summe dieser Eigenwerte ist die Gesamtkommunalitat.

(iii) Die Summen der quadrierten Eintrage in den Zeilen sind die Kommuna-

litaten.

Die Losungen fur unterschiedliche Zahlen von Faktoren hangen eng zusammen:

Definiert man L als eine Matrix von p normalisierten Eigenvektoren von Rr in

absteigender Reihenfolge der Eigenwerte, so kann man ein mogliches Lq aus den

ersten q Spalten von L zusammenstellen.

An diesem Punkt stellt sich nun eine zentrale Frage, namlich die nach der Zahl der

Faktoren. Da alle Losungen aus L durch Weglassen der letzten Spalten entstehen,

kann man die Frage auch aquivalent in die Frage umformulieren, wieviele Spalten


von L beibehalten werden sollen.

Mogliche Antworten auf diese Frage hangen wesentlich von den Eigenwerten von

Rr ab.

Eine Moglichkeit ist es, soviele Faktoren zu’extrahieren‘, bis man mit der

’Vari-

anzaufklarung‘ zufrieden ist, bis also die Summe der entsprechenden Eigenwerte

hinreichend groß ist. Diese Summe ist die Gesamtkommunalitat und bekanntlich

an der Gesamtvarianz p der Variablen zu messen.

Eine zweite Moglichkeit besteht darin, nur Faktoren ubrigzubehalten, deren Ei-

genwert mindestens so groß ist wie eine vorgegebene Zahl (beispielsweise 1).

Eine dritte Moglichkeit besteht darin, zunachst alle Eigenwerte in absteigender

Große anzuordnen und dann zu prufen, ob an irgendeiner Stelle ein deutlicher

Sprung stattfindet, der so aussieht, dass der Eigenwert vor dem Sprung noch recht

groß ist, wahrend die Eigenwerte danach alle ziemlich klein sind. Beibehalten

werden dann alle Faktoren vor dem Sprung. Die Suche nach einem solchen Sprung

tragt auch den Namen’scree test‘, es wird sozusagen die Felswand der wirklichen

Faktoren von dem Geroll der Fehler getrennt.

Hier drangt sich die Frage auf, wie solche doch recht pragmatischen Verfahrens-

weisen mit dem hohen theoretischen Status des Modells der Faktorenanalyse ver-

traglich sind. Dem Ziel, substantielle Einflusse von statistischem Rauschen zu

trennen, wird vielleicht am ehesten die dritte Moglichkeit gerecht.

Zur Sprechweise, dass man Faktoren extrahiert, sei noch einmal daran erinnert,

dass sie etwas irrefuhrend ist: Das Ergebnis der Bemuhungen sind nuchtern be-

trachtet keineswegs Faktoren, sondern eine einigermaßen passende Matrix, die

Ladungsmatrix sein konnte.

Es folgt ein Beispiel: Die Matrix Rr sei0.38 0.1 0.02 0.06 −0.36

0.1 0.7 0.14 −0.06 −0.2

0.02 0.14 0.86 0.18 −0.04

0.06 −0.06 0.18 0.86 −0.12

−0.36 −0.2 −0.04 −0.12 0.92

.

Hier sind die Einsen in der Diagonale der empirischen Korrelationsmatrix R

bereits durch (irgendwie) geschatzte Kommunalitaten ersetzt. Die Matrix hat die

Eigenwerte 1.28, .96, .8, .48, .2. Eine Matrix aus normalisierten Eigenvektoren zu


diesen Eigenwerten ist

L =

−0.4 −0.2 −0.1 0.1 0.4

−0.4 −0.2 0.5 −0.5 0

−0.4 0.6 0.5 0.3 0

−0.4 0.6 −0.5 −0.3 0

0.8 0.4 0.2 −0.2 0.2

.

Die Spalten von L sind also orthogonale Eigenvektoren von Rr und ihre qua-

drierten Langen sind die Eigenwerte. Es ist jetzt zu entscheiden, wieviele Fak-

toren extrahiert werden sollen. Hier wird man sich nach den Eigenwerten rich-

ten. Entscheidet man sich beispielsweise fur drei Faktoren, so ist die Gesamt-

kommunalitat gleich 1.28 + .96 + .8 = 3.04 (zum Vergleich: p = 5), und der

quadrierte Abstand der zugehorigen reduzierten Korrelationsmatrix zu Rr ist

.482 + .22 = .2704. Bei zwei Faktoren waren diese Zahlen gleich 1.28 + .96 = 2.24

und .82 + .482 + .22 = .9104. Die zugehorigen Ladungsmatrizen sind

L3 =

−0.4 −0.2 −0.1

−0.4 −0.2 0.5

−0.4 0.6 0.5

−0.4 0.6 −0.5

0.8 0.4 0.2

und L2 =

−0.4 −0.2

−0.4 −0.2

−0.4 0.6

−0.4 0.6

0.8 0.4

.

Die Vorschrift, nur Faktoren beizubehalten, bei denen der zugehorige Eigenwert

großer als 1 ist, fuhrt hier zu einer Einfaktorlosung, namlich der Ladungsmatrix

L1 =

−0.4

−0.4

−0.4

−0.4

0.8

.

Schließlich sei auch die dritte Methode illustriert: Hier tragt man zunachst die

Eigenwerte gegen ihren Platz in der absteigenden Reihenfolge auf. Man erhalt im

Beispiel folgendes Bild:

r r r r r1


Hier kann man bestenfalls mit viel Phantasie einen deutlichen Bruch im Großen-

verlauf sehen, weshalb diese Methode der Bestimmung der Faktorenzahl in dem

betrachteten Beispiel wenig hilfreich ist.

Nun soll der kompliziertere Fall behandelt werden, dass die Kommunalitaten noch

nicht geschatzt sind; dabei geht es zunachst um die erste Schatzung am Beginn

des Gesamtverfahrens.

Aus den vorangehenden Uberlegungen wird klar, dass die Schatzung der Kom-

munalitaten einen entscheidenden Einfluss auf die Losung hat – unterschiedliche

Kommunalitatenschatzungen werden oft nicht nur zu unterschiedlichen Ladungs-

matrizen fuhren, sondern womoglich auch zu unterschiedlich vielen Faktoren.

Leider ist das Problem der Kommunalitatenschatzung nicht einfach, einerseits, da

man im Grunde keine guten Anhaltspunkte hat, andererseits, weil es womoglich

aufgrund einer fehlenden Identifizierbarkeit uberhaupt nicht losbar ist.

Zunachst sollen einige einigermaßen naheliegende’Schatzmethoden‘ genannt wer-

den.

Falls gute Schatzungen der Reliabilitaten der Variablen vorliegen, konnte man

diese als Schatzung verwenden (Kommunalitaten sind ja immer hochstens so groß

wie Reliabilitaten). Man wird so die Kommunalitaten jedoch uberschatzen.

Weitere Ansatze beruhen auf der Uberlegung, dass die Kommunalitat einer Varia-

ble sich in dem Zusammenhang mit den anderen Variablen wiederspiegeln sollte,

da die anderen Variablen ja auch die gemeinsamen Faktoren enthalten.

Eine Moglichkeit ist dann die, als Kommunalitatsschatzung die hochste Kor-

relation mit den anderen Variablen zu verwenden, eine andere, als Kommuna-

litatsschatzung die im Sinne einer multiplen Regression durch die anderen Varia-

blen aufgeklarte Varianz zu nehmen.

Bemerkenswert bei diesen Moglichkeiten ist, dass die entstehende Matrix womog-

lich nicht mehr positiv semidefinit ist, also als mogliche reduzierte Korrelations-

matrix uberhaupt nicht in Betracht kommt.

Nach der Kommunalitatenschatzung kann nun wie geschildert die Faktorenex-

traktion erfolgen. Dabei werden sich allerdings je nach Schatzmethode unter-

schiedliche Losungen ergeben. Zusatzliche Schwierigkeiten tauchen auf, wenn die

durch die Kommunalitatenschatzung entstehende Matrix negative Eigenwerte


hat, allerdings sind diese beherrschbar, wenn es sich um wenige und kleine nega-

tive Eigenwerte handelt.

Vielleicht ist das Unbehagen uber die Willkurlichkeit der Schatzmethode ein

Grund dafur, dass man haufig das erheblich kompliziertere Verfahren der Kom-

munalitateniteration verwendet, das nun geschildert werden soll.

Bei der Kommunalitateniteration startet man mit irgendeiner Anfangs-Kommuna-

litatenschatzung (wie eben beschrieben) und fuhrt eine Faktorenextraktion durch.

Auf der Basis der erhaltenen Ladungsmatrix berechnet man dann die Kommuna-

litaten, die zu dieser Ladungsmatrix gehoren. Diese Kommunalitaten wahlt man

als neue Kommunalitatenschatzung und wiederholt das ganze Verfahren. Die Pro-

zedur wird so oft iteriert, bis sich die sukzessiven Kommunalitatenschatzungen

stabilisert haben, bis also aufeinanderfolgende Schatzungen sich nur noch unwe-

sentlich unterscheiden. An diesem Punkt bricht man das Verfahren ab.

Das Verfahren soll an einem kleinen Beispiel verdeutlicht werden. Das Beispiel

ist zwar unrealistisch insofern, als hier die Zahl der Variablen nur 2 ist, dafur

ist es jedoch leicht durchschaubar und demonstriert auch die einzelnen Schritte

hinreichend gut.

Als Ausgangspunkt soll die empirische Korrelationsmatrix

R =

(1 0.36

0.36 1

)vorliegen. In einem ersten Schritt mogen die Kommunalitaten (vielleicht uber die

Reliabilitaten) zu .73 und 52 geschatzt worden sein, so dass sich

Rr =

(0.73 0.36

0.36 0.52

)ergibt. Diese Matrix hat die Eigenwerte 1.0 und .25; normalisierte Eigenvektoren

sind die Spalten der Matrix

L =

(0.8 0.3

0.6 −0.4

).

Hier wird man wohl einen Faktor beibehalten wollen. Die Ladungsmatrix ist dann

die erste Spalte von L. Als Kommunalitaten ergeben sich .82 = .64 und .62 = .36.

Diese Zahlen werden als neue Kommunalitatenschatzungen verwendet und in die

ursprungliche Korrelationsmatrix eingesetzt. Man erhalt die Matrix(0.64 0.36

0.36 0.36

)


und durchlauft den Prozess mit ihr von vorne.

In der folgenden Tabelle sind fur 15 Schritte die geschatzten Kommunalitaten am

Anfang des Schritts, die Eigenwerte der entsprechenden Matrix und die beiden

Elemente der Ladungsmatrix aufgelistet; man beachte, dass der erste Eigenwert

gleichzeitig die Gesamtkommunalitat ist.

Schritt Kommunalitaten Eigenwerte Ladungsmatrix

1 0.7300 0.5200 1.0000 0.2500 0.8000 0.6000

2 0.6400 0.3600 0.8863 0.1137 0.7770 0.5315

3 0.6037 0.2825 0.8373 0.0489 0.7676 0.4981

4 0.5892 0.2481 0.8170 0.0203 0.7638 0.4833

5 0.5834 0.2336 0.8088 0.0083 0.7623 0.4771

6 0.5811 0.2277 0.8054 0.0033 0.7617 0.4746

7 0.5802 0.2252 0.8041 0.0013 0.7614 0.4736

8 0.5798 0.2243 0.8035 0.0005 0.7614 0.4732

9 0.5797 0.2239 0.8033 0.0002 0.7613 0.4730

10 0.5796 0.2237 0.8032 0.0001 0.7613 0.4729

11 0.5796 0.2237 0.8032 0.0000 0.7613 0.4729

12 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729

13 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729

14 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729

15 0.5796 0.2236 0.8032 0.0000 0.7613 0.4729

Nach diesen 15 Schritten andert sich wohl nichts mehr (sogar schon nach 11

Schritten), und man kann aus der Schleife aussteigen und als Ergebnis die La-

dungsmatrix (.7613

.4729

)notieren. Die Gesamtkommunalitat ist dann .8032. Daran, dass der zweite Eigen-

wert praktisch 0 ist, erkennt man, dass die zur Losung gehorende reduzierte Korre-

lationsmatrix mit der Matrix ubereinstimmt, die man aus der ursprunglichen Kor-

relationsmatrix erhalt, wenn man in der Diagonalen die Kommunalitatenschat-

zungen .5796 und .2236 einsetzt.

Dass das Verfahren hier Kommunalitaten schatzt, die die in diesem Modell gar

nicht geschatzt werden konnen, da sie nicht identifizierbar sind, gibt sicher zum

Nachdenken Anlass. Versucht man das Verfahren erneut mit den anfanglichen


Kommunalitatenschatzungen .8 und .4, so landet man denn auch bei der La-

dungsmatrix (.8540

.4215

)mit Gesamtkommunalitat .9070. Die stabilisierten Kommunalitatenschatzungen

sind hier .7293 und .1777.

An dieser Stelle muss der Autor bekennen, dass ihm das geschilderte Verfahren in

vielerlei Weise unklar ist. So bleiben fur ihn beispielsweise die folgenden Fragen:

Konvergiert das Verfahren uberhaupt immer? Wenn ja, wohin? wohin??? Was ist

die Logik dahinter? Wieweit ist das Ergebnis von der anfanglichen Kommuna-

litatenschatzung abhangig?

Bemerkenswert an dem Verfahren ist es beispielsweise, dass im Falle einer Konver-

genz die stabilisierte Kommunalitatenschatzung in vielen Fallen nach Einsetzen

in die Diagonale der empirischen Korrelationsmatrix zu einer Matrix mit nega-

tiven Eigenwerten fuhrt, also zu einer Matrix, die nicht als reduzierte Korrelati-

onsmatrix in Frage kommt. Dies ist jedoch kein entscheidender Einwand, wenn

man es als Ziel ansieht, irgendwie zu einer Ladungsmatrix zu gelangen, deren

zugehorige reduzierte Korrelationsmatrix außerhalb der Diagonale einigermaßen

mit der empirischen ubereinstimmt.

Das Ergebnis des Verfahrens hangt entscheidend von dem Kriterium ab, das die

Zahl der zu extrahierenden Faktoren festlegt. Mit der Auswahl dieses Kriteri-

ums kann der Anwender einen massiven Einfluss auf das Endresultat ausuben

(was ihm, da ihm barmherzige Programme oft diese Entscheidung abnehmen,

womoglich gar nicht richtig bewusst ist). Unterschiedliche Methoden der anfang-

lichen Kommunalitatenschatzung konnen ebenfalls in manchen Fallen zu unter-

schiedlichen Endresultaten fuhren, was jedoch im Allgemeinen nicht so kritisch

sein durfte wie die Auswahl der Extraktionskriterien.

Schließlich ist anzumerken, dass es neben dem geschilderten doch recht kuriosen

Gewerkel weitere Verfahren gibt, die zum Teil auch starker inferenzstatistische

Techniken benutzen. Da der Anwender der Faktorenanalyse damit nicht nur zwi-

schen verschiedenen Verfahren die Auswahl hat, sondern auch bei einer festen

Vorgehensweise noch viele Einzelentscheidung auf unterschiedliche Weise treffen

kann, hat er gute Chancen, zu einer Losung zu gelangen, die ihn befriedigt (nur

fur den Leser, der es nicht gemerkt hat: dieser Satz ist ironisch gemeint).

Leider herrscht ubrigens auf diesem Gebiet eine große Uneinheitlichkeit, was Be-

3.6 Schatzung der Faktorwerte FA13 121

nennungen angeht. So wird gelegentlich auch die Hauptkomponentenanalyse als

eine Spielart der Faktorenanalyse aufgefasst, obwohl ihr Ansatz von dem hier

zur Debatte stehenden fundamental verschieden ist (durchaus bei einigen ober-

flachlichen Gemeinsamkeiten). Nun sind Klassifikations- und Bezeichnungsfra-

gen sicher zweitrangig, bedauerlich ist es jedoch, dass in manchen Darstellungen

die Modelle und ihre Prinzipien in einer verwirrenden und gelegentlich wider-

spruchlichen Weise durcheinandergeworfen und vermischt werden.

3.6 Schatzung der Faktorwerte

Als letztes bleibt noch das Problem zu behandeln, auf welche Weise man die

Werte ermitteln kann, die die Probanden auf den Faktoren besitzen.

Da die beobachtbaren Variablen alle fehlerbehaftet sind, ist klar, dass diese Werte

nicht aus den Variablen berechnet werden konnen, sondern geschatzt werden

mussen.

Es soll vorausgesetzt werden, dass die wahre Ladungsmatrix Λ und die wahre

Interkorrelationsmatrix Kf der Faktoren bekannt sind; in der Praxis wird man

an dieser Stelle geeignete’Schatzungen‘ einsetzen.

Die wahre Korrelationsmatrix wird wieder mit Kx bezeichnet.

Eine naheliegende Moglichkeit ist es, mit Hilfe einer multiplen Regression (auf

theoretischer Ebene) die Gleichung herzuleiten, mit der die Faktoren f durch die

beobachtbaren Variablen x vorhergesagt werden. In diese Gleichung konnen dann

die beobachteten x-Werte neuer Probanden eingesetzt werden, um so die Werte

zu schatzen, die sie auf den Faktoren besitzen.

Fur die Normalengleichungen braucht man die Kovarianzmatrix der Pradiktoren,

die hier Kx ist, und die Matrix der Kovarianzen der Pradiktoren und der Krite-

riumsvariablen. Wegen der Standardisierung der Variablen stimmen Kovarianzen

und Korrelationen uberein, und die zweite Matrix ist daher die Faktorstruktur

ΛKf . Bezeichnet man mit B die Matrix der Regressionsgewichte, so lauten die

Normalengleichungen folglich

KxB′ = ΛKf .

Setzt man wie ublich fur Kx Invertierbarkeit voraus, so errechnet man die Matrix


der Regressionsgewichte zu B = KfΛ′Kx

−1 und erhalt als Vorhersage

f = KfΛ′Kx

−1x ,

womit der geschatzte Vektor f der Faktorwerte sich durch Anwendung der linea-

ren Abbildung KfΛ′Kx

−1 auf den Vektor der beobachtbaren Variablen x ergibt;

die additiven Konstanten fur die Vorhersage sind ja wegen der Zentriertheit aller

beteiligten Variablen gleich 0.

Das Verfahren mit der Regressionsmethode hat zwar den Vorteil, dass die Feh-

lervarianz (im Sinne der Spur) minimiert wird, es hat jedoch (bei einer Zusatz-

voraussetzung) einen Nachteil, das die Suche nach einer Alternative nahelegt.

Die Zusatzvoraussetzung ist die, dass die Fehler nicht nur insgesamt, sondern

sogar fur jeden moglichen Wert des Vektors f der Faktoren den Erwartungswert

0 besitzen sollen. (Streng genommen musste man sich hier mit den Begriffen

der bedingten Verteilungen und bedingten Erwartungswerte auseinandersetzen,

jedoch sollten die Aussagen dieses Abschnitts auch intuitiv einleuchten.)

Fur jeden festen moglichen Wert von f hat dann jedenfalls der Vektor

x = Λf + e

eine Verteilung mit Erwartungwert Λf , da jetzt f konstant ist. (Man kann sich

zur Veranschaulichung auch vorstellen, dass nur die Subpopulation der Perso-

nen betrachtet wird, die f als Vektor der Faktorwerte haben – trotzdem werden

auf Grund des Fehlers diese Personen naturlich nicht alle die gleichen Testwerte

erhalten.)

Man kann sich nun fragen, ob fur einen festen moglichen Wert f der Faktoren die

Schatzung der Faktorwerte’bedingt erwartungstreu‘ ist, was bedeuten soll, dass

der Erwartungswert der Schatzung wieder f ist. (Anschaulich heißt das, dass bei

der Subpopulation der Personen, die f als Vektor der Faktorwerte besitzen, als

Schatzung im Durchschnitt eben dieses f herauskommen sollte.)

Der (bedingte) Erwartungswert von x bei festem f ist jedenfalls Λf , und daher ist

der Erwartungswert der Schatzung f nach der Regressionsmethode KfΛ′Kx

−1Λf ,

da die Schatzung ja dadurch geschieht, dass auf x die durch die Matrix KfΛ′Kx

−1

gegebene lineare Abbildung angewendet wird.

Im Allgemeinen wird nun KfΛ′Kx

−1Λf leider nicht mit f ubereinstimmen – damit

dies fur alle moglichen Werte von f der Fall ware, musste namlich KfΛ′Kx

−1Λ

die Einheitsmatrix sein.


Dass dies im Allgemeinen nicht der Fall ist, macht man sich leicht an Beispielen

klar. Ist beispielsweise in einem Modell mit unkorrelierten Faktoren die Ladungs-

matrix gleich

Λ =

.4 .3

.3 −.4−.5 .5

,

so findet man

KfΛ′Kx

−1Λ =1

56

(23 −9

−9 23

),

was sich deutlich von der Einheitsmatrix unterscheidet (Kf ist hier die Einheits-

matrix).

Die Schatzung der Faktorwerte mit der Regressionsmethode fuhrt also im Allge-

meinen zu systematischen Verzerrungen.

Als Alternative sollen nun die Faktorwerte nach Bartlett besprochen werden, die

dieses Problem vermeiden.

Neben den bisher gemachten Voraussetzungen wird dabei zusatzlich angenom-

men, dass die Matrix De invertierbar ist, und dass die Ladungsmatrix Λ maxi-

malen Rang besitzt.

Es soll also auf der Basis des Wertes x einer Person der Wert von f geschatzt

werden. Ware die Messung fehlerfrei, so ware x gleich Λf und lage damit im

Bild von Λ. Da fur Λ Maximalrang vorausgesetzt wird, konnte nun f eindeutig

rekonstruiert werden.

Leider ist jedoch die Messung nicht fehlerfrei. Es liegt daher nahe, zu dem tatsach-

lichen x-Wert der Person zunachst einen moglichst nahe liegenden Vektor im Bild

von Λ zu suchen und den zu diesem Vektor gehorenden Wert von f als Schatzung

der Faktorwerte zu benutzen.

Es fragt sich dabei allerdings, welcher Distanzbegriff zu verwenden ist. Hier liegt

nun die Mahalanobisdistanz bezuglich De nahe.

Damit ist das Programm der Schatzung abgesteckt: Zuerst wird ermittelt, welcher

Wert aus dem Bild von Λ zu x die kleinste Mahalanobisdistanz hat, und dann

wird das zugehorige f ermittelt.

Die Mahalanobisdistanz ist nun aber gleich der euklidischen Distanz, wenn man

eine Transformation zu multivariaten z-Werten macht. Hierfur bietet sich als


Transformationsmatrix De−1/2 an. Der Verschiebungsvektor ist 0, da x bereits

Erwartungswert 0 hat (die Transformation wird also auf der Basis der Gesamt-

verteilung gemacht).

Der Punkt x hat dann die neuen Koordinaten De−1/2x, und das Bild von Λ

wird in neuen Koordinaten zum Bild von De−1/2Λ. Auch diese Matrix hat Ma-

ximalrang, die Spalten sind also linear unabhangig und bilden eine Basis von

Bild(De−1/2Λ). Zu dem Faktorwert f gehort der Punkt mit den Koordinaten

De−1/2Λf ; der Wert von f bei einer fehlerfreien Messung kann also hier direkt als

Koordinatenvektor abgelesen werden.

Insgesamt ist also zuerst der Punkt De−1/2x orthogonal auf Bild(De

−1/2Λ) zu

projizieren, und dann sind seine Koordinaten bezuglich der angegebenen Basis

zu bestimmen. Die Abbildung, die die Koordinaten nach der Projektion liefert,

ist aber bekanntlich

((De−1/2Λ)′(De

−1/2Λ))−1(De−1/2Λ)′ = (Λ′De

−1Λ)−1Λ′De−1/2 ,

und der Wert dieser Abbildung angewendet auf De−1/2x ist

(Λ′De−1Λ)−1Λ′De

−1/2De−1/2x = (Λ′De

−1Λ)−1Λ′De−1x .

Damit ist die gesuchte lineare Abbildung fur die Schatzung der Faktorwerte gleich

(Λ′De−1Λ)−1Λ′De

−1 .

Berechnet man auch hier den (bedingten) Erwartungswert der Schatzung fur den

Fall, dass die Faktorwerte f sind, so erhalt man wie oben((Λ′De

−1Λ)−1Λ′De−1) (Λf) = (Λ′De

−1Λ)−1Λ′De−1Λf = f .

Hier stimmt also der bedingte Erwartungwert mit dem tatsachlichen Wert f

uberein und die Verzerrung bei der Schatzung ist vermieden.

Allerdings ist bei dieser Methode die Fehlervarianz der Schatzung (im Sinne der

Spur) nicht minimal, denn dies ist nach Konstruktion bei der Regressionsmethode

der Fall, die ja im Allgemeinen zu anderen Ergebnissen fuhrt.

Der Wunsch, bei der Schatzung die Faktorwerte im Mittel richtig zu treffen

und der Wunsch, einen moglichst kleinen Fehler zu machen, lassen sich also

leider nicht gleichzeitig befriedigen, sondern fuhren zu zwei unterschiedlichen

Schatzmethoden.


Eine ahnliche Situation sollte ubrigens aus der klassischen Testtheorie bekannt

sein, wo es darum geht, den wahren Wert auf der Basis des beobachteten Werts zu

schatzen. Auch hier gibt es ja eine Schatzmethode auf der Basis der Regression

mit dem Vorteil der kleinsten Varianz des Vorhersagefehlers, die jedoch nicht

bedingt erwartungstreu ist, und demgegenuber die Methode, den wahren Wert

direkt durch den beobachtbaren zu schatzen, was zwar bedingt erwartungstreu

ist, dafur jedoch eine großere Varianz des Vorhersagefehlers hat.

Schließlich sei noch erwahnt, dass es neben den beiden hier besprochenen Metho-

den zur Schatzung der Faktorwerte noch weitere gibt.

3 faktorenanalyse - uni-kiel.de · fa13 1 3 faktorenanalyse 3.1 modell bei der faktorenanalyse geht...

Documents