multivariate verfahren - magnifisa -...

71
technische universität dortmund Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 -1- Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-dortmund.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung (4V): Mo 8.30-10.00, M/E 21 Do 10.15-11.45, M/E 21 Übung (2Ü): Fr 10.15-11.45 M/E 25 Fr 14.15-15.45 M/E 27 M.Sc. Katrin Knies Raum 730 Email: [email protected] dortmund.de Leistungsnachweis Mündliche Prüfung Statistik: Spezialgebiete • Datenwissenschaft Zulassungsvoraussetzungen zur mündlichen Prüfung 50% der Übungspunkte 50% der Punkte aus Übungen und Klausur (Gewichtung 80% Klausur) technische universität dortmund Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 -2- Multivariate Verfahren Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik: Multivariate Statistik (Wintersemester 2006/07) Skript beruht teilweise auf früheren Skripten von • Prof. Dr. Claudia Becker, Universität Halle-Wittenberg • Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid Andere Literatur Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin 2003. Johnson, R.A. und D.W. Wichern, Applied Multivariate Statistical Analysis, 5. Auflage, New Jersey 2002. Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996.

Upload: vandat

Post on 18-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 1 -

Multivariate Verfahren

Prof. Dr. Jörg Rahnenführer

Raum 720Email: rahnenfuehrer@statistik.

tu-dortmund.de

• Voraussetzungen: • Vordiplom in Statistik,

Mathematik, Datenanalyse, Informatik

• Zeiten und Räume• Vorlesung (4V):

Mo 8.30-10.00, M/E 21

Do 10.15-11.45, M/E 21

• Übung (2Ü):Fr 10.15-11.45 M/E 25Fr 14.15-15.45 M/E 27

M.Sc. Katrin Knies

Raum 730Email: [email protected]

dortmund.de

• Leistungsnachweis• Mündliche Prüfung

• Statistik: Spezialgebiete

• Datenwissenschaft

• Zulassungsvoraussetzungen zur mündlichen Prüfung

• 50% der Übungspunkte

• 50% der Punkte aus Übungen und Klausur(Gewichtung 80% Klausur)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 2 -

Multivariate Verfahren

• Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik:

Multivariate Statistik (Wintersemester 2006/07)

• Skript beruht teilweise auf früheren Skripten von• Prof. Dr. Claudia Becker, Universität Halle-Wittenberg

• Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid

• Andere Literatur• Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin

2003.

• Johnson, R.A. und D.W. Wichern, Applied Multivariate StatisticalAnalysis, 5. Auflage, New Jersey 2002.

• Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996.

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 3 -

Themengebiete der Vorlesung

0 Multivariate Analysemethoden

1 Multivariate Zufallsvariablen

2 Die multivariate Normalverteilung

3 Normalverteilungsmodelle

4 Hauptkomponentenanalyse

5 Faktorenanalyse

6 Kanonische Korrelationsanalyse

7 Korrespondenzanalyse

8 Clusteranalyse

9 Diskriminanzanalyse

10 Graphische Modelle

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 4 -

0. Multivariate Analysemethoden

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 5 -

Multivariate Analysemethoden

• Häufige Situation: mehrdimensionale (multivariate) Daten

• Beschreibung der Untersuchungsobjekte (’Individuen’) durch mehrere Variablen

• Multivariate Verfahren dienen zur Analyse solcher mehrdimensionaler Daten, insbesondere der Zusammenhänge unter den Variablen

• Beispiele• Messwerte bei Menschen

• Alter, Geschlecht, Körpergröße, Gewicht, Puls, Blutdruck

• Risikofaktoren bei Krebspatienten• Ausdehnung des Tumors, Vorhandensein von Metastasen, Rauchen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 6 -

Multivariate Analysemethoden

• Auswahl geeigneter multivariater Analysemethoden• Verschiedene Arten der “Zusammenhangsanalyse“ adressieren

verschiedene Fragestellungen

• Korrelationsanalyse

• Hypothesentests für eine oder mehrere Populationen

• Multivariate Varianzanalyse, multiple multivariate Regression

• Hauptkomponentenanalyse

• Faktorenanalyse

• Korrespondenzanalyse

• Clusteranalyse

• Diskriminanzanalyse

• Graphische Modelle

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 7 -

Multivariate Analysemethoden

• Korrelationsanalyse• Ziel: Bestimmung von paarweisen, multiplen und partiellen

Korrelationen

• Beispiel: Gewicht, Körpergröße und Alter von Personen

• Paarweise Scatterplots fürGewicht, Körpergröße undAlter von n = 21 Individuen

• Scatterplot kann als sehreinfaches multivariatesVerfahren betrachtetwerden

Körpergröße

Gew

icht

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 8 -

Multivariate Analysemethoden

• Korrelationsanalyse• Ziel: Bestimmung von paarweisen, multiplen und partiellen

Korrelationen

• Beispiel: Gewicht, Körpergröße und Alter von Personen

• Paarweise Scatterplots

Alter

Gew

icht

Alter

Kör

perg

röß

e

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 9 -

Multivariate Analysemethoden

• Hypothesentests für eine oder mehrere Populationen

• Ziel: Unterscheidung von Populationen anhand von mehrdimensionalen Merkmalen

• Beispiel: Gefälschte Banknoten

• Daten: ne

= 100

echte und nf= 100

falsche Schweizer Banknoten

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 10 -

Multivariate Analysemethoden

• Multivariate Varianzanalyse• Frage: Wirken mehrere Variablen einzeln und/oder gemeinsam

auf eine oder mehrere interessierende Merkmale?

• Beispiel Werkstatt• Fertigung von Autorädern in verschiedenen Werkstätten mit jeweils

mehreren Maschinen• Zwei Qualitätsmerkmale zur Beurteilung der gefertigten Räder• Gibt es Qualitätsunterschiede zwischen den Maschinen innerhalb

einer Werkstatt, oder zwischen den Werkstätten?

• Multiple Multivariate Regression• Funktionaler Zusammenhang zwischen mehreren Einfluss- und

einer oder mehreren Zielgrößen

• Beispiel Prostatakrebs• Untersuchung des Einflusses verschiedener Prädiktoren auf eine

Zielvariable

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 11 -

Multivariate Analysemethoden

• Daten zum Prostatakrebs von Stamey et al. (1989)

• Prädiktoren: lcavol log cancer volumelweight log prostate weightage

lbph log benign hyperplasiaamount

svi seminal vesicle invasionlcp log capsular penetrationgleason gleason scorepgg45 percent gleason

scores 4 or 5

• Zielvariable:log(PSA) (prostate specific antigen) level

Daten standardisiert auf Varianz 1

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 12 -

Lineare Regression: Prostatakrebs

Kovarianz-Matrix:

0.7570.6630.4810.0300.2760.0740.483pgg45

0.4760.3070.0330.3660.0240.426gleason

0.671-0.0890.1730.1570.692lcp

-0.1390.1290.1810.593svi

0.2870.4370.063lbph

0.3170.286age

0.300lweight

gleasonlcpsvilbphagelweightlcavol

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 13 -

Lineare Regression: Prostatakrebs

• Modell für log PSA

• Prädiktoren auf Varianz 1 normalisiert

• Test auf Ausschließungeiner Gruppe von Termendurch F-test (ANOVA)

• Z-score misst somit den Effekt für das Entferneneiner Variable aus demModell

• lcp ist nicht signifikantwenn lcalvol im Modellenthalten ist, ansonstenschon!

1.740.150.27pgg45

-0.150.15-0.02gleason

-1.870.15-0.29lcp

2.470.120.31svi

2.060.100.21lbph

-1.400.10-0.14age

2.750.110.30lweight

5.370.130.68lcavol

27.660.092.48Intercept

Z ScoreStd. ErrorCoefficientTerm

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 14 -

Multivariate Analysemethoden

• Hauptkomponentenanalyse• Bestimmung weniger Richtungen, die möglichst viel Varianz

erklären

• Iterative BestimmungorthogonalerVektoren

• Erste Hauptkomponenteentspricht der linearenTransformation derDaten auf die Richtungmit maximalerVarianz

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 15 -

Multivariate Analysemethoden

• Faktorenanalyse• Ähneln sich mehrere Merkmale so stark, dass wir sie als ein

einziges ”latentes” Merkmal betrachten können?

• Beispiel• Wichtige Charakteristika für Einstellungschancen von Bewerbern?

• Bei diesen Charakteristika kann es sich um ”abstrakte” Faktoren handeln, wie etwa Kontaktfähigkeit oder emotionale Kompetenz.

• Korrespondenzanalyse• Beziehungen zwischen kategoriellen Variablen an mehreren

Individuen

• Beispiel• Betrachtung der Haarfarbe und Augenfarbe von Menschen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 16 -

Multivariate Analysemethoden

• Clusteranalyse• Auffinden von Gruppen ähnlicher Objekte

• Beispiel• Marketinganalyse zur Einteilung von Produkten in homogen

Untergruppen• Ein Handyhersteller stellt auf Basis einer Verbraucherbefragung fest,

dass alle drei von ihm hergestellte Handytypen in die gleiche Untergruppe eingeordnet werden, sich aus Verbrauchersicht also kaum unterscheiden

• Einen oder zwei dieser Typen durch einen neuen, mit anderen Leistungsmerkmalen ausgestatteten Typen ersetzen, um so einen neuen Kundenkreis anzusprechen?

• Wichtigste „Zutaten“ der Clusteranalyse• Distanzmaß oder Ähnlichkeitsmaß zwischen Objekten

• Clusteralgorithmus zum Auffinden kompakter Gruppen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 17 -

Multivariate Analysemethoden

• Diskriminanzanalyse

• Einordnung von Objekten in gegebene Klassen

• Beispiel Kreditwürdigkeit• Beurteilung der Kreditwürdigkeit von Firmen an Hand von

Bilanzkennzahlen, unter Zurückgreifen auf “Erfahrungswerte”

• Betrachtung einer ”Lernstichprobe” von Firmen mit bekannten Bilanzkennzahlen und Kreditwürdigkeit

• Entscheidung über die Kreditwürdigkeit eines neuen Antragstellers mit dieser Vorinformation

• Beispiel Krebsdiagnose• Prognose von Therapieerfolg anhand von klinischen und genetischen

Messungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 18 -

Multivariate Analysemethoden

• Graphische Modelle• Unterscheidung mittelbarer und unmittelbarer Zusammenhänge

unter mehreren Variablen

• Beispiel• Examensnoten in Mechanik Me, Vektorrechnung Ve, Algebra Al,

Analysis An, Statistik St (gemessen in Prozentzahlen) von 88 Studenten

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 19 -

1. Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 20 -

Multivariate Zufallsvariablen

1.1 Multivariate Verteilungen

• Zufallsvektor: gemeinsame Darstellung d eindimensionaler Zufallsvariablen.• Wie im univariaten Fall unterscheidet man zwischen diskret und stetig.

• Mischformen: Zufallsvektor mit diskreten und stetigen Merkmalen (Komponenten).

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 21 -

Multivariate Zufallsvariablen

• Beispiele für multivariate Verteilungen• Biometrie

• Klinische Messungen bei Krebspatienten (Örtliche Ausdehnung des Primärtumors, Existenz von regionären Lymphknotenmetastasen, Existenz von Fernmetastasen, Blutwerte, Raucherstatus, genetische Mutationen)

• Genexpressionswerte (Messungen der Aktivität von Tausenden Genen gleichzeitig)

• Ökonometrie• Aktienkurse verschiedener Unternehmen

• Daten zu Konsum, Investition, Import, Export (BIP)

• Technometrie• Zur Risikoanalyse technischer Systeme

• Einstellungen verschiedener technischer Parameter, technologische Bauteilqualität

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 22 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 23 -

Multivariate Verteilungsfunktion

• Die folgende Definition d-variater Verteilungs- und Dichtefunktionen verallgemeinert die entsprechenden Begriffe f ¨ur eindimensionale Zufallsvariablen:

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 24 -

Multivariate Dichte

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 25 -

Multivariate Dichte

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 26 -

Multivariate Verteilungsfunktion

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 27 -

Multivariate Verteilungsfunktion

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 28 -

Erwartungswert

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 29 -

Erwartungswert

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 30 -

Kovarianz

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 31 -

Kovarianz

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 1 -

Kovarianz

Eine Kovarianzmatrix ist symmetrisch, damit diagonalisierbar (mittels Hauptachsentransformation) und folglich positiv semidefinit.

Die Berechnungen erfolgen mittels einfacher Matrizenrechnung, meist unter Ausnutzung der Linearität des Erwartungswertes

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 2 -

Bedingte Erwartungen

• Die bedingte Erwartung ist eines der tiefsten und wichtigsten Konzepte der Wahrscheinlichkeitstheorie, aber auch offensichtlich eines der am schwersten zu vermittelnden Konzepte

• Allgemeine Definition:

Die Funktion Y=E(X| ) heißt dann bedingte Erwartung von X

• Wir betrachten nur Spezialfälle• Die σ-Algebra wird ersetzt durch eine Zufallsvariable

• Die Zufallsvariable ist entweder stetig oder diskret verteilt

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 3 -

Bedingte Erwartungen

E(XX2)-E(X)E(X2)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 4 -

Bedingte Erwartungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 5 -

Bedingte Erwartungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 6 -

Bedingte Erwartungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 7 -

Bedingte Erwartungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 8 -

Bedingte Erwartungen

• Interpretation des bedingten Erwartungswertes• Bedingte Erwartung als orthogonale Projektion

• h(X1) ist eine bzgl. X1 messbare Funktion, die X2

besonders gut approximiert

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 9 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 10 -

Multivariate Zufallsvariablen

• Empirische Größen entsprechen den theoretischen Größen, wobei die multivariaten Verteilungen durch die empirischen Verteilungen ersetzt sind

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 11 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 12 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 13 -

Multivariate Zufallsvariablen

• Für lineare Transformationen können Mittelwerte und Kovarianzenleicht berechnet werden

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 14 -

Multivariate Zufallsvariablen

• Empirische Mittelwerte und Kovarianzenim (Größe/Gewicht)-Datensatz

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 15 -

Multivariate Zufallsvariablen

• Wichtigste Transformation eines Datensatzes zur Normalisierung bzgl. Mittelwert und Kovarianz

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 16 -

Multivariate Zufallsvariablen

• Jordan‘sche Zerlegung• Charakterisierung von symmetrischen Matrizen

• Hilfsmittel zur Berechnung von Hauptkomponenten

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 17 -

Multivariate Zufallsvariablen

• Beispiel 1.26 • Beispiel 1.27(Fortsetzung von Beispiel 1.2)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 18 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 19 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 20 -

Multivariate Zufallsvariablen

• Verallgemeinerung der inversen Matrix auf singuläre und nichtquadratische Matrizen

• Häufigste Anwendung: Lösung linearer Gleichungssysteme

• Kann mit Hilfe von Singulärwertzerlegung berechnet werden

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 21 -

Multivariate Zufallsvariablen

• Zusammenhang von theoretischen und empirischen Größen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 22 -

Multivariate Zufallsvariablen

• Wichtigster Satz der Statistik:

• ZENTRALER GRENZWERTSATZ

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 23 -

Multivariate Zufallsvariablen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 24 -

Multivariate Zufallsvariablen

• Zentraler Grenzwertsatz für Transformationen des empirischen Mittelwerts

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 25 -

Multivariate Zufallsvariablen

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 1 -

2. Die multivariate Normalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 2 -

Theorie der Multinormalverteilung

• Multivariate Normalverteilung ist die wichtigste

multivariate Verteilung

• Normalverteilung eignet sich zur Modellierung von Größen, die durch

das Zusammenwirken vieler Zufallseinflüsse entstehen

• Messfehler, Abweichungen vom Sollwert, physikalische Größen wie

Länge, Gewicht, Volumen etc.

• Die multivariate Normalverteilung ist die einzige multivariateVerteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist

• Eine multivariate Verteilung ist genau dann eine multivariateNormalverteilung, wenn alle Linearkombinationen der Komponenten

univariate Normalverteilungen sind

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 3 -

Theorie der Multinormalverteilung

• Univariate Normalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 4 -

Theorie der Multinormalverteilung

• Multivariate Normalverteilung• Eindeutig bestimmt durch Erwartungswertvektor und Kovarianzmatrix

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 5 -

Theorie der Multinormalverteilung

• Standardnormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 6 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 7 -

Theorie der Multinormalverteilung

• Die Kovarianzmatrix ist symmetrisch und beinhaltet alle

Kovarianzen von Paaren von den Komponenten der

multivariaten Verteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 8 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 9 -

Theorie der Multinormalverteilung

• Höhenlinien bei der (Standard-)Normalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 10 -

Theorie der Multinormalverteilung

Höhenlinien

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 11 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 12 -

Theorie der Multinormalverteilung

• Lineare Transformationen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 13 -

Theorie der Multinormalverteilung

• Beweis durch Berechnung der Kovarianzmatrix mit

gemischtem Term ΣΣΣΣ12 = AΣΣΣΣBT

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 14 -

Theorie der Multinormalverteilung

• Approximation und bedingte Verteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 15 -

Theorie der Multinormalverteilung

• Für eine multivariate Normalverteilung ist die bedingte Erwartung

linear in x1

und die bedingte Varianz unabhängig von x1.

• Die beste Approximation von X2

durch X1

fällt mit der besten linearen Approximation BX

1+b von X

2durch X

1zusammen.

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 16 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 17 -

Theorie der Multinormalverteilung

• Spezialfall d=k+1

• Multiple Korrelation: maximale Korrelation zwischen Xd

und einer

Linearkombination BX1, für k = 1 „gewöhnliche“ Korrelation

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 1 -

Theorie der Multinormalverteilung

• Multiple Korrelation zwischen X1 und(X2 ,X3) ist (notwendigerweise) größer als die (univariaten) Korrelationen zwischen X1 und X2

und zwischen X1

und X3

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 2 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 3 -

Theorie der Multinormalverteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 4 -

Stichprobenverteilungen

• Bei multivariaten Datenanalysen geht man oft von einer multivariaten Normalverteilung aus, kennt aber Erwartungswert und Kovarianzmatrix nicht.

• Übergang von theoretischen zu empirischen Größen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 5 -

Stichprobenverteilungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 6 -

Stichprobenverteilungen

• Test, ob die Korrelation in einem bestimmten Intervall liegt (Konfidenzintervalle)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 7 -

Stichprobenverteilungen

Übung: Nachrechnen mit r12 = 0.73, n = 100

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 8 -

Stichprobenverteilungen

• Bei der Kovarianzmatrix stoßen wir auf die Wishart-Verteilung(multivariate Erweiterung der χ2-Verteilung)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 9 -

Stichprobenverteilungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 10 -

Stichprobenverteilungen

(Im Wesentlichen Projektionsmatrizen)

Ü: Warum folgt dies?

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 1 -

Stichprobenverteilungen

Hotteling´s T2-Verteilung (multivariate Erweiterung der t-Verteilung)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 2 -

Stichprobenverteilungen

• Zusammenhang zwischen Hotteling´s T2-Verteilung und F-Verteilung

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 3 -

Schätztheorie

• Allgemeines Schätzen (mit parametrischen Familien)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 4 -

Schätztheorie

• Scorefunktion und Fisher-Informationsmatrix für Normalverteilungen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 5 -

Schätztheorie

• Der ML-Schätzer ist also unter Regularitätsbedingungenasymptotisch unverzerrt, effizient und normalverteilt.

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 6 -

Schätztheorie

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 7 -

3. Normalverteilungsmodelle

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 8 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 9 -

Parametertests

• Asymptotische Verteilung für Likelihood-Quotienten (LR) Test

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 10 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 11 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 12 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 13 -

Parametertests

Hier wird dasMaximum über alleVektoren a gebildet, so dass dasKonfidenzintervallfür beliebiges festesa gilt

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 14 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 15 -

Parametertests

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 16 -

Parametertests

0.5 2 3 3 1- pchisq(2.7365,3)d p= ⋅ ⋅ = ⇒ =

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 1 -

Parametertests

• Spezialfall für Likelihood-Quotienten Test• Test auf einen bestimmten Koeffizientenvektor im linearen Modell

Exakte Verteilung der LR

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 2 -

Lineare Restriktionen

• Testen von linearen Hypothesen (lineare Restriktionen)

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 3 -

Lineare Restriktionen

• Es soll getestet werden, ob jeweils die i-te Komponente des Vektors (X

1,...,X

k) und des Vektors (X

k+1,...,X

d) denselben Erwartungswert

haben

• Linke Formulierung der Nullhypothese entspricht der anschaulichen Formulierung, rechte der Formulierung mit Kontrastmatrix C=(diag(1,...,1),diag(-1,...,-1)) mit jeweils k Einträgen 1 bzw. -1

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 4 -

Lineare Restriktionen

• Banknoten-Beispiel: Sind die Abstände von inneren Rechteck zum unteren Rand (x

4) bzw. oberen Rand (x

5) gleich?

signifikant wegen F1,99(13.638) = 0.00036

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 5 -

Lineare Restriktionen

• Es soll getestet werden, ob alle Komponenten des Vektos (Xk+1

,...,Xd)

den Erwartungswert 0 haben

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 6 -

Lineare Restriktionen

• Repeated Measures (wiederholte Messungen)• n Beobachtungen mit d Messungen (Bedingungen, Behandlungen,

Prüfungen,… )

• In Matrixschreibweise:

Kovarianzmatrix unbekannt,siehe Satz 3.10

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 7 -

Lineare Restriktionen

• Repeated Measures (wiederholte Messungen)• n Beobachtungen mit d Messungen (Bedingungen, Behandlungen,

Prüfungen,… )

Satz 3.5 lieferte

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 8 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 9 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 10 -

Lineare Restriktionen

• Umschreiben der Teststatistik zeigt wiederum, dass man einen exakten F-Test verwenden kann:

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 11 -

Lineare Restriktionen

Pivot-Statistik: Verteilung der Statistik hängt nicht vom unbekannten Parameter ab

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 12 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 13 -

Lineare Restriktionen

• Wert der Teststatistik ist hoch-signifikant

• Die meisten Konfidenzintervalle für die sechs Einzelhypothesen umschließen auch nicht die 0

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 14 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 15 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 16 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 17 -

Lineare Restriktionen

Zum Vergleich: Bei der Annahme gleicher Kovarianzmatrizenhatten wir folgende Konfidenzintervalle erhalten:

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 18 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 19 -

Lineare Restriktionen

• Übung: Nachrechnen der Signifikanzwerte

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 20 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 21 -

Lineare Restriktionen

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 22 -

Lineare Restriktionen

• Sind Profile parallel?• Keine Ablehnung

• Sind Profile gleich?• Ablehnung

• Sind Profile horizontal?• Ablehnung

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 1 -

4. Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 2 -

Hauptkomponentenanalyse

• Problemstellung• Beobachtungen X

1,…, X

nvon d quantitativen Merkmalen, n

Objekte.

• Problem für großes d: schwere Überschaubarkeit / Strukturerkennung

• Lösungsansatz (Pearson, 1901, Hotelling, 1933):• Konstruktion unkorrelierter Linearkombinationen

(Hauptkomponenten, HK) der beobachteten Variablen, die sukzessive einen sinkenden Prozentsatz der Datenvariabilität erklären

• Durch Auswahl von p < d Hauptkomponenten Repräsentation der Daten in einem niedriger dimensionalen Raum mit möglichst kleinem Informationsverlust

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 3 -

Hauptkomponentenanalyse

1. Hauptkomponente: Richtung der größten Varianz

2. Hauptkomponente: Richtung dergrößten Varianz,orthogonal zur1. Hauptkomponente

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 4 -

Hauptkomponentenanalyse

• Beispiel mit d=2 und 2 Hauptkomponenten• Zur Veranschaulichung, üblicherweise zur Dimensionsreduktion

verwendetes Verfahren

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 5 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 6 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 7 -

Hauptkomponentenanalyse

• Die Verkaufszahlen für beide Produkte sind positiv korreliert

• Geschäfte, die von einem Produkt viel verkaufen, verkaufen in der Regel auch viel von dem zweiten Produkt

• Somit ist die wesentliche Information in der summe der verkauften Produkte enthalten

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 8 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 9 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 10 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 11 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 12 -

Hauptkomponentenanalyse

• Aus der Definition der Hauptkomponenten folgt direkt die Diagonalform der Kovarianzmatrix der transformierten Daten

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 13 -

Hauptkomponentenanalyse

• Hauptkomponentenzerlegung entspricht der Spektralzerlegung der Kovarianzmatrix

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 14 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 15 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 16 -

Hauptkomponentenanalyse

• Die totale Varianz von Y1,...,Y

dund der HKn stimmen überein

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 17 -

Hauptkomponentenanalyse

technische universität dortmund

Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 18 -

Hauptkomponentenanalyse