1
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
1
Regressionsanalyse
Analyse der Residuen
Feststellung der Größe
Feststellung der Verlaufsform
Nichtlineare einfache Regression
Mehrfachregression
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
2
Bibliografie:
Prof. Dr. Kück Universität RostockStatistik, Vorlesungsskript. Abschnitt 8.3.3, 8.3.4 und 8.3.5
Bleymüller / Gehlert / GülicherVerlag Vahlen 2004Statistik für Wirtschaftswissenschaftler
http://www.wiwi.uni-rostock.de/~stat/download.htm
2
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
3
Residuen
iy
iy )(ˆ xfy =
),( ii yxP
xi
iii yye ˆ−=
RegressionsfunktionMerkmals abhängigen des
er Wert beobachtet :iy
t Regresswer :)x(fy ii =
i=1, 2, . . . , n
Die Residuen bzw. die Restabweichungen sind die Abweichungen zwischen den beobachteten Werten yi
und den entsprechenden Regressionswerten (theoretische Werte) yi - Dach.
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
4
Residueneigenschaften bei der Methode der kleinsten Quadrate
iy
iy
)(ˆ xfy =),( ii yxP
xi
iii yye ˆ−=
Merkmals abhängigen des er Wert beobachtet :iy
t Regresswer :)x(fy ii =
i=1, 2, . . . , n
01
=∑=
n
iie
Minimum)ˆ(1
2
1
2 →−=∑∑==
n
iii
n
ii yye
01 ==∑=
n
ee
n
ii
• Für die über der Regressionskurve liegenden Punkte ist ei >0
• Für die unter der Regressionskurve liegenden Punkte ist ei <0
3
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
5
iy
iy
)(ˆ xfy =
),( ii yxP
xi
iii yye ˆ−=
Grafische Darstellung der Residuen
0
ie
xi
01
=∑=
n
iie
01 ==∑=
n
ee
n
ii
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
6
Residualvarianz und -standardfehler
iy
iy
)(ˆ xfy =),( ii yxP
xi
iii yye ˆ−=
i=1, 2, . . . , n
n
e
n
yys
n
ii
n
iii
e
∑∑== =
−= 1
2
1
2
2)ˆ(
Residualvarianz
n
e
n
yys
n
ii
n
iii
e
∑∑== =
−= 1
2
1
2)ˆ(
Residualstandardfehler
Toleranzintervall
[ ]eiei sysy +− ˆ;ˆ
ei sy −ˆ
ei sy +ˆ
Die Mehrheit der yi liegt im Toleranzintervall:
4
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
7
Beziehung zwischen Residualvarianz und Bestimmtheitsmaß
0
n
e
n
yys
n
ii
n
iii
e
∑∑== =
−= 1
2
1
2
2)ˆ(
Residualvarianz
∑
∑
=
=
−
−−=−=
−== n
ii
n
iii
yy
yy
SQTSQR
SQTSQRSQT
SQTSQEB
1
1
)²(
)²ˆ(11
∑=
−−= n
ii
n
yy
nsB
1
2
)²(1
ie
Bestimmtheitsmaß
Je größer die Residuen sind, um so kleiner ist das Bestimmtheitsmaß und um so kleiner wird der Anteil der durch die Regressionsfunktion erklärten Gesamtstreuung. Zwei Schlussfolgerungen lassen sich daraus herleiten:
•Y wird durch X nicht ausreichend erklärt
• Das Modell ist zur Abbildung der Beziehung nicht geeignet
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
8
Grafische Analyse der Residuen (1)
iy
iy
xbbxfy 21)(ˆ +==
),( ii yxP
xi
iii yye ˆ−=
0
ie
xi01 ==
∑=
n
ee
n
ii
In diesem Fall besteht ein Linearer Zusammenhang zwischen beiden Merkmalen X und Y.
Aus dem Streuungsdiagramm der Residuen erkennt man keinen systematischen Verlauf. Daraus folgt, dass die ausgewählte lineare Funktion geeignet ist, um den Zusammenhang zwischen den Merkmalen zu erklären.
mit
5
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
9
Grafische Analyse der Residuen (2)
0
xi
Man erkennt aus dem Streudiagramm (X, Y) einen quadratischen Zusammenhang zwischen beiden Merkmalen. Dieser Zusammenhang lässt sich am besten mit dem quadratischen Ansatz beschreiben.
Residuen beim linearen Ansatz
(1)
(2)
ie
xbbxfy 211 )(ˆ +==
ie
Residuen beim quadratischen Ansatz
23212 )(ˆ xbxbbxfy ++==
0
Zeigen die Residuen einen systematischen Ablauf, dann liegt die Ursache meist in einer Fehlspezifikation des Modells.
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
10
Beispiel: Abhängigkeit zwischen Preis und Leistung
0,839Linear
0,859Exponential
0,897Quadratisch
Rsq (B)Regression
Preis [EURO]
Leistung [PS]
4003002001000
140000
120000
100000
80000
60000
40000
20000
0
Beobachtet
Linear
Quadratisch
Exponentiell
xbbxfy 211 )(ˆ +==
²)(ˆ 3212 xbxbbxfy ++==
xbbexfy 21)(ˆ 3+==
6
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
11
Beispiel: Abhängigkeit zwischen Preis und Leistung. Grafische Darstellung der Residuen
In den drei Ansätzen ist erkennbar, dass die Variabi-lität der Daten recht unterschiedlich ist (Verletzung der Homoskedastizitätsbedingung). Es ist evtl. besser, das Datenmaterial gruppiert zu regressieren. Für die Gruppenbildung eignen sich Karosseriearten, PS-Klassen,…. Das führt zu mehreren einzelnen Regressionsfunktionen über die Abhängigkeit von Preis und Leistung.
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
12
Beispiel: Abhängigkeit zwischen Preis und Leistung. Histogramm für die Verteilung der
Residuen (quadratischer Ansatz)
Residuen PREIS-LEISTUNG quadratik
30000,0
25000,0
20000,0
15000,0
10000,0
5000,0
0,0-5000,0
-10000,0
-15000,0
-20000,0
-25000,0
-30000,0
50
40
30
20
10
0
Std.abw . = 8508,89 Mittel = 0,0
N = 250,00
Man könnte in diesem Fall von der Normalverteilung der Residuen ausgehen.
Die Überprüfung dieser Hypothese kann mit einen Anpassungstest erfolgen.
7
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
13
Nichtlineare Regressionsfunktionen (1)
Zahlreiche Zusammenhangs- und Abhängigkeitsprobleme sind nichtlinearer Natur. Der Graph der Regressionsfunktion ist keine Gerade. Man unterscheidet dabei folgende Fälle:
Polynomiale RegressionQuasilineare RegressionEigentlich nichtlineare Regression
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
14
Nichtlineare Regressionsfunktionen (2)
Potenz- bzw. Exponentfunktion: Exponentialfunktion:
xbeby 21ˆ ⋅=2
1ˆ bxby ⋅=Potenzfunktion
0
5
10
15
20
25
0 1 2 3 4 5
X
Y
Exponentialfunktion
02000400060008000
100001200014000
0 1 2 3 4 5
X
Y
11 =b 22 =b
8
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
15
Nichtlineare Regressionsfunktionen (3)
Hyperbel- bzw. Inversfunktion:Logarithmische Funktion:
xbby lnˆ 21 +=x
bby 1ˆ 21 +=
Logarithmische Funktion
-6
-4
-2
0
2
4
6
0 1 2 3 4 5X
Y
Hyperbelfunktion
0
10
20
30
40
50
0 1 2 3 4 5X
Y
11 =b 22 =b
0>x 0>x
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
16
Nichtlineare Regressionsfunktionen (4)
Ist die Regressionsfunktion ist ein Polynom zweiten Grades, so spricht man von einer quadratischen Regressionsfunktion.
Ist die Regressionsfunktion ist ein Polynom dritten Grades, so spricht man von einer kubischen Regressionsfunktion.
fX = b1 + b2.x + b3
.x²
fX = b1 + b2.x + b3
.x² + b4.x3
Beide Ansätze führen zu multiplen Funktionen!
9
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
17
Beispiel: Abhängigkeit zwischen Geburtsgewicht und Körpergewicht der Mutter – nichtlineare Regression
Welche Funktionistangemessen?
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
18
Linearisierung der Potenzfunktion
21ˆ bxby ⋅=
xbby lnlnˆln 21 += *21
**ˆ xbby +=
xx ln* = 11* ln bb =yy ˆlnˆ * =
Durch die Anwendung der MKQ für die Paare (x*i, y*i) bestimmt man die Regressionskoeffizienten b*1 und b2 . Aus b*1 berechnet man durch die Anwendung der Exponentialfunktion (Kehrfunktion der logarithmischen Funktion) den Koeffizienten b1
1*
1beb =
Potenzfunktion
0
5
10
15
20
25
0 1 2 3 4 5
X
Y
10
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
19
Linearisierung der Exponentialfunktion
xbeby 21ˆ ⋅=
xbby 21lnˆln += xbby 21**ˆ +=
11* ln bb =yy ˆlnˆ * = 1
*
1beb =
Durch die Anwendung der MKQ für die Paare (xi, y*i) bestimmt man die Regressionskoeffizienten b*1 und b2 . Aus b*1 berechnet man durch die Anwendung der Exponentialfunktion (Kehrfunktion der logarithmischen Funktion) den Koeffizienten b1
Exponentialfunktion
02000400060008000
100001200014000
0 1 2 3 4 5
X
Y
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
20
Linearisierung der Logarithmischen Funktion
xbby lnˆ 21 += *21ˆ xbby ⋅+= xx ln* =
Durch Anwendung der MKQ für die Paare x*i, yi bestimmt man die Regressionskoeffizienten.
Logarithmische Funktion
-6
-4
-2
0
2
4
6
0 1 2 3 4 5X
Y
11
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
21
Linearisierung der Hyperbelfunktion
Durch Anwendung der MKQ für die Paare x*i, yi bestimmt man die Regressionskoeffizienten.
xbby 1ˆ 21+= *
21ˆ xbby ⋅+=x
x 1* =
Hyperbelfunktion
0
10
20
30
40
50
0 1 2 3 4 5X
Y
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
22
Preis [DM]
Leistung [PS]
4003002001000
300000
200000
100000
0
-100000
Beobachtet
Linear
Logarithmisch
Invers
Exponent
Exponentiell
xxfy 422,769 -10393)(ˆ 1 +==
xy ln50587,6 -197050ˆ +=
xy 000004,0 85019,7ˆ −=
1,0565 250,245ˆ xy ⋅=
xey 0,0079 13882,9ˆ ⋅=
0,677Logarithmisch
0,867Potenz
0,839Linear
0,482Hyperbel
0,859Exponential
BestimmtheitsmaßRegressionsfunktion
Beispiel: Regressionsfunktionen für die Abhängigkeit des Preises von der Leistung
12
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
23
Einfachregression -Zusammenfassung-
Y X )(ˆ XfY =
Abhängiges Merkmal
Unabhängiges Merkmal
Regressionsfunktion
Aufgabe: Bestimmung einer mathematischen Funktion f, welche die durchschnittliche Tendenz der Abhängigkeit der Variablen Y von der Variablen X möglichst gut beschreibt.
xbby 21ˆ +=
lineare Einfachregression nichtlineare Regression
Linearisierbar Nicht Linearisierbar
21ˆ bxby ⋅=
xbeby 21ˆ ⋅=
xbby lnˆ 21 +=
xbby 1ˆ 21 +=
Potenzfunktion
Exponentialfunktion
Logarithmische Funktion
Hyperbelfunktion
?xbby lnlnˆln 21 +=
xbby 21lnˆln +=*
21ˆ xbby ⋅+=
*21ˆ xbby ⋅+=
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
24
Mehrfachregression -Aufgabenstellung-
Y
X2
X3
Xk
.
.
.
),,,(ˆ32 kXXXfY K=
Abhängiges Merkmal
Regressand
Unabhängige Merkmale
Regressoren
Mehrfachregressions-funktion
Aufgabe: Bestimmung einer mathematischen Funktion f, welche die durchschnittliche Tendenz der Abhängigkeit der Variablen Y von den Variablen X2, . . . , Xk möglichst gut beschreibt. Zur Ermittlung der Regressionsfunktion stehen zur Verfügung nk-dimensionale geordnete Beobachtungen(yi, x2i, x3i, . . . , xki) mit i=1, 2, . . . , n .
LineareMehrfachregression
kkXbXbXbbY ++++= K33221ˆ
13
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
25
Bestimmung der Koeffizienten bei einer linearen Mehrfachregression
-Matrixdarstellung-
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
332
23222
13121
1
11
knn
k
k
xxx
xxxxxx
X
L
MMMMM
L
L
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
ny
yy
Y
ˆ
ˆˆ
ˆ 2
1
M
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
kb
bbb
bM3
2
1
XbY =ˆ
XbXYX ′=′ ( ) ( ) YXXXbXXXX ′′=′′ −− 11 )(
( ) YXXXIb ′′= −1 ( ) YXXXb ′′= −1
YXXbX ′=′
knknnn
kk
kk
xbxbxbby
xbxbxbbyxbxbxbby
++++=
++++=++++=
L
M
L
L
33221
232322212
131321211
ˆ
ˆˆ
XbY =YY ≈ˆ
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
26
Lineares multiples Bestimmtheitsmaß
∑
∑
=
=•
−
−== n
ii
n
ii
kY
yy
yy
SQTSQEr
1
2
1
2
2...23
)(
)ˆ(
Das lineare multiple Bestimmtheitsmaß gibt den Anteil der durch die lineare Mehrfachregression erklärten Streuung an der Gesamtstreuung an:
kikiii xbxbxbby ++++= K33221ˆ
Die positive Wurzel aus r² ist der Ausdruck des linearen multiplen Korrelationskoeffizienten. Es gilt:
10 23 ≤≤ • kYr K
Partielles lineares Bestimmtheitsmaß
2)1...(23
2)1...(23
2...232
)1...(23 1 −•
−••−• −
−=
kY
kYkYkYk r
rrr
Zusammenhang zwischen dem Merkmal y und den Merkmalen x2, x3, …,xk
14
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
27
Lineares partielles Bestimmtheitsmaß
Das lineare partielle Bestimmtheitsmaß lautet:
2)1...(23
2)1...(23
2...232
)1...(23 1 −•
−••−• −
−=
kY
kYkYkYk r
rrr
Die partielle Bestimmtheit beantwortet die Frage, in welchem Maße die Bestimmtheit durch eine der erklärenden Variablen bedingt ist, wenn der Einfluss aus den übrigen erklärenden Variablen ausgeschaltet wird. Analog dazu gibt der partielle Korrelationskoeffizient die Stärke des Zusammenhanges zwischen zwei Variablen unter der Bedingung an, dass auch weitere Variablen in die Problemstellung einbezogen werden. Partielle Korrelation bzw. partielle Bestimmtheit wertet einen bivariaten Zusammenhang von Merkmalen im Ensemble weiterer Merkmale aus.
Der lineare partielle Korrelationskoeffizient ist der positive Wurzelausdruck des linearen partiellen Bestimmtheitsmaßes. Es gilt:
10 )1...(23 ≤≤ −• kYkr Zusammenhang zwischen Merkmal y und Merkmal xk
im Ensemble der Merkmale x2, x3,…,xk-1.
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
28
Optimale Anzahl der erklärenden Variablen in Regressionsfunktionen
Je größer die Anzahl der erklärenden Variablen in der linearen Mehrfachregression ist, um so größer wird das lineare multiple Bestimmtheitsmaß. Aber: Um so höher wird auch der rechnerische Aufwand und auch der Aufwand bei der Erfassung und Pflege der Daten! Man soll deswegen nicht mehr erklärende Variablen in das Modell einbeziehen als notwendig.Wie kommt man zu dieser „optimalen“ Anzahl?
Diesem Anliegen dienen Strategien zum Spezifizieren multipler Modelle, in dem man schrittweise aufbauend (oder schrittweise abbauend) die erklärenden Variablen in das Modell einbezieht (herausnimmt). Das Kriterium für den Abbruch der Schrittfolge ist immer das lineare multiple Bestimmtheitsmaß der Funktion. Ein nützlicher Index ist dabei die Veränderung des Bestimmtheitsmaßes um so und soviel Prozentpunkte durch die Hinzunahme (oder den Wegfall ) einer erklärenden Variablen.
15
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
29
Beispiel: Mehrfachregression zwischen Preis und den technischen Merkmalen
Preis [EURO]
Leistung [PS]
Hubraum [ccm]
Beschleunigung 0-100
Höchstgeschw indigkei
0,8810,8920,9100,911Bestimmtheitsmaß
Nicht enthaltenNicht enthaltenNicht enthalten-53,966Vmax
Nicht enthaltenNicht enthalten1274,4271042,587Beschleunigung
16,49411,5818,9898,676Hubraum
Nicht enthalten70,341153,711172,415Leistung
4. Schritt3. Schritt2. Schritt1. SchrittMerkmal
?
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
30
Polynomiale Regressionsfunktion
Y X ²ˆ321 xbxbbY ++=
Abhängiges Merkmal
Unabhängiges Merkmal
Regressionsfunktion
iii xbxbby 33221ˆ ++=ii xx =2
23 ii xx =Linearisierung
Quadratische Regresionsfunktion
0
2
4
6
8
10
0 1 2 3 4 5X
Y
b1=3 b2=5 b3=-1
253ˆ xxy −+=
Quadratischer Ausdruckführt zu multiplerFunktion!
16
Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistik Regression II
31
Polynomiale Regressionsfunktion
Beispiel: Höhe von 112 weiblichen Rindern (aus Rasch, Verdooren) nach dem Alter, gemittelte Höhe
Höhe(cm)
Alter(Monate)
77,20
94,56
107,212
116,018
122,424
126,730
129,236
129,942
130,448
130,854
131,260
fquadratisch(x) = 80,76 + 2,27.x - 0,025.x²
fkubisch(x) = 77,43 + 3,16.x - 0,063.x² + 0,00043.x³