kapitel 3: regression

SS 2009 Maschinelles Lernen und Neural Computation

1

Kapitel 3: Regression


2

Lineare Regression

• 1-dim Fall: Entspricht Korrelation

0

in

:allgemein

w

baxt

inWxtAbhängigeVariablen („target“)

unbhängigeVariablen

Rauschen

Wenn w0,b=0: Korrelation


3

Perceptron als lineare Regression

• Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression

• Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen

• Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“)

TXW pinvGewichtsmatrix

Matrix aller Inputvektoren

Matrix aller Targetvektoren

Pseudoinverse

Pseudoinverse:

Siehe Bishop(1995), p.92 TTpinv XXXX

1


4

Nichtlineare Regression

• Ähnlich wie bei Diskriminanzfunktion:– Parametrisch: z.B. Polynom:

– Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression)

• Allgemein: inxt f

Erwartungswert, kann durch NN angenähert werden

3in2inin cxbxaxt


5

Diskreter Fall

• Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert

• kontinuierlicher Fall: Teile Input in Intervalle

• Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression


6

Kontinuierlicher Fall (Semiparametrisch)

• Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung

• Likelihood:

xxttx, ppp |

in

i

ii ppL xxt

1

|

Verteilung mit Erwartungswert f(xi)


7

MLP als Universaler Funktionsapproximator

• Bsp: 1 Input, 1 Output, 5 Hidden

• MLP kann beliebige Funktionen annähern (Hornik et al. 1990)

• durch Überlagerung von (gewichteten) Sigmoiden

• Komplexität durch das Zusammenspiel vieler einfacher Elemente

out0

1 1

hid0

inhidoutinoutj

n

j

m

iiiijjkkk wwxwfwxgx

verschieben(bias)

Dehnen, spiegeln


8

Normalverteiltes Rauschen

• Likelihood:

• Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x))

• Entspricht dem summierten quadratischen Fehler(siehe Backpropagation)

n

i

iin

i

ii tftpL

12

2

1 2

;exp

2

1|

Wx

xW

n

i

ii tfE1

2;Wx


9

Training als Maximum Likelihood

• Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen:– Fehler ist in jedem Punkt normalverteilt, ~N(0,)– Varianz dieser Verteilung ist konstant

• Varianz des Fehlers (des Rauschens):

• Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell)

min1

2

opt2 1

;1

En

tfn

n

i

ii

Wx (verbleibender normalisierter Fehler)


10

Klassifikation als Regression• MLP soll Posterior annähern

• Verteilung der Targets ist keine Normalverteilung

• Bernoulli Verteilung:

• Neg. log-Likelihood:

• „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen)

n

i

titiii

xxL1

1

outout 1

n

i

iiii xtxtE1

outout 1log1log

xout=P(c|xin)


11

Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion

• Regression:– Linear + summierter quadratischer Fehler

• Klassifikation (Diskriminationsfunktion):– Linear + summierter quadratischer Fehler

• Klassifikation (Posterior nach Bayes):– Softmax+cross-entropy Fehler

– 2 Klassen, 1 Ouput: Sigmoid+cross-entropy


12

Zusammenfassung

• NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression

• NN schätzt Erwartungswert, um den die Targets streuen

• Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte)

• Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets)

• Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation)

kapitel 3: regression

Documents