kapitel 3: regression
DESCRIPTION
Kapitel 3: Regression. Lineare Regression. 1-dim Fall: Entspricht Korrelation. Rauschen. Abhängige Variablen („target“). unbhängige Variablen. Wenn w 0 ,b=0 : Korrelation. Pseudoinverse: Siehe Bishop(1995), p.92. Perceptron als lineare Regression. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/1.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
1
Kapitel 3: Regression
![Page 2: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/2.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
2
Lineare Regression
• 1-dim Fall: Entspricht Korrelation
0
in
:allgemein
w
baxt
inWxtAbhängigeVariablen („target“)
unbhängigeVariablen
Rauschen
Wenn w0,b=0: Korrelation
![Page 3: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/3.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
3
Perceptron als lineare Regression
• Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression
• Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen
• Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“)
TXW pinvGewichtsmatrix
Matrix aller Inputvektoren
Matrix aller Targetvektoren
Pseudoinverse
Pseudoinverse:
Siehe Bishop(1995), p.92 TTpinv XXXX
1
![Page 4: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/4.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
4
Nichtlineare Regression
• Ähnlich wie bei Diskriminanzfunktion:– Parametrisch: z.B. Polynom:
– Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression)
• Allgemein: inxt f
Erwartungswert, kann durch NN angenähert werden
3in2inin cxbxaxt
![Page 5: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/5.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
5
Diskreter Fall
• Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert
• kontinuierlicher Fall: Teile Input in Intervalle
• Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression
![Page 6: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/6.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
6
Kontinuierlicher Fall (Semiparametrisch)
• Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung
• Likelihood:
xxttx, ppp |
in
i
ii ppL xxt
1
|
Verteilung mit Erwartungswert f(xi)
![Page 7: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/7.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
7
MLP als Universaler Funktionsapproximator
• Bsp: 1 Input, 1 Output, 5 Hidden
• MLP kann beliebige Funktionen annähern (Hornik et al. 1990)
• durch Überlagerung von (gewichteten) Sigmoiden
• Komplexität durch das Zusammenspiel vieler einfacher Elemente
out0
1 1
hid0
inhidoutinoutj
n
j
m
iiiijjkkk wwxwfwxgx
verschieben(bias)
Dehnen, spiegeln
![Page 8: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/8.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
8
Normalverteiltes Rauschen
• Likelihood:
• Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x))
• Entspricht dem summierten quadratischen Fehler(siehe Backpropagation)
n
i
iin
i
ii tftpL
12
2
1 2
;exp
2
1|
Wx
xW
n
i
ii tfE1
2;Wx
![Page 9: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/9.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
9
Training als Maximum Likelihood
• Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen:– Fehler ist in jedem Punkt normalverteilt, ~N(0,)– Varianz dieser Verteilung ist konstant
• Varianz des Fehlers (des Rauschens):
• Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell)
min1
2
opt2 1
;1
En
tfn
n
i
ii
Wx (verbleibender normalisierter Fehler)
![Page 10: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/10.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
10
Klassifikation als Regression• MLP soll Posterior annähern
• Verteilung der Targets ist keine Normalverteilung
• Bernoulli Verteilung:
• Neg. log-Likelihood:
• „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen)
n
i
titiii
xxL1
1
outout 1
n
i
iiii xtxtE1
outout 1log1log
xout=P(c|xin)
![Page 11: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/11.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
11
Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion
• Regression:– Linear + summierter quadratischer Fehler
• Klassifikation (Diskriminationsfunktion):– Linear + summierter quadratischer Fehler
• Klassifikation (Posterior nach Bayes):– Softmax+cross-entropy Fehler
– 2 Klassen, 1 Ouput: Sigmoid+cross-entropy
![Page 12: Kapitel 3: Regression](https://reader035.vdokument.com/reader035/viewer/2022081817/56815904550346895dc637d6/html5/thumbnails/12.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
12
Zusammenfassung
• NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression
• NN schätzt Erwartungswert, um den die Targets streuen
• Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte)
• Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets)
• Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation)