Maschinelles Lernen
Jun. Prof. Dr. Achim Tresch
http://www.staff.uni-mainz.de/tresch/
[email protected]„Schachroboter“, 1769
Seite 204/11/23|
Einführung: Was ist maschinelles Lernen?
SpracherkennungModellbasierte Aktienmarktanalysen
Biometrische Personenidentifikation
Seite 304/11/23|
Computerunterstützte Krebsdiagnostik
Automatisierte Hochdurchsatz- Bildanalyse
Protein-Funktionsvorhersage
Einführung: Was ist maschinelles Lernen?
Seite 404/11/23|
„Intelligente“ Autonome Systeme
Was ist maschinelles Lernen?
Einführung: Was ist maschinelles Lernen?
Genvorhersage
Kreditrisikobewertung
Seite 504/11/23|
Daten Entscheidungen
bekannte Daten bekannte („richtige“) Entscheidungen
unbekannte Daten möglichst „richtige“ Entscheidungen?
Einführung: Was ist maschinelles Lernen?
Seite 604/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies
Seite 704/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Digitalisiertes Kamerabild
Merkmalsextraktion (Feature Selection)
Ermittele ein Klassifikationskriterium
Klassifiziere
> 40cm
menschliches Vorgehen maschinelles Vorgehen
Seite 804/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Klassifiziere nach der Länge des Fisches:
Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.
Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen.
Seite 904/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Klassifiziere nach der Farbe (Helligkeit) des Fisches:
Seite 1004/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Kombiniere die Merkmale Länge und Helligkeit: Fisch (Länge, Helligkeit)
Eine geeignet gewählte Entscheidungsgrenze kann Lachs und
Seebarsch fast fehlerfrei trennen.
Seite 1104/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Geht es noch besser? Jain!
Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.
Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:
Seite 1204/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Geht es noch besser? Jain!
Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist.
Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:
Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen
vermutlich eher ein Lachs oder ein Barsch? Generalisierbarkeit
Seite 1304/11/23|
Beispiel: Unterscheidung von Lachs und Seebarsch
Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften.
Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab? Validierung
Seite 1404/11/23|
Der Design-Zyklus der Mustererkennung
Hauptthemen der Vorlesung
Seite 1504/11/23|
Vorlesung Maschinelles Lernen:6 Credit Points, benoteter Schein, zweisemestrig
Scheinkriterien: • Klausur am Ende des Semesters• Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme.
Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden.Die Übungen sind teils praktisch (in R), teils theoretisch.
Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, 2000. [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001.
Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt.
Arbeiten: Über das Gebiet werden Arbeiten vergeben.
Skripten: Auf der Homepage oder in ILIAS
Vorlesungs-/Übungszeiten: ?
Organisatorisches . . .
Seite 1604/11/23|
Bayessche Entscheidungstheorie
Unterscheidung von Lachs und Seebarsch:
Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings
einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior),
dass dieser Fisch ein Lachs bzw. ein Barsch ist:
P(ω=Lachs), P(ω=Barsch)
D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann
P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität)
Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar
ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw.
Pω(Barsch).
Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen
wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich
anzunehmen:
P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)
Seite 1704/11/23|
Bayessche Entscheidungstheorie
Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel:
• Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs
• Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch
Daten helfen bei der Konstruktion besserer Entscheidungsregeln:
Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben.
Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?
P(x | ω=Lachs)
P(x | ω=Barsch)
Seite 1804/11/23|
Bayessche Entscheidungstheorie
Erinnerung bedingte Wahrscheinlichkeiten (Definition):
P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x)
Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob
P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“)
Hierzu verwenden wir den Satz von Bayes:
)(
)()|( )|(
xP
PxPxP
Thomas Bayes, * ~1702, † 1761Englischer Mathematiker und
presbyterianischer Pfarrer.
Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht.
Seite 1904/11/23|
Bayessche Entscheidungstheorie
Satz von Bayes
)(
)()|( )|(
xP
PxPxP
Posterior
Likelihood Prior
EvidenceNutze aus, dass
P( ω=Lachs | x) > P( ω=Barsch | x) ↔ P( ω=Lachs | x) / P( ω=Barsch | x) > 1
(setze a/0 = ∞ für a>0)
1)(
)()|()(
)()|( xP
BarschPBarschxPxP
LachsPLachsxP
1)()|(
)()|(
BarschPBarschxP
LachsPLachsxP
)()|()()|( BarschPBarschxPLachsPLachsxP
↔
↔
↔
Seite 2004/11/23|
Bayessche Entscheidungstheorie
P(ω=Barsch | x)
P(ω=Lachs | x)
Seite 2104/11/23|
Bayessche Entscheidungstheorie
Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle.
)()|( )|( PxPxP Posterior
Likelihood Prior
Entscheidungsregel (Bayes Klassifikator):
„Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch)
„Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch)
Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit?Für gegebenes x ist der bedingte Fehler
)|( ),|( min )|( xLachsPxBarschPxerrorP
Seite 2204/11/23|
Beispiel: The O.J. Simpson Trial
O.J. Simpson,1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman
Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind.
)()|(
)()|(
)postitivTest DNA|(
)positivTest DNA|(1
unschuldigPunschuldigpositivP
schuldigPschuldigpositivP
unschuldigP
schuldigP
)(
)(10170 6
unschuldigP
schuldigP
„Voreingenommenheit der Jury“ aufgrund anderer Indizien
Seite 2304/11/23|
Bayessche Entscheidungstheorie, Verallgemeinerungen
Seite 2404/11/23|
Bayessche Entscheidungstheorie, Verallgemeinerungen
Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels)
Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen.
Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auchC = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung}
Lossfunktion: λ: A x C |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt.
Aufgabe: Finde eine Entscheidungsfunktion a: Daten A, welche die erwarteten Kosten (expected Loss) minimiert.
Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko
)|()|( )|(
Cc
ii xcPcaxaR
Seite 2504/11/23|
Bayessche Entscheidungstheorie, Verallgemeinerungen
dx )|)(()( p(x)xxaRaRx
Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust.
Für eine gegebene Entscheidungsregel a: Daten A lautet der erwartete Verlust
Entscheidungsregel (Bayes Entscheidung):
Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird.
Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!
Seite 2604/11/23|
Bayessche Entscheidungstheorie, Verallgemeinerungen
Die 0-1 Lossfunktion
In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion
tion)Klassifika (korrekte wenn 0
ifikation)(Fehlklass wenn 1),(
ca
caca
i
ii
Das bedingte Risiko beträgt dann
Cc i
i
Ccii xcP
ca
caxcPcaxaR )|(
wenn 0
wenn 1 )|()|( )|(
)|(1 )|(}{
xaPxcP iaCj i
Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel.Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.
Seite 2704/11/23|
Bayes-Entscheidungn bei normalverteiltem PosteriorExkurs: Die Normalverteilung
Seite 2804/11/23|
Bayes-Entscheidungn bei normalverteiltem Posterior
Seite 2904/11/23|
Bayes-Entscheidungn bei normalverteiltem Posterior
Seite 3004/11/23|
Bayes-Entscheidungn bei normalverteiltem Posterior
Seite 3104/11/23|
Bayes-Entscheidungn bei normalverteiltem Posterior
Seite 3204/11/23|
Bayes-Entscheidungn bei normalverteiltem Posterior