entwicklung eines distanzmaßes zwischen bildern über · pdf file25 experten der...
Post on 06-Mar-2018
216 Views
Preview:
TRANSCRIPT
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 1
Entwicklung eines Distanzmaßeszwischen Bildern über dem Modellder Fields of Visual WordsAndré Viergutz
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 2
Einführung.Einordnung der Arbeit in die zugrunde liegenden Konzepte
Das Modell der Fields of Visual Words Definition, Illustration und Inferenz
Lernen der ModellparameterMaximierung der Likelihood, Gradientenaufstieg
Anwendung in der inhaltsbasierten Bildsuche
Inhalt
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 3
Einführung
Maß für die Ähnlichkeit zweier Bilder anhand von den
Bildern innewohnenden Merkmalen
Farbe
Form
Textur
Objekte
Abstand in Form der
Anzahl übereinstimmenderMerkmale
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 4
Einführung
Bag of Words
Eine der populärsten Methoden zur Text- und
Objektkategorisierung
Bag of Words kann als Wörterbuch betrachtet werden – eine
indizierte Menge von Wörtern
Beispiel: Heute ist nicht morgen. Und gestern ist auch nicht heute.
Anordnung der Wörter frei aber fest
BoW={heute ,ist , nicht , morgen ,und , gestern , auch}
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 5
Einführung
Bag of Words
Konkreter Text (oder Bild) dabei als Histogramm der Häufigkeiten
der im BoW enthaltenen Wörter repräsentiert
ex1: Heute ist nicht morgen. Und gestern ist auch nicht heute.
ex2: Heute ist heute.
Histogramme werden als vereinfachte Form des konkreten Textes
genutzt.
BoW={heute ,ist , nicht , morgen , und , gestern , auch}
histex1=[2, 2,2,1,1,1, 1]
histex2=[2,1, 0,0, 0,0, 0 ]
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 6
Einführung
Bag of Words
Konzept findet in der Bildkategorisierung als Bag of Features oder
Bag of Visual Words seinen Namen
Visual Words häufig kleine Bildausschnitte, Bereiche um markante
Punkte oder andere Feature Deskriptoren, wie z.B. SIFT
Gesucht wird damit nach aussagekräftigen Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 7
Einführung
Fields of Experts
Patchbasierte Beschreibung der Statistiken
natürlicher Bilder
Bild als Menge all seiner Bildausschnitte
Endliche Anzahl an Patches dienen als Parameter
eines Markov Random Fields
Patches können über Trainingsmenge gelernt werden
m×m
Stefan Roth, Michael J. Black, 2005
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 8
Einführung
Fields of Experts
Idee:
Nutzung der Patches als Visual Words
Adaption des vorgeschlagenen Modells bzw. Definition eines
geeigneten Modells hin zu den Fields of Visual Words
Stefan Roth, Michael J. Black, 2005
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 9
Einführung
Markov Random Fields
'All models are wrong, but some are useful' GEORGE BOX
Ein Markov Random Field (MRF) ist ein statistisches Graphenmodell
für die Beschreibung einer gemeinsamen Wahrscheinlichkeits-
verteilung (auch Verbundwahrscheinlichkeit)
Ein MRF wird dargestellt als ein ungerichteter Graph ,
wobei ein Knoten die Zufallsvariable repräsentiert
G=N , E
ni∈N x i∈X
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 10
Markov Random Fields
enthält die Menge
an Kanten, Paare von Knotenindizes, die
als Nachbarn definiert sind
Die Menge der Nachbarn eines Knotens ist durch alle
ausgehenden Kanten definiert als
Knotens. (Beispiel hier: )
Die Markovsche Eigenschaft sagt nun: Ein Knoten, unter der
Bedingung, dass seine Nachbarn gegeben sind, ist unabhängig von
den restlichen Knoten
E={i , j ∣ x i , x j∈X }
M i
M i = { j , k , l ,m}M i = { j∈N ∣i , j ∈E }
ni
P xi∣xM i = P x i∣xN−x i xS={xi ∣ i∈S }
Einführung
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 11
Markov Random Fields
Beispiel hier: Wenn alle grauen Knoten fest-
gehalten werden, ist der schwarze Knoten
unabhängig von allen weißen.
Gemeinsame Wahrscheinlichkeit ist durch markovsche
Eigenschaft vollständig durch die bedingten Wahrscheinlichkeiten
definiert.
Bedingte Wahrscheinlichkeiten meist intuitiv als parametrisierte Funktion modelliert
P X
P xi∣xM i
Einführung
P (X ) ∝ ∏x i∈X
P (x i∣xM i)
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 12
Einführung
Gibbs Verteilung
wird als Energiefunktion bezeichnet
und schreibt sich
ist eine Clique, eine Menge an Knoten, in der alle Knoten
paarweise Nachbarn sind
p x =1Ze−U x Z .. Normierungskonstante
φc ..Cliquepotential
U x.. Energiefunktion
C ..Clique
U ( x)= ∑c∈C
φc (x)
U x
c∈C
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 13
Definition des Modells
Bild als Grundlage des Modells
Jedem Pixel eines Bildes Zufallsvariable zugeordnet,
die Grauwert repräsentiert
Annahme: Es existiert eine endliche Menge an Patches , die zur
Bewertung von Bildausschnitten dient
Einführung einer latenten Variable
für die Wahl eines Patches pro Pixel
zur Bewertung
Nachbarschaft durch Patchgröße bestimmt
Fields of Visual Words
r x r
c i
y r
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 14
1D-Darstellung einer 3x3 Nachbarschaft
...
...
x ..Bild
y .. Expertenfeld
x1 xnx4x3x2
y1 yny4y3y2
x r=0
x r=1
x r=255
⋮
⋮
y r=0
y r=1
y r=L
L .. Anzahl der Patches
Konfiguration
Konfiguration
Fields of Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 15
Gibbs-Verteilung
Die gemeinsame Wahrscheinlichkeit ist
wobei
Aufgabe: Definition der Energiefunktion
Hohe Energie entspricht geringer Wahrscheinlichkeit
p(x , y ∣Θ)=1
Z (Θ)e−U (x , y ∣ θ)
U ( x , y ∣Θ)=∑r
φ(x r , yr)
Fields of Visual Words
φ(x r , y r)
Θ ..Gesamtheit aller Patchesr ..Pixelposition
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 16
Die Energiefunktion
Zusammenhang zwischen
Grauwerten und Patches durch
Expertenfunktion hergestellt
Die Expertenfunktion ist definiert als
Patches dabei erweitert zu Experten
φ(x r ;θi)
Fields of Visual Words
φ(x r ;θi) = ai+bi ∑r '∈M (r)
(x r '− x̄M r−c i , r '−r)
2+d2ln( π
bi)
r ..Pixelposition
xM r..Durchschnitt des Bildausschnittes
θi = {a i , bi ,c i}
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 17
Illustration des Modells
Fields of Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 18
Fields of Visual Words
Entwicklung eines Distanzmaßes
Modell erlaubt schnelle Berechnung der Wahrscheinlichkeits-
verteilung der Experten an einem Bildpunkt
Idee: Zusammenführung der Verteilungen jedes Punktes
ergibt globalen Bilddeskriptor
Histogramm beschreibt die normierte Summe aller
Einzelverteilungen
Korrelogramm beschreibt die Verteilung über das Auftreten
von Paaren von Experten
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 19
Fields of Visual Words
Entwicklung eines Distanzmaßes
Berechnungszeiten über einem Pixel großen Bild:
Histogramm KorrelogrammBild
10,3x3 25, 3x3 25, 5x5
Histogramm 0,125s 0,263s 0,424s
Korrelogramm 0,958s 5,258s 5,494s
213×213
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 20
Bestimmung des Abstandes
Ähnlichkeit zweier Bilder über verschiedene histogrammbasierte
Distanzmaße bestimmt
L1-Norm, L2-Norm, Kullback-Leibler-Divergenz, Jeffrey-Divergenz, ...
Fields of Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 21
Lernen der Modellparameter
Motivation
Kleine Modelle haben nur geringe Ausdrucksstärke
Erhöhung der Anzahl und Größe der Experten und vor allem die
Belegung intuitiv nur schwer motivierbar
Lernen der Modellparameter an einer großen, repräsentativen
Datenbank
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 22
Lernen der Modellparameter
Maximierung der Likelihood-Funktion
Idee: Expertenparameter sollen so bestimmt werden, dass sie die
Wahrscheinlichkeit eines gegebenen Bildes maximieren.
Zu einem Bild ist kein Expertenfeld gegeben. Damit
Marginalisierung der gemeinsamen Verteilung zu
Maximiert wird die Log-Likelihood der Wahrscheinlichkeit, da
einfacher berechenbar:
x∗
x∗ y∗
px∗ ∣ = ∑yi
px∗ , y i ∣
argmax
L , L = ln p∣x∗
x∗
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 23
Maximierung der Likelihood-Funktion
Zur Maximierung wird der Gradientenaufstieg genutzt
Dafür wird Ableitung der Funktion bezüglich der Parameter
benötigt
Nicht berechenbar aber über Sampling approximierbar
∂ L∂
neu = alt⋅∂ L∂alt
.. Lernrate
∂ L∂
= ⟨ ∂U x , y ∣ ∂ ⟩ pmodel−⟨ ∂U y ' ∣ x∗ ,
∂ ⟩pdata
⟨⋅⟩ p.. Erwartungswert unter der Verteilung p
Lernen der Modellparameter
p(x , y ∣Θ)=1
Z (Θ)e−U (x , y ∣ θ)
L = ln ( p(θ∣x∗))
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 24
Der Gibbs Sampler
Iterative Methode, um sich über das Samplen aus berechenbaren
bedingten Wahrscheinlichkeitsverteilungen einer nicht
berechenbaren gemeinsamen WV zu nähern.
Das heißt: Um ein Sample aus zu generieren, genügt es,
wiederholt einzelne Variablen aus zu samplen, während
der Rest fest bleibt.
Bedingte Wahrscheinlichkeit durch markovsche Eigenschaft leicht
ermittelbar.
px
px r ∣ xN−r
Fields of Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 25
Ablauf des Gradientenaufstiegs
∂ L∂
= ⟨ ∂U x , y ∣ ∂ ⟩ pmodel−⟨ ∂U y ' ∣ x∗ ,
∂ ⟩pdata
und aus Parametern
samplen
aus gegebenem Bild und
Parametern samplen
x y y '
x∗
Richtungsableitungen berechnen
Parameter updaten
x ∗
y '
x
y
Lernen der Modellparameter
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 26
Ablauf des Gradientenaufstiegs
Globales Optimum kann nicht gefunden werden, nur lokales
Abbruch des Lernvorgangs noch manuell festgelegt
Lernen der Modellparameter
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 27
Ergebnisse
Modelle verschiedener Größen auf BrodatzBrodatz-Datenbank gelernt
Datenbank enthält 999 Bilder, wobei jeweils 9 Bilder einer
Texturklasse angehören
Lernen der Modellparameter
Jeweils ein Repräsentant aus 12von111Klassen
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 28
Ergebnisse
25 Experten der Größe von 5x5 Pixeln größtes gelerntes Modell
Lernen der Modellparameter
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 29
Suche ähnlicher Texturen
Zu einem gegebenen Bild soll geordnete Liste der ähnlichsten
Texturen ausgegeben werden
Klassifizierte Datenbank ermöglicht Bestimmung des mittleren Recalls (mittlerer Anteil an Bildern der gleichen Klasse unter den
ersten Suchergebnissen)
Anwendung in der inhaltsbasierten Bildsuche
n
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 30
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen
Evaluation verschiedener Distanzmaße und Deskriptoren auf
Brodatz-Datenbank
DistanzmaßeDistanzmaße DeskriptorenDeskriptoren
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 31
Anwendung in der inhaltsbasierten Bildsuche
10 (HG) 25 (HG) 325 (KG)
L1-Norm 0,84s 1,28s 10,22s
Jeffrey-Divergenz 1,63s 3,34s 36,43s
Quadratische Form 9,21s 41,37s -
EMD 11,94s 98,11s -
Suche ähnlicher Texturen
Jeffrey-Divergenz, robuste und symmetrische Variante der
Kullback-Leibler-Divergenz, bei allen Versuchen die besten
Ergebnisse
Mehr Experten sowie auch größere Nachbarschaften vorteilhaft
aber zeitintensiver
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 32
Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten
Vergleich mit 3 verschiedenen lokal invarianten Textur-Deskriptoren
Anwendung in der inhaltsbasierten Bildsuche
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 33
Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten
BrodatzBrodatz-Datenbank
Sehr gute Ergebnisse - viele unterschiedliche Texturklassen aber
geringe Varianz innerhalb einer Klasse
UIUCUIUC-Datenbank
Stark transformierte als auch deformierte Texturen innerhalb einer
Klasse
FoW-Deskriptoren sind nicht affin invariant
Anwendung in der inhaltsbasierten Bildsuche
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 34
Zusammenfassung
Fields of Visual Words erlauben effektive Erzeugung von
globalen Bilddeskriptoren
Lernen der Modellparameter hat sich als vorteilhaft aber
schwer handhabbar erwiesen
Das generische Modell erzielte ansprechende Ergebnisse in der
inhaltsbasierten Bildsuche
ende.
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 35
Anhang
L = ln p∣x∗ = ln 1
Z ∑y ' e−U y ' ∣ x∗ ,
L = ln ∑y 'e−U y ' ∣ x∗ , −ln Z
Herleitung der Ableitung der Log-Likelihood-Funktion
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 36
∂ L∂
= 1Z ∑x ' , y ' e
−U x ' , y ' ∣⋅∂U x ' , y ' ∣ ∂
− 1∑y 'e−U x∗ , y ' ∣∑
y 'e−U x∗ , y ' ∣⋅∂U x∗ , y ' ∣
∂
px ' , y '
px∗ , y ' Energieableitung
⟨ ∂U x∗ , y ' ∣∂ ⟩
⟨ ∂U x ' , y ' ∣ ∂ ⟩= E [ pmodel ]
= E [ pdata ]
Herleitung der Ableitung der Log-Likelihood-Funktion
Anhang
= ⟨∂U x ' , y ' ∣∂ ⟩ pmodel−⟨ ∂U x ∗ , y ' ∣
∂ ⟩pdata
top related