multimedia-analysetechnik - kickoff02 - maschinelles lernen und tools
DESCRIPTION
Kickoff02 Multimedia-Analysetechnik (1) Maschinelles Lernen - Eine kurze Einführung (2) Evaluation (3) Aufgabenbeschreibung (4) Libs und ToolsTRANSCRIPT
MULTIMEDIA-ANALYSE-TECHNIKEN
SeminarDr. Harald Sack / Jörg Waitelonis
Zalan Kramer / Johannes HercherHasso-Plattner-Institut für Softwaresystemtechnik
Universität PotsdamSommersemester 2010
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
2
Multimedia-Analyse-Techniken
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
3
Multimedia-Analyse-Techniken1. Multimedia und Kodierung
Multimediale Daten im Computer
•Definition Multimedia
•Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information.
•Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmt
alphanumerischeInformation
graphischeInformation
Audio-information
Video-information
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4
Multimedia-Analyse-Techniken1. Multimedia und Kodierung
Medientypen•zeitunabhängige Medien
•Zeitkomponente während der Aufzeichnung ohne Bedeutung
•z.B. Text, Grafik
•„diskrete Medien“
•zeitunabhängige Medien
•Information verändert sich mit der Zeit
•Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant
•Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf
•Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe
•z.B. Audio, Video
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
5
Multimedia-Analyse-Techniken1. Multimedia und Kodierung
Multimediakodierung•Um Informationen zum Zweck der Archivierung oder Übertragung aufzuzeichnen,
müssen die Informationen entsprechend kodiert werden.
•alphanumerische Information (Text)
•Zur Kodierung alphanumerischer Nachrichten, also mittels Ziffern und Buchstaben verschiedener Alphabete dargestellter Informationen, existieren viele unterschiedliche Verfahren, angefangen von ASCII, dem 7-Bit Standard, der noch aus den Zeiten des Fernschreibers stammt, bis hin zum 32-Bit Unicode, mit dem es möglich ist, annähernd alle Alphabete der Erde zu kodieren.
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
6
Multimedia-Analyse-Techniken1. Multimedia und Kodierung
Multimediakodierung•graphische Information
•Graphische Information liegt analog vor und muss vor einer entsprechenden Kodierung zunächst digitalisiert werden.
•man unterscheidet verlustfreie und verlustbehaftete Kodierung graphischer Information
•verlustfreie Kodierung:
•RAW, TIFF, BMP, ...
•verlustbehaftete Kodierung:
•GIF, PNG, JPEG, JPEG2000, ...
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
7
Multimedia-Analyse-Techniken1. Multimedia und Kodierung
Multimediakodierung•Audio- /Videoinformation
•Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden.
•man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/Videoinformation
•verlustfreie Kodierung:
•Audio: AU, WAV, ...
•Video: DV
•verlustbehaftete Kodierung:
•Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ...
•Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ...
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
8
Multimedia-Analyse-Techniken
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
9
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•Was ist Farbe?
•Farben sind die Grundbestandteile des weißen Lichts
•Prisma zerlegt weißes Licht in seine spektralen Bestandteile
•Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung
1648 Marcus Marci1672 Isaac Newton
λ=780 nm λ=380 nm
Infrarot UVsichtbares Licht
Elektromagnetisches Spektrum
PrismaIsaac Newton(1643-1727)
Marcus Marci(1595-1667)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
10
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•Thomas Young (1801) weist nach, dass das menschliche Auge nur in der Lage
ist, 3 Grundfarben wahrzunehmen (3-Farbtheorie)
•Alle übrigen wahrgenommenen Farben ergeben sich durch Mischung der 3 Grundfarben in unterschiedlicher Intensität
•Max Planck (1900) weist Zusammenhang zwischen Strahlungsfrequenz (Farbe des Lichts) und Temperatur nach (Schwarzkörperstrahlung und Farbtemperatur)
•„In einem geschlossenem Hohlraum stellt sich eine nach allen Richtungen gleiche elektromagnetische Strahlung bestimmter Gesamtenergie und bestimmter spektraler Verteilung ein, die nur von der Temperatur der Hohlraumwände abhängt.“
Thomas Young(1773-1829)
2200 K 5500 K Farbtemperatur(Kelvin)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
10
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•Thomas Young (1801) weist nach, dass das menschliche Auge nur in der Lage
ist, 3 Grundfarben wahrzunehmen (3-Farbtheorie)
•Alle übrigen wahrgenommenen Farben ergeben sich durch Mischung der 3 Grundfarben in unterschiedlicher Intensität
•Max Planck (1900) weist Zusammenhang zwischen Strahlungsfrequenz (Farbe des Lichts) und Temperatur nach (Schwarzkörperstrahlung und Farbtemperatur)
•„In einem geschlossenem Hohlraum stellt sich eine nach allen Richtungen gleiche elektromagnetische Strahlung bestimmter Gesamtenergie und bestimmter spektraler Verteilung ein, die nur von der Temperatur der Hohlraumwände abhängt.“
Thomas Young(1773-1829)
Max Planck(1858- 1947)
2200 K 5500 K Farbtemperatur(Kelvin)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
11
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•Um Farben korrekt (auf dem Computer) reproduzieren zu können dienen
mathematische Farbmodelle
•Diese basieren auf unterschiedlichen Arten der Mischung von Anteilen der jeweiligen Grundfarben, deren Helligkeit und anderer Farbeigenschaften
Isaac Newton (1704) verbindet die beidenEnden des optischen elektromagnetischen Spektrums zum Farbkreis
Isaac Newton(1643-1727)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
12
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•Auch Goethe beschäftigte
sich mit der Farbenlehre. Er entwickelte einen Farbkreis und ordneteden einzelnen Farben spezifische Eigenschaften zu.
•Goethe vertrat im Gegensatz zu Newton die Ansicht, dasssich das weisse Licht nicht aus monochromatischen Komponenten zusammensetzt(Spektrum), sondern Farbe erst imAuge entsteht
Johann Wolfgang v. Goethe
(1749-1832)
Farbenkreis zur Symbolisierung des menschlichen Geistes- und Seelenlebens, 1809
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
13
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•1931 wurde als erstes Modell
zur objektiven Farbbestimmungdie Farbnormtafel von derinternationalen Beleuchtungs-kommision festgelegt(Commission Internationale d´Eclairage, CIE)
•Farben werden aus Farbanteilen derGrundfarben (Rot, Grün, Blau)gemischt und in ein 2-dimensionalesKoordinatensystem projiziert
CIE Farbnormtafel, 1931
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
14
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•RGB-Farbmodell
•additive Farbmischung
•Mischung selbstleuchtender Grundfarben
•Rot (700nm)
•Grün (546,1nm)
•Blau (435,8nm)
•Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben
•z.B. bei 8 Bit pro Farbkanal:gelb = (255,255,0)
additive Farbmischung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
15
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•RGB-Farbmodell
•Bsp.:
R
G
B
additive Farbmischung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
16
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
16
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
17
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•CMY(K) Farbmodell
•Bsp.:
C
YM
subtraktive Farbmischung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
18
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•YUV-Farbmodell
•Zerlegung der Farben in
•Helligkeitsanteil (Luminanz) – Y-Komponente
•Farbanteil (Chrominanz) – U und V Komponente
•Historisch in Verbindung mit dem Farbfernsehens entstanden
•Rückwärtskompatibilität mit Schwarzweiß-Empfängern
•daher separater Helligkeitskanal
•Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
19
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•YUV-Farbmodell
rot grün blau
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
20
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle
Farbe und Farbmodelle•YUV-Farbmodell
Y U V
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
21
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.2 Visuelle Wahrnehmung
Visuelle Wahrnehmung des Menschen•Das menschliche Auge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
22 Visuelle Wahrnehmung des Menschen•Licht- / Farbempfindlichkeit
•Netzhaut enthält zwei Typen von Licht-rezeptoren im menschlichen Auge:
•ZapfenFarb- und Helligkeitsempfindlich,verantwortlich für Farbsehen,im zentralen Retinabereich,ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen
•StäbchenHelligkeitsempfindlichauch bei geringer Beleuchtungim peripheren Retinabereichca. 120 Millionen
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.2 Visuelle Wahrnehmung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
23 Verlustbehaftete JPEG Kodierung•JPEG, Joint Photographic Experts Group
•verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen
•Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität
•Ausnutzung der Physiologie der menschlichen Wahrnehmung
•Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen
•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
24 Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
24 Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
25 JPEG Komprimierung - Ablauf•
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Farbraum-wechsel
DiskreteCosinus-
Transformation
Chroma-Subsampling
Quantisierungmodifizierte
HuffmanKodierung
Originalbild komprimiertes Bild
schwächereFarbempfindlichkeitdes menschlichenAuges
Filterung von Bildanteilenmit starken Kontrastschwankungen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
26 JPEG Komprimierung - Ablauf
(1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Farbraum-wechsel
Originalbild
(r,g,b)
Y
Cb
Cr
Luminanz
Chrominanz
+0,299 +0,587 +0,114+0,1687 −0,3313 +0,5
+0,5 −0,4187 −0,081
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⋅
rgb
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
=
YCb
Cr
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Y-Pixel
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Y-Pixel
Montag, 17. Mai 2010
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Y-Pixel
Montag, 17. Mai 2010
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Y-Pixel
Statt 4·(r,g,b) 4·Y+1·(Cb+Cr)
4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
28
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
4:4:4 – kein Subsampling
Luminanzpixel
Chrominanzpixel
4:2:2 – horizontales Subsampling um Faktor 2
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
29
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Luminanzpixel
Chrominanzpixel
4:1:1 – horizontales Subsampling um Faktor 4
4:2:0 – horizontales und vertikales Subsampling um Faktor 2
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
30
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
4:2:0 Subsampling285 KB
Original PNG968 KB
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum
•Jede Komponente (Y,Cb,Cr) wird separat transformiert
•Bild wird dazu in Blöcke 8x8-Pixel zerlegt
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
31
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 Block
DCT
F(0,0)
F(7,7)
transformierter 8x8 Block
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 BlockOrtsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 BlockOrtsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 Block
177 177177 136218 218177 218
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 Block
177 177177 136218 218177 218
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 Block
177 177177 136218 218177 218
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
(0,0)
(7,7)8x8 Block
177 177177 136218 218177 218
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
33
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
33
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
33
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Montag, 17. Mai 2010
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
33
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
f
Frequenz-Spektrum
A
x
Ortsraum
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
34 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
• Jede periodische Schwingung kann als eine Überlagerung von Sinusschwingungen unter- schiedlicher Amplituden und Frequenzen dargestellt werden • Trägt man die Amplituden der beteiligten Schwingungen in Abhängigkeit der Frequenz auf, erhält man das Frequenz- spektrum
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
35 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Ortsraum
xy
DCT
Frequenzraum
uv
f(x,y) F(u,v)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
36 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Frequenzraum
uv
F(u,v)
• Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz
• F(0,0) - niedrigste Frequenz• F(7,7) - höchste Frequenz
Niedrige Frequenz = langsame ÄnderungHohe Frequenz = rasche Änderung
„natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänged.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
37 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
große, regelmäßig gefärbte Flächen niedrige Frequenzanteile
feine Details, hohe Kontrast-unterschiede hohe Frequenzanteile
DC (Direct Current) = F(0,0) enthält Durchschnittswert der 8x8-Matrix
AC (Alternating Current) = F(0,1) … F(7,7) speichern Veränderungen zum DC
wachsende Frequenz
wac
hsen
de F
requ
enz
Visualisierung der Basisfrequenzen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
38 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
45 5045 45 50
50 5045
50
53
56
56
56
5653 53
535350
58 48
43 48
48
43 48 61 63
68 504858
45 48 56
56
50 45
48
6168
61
61
61
61
63
53635656
56 56
50
50
53
53 53
45 5050 61 61
58
48
425 -6-25 -5
-1 -710
9
-4
0
3-15
-3
-17 0
-5
-3 -3 4
-3
0 0 0 -1
4
1-43
-8 3
3
1
4
2
-3 2 -1
5
-6
DCT
Orts
raum
Freq
uenz
raum
-15
3
4
-6
-2-10
13
10
0 -22
4
6 66
1
0
3
2
-4
-3
-3
0 4
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
39 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Quantisierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Hohe Frequenzenwerden entfernt
Niedrige Frequenzenbleiben erhalten
Qua
ntis
ieru
ngsm
atrix
– Q
(u,v
)1 11 1 8
1 41
2
16
4
4
8
161 4
888
1 16
1 1
2
1 1 4 8
16 16168
4 8 8
8
8 16
4
3216
16
64
32
32
32
3216168
8 8
8
4
8
8 16
16 328 8 16
16
8
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
40 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
DC
Mittelwert
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
40 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
DC
Mittelwert
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
41 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
• Kodierung variabler Länge mit fester Kodierungsvorschrift• Zusammenfassung von Null-Ketten mit Lauflängenkodierung (RLE-Kodierung)
Bits Wertebereich1 -1, +1
2 -3,-2, +2,+3
3 -7…-4, +4…7
4 -15…-8, 8…15
5 -31…-16, 16…31
6 -63…-32, 32…63
7 -127…-64, 64…127
8 -255..-128, 128…255
9 -511…-256, 256…511
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
42 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung
Quality : 90%Size: 21,868 bytes
Quality : 50%Size: 9,096 bytes
Quality : 10%Size: 3,519 bytes
Quality : 100%Size: 54,124 bytes
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
43 Videokodierung und Bewegungswahrnehmung•Grundlagen
•Video (Film):kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint.
•Netzhautträgheit:das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt
•Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz
•Bild und Ton müssen synchron ablaufen
•erfordert hohe Bandbreite
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
44 Videokodierung und Bewegungswahrnehmung•Bewegungswahrnehmung
•komplexe Funktion der menschlichen Sensorik
•abhängig von
•Physiologischen Faktoren
•Beeinflussung benachbarter Lichtsinneszellen in der Retina
•Foveale Objektverfolgung (Nachführung des Auges)
•Vergenz und Akkomodation
•Psychologischen Faktoren
•Elimination gleichförmiger Bewegung durch das Gehirn
•Koppelung von Bewegung und Beschleunigungswahrnehmung (Gleichgewichtsorgan)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
45 Videokodierung und Bewegungswahrnehmung•Analoge Videotechnik
•Farbfernsehen – PAL
•PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
gerade Zeilen ungerade Zeilen
+
1/50s 1/50s
=
1/25s
PAL interlaced
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
46 Videokodierung und Bewegungswahrnehmung•PAL (SD576i)- notwendige Bandbreite
•Bildauflösung: 720 x 576 Pixel
•Bildwiederholfrequenz: 25 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Luminanz Chrominanz
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
47 Videokodierung und Bewegungswahrnehmung•HDTV (HD1080p) - notwendige Bandbreite
•Bildauflösung: z.B. 1920 x 1080 Pixel
•Bildwiederholfrequenz: bis 60 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
48 Prediktive Kodierung•Ausnutzung von inhärenten Redundanzen in Videosequenzen
•z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt
•Objekte und Objektbewegungen müssen erkannt werden
•Bewegung kann als Grauwertveränderungder Position von Bildpunkten definiert werden
•Bei fester Kameraeinstellung ändert sich derBildinhalt durch Bewegung der Objekte in der Szene
•Verfahren zur Bewegungsprädiktion:
• Vorhersage ohne semantischen Kontext
• Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc.
• Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
49 Prediktive Kodierung•Block-Matching
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenzbild RIn-k
• Annahme:
• benachbarte Bildpunkte führen die gleiche Bewegung aus.
• Vorgehen
• Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente)
• Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt
Originalbild In
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
50 Prediktive Kodierung•Block-Matching
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenzbild RIn-k
• Vorgehen (Fortsetzung):
• Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy)
• Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird.
• Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr ähnlich.
Originalbild In
v
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
51 Prediktive Kodierung•Ursache für Bildveränderungen in Videosequenzen sind auch Bewegungen der
Kamera
•Geradlinige Bewegungen der Kamera (Translation)
•Kameraschwenk (Rotation)
•Einsatz von Zoomobjektiven (Skalierung)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
y
z
Bewegungskompensation gleichtBewegungen der Kamera aus
x
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
52 Video Codecs und Komprimierverfahren
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Codec Komprimierungs-verfahrenDatencontainer implementiertverpackt kodierte
Daten in
WMV9
DivXRealVideo
XviD
h.261
h.263
MPEG 1
MPEG 2
MPEG 4
h.264
avi
RealMedia
mpg
ogm
mkv
vobasf QuickTime Nero
HDX4mp4
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
53 Videokomprimierung nach MPEG•MPEG - Moving Pictures Experts Group
•eigentlich ISO/IEC JTC1/SC29/WG11
•seit 1988, ca. 360 Mitglieder aus Industrie/Forschung
•MPEG-1 Standard 1992
•VCD, MP3-Audiokomprimierung
•Datenrate 1,5 Mbps erfordert Komprimierung von >100:1
•MPEG-2 Standard 1995
•Digitalfernsehen (DVB), DVD
•MPEG-3 Standard in MPEG-2 integriert (HDTV)
•MPEG-4 Standard 1999
•Interaktives Audio und Video über drahtlose Netze und Internet
•HDTV, DRM, komplexe Objektverwaltung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
54 MPEG-1 Videokodierung - Prinzipieller Ablauf•
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Farbkonversionnach YCrCb
DCTTransformation Quantisierung Lauflängen
KodierungBlock-
vergleich
Videoeinzelbilder
Referenz-bild
HuffmanKodierung
RGB YUV
YUV Fehler-/Differenzwerte DCT-Werte quantisierte
DCT-WerteNullen
unterdrückt
Codevariabler Länge
MPEG Bitstrom
InverseQuantisierungInverse DCT
quantisierteDCT-Werte
DCT-WerteYUV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
55 MPEG-1 Videokodierung - Datenstrom Struktur•
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Videosequenz
Group of Pictures
Einzelbild
Slice
Makroblock
16 x 16 Pixel
Block
8 x 8 Pixel
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
56 MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke
•16 x 16 Pixel Luminanz (Makroblock)
• 8 x 8 Pixel Chrominanz (Block)
•Bewegungsvorhersagealgorithmus
•Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder
•Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert
•Qualität abhängig von Suchraumgröße
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
57 MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Bewegungsvorhersagealgorithmus
•DCT – Transformation
•Unterscheide Einzelbildvarianten:
•Intra-Frame (I-Frame)vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild)
•Predictive Frame (P-Frame)nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I-Frame
•Bidirectional Frame (B-Frame)Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I-Frame
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
58 MPEG-1 Videokodierung •Frametypen
•I-Frame muss nach spätestens 12 Frames wieder folgen
•Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Framessonst nicht vorgeschrieben
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Zeit
I B B B P B B B P B B B P B B B I
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59MPEG-1 Videokodierung •P-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenz-Frame Ziel-Frame
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59MPEG-1 Videokodierung •P-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenz-Frame Ziel-Frame
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59MPEG-1 Videokodierung •P-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenz-Frame Ziel-Frame
1. Suche Best Match
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59MPEG-1 Videokodierung •P-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59MPEG-1 Videokodierung •P-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
3. Differenzbildung
-
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
60MPEG-1 Videokodierung •B-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Past Referenz Ziel-Frame Future Referenz
- ( + )/2
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
60MPEG-1 Videokodierung •B-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match
Future Referenz
- ( + )/2
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
60MPEG-1 Videokodierung •B-Frame Kodierung
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match2. Verschiebungsvektoren
3. Differenzbildung
Future Referenz
- ( + )/2
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
61MPEG-1 Videokodierung •Typische Kompressionsfaktoren (SD576)
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Frame Size Rate
I 92 kB 7:1
P 32 kB 20:1
B 13 kB 50:1
average 26 kB 25:1
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
62MPEG-1 Videokodierung •MPEG Datenstrom
Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung
Sequence…SequenceSequence
GOP…GOPQTsStrParVidParSqc SC
Pict…PictGOPParTCodeGOP SC
Slice…SliceSliceEncodeBufferTypeP SC
MB…MBQscaleVPosS SC
… b5b0CBPQScaleMVTypeAddrln
Sequence Layer
Group of PicturesLayer
Picture Layer
Slice Layer
Macroblock Layer
Block Layer
Montag, 17. Mai 2010
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
63
Multimedia-Analyse-Techniken
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen
Medium, die sich wellenförmig ausbreiten.
•Maßeinheit:
•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)
•≙ Dauer einer Schwingung:
•Frequenz:
•Lautstärke: Höhe der Amplitude A
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen
Medium, die sich wellenförmig ausbreiten.
•Maßeinheit:
•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)
•≙ Dauer einer Schwingung:
•Frequenz:
•Lautstärke: Höhe der Amplitude A
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen
Medium, die sich wellenförmig ausbreiten.
•Maßeinheit:
•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)
•≙ Dauer einer Schwingung:
•Frequenz:
•Lautstärke: Höhe der Amplitude A
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
65 Grundlagen - Was ist Schall?•Lautstärke: Schalldruck
•Druckschwankungen eines kompressiblen Schall-übertragungsmediums, die bei der Ausbreitung von Schall auftreten
•angegeben wird aber meist der Schalldruckpegel, gemessen in Dezibel (db)
•1db entspricht der Lautstärke, bei der ein Ton von 1 KHz gerade noch hörbar ist
•p0 = 0 db →Hörschwelle, entspricht Schalldruck von 20µPa
AlexanderGraham Bell(1847-1922)
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
66 Grundlagen - Was ist Schall?•der Klang (subjektives Schallerlebnis) kann charakterisiert werden durch
•Lautstärken (→ Amplitude) und
•Tonhöhen (→ Frequenz) seiner Grund- und Obertöne (→ Frequenzspektrum)
•im zeitlichen Verlauf
Hüllkurve (envelope) eines Tones
A
t
Atta
ck
Decay
Sustain
Release
Grundtontiefste Frequenz einer komplexen Wellenform
Obertonbei natürlicher Tonerzeugung wird stets nebendem Grundton eine Vielzahl höherer Töneerzeugt
FrequenzspektrumGesamtheit aller Obertöne
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
67 Audio Digitalisierung•Läst sich in drei Stufen zerlegen:
1.Abtastung des Signals (Sampling)
2.Diskretisierung der Abtastwerte (Quantisierung)
3.Kodierung der quantisierten Abtastwerte
!"#$%&'()'"%*(+,&(&-"%+."'/%0'(!"#$%#&%'()%*+',
-#-)".',
/%#.-#.,,%.#-)
0%,!"#$%#&%'()%*+',
-#-)".',12%.#-)
0%,!"#$%#&%'()%*+',
0%,!('$',
3&,.-#.,,%.#-)
! !"" ! !""#$ ! !""#$! "
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
68 Audio Digitalisierung•Sampling und Quantisierung
Δt
!"#$
%&'(#$)*"
+),-$#.#"/)-0.1
#-$"/2,(("
3#0-,(,4$,.$)-0
,-,(50".63#0-,(
7#0#$,(1%-,(501
8,-*()-0
!"#$
%&'(#$)*"3#0-,(,4$,.$)-0
*#0#$,(".63#0-,(
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Psychoakustik und menschliche Wahrnehmung
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
69
Δt20 50 100 200 500 1000 5.000 10.000
100110120130140
0102030405060708090
Frequenz f, Hz
Schalldruckpegel A, dB
Ruhehörschwelle
0 Phon
40 Phon
80 Phon
100 Phon
130 Phon
Schmerzschwelle
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Psychoakustik und menschliche Wahrnehmung
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
70
GehörgangTrommelfellMittelohrSteigbügel
Schnecke(Cochlea)
HammerAmboß
Bogengänge
Innenohr
Hörnerv
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
71 Psychoakustik und Audiokodierung•kodiere nur Signale, die im menschlichen Hörfeld liegen
•auch innerhalb des Hörfeldes müssen nicht alle Signale kodiert werden
•Simultane Verdeckung:starkes (lautes) Signal verdeckt (maskiert) gleichzeitiges schwaches (leises) Signal
•Temporäre Verdeckung:starkes Signal verdeckt schwaches Signal nicht nur zeitgleich, sondern wirkt
•für gewisse Zeit nach (bis 200 ms)
•sogar einige Zeit vor (bis 50 ms, liegt an der Trägheit des Hörvorganges)
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
72 Psychoakustik und Audiokodierung•Simultane Verdeckung
20 50 100 200 500 1000 5.000 10.000
100110120130140
0102030405060708090
Frequenz f, Hz
Schalldruckpegel A, dB
Wahrnehmungs-schwelle
Störpegel100 dB
80 dB
60 dB
40 dB20 dB
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
73 Psychoakustik und Audiokodierung•Temporäre Verdeckung
A
0 dB
20 dB
40 dB
60 dB
-50 0 50 100 150 0 50 100 150mst
Maskierungssignal
Vor-verdeckung
Nach-verdeckung
Simultan-verdeckung
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
74 MP3 Audiokodierung•MPEG 1 – Layer 3
•Motion Pictures Expert Group - MP3 = MPEG 1 - Layer 3
•Standard für Video Compact Disc (VCD)
•entwickelt vom Fraunhofer Institut für Integrierte Schaltkreise in Erlangen mit AT&T Bell Labs und Thompson (ab 1987)
•basiert auf Subband-Coding mit eigenem psycho-akustischen Modell
•ISO-Standard
•standardisiert lediglich Dekoder und Datenformat
•Kodierer nicht standardisiert
•MP3-Datei besitzt keinen expliziten Header, sondern ist eine Aneinanderreihung einzelner Datenblöcke mit jeweils eigenem Header + Audioinformationen (→ Streaming)
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
75 MP3 Audiokodierung•Predictive Coding
•Wissen über bereits kodiertes Signal wird zur Vorhersage des Folgesignals benutzt (nur Differenz wird kodiert)
•Spektral-/Transform Coding
•Fourier-Transformation des Wellensignals (Überführung von Ortsraum in Frequenzraum)
•Sub-Band Coding
•psycho-akustisches Modell
•Audio-Spektrum wird in Frequenzbänder aufgeteilt(fast alle Bänder haben gegenüber dem lautesten Band weniger relevante Information)
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
76 MP3 Audiokodierung•!"#$%
&$'()'(
*$+,-./)'0
1!')+23-4
5"//6'#-.
73289%)0"3,$389-3:;%#-++
**<=-.#-80"'(3>
389?-++-'
@-$3,"'(3>:"'#:=-.A-.."'(3>
3,-"-."'(3389+-$B-
50)+$-."'(:"'#
C")',$3$-."'(
D"BBE)'>
F%#$-."'(
G
HI
G
JKJ
F%-BB$A$-',-'
F%#$-."'(:#-.
L"3),A$'B%.E),$%'
;"+,$M+-N-.
O$($,)+-.:F)')+
HP>HQR:0/M3
O-E"+,$M+-N-.D"BBE)'>
O-0%#$-."'(
O-0%#$-."'(:#-.
L"3),A$'B%.E),$%'
O-30)+$-."'(:"'#
O-S")',$3$-."'(
T'U-.3-:;OV<:E$,
#2')E$389-.
*-'3,-.)'M)33"'(
*$+,-./)'0
152',9-3-4
!"#$%
!"3()'(
G
JKJ
F%-BB$A$-',-'5"//6'#-.
G
HI
HP>HQR:0/M3
;7H:F%#$-."'(
;7H:O-0%#$-."'(
;OV<:E$,
#2')E$389-.
*-'3,-.)'M)33"'(
Multimedia-Analyse-Techniken3. Audiokodierung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
77
Multimedia-Analyse-Techniken
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
78
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Was ist Lernen?•Zentrale Fähigkeit von „intelligenten Systemen“ in der Natur und der Wissenschaft
der ,Künstlichen Intelligenz‘
•Zielgerichtete Veränderung von Wissen und/oder Verhaltensweisen durch Erfahrung
•Es existieren viele Formen des Lernens:
•motorisches Lernen, Regellernen, Sprachlernen, Lernen mit Lehrern, Lernen in der Entwicklung, ...
•Was ist kein Lernen?
•Einfaches Speichern von Daten (keine Veränderung)
•festes Programmieren von Lösungen (keine Erfahrung)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
79
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Warum maschinelles Lernen?•bedeutend für eine Vielzahl neuer Anwendungen
•Data Mining: Extraktion von Wissen aus Daten
•Selbst-adaptierende Programme/Filter: Anpassung an Nutzer und Situationen
•Aktionslernen: Robotik, Steuerungen, Unterstützung bei Entscheidungen
•allgemein: Anwendungen, die schwer programmierbar sind (explizites Modell nicht verfügbar oder zu teuer), z.B.: Sprachverarbeitung, Fahrzeugsteuerung
•Besseres Verständnis des menschlichen Lernens und Lehrens
•Kognitionswissenschaften: Theorien des Wissenserwerbs (z.B. durch Übung)
•Technische Umsetzung: in Lernsysteme, Recommender Systeme etc.
•Maschinelles Lernen ist im Trend
•Wachsender Markt und Industrie für Nutzung des maschinellen Lernens (z.B. Data Mining, Sprachsysteme, Bioinformatik)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
80
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Maschinelles Lernen zur Klassifikation•Klassifikationsproblem:
•Zuweisung eines Objektes oder Ereignisses zu einer gegebenen, endlichen Menge von Kategorien (Klassen)
•Typischer Einsatz:
•Medizinische Diagnose
•Erkennung fragwürdiger Kreditkartentransaktionen – “Fraud Detection”
•Spam-Erkennung (E-Mail)
•Empfehlung von Nachrichtenmeldungen/ Büchern / Musik / Videos / ...
•Finanzinvestitionen / Kreditwürdigkeit / DNA Sequenzierung / Erkennung handgeschriebener Worte / Analyse von astronomischen Bilddaten
•Computerlinguistik:
•NLP Worterkennung, Named Entity Recognition, POS Tagging, ...
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
81
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Maschinelles Lernen zur Planung / Kontrolle•Problemlöse-, Planungs- und Kontrollaufgaben:
•Aufgaben bei denen eine (optimale) Aktion ausgeführt werden muss
•in einer bestimmten Umgebung
•um ein gewisses Ziel zu erreichen
•Beispiele:
•Brettspiele (Damen, Schach, Backgammon)
•Balancieren eines Stabes
•Fahren eines Autos / Fliegen eines Flugzeugs
•Steuern eines Aufzugs
•Steuern einer Figur in einem Videospiel
•Steuern eines Roboters
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
82
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Lernen von Beispielen•Gegeben: Trainingsbeispiele <x, f(x)> einer unbekannten Funktion f(x)
•Gesucht: Gute Approximation von f
•Art des Lernproblems: überwachtes Lernen/Mustererkennung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
83
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Lernen von Beispielen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
84
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Lernen von Beispielen•Gegeben: Trainingsbeispiele <x, f(x)> einer unbekannten Funktion f(x)
•Gesucht: Gute Approximation von f
•Art des Lernproblems: überwachtes Lernen/Mustererkennung
•Findet Anwendung in:
•Diagnose von Krankheiten:
•x = Patientendaten (Geschlecht, Alter, Erkrankung, ...)
•f = Krankheit (oder vorgeschlagene Therapie)
•Risikobewertung :
•x = Eigenschaften von Kunden (Demographie, Unfälle, Vorgeschichte, ...)
•f = Risikoeinschätzung
•Videosegmentierung, Audiosegmentierung, Gesichtsdetektion, Genredetektion...
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
85
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Formen des maschinellen Lernens•Formen maschinellen Lernens
•überwachtes Lernen (supervised learning): Lernen aus Beispielen mit vorgegebenen Lösungen
•Induktives Lernen, Entscheidungsbäume, Bayessche Netze, Perceptron, ...
•unüberwachtes Lernen (unsupervised learning): Algorithmus erzeugt ein Modell, dass die Beispiele beschreibt (und kategorisiert)
•Künstliche neuronale Netze, Clustering, ...
•partiell überwachtes Lernen (partially supervised learning): Lernen aus Beispielen mit Lösungen unter Zuhilfenahme von zusätzlichen Beispielen ohne Lösungen
•Lernen durch Verstärkung (reinforcement learning): Erlernen einer Taktik durch Belohnung und Bestrafung
•Genetische Algorithmen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
86
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Lernen von Begriffen•Aggregation (Extension von Begriffen)
•Gruppieren von Objekten in Kategorien
•Sinnvolle Begriffe → Vorhersage von Objektverhalten
•Charakterisierung (Intension von Begriffen)
•Gemeinsame Eigenschaften aller Instanzen eines Begriffs
•Welche Merkmale? kultureller/sprachlicher Kontext
•Klassifikation
•Zuordnen eines Objekts zu ”seiner“ Kategorie
•Einordnen in eine Hierarchie von Unter- und Oberbegriffen
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
87
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Lernen von Begriffen•Deduktion
•Vom Allgemeinen zum Speziellen schließen
•Formallogisch korrekte Schlussweise
•Induktion
•Vom Speziellen auf das Allgemeine schließen
•Formallogisch nicht beweisbar, aber trotzdem oft (lebens-)notwendig
•Abduktion
•Ausgehend von einer Folgerung (Hypothese) auf dazu notwendige hinreichende Bedingungen (Voraussetzungen) schließen
•Formallogisch nicht beweisbarer Schluss
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
88
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Induktives Lernen •Die Verallgemeinerung auf Basis von Einzelfällen, ist eine unverzichtbare,
gleichwohl unbeweisbare Schlusstechnik.
•In der Philosophie eines der wichtigsten Themen des letzten Jahrtausends
•William von Ockham (1285–1347) Occams Rasiermesser: Pluralitas non est ponenda sine necessitate
•Francis Bacon (1561–1626) Relevanz positiver und negativer Lernbeispiele
•John Stuart Mill (1806–1873) Vier Methoden für den praktischen Induktionsschluss
•Bertrand Russell (1872–1970) Induktionsschluss ist Grundlage jeglicher Vorhersage, nicht beweisbar und essentiell probabilistischer Natur
•Ludwig Wittgenstein (1889–1951)!Tractatus Logico-Philosophicus ”Suche das einfachste Gesetz, das mit den Fakten harmoniert“
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
89
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Induktives Lernen = Lernen aus Beispielen •Beispiele, Gegenbeispiele und Beinahetreffer eines Begriffs
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
90
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Repräsentationsformen der Zielfunktion•Numerische Funktionen
•Lineare Regression
•Neuronale Netzwerke
•Hyperebenen (Support Vector Machines)
•Symbolische Funktionen
•Entscheidungsbäume
•Regeln in propositionaler Logik (Aussagenlogik)
•Regeln in Prädikatenlogik erster Stufe
•Beispiel-basierte Repräsentationen
•Nearest-neighbor / Instance-based Learning (IBL)
•Case-based
•Probablistische / Graphische Repräsentationen
•Naïve Bayes
•Bayesian networks
•Hidden-Markov Models (HMMs)
•Probabilistic Context Free Grammars (PCFGs)
•Markov Networks
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
91
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Suchalgorithmen zur Bestimmung der Zielfunktionen•Gradientenabstieg
•Perceptron
•Backpropagation
•Dynamische Programmierung
•HMM (Hidden Markov Modelle)
•PCFG (Probabilistic Context-Free Grammars)
•Divide and Conquer
• Induktion von Entscheidungsbäumen
•Regelinduktion
•Evolutionary Computation
•Genetische Algorithmen (GAs)
•Genetische Programmierung (GP)
•...
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
92
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Beispiel: Entscheidungsbaum-Induktion•Entscheidungsbaum-Induktion ist eines der einfachsten Lernverfahren
•Eingabe: Logische Objekt- oder Situationsbeschreibung
•Ausgabe: Ja/Nein-Entscheidung
•Knoten: Tests: Hat ein Objekt eine bestimmte Eigenschaft (Attribut)?
•Kanten: Mögliche Attributwerte
•Blätter: Nullstellige Prädikate: Yes (T) bzw. No (F)
•Ein Entscheidungsbaum stellt die Ausfü̈hrungskomponente eines lernenden Systems dar.
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
93
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch
•Mögliche Attribute:
•Alternate: Gibt es ein anderes Restaurant in der Nähe?
•Bar: Gibt es eine Bar für die Wartezeit?
•Fri/Sat: Ist Freitag oder Samstag?
•Hungry: Sind wir hungrig?
•Patrons: Wieviele Gäste sind schon da? → (none, some, full)
•Price: Zu welcher Preiskategorie zählt das Restaurant? → ($, $$, $$$)
•Raining: Regnet es?
•Reservation: Haben wir eine Reservierung?
•Type: Art des Restaurants → (French, Italian, Thai, Burger)
•WaitEstimate: Geschätzte Wartezeit → (0–10, 10–30, 30–60, > 60) Minuten
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
94
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch - sollen wir warten (yes/no)?
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
95
Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen
Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch
•Beispiel = Werte der verwendeten Attribute und Wert des Testprädikats.
•Klassifikation eines Beispiels = Wert des Testprädikats für das Beispiel. Entsprechend gibt es positive und negative Beispiele.
•Trainingsmenge = Menge der fü̈r das Lernen verfügbaren Beispiele.
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
96
Multimedia-Analyse-Techniken
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
97
Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge
Generelles Vorgehen•Ziel ist, die Aufgaben wissenschaftlich und prototypisch zu lösen.
•Aufgabenschritte:
(1) Literatur Recherche
(2) Anfertigen eines Testdatensatzes, der zur Evaluation verwendet wird
•manuelles Annotieren des Testdatensatzes mit den relevanten Informationen
(3) Implementieren des Analysealgorithmus
(4) Anwenden des Analysealgorithmus auf den Testdatensatz
(5) Evaluation der analytischen Ergebnisse
•Vergleich der Ergebnisse mit der manuell erstellten Annotation
•Anpassen des Analysealgorithmus und weiter mit (4)
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
985.1 Evaluation
5.2 Aufgabenstellungen
5.3 Tools/Libs
5.4 Sonstiges
Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
99
Multimedia Analysetechniken5.1 Evaluationsverfahren
Warum Evaluation?
■ IR ist eine empirische Disziplin
■ Vergleich von IR-Systemen / Klassifikatoren
■ Verbesserung von Algorithmen (Optimierung)
■ Wie effizient arbeitet das IR-System / der Klassifikator?
■ Was ist ein Maß für die Wirksamkeit des Systems?
IDEE:
■ Vergleiche das Ergebnis eines Testlaufs mit dem idealen Ergebnis.
■ Sammlung von Dokumenten
■ Relevanz Urteil (i.A. relevant vs. nicht relevant)
■ (manuell) vorgegebene Klassifikation “Gold Standard” (test set)
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
Automatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
Automatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
Testergebnis
Automatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
Testergebnis
Manuelle KlassifikationAutomatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
“Gold Standard”Testergebnis
Manuelle KlassifikationAutomatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
“Gold Standard”Testergebnis
Manuelle Klassifikation
= ?
Automatische Klassifikation
Montag, 17. Mai 2010
Multimedia Analysetechniken5.1 Evaluationsverfahren
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
100
Testdaten
“Gold Standard”Testergebnis
Manuelle Klassifikation
= ?
Automatische Klassifikation
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?
true positve (TP)false positve (FP)
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?
true positve (TP)false positve (FP)
false negative (FN) true negative (TN)
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?
true positve (TP)false positve (FP)
false negative (FN) true negative (TN)
Recall = TP / (TP + FN)
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
101
relevant unrelevant
Ergebnis
Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?
true positve (TP)false positve (FP)
false negative (FN) true negative (TN)
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)
• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
102
Evaluation von Information Retrieval Systemen
• Recall und Precision müssen für jeden Testlauf neu berechnet werden
• Optimierung:
• Anpassen des Algorithmus, so dass P und R maximiert werden.
• Kombiniertes Maß: F-Measure = 2 * (P * R) / (P + R)
• Grafische Darstellung:
0
0,25
0,5
0,75
1
Testlauf
RecallPrecision
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
103
FAZIT:
1. Testdaten manuell analysieren und “Gold Standard” erstellen
2. Parameter für Algorithmus initialisieren
3. Algorithmus mit Testdaten ausführen
4. Ergebnis mit Gold Standard vergleichen
5. Falls Ergebnis “gut” fertig, ansonsten Parameter anpassen, weiter mit 3.
Multimedia Analysetechniken5.1 Evaluationsverfahren
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
1045.1 Evaluation
5.2 Aufgabenstellungen
5.3 Tools/Libs
5.4 Sonstiges
Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
105
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Voice/Speaker Detection•Ziel:
•Audio Segmentierung anhand von Pausen
•In einem beliebigen Audiostrom ermitteln, wann eine Stimme zu hören ist.
•Gruppierung ähnlicher Audio-Segmente.
•Ermitteln von Anzahl von Sprechern
•Ermitteln des Geschlechts des Sprechers
•Werkzeuge:
•Praat: “Free software for acoustic analysis”
•http://www.fon.hum.uva.nl/praat/
•Weiteres Vorgehen:
•Praat kennenlernen (vor allem Scripting)
•Literaturrecherche nach Verfahren zur Voice/Speaker Detection
•Wissen über Maschinenlernverfahren/Klassifikation (NeuralNet, kNN) auffrischen.
•Testdaten vorbereiten (hören und manuell annotieren)
Spektogrammanalyse
Thiel, Sandbrink, BurhenneMontag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
106 OCR-Preprocessing•Ziel:
•Textvorkommen im Videobild lokalisieren und freistellen
•Textvorkommen entzerren, drehen
•OCR anwenden
•Werkzeuge:
•OpenCV, ocropus
•Weiteres Vorgehen:
•OpenCV kennenlernen
•Literaturrecherche nach Verfahren zur Text-Detektion in Video
•Wissen über Diskrete Cosinus Transformation und Bildbearbeitung auffrischen
•Testdaten vorbereiten (sichten und manuell annotieren)
•Workflow planenSchneider, Schulze, Kunz, Yao
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
107 Genre-Detection•Ziel:
•Segmentierung nach unterschiedlichen Genre-Klassen (Tag/Nacht, Innen/Außen, ...)
•Werkzeuge:
•OpenCV
•Weiteres Vorgehen:
•OpenCV kennenlernen
•Literaturrecherche nach Verfahren zur Genre-Detection in Video
•Wissen über Low-Level-Feature Extraction, Maschinenlernverfahren/Klassifikation (NeuralNet, kNN) auffrischen / aneignen.
•Testdaten vorbereiten (sichten und manuell annotieren)
•Workflow planen
Nacht / Outdoor
Nacht / OutdoorDaytime / Indoor
?? / ??
Rieck, Eckard, Wieschalla
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
108 Face-Detection•Ziel:
•In welchen Segmenten werden Personen gezeigt?
•Wieviele Personen werden angezeigt?
•Welche Personen werden gezeigt?
•Werkzeuge:
•OpenCV
•Weiteres Vorgehen:
•Face-Detection von OpenCV kennenlernen
•Literaturrecherche nach Verfahren zur Face-Detection in Video
•Wissen über Maschinenlernverfahren (Haar-Klassifikation), Clustering auffrischen / aneignen.
•Testdaten vorbereiten (sichten und manuell annotieren)
•Workflow planenLose, Gebhardt, Licker
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
109 Shot-Boundary-Detection (analytisch)•Ziel:
•Erkennen von harten und weichen Schnitten im Videosignal
•Erkennen von Kamerabewegung
•Werkzeuge:
•OpenCV
•Weiteres Vorgehen:
•OpenCV kennenlernen
•Literaturrecherche nach Verfahren zur Shot-Boundary-Detection, die nicht auf Manschinenlernverfahren basieren (TREC).
•Testdaten vorbereiten (sichten und manuell annotieren) (Kooperation)
•Workflow planen
Wieschner, Borchart, Richter
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
110 Shot-Boundary-Detection (Maschinenlernverfahren)•Ziel:
•Erkennen von harten und weichen Schnitten im Videosignal
•Erkennen von Kamerabewegung
•Werkzeuge:
•OpenCV
•Weiteres Vorgehen:
•OpenCV kennenlernen
•Literaturrecherche nach Maschinenlernverfahren zur Shot-Boundary-Detection (TREC)
•Testdaten vorbereiten (sichten und manuell annotieren) (Kooperation)
•Workflow planen
Metzke, Büttner, Niemeier
Multimedia-Analyse-Techniken5.2. Aufgabenstellung
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
1115.1 Evaluation
5.2 Aufgabenstellungen
5.3 Tools/Libs
5.4 Sonstiges
Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
OpenCV =
■ image/video IO +
■ image/video manipulation +
■ computer vision algorithms +
■ machine learning algorithms = :-)
112
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11313 •OpenCV = Open Source Computer Vision Library
•Entwickelt von Intel 1999
•C/C++, mit mehr als 500 Funktionen
•Windows, Linux, MacOSX
•http://sourceforge.net/projects/opencvlibrary/
CVImage Processing
and Vision AlgorithmsHighGUI
GUI, Image and Video I/O
CXCOREBasic Structures and Algorithms,
XML Support, Drawing Functions
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11413Beispiel: Bild laden und anzeigen.
#include <cxcore.h>#include <highgui.h>#include <math.h>int main(int argc, char** argv){! // Bild laden! IplImage* image = cvLoadImage("lenna.gif", 1);!! // Bild manipulieren!! // ...!! // Bild im Fenster anzeigen cvNamedWindow("test", 1);! cvShowImage("test", image);! cvWaitKey(0);!! // Bild abspeichern! cvSaveImage("copy.png", image, 0);! return 0;}
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11513Beispiel: Video anzeigen.
#include <cxcore.h>#include <highgui.h>#include <math.h>int main(int argc, char** argv){!! CvCapture *video = 0;! IplImage *frame = 0;! int key = 0;! // Video laden! video = cvCreateFileCapture("1007.avi");! if (!video){return 1;}!! cvNamedWindow("origin", 1);! while (key !='q'){! ! frame = cvQueryFrame(video); // Frame holen! ! if (!frame) break; // Exit bei Error! !! ! // Bild manipulieren! ! // ...! !! ! cvShowImage("origin", frame);! ! key = cvWaitKey(33);! }! cvReleaseCapture(&video);! return 0;}
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
116Beispiel: Image manipulation.
#include <cv.h>
IplImage *input = 0;IplImage *output = 0;
// Smoothingoutput = cvCreateImage( cvGetSize(input), IPL_DEPTH_8U, 3 );cvSmooth(input, output, CV_GAUSSIAN, 11, 11);
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Beispiel: Machine Learning mit OpenCV
• Trainieren eines k-nearest-neighbour Klassifikators
• 3 Klassen,
• 2 Features,
• 300 Samples (100 je Klasse)
• http://blog.damiles.com/?p=84
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11713
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11813
Sonstiges:
• Resize, Morphologische Operationen, Fills, (Adaptive)Threshold
• Convolution, Hough Transformation, Affine Transformationen, ...
• DCT, FFT, Histogramm Equalization, ...
• Contour Finding, Segmentierung, Triangulation, ...
• Tracking and Motion: Corner Finding, Optical Flow, , ...
• Mouse Events, Buttons, Sliders / Trackbars, ...
• Machine Learning: Mahalanobis, K-means, Bayes, Decision Trees, Boosting, NN/MLP, SVM, K-NN, Haar, ...
• uvm.
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
11913
Praat: doing phonetics by computer
• http://www.fon.hum.uva.nl/praat/
• entwickelt amInstitute of Phonetic SciencesUniversity of AmsterdamThe Netherlands
• Universalwerkzeug für Phonetische Analyse: Editieren, Segmentieren, Annotieren, Prosodie Manipulation, ...
• Windows, Macintosh, Unix, Linux
• Scripting Language
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
Demo120
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
• Spektrogramm (Sonagramm)
• Intensität (Lautstärke)
• Formaten (Lautqualität)
• Grundfrequenz (F0) (Pitch)
• Pulses (Glottisschläge/Stimmqualität)
• Neuronale Netze
• kNN Klassifikator
• Dokumentation: auf der Webseite und im Programm• Ein Tutorial: http://www.uni-leipzig.de/~siebenh/subfolder/PraatEinfuehrung/index.html
121
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
Beispiel: Ermittle F0 Statistiken für alle Intervalle von 50 Millisekunden des Sounds.
startTime = Get start timeendTime = Get end timenumberOfTimeSteps = (endTime - startTime) / 0.05echo tmin tmax mean fmin fmax stdev
for step to numberOfTimeSteps tmin = startTime + (step - 1) * 0.05 tmax = tmin + 0.05 mean = Get mean... tmin tmax Hertz minimum = Get minimum... tmin tmax Hertz Parabolic maximum = Get maximum... tmin tmax Hertz Parabolic stdev = Get standard deviation... tmin tmax Hertz printline 'tmin:6' 'tmax:6' 'mean:2' ... 'minimum:2' 'maximum:2' 'stdev:2'endfor
122 Praat Scripts
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
Weitere Beispiele für Praat Scripts
http://www.icp.inpg.fr/~welby/PAGES/praat.html (Pauline Welby, in French and English)
http://www.cavi.univ-paris3.fr/ilpga/ED/student/stcg/#E (Cedric Gendrot, in French)
http://www.helsinki.fi/~lennes/praat-scripts(Mietta Lennes, in English)
http://www.icp.inpg.fr/%7Eloeven/ScriptsPraat.html(Hélène Loevenbruck, in French)
http://www.cphling.dk/pers/johtnd/praat/my_praat.htm(John Tøndering, in English)
http://www.ling.ohio-state.edu/~kyoon/scripts/praat(Kyuchul Yoon, in English)
123
Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
1245.1 Evaluation
5.2 Aufgabenstellungen
5.3 Tools/Libs
5.4 Sonstiges
Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
125
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ffmpeg
• ffmpeg: open source video transcoder
• Linux, Mac, Windows
• http://www.ffmpeg.org/
Beispiel:# extrahiere ein Frame an Sekunde 10 aus dem Video und speichere es als Bild.ffmpeg -ss 00:00:10.000 -i video.mov -t 0.008 -f image2 foo-%03d.jpeg
(Achtung: die Reihenfolge der Parameter ist bei ffmpeg wichtig)
• Weitere Beispiele: http://www.ffmpeg.org/ffmpeg-doc.html
deinterlace
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
ocropus - The OCRopus(tm) open source document analysis and OCR system
• http://code.google.com/p/ocropus/
• pluggable layout analysis, • pluggable character recognition, • statistical natural language modeling, and • multi-lingual capabilities
• Entwicklung finanziert von Google• Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern
• http://de.wikipedia.org/wiki/OCRopus
126
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ocropus
Montag, 17. Mai 2010
• ImageMagick: Convert, Edit, and Compose Images
• http://www.imagemagick.org/
• Batch Processing
• Resize, Sharpen, Adjust, ...
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
127
$magick> convert label.gif +matte \ \( +clone -shade 110x90 -normalize -negate +clone -compose Plus -composite \) \\( -clone 0 -shade 110x50 -normalize -channel BG -fx 0 +channel -matte \) \-delete 0 +swap -compose Multiply -composite button.gif
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ImageMagick
Montag, 17. Mai 2010
• Gnuplot: Visualisierung von Daten
• http://www.gnuplot.info/
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
128
Daten + Gnuplot Script = schöne Grafik
22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot
Montag, 17. Mai 2010
• Gnuplot: Visualisierung von Daten
• http://www.gnuplot.info/
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
128
Daten + Gnuplot Script = schöne Grafik
22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255
set terminal postscript portrait "Arial" colorset size 1.0,0.3
set ylabel 'no. of terms'set xlabel 'no. of related resources per term'
plot "data.txt" using 1:2 with lines lw 3 title "without properties"
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot
Montag, 17. Mai 2010
• Gnuplot: Visualisierung von Daten
• http://www.gnuplot.info/
Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam
128
Daten + Gnuplot Script = schöne Grafik
22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255
set terminal postscript portrait "Arial" colorset size 1.0,0.3
set ylabel 'no. of terms'set xlabel 'no. of related resources per term'
plot "data.txt" using 1:2 with lines lw 3 title "without properties"
Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
129
Multimedia-Analyse-Techniken
1. Multimedia und Kodierung
2. Bild- und Videokodierung
3. Audiokodierung
4. Kurzer Exkurs: Maschinelles Lernen
5. Aufgabenstellung und Werkzeuge
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
130
Literatur (1/2)
• Meinel, Ch., Sack, H.: Digitale Kommunikation - Vernetzen, Multimedia, Sicherheit, Springer, 2009.
• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008
• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
Multimedia-Analyse-Techniken
Montag, 17. Mai 2010
Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
131
Literatur (2/2)
• Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008.
Online verfügbar: http://nlp.stanford.edu/IR-book/information-retrieval-book.html
• Thomas Mitchell:Machine Learning, McGraw-Hill, 1997
Online: http://www.cs.cmu.edu/~tom/mlbook.html http://robotics.stanford.edu/~nilsson/mlbook.html
Multimedia-Analyse-Techniken
Montag, 17. Mai 2010