![Page 1: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/1.jpg)
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
EINFÜHRUNG IN DIE VIDEO ANALYSE-TECHNOLOGIEN
Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN
SeminarDr. Harald Sack / Jörg Waitelonis
Bernhard Quehl / Haojin Yang / Christian HentschelHasso-Plattner-Institut für Softwaresystemtechnik
1
![Page 2: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/2.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
2
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
2
![Page 3: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/3.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Multimediale Daten im Computer
•Definition Multimedia
•Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information.
•Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmt
alphanumerischeInformation
graphischeInformation
Audio-information
Video-information
3
![Page 4: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/4.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Medientypen•zeitunabhängige Medien
•Zeitkomponente während der Aufzeichnung ohne Bedeutung
•z.B. Text, Grafik
•„diskrete Medien“
•zeitabhängige Medien
•Information verändert sich mit der Zeit
•Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant
•Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf
•Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe
•z.B. Audio, Video
4
![Page 5: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/5.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Multimediakodierung•Audio- /Videoinformation
•Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden.
•man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/Videoinformation
•verlustfreie Kodierung:
•Audio: AU, WAV, ...
•Video: DV
•verlustbehaftete Kodierung:
•Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ...
•Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ...
5
![Page 6: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/6.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
Farbe und Farbmodelle•Was ist Farbe?
•Farben sind die Grundbestandteile des weißen Lichts
•Prisma zerlegt weißes Licht in seine spektralen Bestandteile
•Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung
1648 Marcus Marci1672 Isaac Newton
λ=780 nm λ=380 nm
Infrarot UVsichtbares Licht
Elektromagnetisches Spektrum
PrismaIsaac Newton(1643-1727)
Marcus Marci(1595-1667)
6
![Page 7: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/7.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•1931 wurde als erstes Modell
zur objektiven Farbbestimmungdie Farbnormtafel von derinternationalen Beleuchtungs-kommision festgelegt(Commission Internationale d´Eclairage, CIE)
•Farben werden aus Farbanteilen derGrundfarben (Rot, Grün, Blau)gemischt und in ein 2-dimensionalesKoordinatensystem projiziert
CIE Farbnormtafel, 1931
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
7
![Page 8: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/8.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•RGB-Farbmodell
•additive Farbmischung
•Mischung selbstleuchtender Grundfarben
•Rot (700nm)
•Grün (546,1nm)
•Blau (435,8nm)
•Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben
•z.B. bei 8 Bit pro Farbkanal:gelb = (255,255,0)
additive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
8
![Page 9: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/9.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•RGB-Farbmodell
•Bsp.:
R
G
B
additive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
9
![Page 10: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/10.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
10
![Page 11: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/11.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
10
![Page 12: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/12.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K) Farbmodell
•Bsp.:
C
YM
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
11
![Page 13: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/13.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
•Zerlegung der Farben in
•Helligkeitsanteil (Luminanz) – Y-Komponente
•Farbanteil (Chrominanz) – U und V Komponente
•Historisch in Verbindung mit dem Farbfernsehens entstanden
•Rückwärtskompatibilität mit Schwarzweiß-Empfängern
•daher separater Helligkeitskanal
•Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
12
![Page 14: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/14.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
rot grün blau
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
13
![Page 15: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/15.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
Y U V
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
14
![Page 16: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/16.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
15
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
15
![Page 17: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/17.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung
Visuelle Wahrnehmung des Menschen•Das menschliche Auge
16
![Page 18: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/18.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Visuelle Wahrnehmung des Menschen•Licht- / Farbempfindlichkeit
•Netzhaut enthält zwei Typen von Licht-rezeptoren im menschlichen Auge:
•ZapfenFarb- und Helligkeitsempfindlich,verantwortlich für Farbsehen,im zentralen Retinabereich,ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen
•StäbchenHelligkeitsempfindlichauch bei geringer Beleuchtungim peripheren Retinabereichca. 120 Millionen
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung
17
![Page 19: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/19.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•JPEG, Joint Photographic Experts Group
•verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen
•Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität
•Ausnutzung der Physiologie der menschlichen Wahrnehmung
•Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen
•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
18
![Page 20: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/20.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
19
![Page 21: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/21.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
19
![Page 22: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/22.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf•
Farbraum-wechsel
DiskreteCosinus-
Transformation
Chroma-Subsampling
Quantisierungmodifizierte
HuffmanKodierung
Originalbild komprimiertes Bild
schwächereFarbempfindlichkeitdes menschlichenAuges
Filterung von Bildanteilenmit starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
20
![Page 23: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/23.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf
(1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr)
Farbraum-wechsel
Originalbild
(r,g,b)
Y
Cb
Cr
Luminanz
Chrominanz
+0,299 +0,587 +0,114+0,1687 −0,3313 +0,5
+0,5 −0,4187 −0,081
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⋅
rgb
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
=
YCb
Cr
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
21
![Page 24: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/24.jpg)
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
![Page 25: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/25.jpg)
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
![Page 26: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/26.jpg)
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
![Page 27: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/27.jpg)
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Statt 4·(r,g,b) 4·Y+1·(Cb+Cr)
4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
![Page 28: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/28.jpg)
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
4:4:4 – kein Subsampling
Luminanzpixel
Chrominanzpixel
4:2:2 – horizontales Subsampling um Faktor 2
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
23
![Page 29: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/29.jpg)
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Luminanzpixel
Chrominanzpixel
4:1:1 – horizontales Subsampling um Faktor 4
4:2:0 – horizontales und vertikales Subsampling um Faktor 2
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
24
![Page 30: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/30.jpg)
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
4:2:0 Subsampling285 KB
Original PNG968 KB
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
25
![Page 31: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/31.jpg)
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum
•Jede Komponente (Y,Cb,Cr) wird separat transformiert
•Bild wird dazu in Blöcke 8x8-Pixel zerlegt
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
(0,0)
(7,7)8x8 Block
DCT
F(0,0)
F(7,7)
transformierter 8x8 Block
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
26
![Page 32: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/32.jpg)
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
![Page 33: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/33.jpg)
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
![Page 34: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/34.jpg)
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
![Page 35: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/35.jpg)
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
f
Frequenz-Spektrum
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
![Page 36: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/36.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Frequenzraum
uv
F(u,v)
• Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz
• F(0,0) - niedrigste Frequenz• F(7,7) - höchste Frequenz
Niedrige Frequenz = langsame ÄnderungHohe Frequenz = rasche Änderung
„natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänged.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
28
![Page 37: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/37.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
45 5045 45 50
50 5045
50
53
56
56
56
5653 53
535350
58 48
43 48
48
43 48 61 63
68 504858
45 48 56
56
50 45
48
6168
61
61
61
61
63
53635656
56 56
50
50
53
53 53
45 5050 61 61
58
48
425 -6-25 -5
-1 -710
9
-4
0
3-15
-3
-17 0
-5
-3 -3 4
-3
0 0 0 -1
4
1-43
-8 3
3
1
4
2
-3 2 -1
5
-6
DCT
Orts
raum
Freq
uenz
raum
-15
3
4
-6
-2-10
13
10
0 -22
4
6 66
1
0
3
2
-4
-3
-3
0 4
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
29
![Page 38: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/38.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Quantisierung
Hohe Frequenzenwerden entfernt
Niedrige Frequenzenbleiben erhalten
Qua
ntis
ieru
ngsm
atrix
– Q
(u,v
)1 11 1 8
1 41
2
16
4
4
8
161 4
888
1 16
1 1
2
1 1 4 8
16 16168
4 8 8
8
8 16
4
3216
16
64
32
32
32
3216168
8 8
8
4
8
8 16
16 328 8 16
16
8
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
30
![Page 39: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/39.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
DC
Mittelwert
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
31
![Page 40: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/40.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
DC
Mittelwert
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
31
![Page 41: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/41.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
• Kodierung variabler Länge mit fester Kodierungsvorschrift• Zusammenfassung von Null-Ketten mit Lauflängenkodierung (RLE-Kodierung)
Bits Wertebereich1 -1, +1
2 -3,-2, +2,+3
3 -7…-4, +4…7
4 -15…-8, 8…15
5 -31…-16, 16…31
6 -63…-32, 32…63
7 -127…-64, 64…127
8 -255..-128, 128…255
9 -511…-256, 256…511
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
32
![Page 42: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/42.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf•
Farbraum-wechsel
DiskreteCosinus-
Transformation
Chroma-Subsampling
Quantisierungmodifizierte
HuffmanKodierung
Originalbild komprimiertes Bild
schwächereFarbempfindlichkeitdes menschlichenAuges
Filterung von Bildanteilenmit starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
33
![Page 43: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/43.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
Quality : 90%Size: 21,868 bytes
Quality : 50%Size: 9,096 bytes
Quality : 10%Size: 3,519 bytes
Quality : 100%Size: 54,124 bytes
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
34
![Page 44: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/44.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
35
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
35
![Page 45: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/45.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•Grundlagen
•Video (Film):kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint.
•Netzhautträgheit:das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt
•Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz
•Bild und Ton müssen synchron ablaufen
•erfordert hohe Bandbreite
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
36
![Page 46: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/46.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•Analoge Videotechnik
•Farbfernsehen – PAL
•PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden
gerade Zeilen ungerade Zeilen
+
1/50s 1/50s
=
1/25s
PAL interlaced
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
37
![Page 47: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/47.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•PAL (SD576i)- notwendige Bandbreite
•Bildauflösung: 720 x 576 Pixel
•Bildwiederholfrequenz: 25 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps
Luminanz Chrominanz
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
38
![Page 48: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/48.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•HDTV (HD1080p) - notwendige Bandbreite
•Bildauflösung: z.B. 1920 x 1080 Pixel
•Bildwiederholfrequenz: bis 60 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
39
![Page 49: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/49.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Ausnutzung von inhärenten Redundanzen in Videosequenzen
•z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt
•Objekte und Objektbewegungen müssen erkannt werden
•Bewegung kann als Grauwertveränderungder Position von Bildpunkten definiert werden
•Bei fester Kameraeinstellung ändert sich derBildinhalt durch Bewegung der Objekte in der Szene
•Verfahren zur Bewegungsprädiktion:
• Vorhersage ohne semantischen Kontext
• Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc.
• Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
40
![Page 50: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/50.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Block-Matching
Referenzbild RIn-k
• Annahme:
• benachbarte Bildpunkte führen die gleiche Bewegung aus.
• Vorgehen
• Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente)
• Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt
Originalbild In
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
41
![Page 51: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/51.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Block-Matching
Referenzbild RIn-k
• Vorgehen (Fortsetzung):
• Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy)
• Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird.
• Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr ähnlich.
Originalbild In
v
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
42
![Page 52: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/52.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Video Codecs und Komprimierverfahren
Codec Komprimierungs-verfahrenDatencontainer implementiertverpackt kodierte
Daten in
WMV9
DivXRealVideo
XviD
h.261
h.263
MPEG 1
MPEG 2
MPEG 4
h.264
avi
RealMedia
mpg
ogm
mkv
vobasf QuickTime Nero
HDX4mp4
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
43
![Page 53: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/53.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokomprimierung nach MPEG•MPEG - Moving Pictures Experts Group
•eigentlich ISO/IEC JTC1/SC29/WG11
•seit 1988, ca. 360 Mitglieder aus Industrie/Forschung
•MPEG-1 Standard 1992
•VCD, MP3-Audiokomprimierung
•Datenrate 1,5 Mbps erfordert Komprimierung von >100:1
•MPEG-2 Standard 1995
•Digitalfernsehen (DVB), DVD
•MPEG-3 Standard in MPEG-2 integriert (HDTV)
•MPEG-4 Standard 1999
•Interaktives Audio und Video über drahtlose Netze und Internet
•HDTV, DRM, komplexe Objektverwaltung
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
44
![Page 54: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/54.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung - Prinzipieller Ablauf•
Farbkonversionnach YCrCb
DCTTransformation Quantisierung Lauflängen
KodierungBlock-
vergleich
Videoeinzelbilder
Referenz-bild
HuffmanKodierung
RGB YUV
YUV Fehler-/Differenzwerte DCT-Werte quantisierte
DCT-WerteNullen
unterdrückt
Codevariabler Länge
MPEG Bitstrom
InverseQuantisierungInverse DCT
quantisierteDCT-Werte
DCT-WerteYUV
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
45
![Page 55: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/55.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung - Datenstrom Struktur•
Videosequenz
Group of Pictures
Einzelbild
Slice
Makroblock
16 x 16 Pixel
Block
8 x 8 Pixel
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
46
![Page 56: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/56.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke
•16 x 16 Pixel Luminanz (Makroblock)
• 8 x 8 Pixel Chrominanz (Block)
•Bewegungsvorhersagealgorithmus
•Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder
•Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert
•Qualität abhängig von Suchraumgröße
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
47
![Page 57: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/57.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Bewegungsvorhersagealgorithmus
•DCT – Transformation
•Unterscheide Einzelbildvarianten:
•Intra-Frame (I-Frame)vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild)
•Predictive Frame (P-Frame)nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I-Frame
•Bidirectional Frame (B-Frame)Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
48
![Page 58: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/58.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Frametypen
•I-Frame muss nach spätestens 12 Frames wieder folgen
•Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Framessonst nicht vorgeschrieben
Zeit
I B B B P B B B P B B B P B B B I
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
49
![Page 59: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/59.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
![Page 60: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/60.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
![Page 61: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/61.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
1. Suche Best Match
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
![Page 62: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/62.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
![Page 63: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/63.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
3. Differenzbildung
-
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
![Page 64: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/64.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
![Page 65: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/65.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match
Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
![Page 66: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/66.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match2. Verschiebungsvektoren
3. Differenzbildung
Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
![Page 67: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/67.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Typische Kompressionsfaktoren (SD576)
Frame Size Rate
I 92 kB 7:1
P 32 kB 20:1
B 13 kB 50:1
average 26 kB 25:1
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
52
![Page 68: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/68.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •MPEG Datenstrom
Sequence…SequenceSequence
GOP…GOPQTsStrParVidParSqc SC
Pict…PictGOPParTCodeGOP SC
Slice…SliceSliceEncodeBufferTypeP SC
MB…MBQscaleVPosS SC
… b5b0CBPQScaleMVTypeAddrln
Sequence Layer
Group of PicturesLayer
Picture Layer
Slice Layer
Macroblock Layer
Block Layer
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
53
![Page 69: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/69.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
54
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
54
![Page 70: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/70.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
55
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
55
![Page 71: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/71.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verfahren zur Bildbearbeitung und Bildanalyse (Low-Level)•Punktweise-Bildbearbeitung (Binärbilder, Grauwerttransformation)
•Lineare lokale Filter (LSI-Filter, Faltung, Laplace & Co.)
•Nichtlineare lokale Filter (Erosion, Dilatation, Rangordnungsfilter)
•Konturen (Kantenrichtung)
•Bildsegmentierung (Skeleton)
•Optical Flow
•Bildtransformationen (diskrete Fourier-Transformation, Cosinus-Transformation)
•...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
56
![Page 72: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/72.jpg)
G{0, .., 255}→ B{0, 1}
g(x, y) =
�1, if f(x, y) >= T
0, OtherwiseT = threshold
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Binärbild: Das Bild bestehen aus zwei Farben (z.B. Schwarz und Weiß)
Binarisierung:
T = 128
T = 80
cv.Threshold(...)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Binarisierung
57
![Page 73: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/73.jpg)
Ir,g,b(x, y) → Ig(x, y) = 0.299 ∗ Ir + 0.587 ∗ Ig + 0.114 ∗ Ib
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
cv.cvtColor(img, img, CV_RGB2gray);
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Grauwerttransformation
Überführen eines RGB-Bildes in einGrauwertbild (mit z.B. 256 Grauwerten).
58
![Page 74: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/74.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
cv.Filter2D(src, dst, kernel)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Faltung (Convolution)
Pixel für Pixel wird aus der Nachbarschaft (definiert durch den Faltungs-Kern) der neue Wert für den Pixel im resultierenden Bild berechnet.
Image: https://developer.apple.com/
59
![Page 75: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/75.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
BildFaltungsbereich
Ableitung
cv.Sobel(src, dst, xorder, yorder, apertureSize = 3)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Faltung (Convolution): Sobel Operator
60
![Page 76: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/76.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
45 44 4839 255 50
42 51 54
3942444548505154255
Ähnlich wie Faltung, benutzt jedoch eine Sortieroperation.
Wahl der Position bestimmt die Art des Rangordnungsfilters (z.B. Median)
Faltungsbereich
Median
Median
cv.MedianBlur(src, dst, size)
Rangordnungsfilter: Median
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Median Filter:
•3x3 Nachbarschaft
•Kantenerhaltend
•Robustheit gegen Ausreißer
61
![Page 77: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/77.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Dilatation: Faltung des Bildes durch Maximum Rangordnungsfilter
Erosion: Faltung des Bildes durch Minimum Rangordnungsfilter
Opening: Erosion und Dilatation(kleine helle Strukturen Filtern)
Closing: Dilatation und Erosion (kleine dunkle Strukturen filtern)
BEB DB
DB CB=EDB EEDB OCB=DEEDB
cv.Dilate(image,image,element,2)cv.Erode(image,image,element,2)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Morphologische Operationen: Dilatation, Erosion
62
![Page 78: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/78.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Die Kantenrichtung ermittelt sich aus der Richtung (bzw. dem Winkel) des stärksten Anstiegs des Gradienten
Gradient Berechnung mittels Sobel Filter :
Richtung des Gradienten:
vgl. OpenCV motion analysis and object tracking
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Kantenrichtung
63
![Page 79: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/79.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Berechnung einer innere Skelettlinie von einen flächenhaften Bildobjekt
Berechnung: Distanzfunktion D(x,y) die den Abstand eines inneren Punktes (x,y) zu dem naheliegendsten Randpunkt angibt.
Mittelachse Definition:Punkte p, für die D(p) ein lokales Maximum in einer bestimmten Richtung ist.
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Skelletierung (Sceleton)
64
![Page 80: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/80.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
65
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
65
![Page 81: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/81.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Analyse Features und Invarianten•Histogramme
•Entropie
•Local Binary Pattern
•Distanzmaße
•uvm.
66
![Page 82: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/82.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
h = Höhe, b = Breite des Bildes
Definitionsmenge (Grauwert) :
Wertebereich entspricht dann der Größe des Bildes:
Der Wert des Histogramms H an der Stelle i gibt an,wie viele Pixel des Bildes die Intensität i haben
•(graphische) Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale•Grauwert-Histogramm beschreibt die Grauwert Verteilung in einem Bild
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Histogramme
67
![Page 83: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/83.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•RGB-Histogramm
•Kantenrichtungs-Histogramm / Histogram of Oriented Gradients (HOG)
•Optical Flow Histogramm•
Histogramme sind invariant gegenüber:•Rotation•Translation (Verschiebung)
Histogramme
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
68
![Page 84: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/84.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Maß für den Informationsgehalt einer Nachricht
Definition Entropie:
pi = normalisierte Häufigkeit des Grauwertes i
Merkmale :
• minimal bei homogenen Bildern
• maximal bei gleich verteilten Grauwert Häufigkeiten
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Entropie
69
![Page 85: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/85.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
23 57 8912 50 2455 20 11
0 1 10 01 0 0
1 2 48 1632 64 128
LBP=2+4+32=38
Table 1: Local Binary Pattern (LBP) feature
LBP (x, y) =7�
n=0
Se(in − ic) ∗ 2n (1)
Se(x) =
�1, x >= 00, x < 0
(2)
•Texture Filter invariant zu monotonen Grau-Level-Änderungen
•Parameter unabhängig
Bildquelle Vergleichsoperation (2) Nominierung 2^n Ergebnis LBP Operator (1)
Punktoperation mit 3x3 Nachbarschaft:
Vergleichsoperation des aktuellen Punktes:
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Local Binary Pattern (LBP)
70
![Page 86: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/86.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Histogramm-Differenz:
Pixel-Differenz (Norm):
Earth-Movers-Distance (EMD):
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Distanzmaße• werden zum Beispiel für Ähnlichkeitsbetrachtungen benötigt
71
![Page 87: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/87.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
72
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
72
![Page 88: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/88.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Anwendung zum Beispiel bei der Binarisierung von Bildern
•Globale Schwellwertverfahren
• Das gesamte Signal (z.B. Bild) wird berücksichtigt.
• Genau ein Schwellwert wird (manuell) festgelegt.
•Lokale Schwellwertverfahren
• Das Signal wird in Regionen unterteilt.
• Für jede Region wird ein Schwellwert festgelegt.
•Dynamische Schwellwertverfahren
• Weiterentwicklung des lokalen Verfahrens.
• Die Nachbarschaft der Region wird berücksichtigt.
• Der Schwellwert wird aufgrund der Nachbarschaft automatisch festgelegt.
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Schwellwertverfahren
73
![Page 89: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/89.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Ziel: optimale Parameter für ein komplexes System finden
•optimal heisst: eine bestimmte Zielfunktion wird maximiert oder minimiert
• lokale Optimierung: finde nächstgelegene Maximum/Minimum
•globale Optimierung: finde das absolute Maximum/Minimum
•im Allgemeinen werden komplexe mathematische Verfahren gewählt, die die Topologie der Zielfunktion berücksichtigen
•die einfachste Methode sich der optimalen Lösung zu nähern, ist das “Abrastern”
•also das systematische Ausprobieren aller möglichen Parameterkombinationen
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Parameter-Optimierung
74
![Page 90: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/90.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Lernen: induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren
•Unüberwacht (unsupervised): Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mit Hilfe von Clustering)
•Überwacht (supervised): Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
75
![Page 91: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/91.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• K-Nearest-Neighbor
• Stimmenmehrheit der k ähnlichsten Beispiele
• Linear Discriminant Analysis (LDA)
• Minimiert Intra-Klassen Varianz und maximiert Distanz (”Unähnlichkeit”) zwischen zwei Klassen
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
76
![Page 92: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/92.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Neuronale Netze
• Können jede beliebige Zielfunktion approximieren
• Neuron: gewichtete Summe aus Eingaben, nicht-lineare Funktion der Summe als Ausgabe
• Decision Trees
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
77
![Page 93: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/93.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Support Vector Machines (SVM)
• Large Margin Optimizer: Generalisierbarkeit
• Nicht-lineare Probleme können gelöst werden
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
78
![Page 94: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/94.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
79
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
79
![Page 95: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/95.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Structural Video Analysis
80
![Page 96: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/96.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Structural Video Analysis
video
• Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification
scenes
shots
subshots
frameskey frames
81
![Page 97: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/97.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Shot Boundary Detection
• Automated Identification of• Hard Cuts• Defects, as e.g.,
• Drop Outs, White Outs, etc.• Soft Cuts, as e.g.,
• Fade-In/Out, • Dissolve, Wipe, Cross-Fade, etc.
• Automated Structural Analysis based on• Analytical Shot Boundary Detection• Machine Learning Based Shot Detection
time
Structural Video Analysis
82
![Page 98: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/98.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection• Automated Identification of
Hard Cuts based on
• Luminance/ChrominanceHistogram Differences & Derivatives
• Edge Distribution/Density
576 577 578575574573
Structural Video Analysis
83
![Page 99: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/99.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Hardcut: if and is true for all Subregions a
i i+1 i+2i-1i-2i-3
1 2
3 4
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
Window Size=4 (W=2)
Decompose Frame into a=4 Subregions
Da(i,i-1) ... Histogram Difference (L2-norm) between Frames i and i-1 of Subregion a
tha(i) ... adaptive Threshold for Frame i of Subregion a
Adaptive Threshold
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
Structural Video Analysis
84
![Page 100: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/100.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection / Defect Analysis• Automated Identification of Defects
Drop Out
Histogram/Chrominance Difference Analysis
Flashlight / White Out
Histogram/Chrominance Difference Analysis
Structural Video Analysis
i i+10i+9i+8 i+11 i+12 i+13i+1
85
![Page 101: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/101.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection
• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In
• Features applied for machine learning:
• luminance histogram (Fade In / Fade Out)• luminance average Yµ
and luminance variance Yσ2 follow distinct patterns
• image decomposition
• component-based analysis to distinguish regional and global changes in image content
• entropy
• motion vectors
1 2 3
4 5 6
7 8 9
Structural Video Analysis
86
![Page 102: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/102.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection
• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In
• Features deployed for machine learning:
• luminance/chrominance histogram
• entropy
• motion vectors• image decomposition
• compute average motion vectors for all areas
• identify camera movements(zoom, pan, etc.) andmoving objects
1 2
3 4
Structural Video Analysis
87
![Page 103: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/103.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Intelligent Character Recognition
88
![Page 104: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/104.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Preprocessing
• Character Identification
• Text Preprocessing
• Text Filtering
• Adaption of script geometry (Deskew)
• Image Quality Enhancement
• Optical Character Recognition (OCR)
• Standard OCR software (OCRopus)
• Postprocessing
• Lexical analysis
• Statistical / context based filtering
Rostock
Text Filtering
Image QualityEnhancement
OCR
Intelligent Character Recognition
89
![Page 105: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/105.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Character Identification• Robust filter to extract text candidate frames
• 25 fps results in 90.000 frames per 60 min
• too expensive for single frame preprocessing & OCR
• fast and robust text identification for preprocessing
TTTTT T TT T T
Frame Frame with CandidateTextboxes
Intelligent Character Recognition
90
![Page 106: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/106.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Features used for Character Identification:• Edge Based Detection
• DCT
• Fourier Transformation
• Sobel-/Canny Edge Filter
• Histogram of Oriented Gradients (HOG)
• Constant Gradient Variance (CGV)
• Texture Based Detection
• Local Binary Patterns (eLBP)
• Spatial Variance
• Region Based Detection
• Connected Component Analysis (cvBlobs)
• Stroke Width Analysis (SWA)
Intelligent Character Recognition
91
![Page 107: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/107.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Analytical Textbox Filtering• Horizontal & Vertical Projection Profile
• Stroke Width Analysis Based Verification
Frame with Verified
Textboxes
Frame with CandidateTextboxes
Intelligent Character Recognition
92
![Page 108: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/108.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Analytical Edge Based Character Identification
Intelligent Character Recognition
93
![Page 109: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/109.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Analytical Edge Based Character Identification
Intelligent Character Recognition
94
![Page 110: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/110.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Character Binarization
Original Video
Frames
TextboxQuality
Enhancement
TextboxNormalization
andBinarization
Intelligent Character Recognition
95
![Page 111: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/111.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Character Binarization• Skeleton Mapping
Intelligent Character Recognition
96
![Page 112: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/112.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Standard Optical Character Recognition• OCRopus 0.4.4 (Open Source, Apache License v2.0)
• Tesseract 3.01 (Open Source, Apache License v2.0)
Quality EnhancedNormalized Textboxes
Ueutsche Bank
Weubrandenburg
Raw OCR Results
Intelligent Character Recognition
97
![Page 113: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/113.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
OCR Post Processing• OCR-adapted Spell Correction (hunspell 1.3.2, OPen Source GNU lGPL)
• Kontextbasierte Spell Correction (siehe kontextbasierte Named Entity Recognition, AP 4.1.5)
Deutsche Bank
Neubrandenburg
OCR Results after Spell Correction
Ueutsche Bank
Weubrandenburg
Raw OCR ResultsOCR-adapted
hunspell
Intelligent Character Recognition
98
![Page 114: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/114.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Face DetectionFace TrackingFace Clustering
99
![Page 115: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/115.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face DetectionDetektion von Gesichtern in Einzelbildern
• Kaskade unterschiedlicher Filter
lbpcscade
haarcscade
libface
Face Detection Tasks
100
![Page 116: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/116.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face TrackingVerfolgung eines detektierten Gesichts in einer Szene innerhalb eines Videos
• probabilistische Mappingkriterien:
• Zentrumsdistanz der aufeinanderfolgenden Bounding Boxes
• Überlappungsfläche der aufeinanderfolgenden Bounding Boxes
• Größenänderung aufeinanderfolgender Bounding Boxes
Face Detection Tasks
101
![Page 117: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/117.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach Ähnlichkeitskriterien
Face Detection Tasks
102
![Page 118: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/118.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach verschiedenen Ähnlichkeitskriterien
• Bounding Box Extension:
• Einbeziehung von Bereichen oberhalb (Haare) und unterhalb (Kleidung) der Bounding Box in die Feature Extraktion
• Feature Extraction:
• Texturbasierte Features (eLBP, GVC)
• Farbbezogene Features (Chrominanz Histogramme)
• Clustering:
• Bestimmung der Clusteranzahl k (via Silhuettenkoeffizient-Optimierung)
• k-means Clustering / Mean Shift Clustering / Hierarchical Clustering
Face Detection Tasks
103
![Page 119: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/119.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Visual Concept Detection
104
![Page 120: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/120.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
Visual Concept Detection
105
![Page 121: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/121.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
• Diskretisierung eines Einzelbildes mit Hilfe der Codewörter
Visual Concept Detection
106
![Page 122: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/122.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
• Diskretisierung eines Einzelbildes mithilfe der Codewörter
• Repräsentiere Einzelbild als Histogramm der 4000 Codewortfrequenzen
• Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines)
Visual Concept Detection
107
![Page 123: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/123.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Mediaglobe Related Concepts• Konzepte, die in Mediaglobe erkannt werden sollen:
• Personen
• Porträt / Kleingruppe / Menschenmassen
• Day / Night
• Indoor / Outdoor
• Architektur:
• Brücken
• Baudenkmäler, wie z.B. Kirchen, Schlösser, Burgen
• repräsentative Einzeldenkmale (experimentell)
• Stadt / Natur
• Park / Felder / Grünflächen
• Wald / Gewässer / Gebirge
• Objekte
• Fahrzeuge (Auto / Bahn / Schiff / Flugzeug)
Visual Concept Detection
108
![Page 124: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/124.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
109
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
109
![Page 125: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/125.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
110
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
110
![Page 126: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/126.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Idee: ■ Finde das Frame in einem Video-Segment, dass den geringsten
Abstand zu allen anderen Frames des Segments hat.
Also:
■ (1) das Durchschnittsframe D eines Segmentes berechnen
■ (2) alle Frames Fi mit D vergleichen (z.B. via L2-Norm)
■ (3) das Frame mit geringsten Abstand gewinnt
Multimedia Analyse-TechnologienNaive-Keyframe-Extraction
111
![Page 127: 03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012](https://reader035.vdokument.com/reader035/viewer/2022062514/558c630ad8b42a086c8b45fc/html5/thumbnails/127.jpg)
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Literatur
• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008
• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
• Blog zur Webseite:http://mumat2012.blogspot.com/
Multimedia Analyse-Technologien
112