einführung proseminar datenkompression …...3: “baumelndes” bit am ende – nicht möglich!...

Report

Post on 09-Jun-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Einführung

Proseminar Datenkompression

Wintersemester 2016/2017

Dr. Ralf Schlüter

Lehrstuhl für Informatik 6RWTH Aachen52056 Aachen

mailto:schlueter@cs.rwth-aachen.de

R. Schlüter: Proseminar Datenkompression 1 18. August 2016

http://www-i6.informatik.rwth-aachen.de

mailto:schlueter@cs.rwth-aachen.de

1 Überblick

Einführung • Anwendungsbereiche

• Motivation

• Beispiele

Methodik • Verlustlos vs. verlustbehaftet

• Performanzbewertung

• Ansätze

• Vorgehensweise

Statistik • Grundbegriffe und Konzepte

• Stochastische Prozesse

Information • Definition

• Modellierung

• Kodierung

R. Schlüter: Proseminar Datenkompression 2 18. August 2016

2 Einführung

Anwendungen für Datenkompression:

• Internet

• Telekommunikation

• Videokommunikation

Undenkbar ohne Datenkompression:

• Bild-, Audio- und Videoinformation im Internet

• Hochqualitative Mobiltelephonie

• Digital-TV

R. Schlüter: Proseminar Datenkompression 3 18. August 2016

Einführung

Warum Datenkompression?

• Ergänzung zu Verbesserungen in Speichertechnologie undDatenübertragung

• Informationsbedarf steigt stärker als verfügbare Resourcen

• Physikalische Grenzen für Speicher- und Übertragungskapazitäten

Jedoch:

• Komprimierbarkeit ist auch begrenzt (Entropie!)

R. Schlüter: Proseminar Datenkompression 4 18. August 2016

Einführung

Morse Kodierung:

• kürzere Repräsentationen für häufigere Zeichen

• z.B.: SOS ... --- ... (9 bit)AND .- -. -.. (7 bit)DATE -.. .- - . (7 bit)

Braille Kodierung:

• 6 bit pro Zeichen sowie häufigste Wörter

• z.B.: AND•••·•• (6 bit)

DATE••·•· ·•······••••·•··•· · (24 bit)

• Anwendung: Blindenschrift

R. Schlüter: Proseminar Datenkompression 5 18. August 2016

3 MethodikVerlustlose Kompression:

notwendig für z.B.:

• Text-Daten (“Do not jump!” vs. “Do now jump!”)

• System-Daten

• Bank-Daten

• Verhinderung von Artefakten bei Weiterverarbeitung

Kompression

Rekonstruktion

original komprimiertverlustlos

R. Schlüter: Proseminar Datenkompression 6 18. August 2016

MethodikVerlustbehaftete Kompression:

• höhere Kompressionsraten möglich

• Redundanz der Originaldaten

• Informationsgehalt vs. Perzeptionsgrenzen bzw. Akzeptanz

Kompression

Rekonstruktion

original

komprimiertverlustbehaftet

rekonstruiert

R. Schlüter: Proseminar Datenkompression 7 18. August 2016

MethodikPerformanzbewertung

• Maß der Kompression:

– Kompressionsrate: Anzahl Bits im OriginalAnzahl Bits nach Kompression

– Normiert: z.B. für Bilder in Bits pro Pixel

• Verlustbehaftet: zusätzlich Qualitätsmaße

– Verzerrung: Ähnlichkeit zum Original– Sprache, Video: menschliche Perzeption– Mathematische Modellierung der menschlichen Perzeption

R. Schlüter: Proseminar Datenkompression 8 18. August 2016

MethodikAnsätze für Kompression:

• Statistik, z.B.:

– Häufigkeit einzelner Symbole (z.B. Huffman, arithmetisch)– Häufigkeit von Symbolfolgen/Wörtern (z.B. string-basiert)– Berücksichtigung von Kontext (z.B. prädiktiv)

• Physikalische Strukturierung, z.B.:

– Sprache: Vokaltraktparameter statt Abtastwerte

• Wahrnehmungs-Orientierung, z.B.:

– Sprache: Abtastrate angepasst an Verständlichkeit– Bilder: Auflösung angepasst an Perzeptionsgrenzen– Film: Bildrate angepasst an Fähigkeit, aufeinanderfolgende Bilder

explizit zu unterscheiden

R. Schlüter: Proseminar Datenkompression 9 18. August 2016

MethodikWahl der Kompressionsmethode:

• Finden von Redundanzen

• Modellierung (von Redundanzen), z.B.:

– Statistisch– Gruppierung– Prädiktion– Funktional– Transformation

• Kodierung, z.B.:

– Statistisch, z.B.:∗ variable Kodewortlänge∗ Gruppierung

– Modellparameter+ Abweichung vom Modell (Residuum)

R. Schlüter: Proseminar Datenkompression 10 18. August 2016

4 Statistische Grundlagen

Wahrscheinlichkeit:

• Beschreibung von Ereignissen

• Erwartungsmaß; z.B. Häufigkeit

• Positivität, Normierung und Additivität

• Unabhängigkeit / Bedingtheit

• Bezeichnungen:– a-priori Wahrscheinlichkeit: p(B)– a-posteriori Wahrscheinlichkeit: p(A|B)– Verbundverteilung: p(A,B) = p(A ∪B) = p(A|B) · p(B)– Randverteilung: p(B) =

∑A

p(A,B)

R. Schlüter: Proseminar Datenkompression 11 18. August 2016

Statistische Grundlagen

Ereignisse:

• mögliche Werte einer Zufallsvariablen, z.B.:

– Ergebnisse eines Würfelwurfs– Zeichen, Wörter oder ganze Sätze– Orte eines Meteoriteneinschlags

• diskret oder kontinuierlich

• Gruppierung, z.B. {a, b} → {aa, ab, ba, bb}

R. Schlüter: Proseminar Datenkompression 12 18. August 2016

Statistische Grundlagen

Wichtige Begriffe und Konzepte:

• Bayessche Identität: p(A|B) =p(A,B)

p(B)=p(A ∪B)

p(B)

• kumulative Verteilung: p(x ≤ x0) =

x0∫−∞

p(x)dx

• Erwartungswerte: E{f(x)} =

∞∫−∞

f(x)p(x)dx (kontinuierlich)

E{f(x)} =∑i

f(xi)p(xi) (diskret)

• Mittelwert: µ = E{x}

• Varianz: σ2 = E{(x− µ)2} = E{x2} − E{x}2

R. Schlüter: Proseminar Datenkompression 13 18. August 2016

Statistische Grundlagen

Stochastische Prozesse:

• statistische Modellierung von Zeitreihen, z.B.:

– Niederschlagsmenge– Stromverbrauch– Radioaktiver Zerfall– Sprache– Video-Sequenzen

• zeitabhängige Zufallsvariable

• Autokorrelation:

Rxx(t1, t2) = E{x(t1) · x(t2)}

• Stationarität: statt expliziter nur noch relative Zeitab-hängigkeit

Rxx(t1, t2) = Rxx(t2 − t1)

R. Schlüter: Proseminar Datenkompression 14 18. August 2016

5 InformationstheorieWas ist eigentlich Information?

• Datenmenge:– n verschiedene Zeichen z: i(z) = log2 n (Bits pro Zeichen)– Gleichverteilung: p(z) = 1

n⇒ i(z) = − log2 p(z)

– Allgemeine Verteilung: i(z) = − log2 p(z)– C. E. Shannon: “Eigeninformation”– Einheit:

∗ bestimmt durch Basis des Logarithmus∗ z.B. Anzahl Bits, Zeichen, Wörter, Seiten, etc.

• Informationsgehalt:

– Bezug zu Datenmenge?– Intuitiv: minimal mögliche Datenmenge ohne Verluste– Vorsicht: In diesem Sinne enthält eine zufällige Zeichenfolge

mehr Information als z.B. eine Seminararbeit gleicherLänge!

... d.h.: Quantität ist nicht gleich Qualität!

R. Schlüter: Proseminar Datenkompression 15 18. August 2016

5 InformationstheorieWas ist eigentlich Information?

• Datenmenge:– n verschiedene Zeichen z: i(z) = log2 n (Bits pro Zeichen)– Gleichverteilung: p(z) = 1

n⇒ i(z) = − log2 p(z)

– Allgemeine Verteilung: i(z) = − log2 p(z)– C. E. Shannon: “Eigeninformation”– Einheit:

∗ bestimmt durch Basis des Logarithmus∗ z.B. Anzahl Bits, Zeichen, Wörter, Seiten, etc.

• Informationsgehalt:

– Bezug zu Datenmenge?– Intuitiv: minimal mögliche Datenmenge ohne Verluste– Vorsicht: In diesem Sinne enthält eine zufällige Zeichenfolge

mehr Information als z.B. eine Seminararbeit gleicherLänge!

... d.h.: Quantität ist nicht gleich Qualität!

R. Schlüter: Proseminar Datenkompression 16 18. August 2016

InformationstheorieInformation von Ereignissen

Ereignisse A und B seien unabhängig

• dann gilt p(A,B) = p(A) · p(B)

• Information des Verbundereignisses A ∪B: i(A,B) = i(A) + i(B)

• kein Informationsgewinn durch Gruppierung

• Beispiele: Münzwurf

– gleichverteilt: p(Kopf) = p(Zahl) = 1/2⇒ i(Kopf) = i(Zahl) = 1 Bit.

– nicht gleichverteilt: p(Kopf) = 7/8, p(Zahl) = 1/8⇒ i(Kopf) = 0.193 Bits, i(Zahl) = 3 Bits.

R. Schlüter: Proseminar Datenkompression 17 18. August 2016

InformationstheorieInformation von Ereignissen

Ereignisse A und B seien abhängig

• dann gilt p(A,B) = p(A|B) · p(B)

• Information des Verbundereignisses A ∪B: i(A,B) = i(A|B) + i(B)

• Informationsgewinn durch Gruppierung möglich, z.B.:

– Betrachte Ziffernfolge: f = 12 1 2 3 3 3 3 1 2 3 3 3 3 1 2 3 3 1 2

– Gleiche Kodewortlänge für alle Symbole: 20 · 2 Bits = 40 Bits– Annahme unabhängiger Einzelsymbole:p(1) = p(2) = 1/4, p(3) = 1/2 ⇒ i(f) = 5 · 2 + 5 · 2 + 10 · 1 Bits= 30 Bits

– Abhängigkeit durch Gruppierung zu Blöcken 12 und 33:p(1 2) = p(3 3) = 1/2 ⇒ i(f) = 5 · 1 + 5 · 1 Bits= 10 Bits

R. Schlüter: Proseminar Datenkompression 18 18. August 2016

InformationstheorieMittlere Information:

• betrachte Zufallsprozess Z, mögliche Ereignisse: Ai

• Ereignis Ai tritt ein mit Wahrscheinlichkeit p(Ai)

• mittlere Information eines Ereignisses dieses Zufallsprozesses:Erwartungswert des Informationsgehalts

H(Z) = E{i(A)} =∑i

p(Ai) · i(Ai)

= −∑i

p(Ai) · log2 p(Ai)

C. E. Shannon: Entropie H gibt minimale Anzahl von Bitszur verlustlosen Kodierung des Zufallsprozesses an

• Qualität einer Kompressionsmethode: Vergleich mit Entropie

• Vorsicht: Entropie abhängig vom Modell (bzgl. Kontextabhängigkeit)!R. Schlüter: Proseminar Datenkompression 19 18. August 2016

InformationstheorieMittlere Information im allgemeinen Fall:

• betrachte stochastischen Prozess S, der Folge von Ereignissen Ai

erzeugt

• Ereignisse seien aus Alphabet {A1, ..., Am}• Entropie:

H(S) = − limn→∞

m∑i1=1

m∑i2=1

· · ·m∑in=1

p(Ai1, . . . , Ain)·log2 p(Ai1, . . . , Ain)

• Reichweite von Korrelationen/Redundanzen unbekannt:Betrachtung im Limes unendlich langer Folgen

• Verteilung bzw. Strukturierung der Datenim Allgemeinen nicht (exakt) bekannt

• Notwendigkeit der Modellierung

R. Schlüter: Proseminar Datenkompression 20 18. August 2016

InformationstheorieHerleitung der Entropie

• Informationstheoretische Basis: C. E. Shannon

• Herleitung der mittleren Information allein über Axiome

• Betrachte unabhängige Ereignisse Ai mit Wahrscheinlichkeiten pi = p(Ai)

• Axiome:

1. Mittlere Information H ist stetige Funktion der Wahrscheinlichkeiten pi;kleine Änderungen in den Wahrscheinlichkeiten führen zu kleinen Än-derungen in der mittleren Information.

2. Für gleichverteilte Ereignisse mit pi = 1/n ist mittlere Information einemonotone Funktion von n, der Anzahl der möglichen Ereignisse.

3. Konsistenz der mittleren Information unter Gruppierung. BetrachteA2∨A3

als neues Ereignis:

H(p1, p2, p3) = H(p1, p2+p3)+p1·H(p1

p1= 1)+(p2+p3)·H(

p2 + p3,

p2 + p3)

R. Schlüter: Proseminar Datenkompression 21 18. August 2016

InformationstheorieModellierung:

• Physikalisch

– Wissen über die Strukturierung der Quelle– Vorhersage von Werten mittels Modell– Kodierung des Residuums: Abweichung vom Modell

• Statistisch

– Steuerung von Kodewortlänge, Gruppierung, etc. anhand der Wahrschein-lichkeiten

– Beispiele:∗ Unabhängigkeit: p(A1, . . . , An) =

n∏i=1

p(Ai)

∗ Markov Annahme: Abhängigkeit endlicher Reichweite m,

p(A1, . . . , An) =n∏i=1

p(Ai|A1, . . . , Ai−1)

=n∏i=1

p(Ai|Ai−m, . . . , Ai−1)

R. Schlüter: Proseminar Datenkompression 22 18. August 2016

InformationstheorieMarkov-Prozesse:

• Einfachster nicht-trivialer Fall:Abhängigkeit allein vom direkt vorhergehenden Ereignis

• p(Ai|A1, . . . , Ai−1) = p(Ai|Ai−1)

• Vgl. stochastischen endlichen Automaten, z.B.:

s s

p(B|A)

p(A|B)

p(A|A) p(B|B)

A B

R. Schlüter: Proseminar Datenkompression 23 18. August 2016

InformationstheorieMarkov-Prozesse:

• Vgl. stochastischen endlichen Automaten, z.B.:

s s

p(B|A)

p(A|B)

p(A|A) p(B|B)

A B

– Binärer Zufallsprozess, Ereignisse X ∈ {A,B}– Zustände des Automaten: sA, sB– Zustand sX “emittiert” Ereignis X– Übergangswahrscheinlichkeiten: p(Xi|Xi−1)

• Bezüge: Sprachmodell in der Spracherkennung, Hidden Markov ModelleR. Schlüter: Proseminar Datenkompression 24 18. August 2016

InformationstheorieKodierung

• Zuweisung binärer Folgen zu Elementen eines Alphabets

• Kode: Menge der binärer Folgen

• Zeichen: Element eines Alphabets

• Kodewörter: Elemente eines Kodes

• Problem: Welche Kodewörter bzw. Kodewortlängen sindden Elementen des Alphabets zuzuordnen, umeine möglichst hohe Kompressionsrate auf denzu erwartenden Datensätzen zu erreichen?

R. Schlüter: Proseminar Datenkompression 25 18. August 2016

InformationstheorieEindeutige Dekodierbarkeit: Beispiele

Zeichen Wahrscheinlichkeit Kode 1 Kode 2 Kode 3 Kode 4a1 0.5 0 0 0 0a2 0.25 0 1 10 01a3 0.125 1 00 110 011a4 0.125 10 11 111 0111

mittlere Länge 1.125 1.25 1.75 1.875

• mittlere Länge:∑i

p(ai)n(ai), mit Kodewortlänge n(ai)

• Entropie: 1.75

• Kode 1: Identische Kodierung für a1 und a2: Kode 1 nicht eindeutig!

• Kode 2: Dekod. von 100 liefert a2a3 oder a2a1a1: Kode 2 nicht eindeutig!

• Notwendig: Eindeutige Dekodierbarkeit

• Kode 3: Präfix-Kode – Ende des Kodeworts direkt erkennbar!

• Kode 4: ähnlich Kode 3, Kodewort-Endeaber erst zu Beginn des Folge-Kodeworts erkennbar!

R. Schlüter: Proseminar Datenkompression 26 18. August 2016

InformationstheorieEindeutige Dekodierbarkeit: Beispiele (2)

Zeichen Wahrscheinlichkeit Kode 5 Kode 6a1 0.5 0 0a2 0.25 01 01a3 0.125 11 10... ... ... ...

• Kode 5: Dekodierung erst am Ende eindeutig

– z.B.: Dekodiere 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1︸︷︷︸17 Einsen

– a1 mit 8 folgenden a3: “baumelndes” Bit am Ende – nicht möglich!– Korrekt: a2 gefolgt von 8 a3

• Kode 6: Dekodierung von 0 1 0 liefert a1a3 oder a2a1: nicht eindeutig!

R. Schlüter: Proseminar Datenkompression 27 18. August 2016

InformationstheoriePräfix-Kodes

• Definition: Kein Kodewort darf Präfix eines anderen Kode-worts sein.

• Binärbaum-Darstellung:

– Verzweigung: rechts entspricht 1, links 0

– mögliche Kodewörter: Knoten– Präfix-Kode: Kodewörter nur an Blättern (Endknoten)

• Kraft-McMillan Ungleichung: Für jeden eindeutig dekodier-baren Kode gibt es einenentsprechenden Präfix-Kodemit gleichen Kodewortlängen.

R. Schlüter: Proseminar Datenkompression 28 18. August 2016

6 Zusammenfassung

Grundlagen • Motivation

• Anwendungen

• Beispiele

Kompressionskonzepte • Kompressionsmethoden

• Unterscheidung verlustlos/verlustbehaftet

• Statistische Betrachtungsweise, Grundkonzepte

• Bewertungsmöglichkeiten

Informationstheorie • Grundkonzepte, Shannon

• Kodierung

R. Schlüter: Proseminar Datenkompression 29 18. August 2016

7 Weiterer AblaufAusführung • Literatur

• Rechercheschulung/Info-Bibliothek

• Bearbeitungshinweise

• LATEX, Vorlagen

Organisatorisches • Ablauf/Fristen

• Probevortrag

• Vortrag

• Korrektur/Benotung

Themen • Kurzvorstellung

• Wünsche

• Vergabe

R. Schlüter: Proseminar Datenkompression 30 18. August 2016

The Blackslide

GoBack

top related

einführung proseminar datenkompression …...3: “baumelndes” bit am ende – nicht möglich!...

Documents

seminar sprache und spracherwerb 26.11.2009 … ·...

equipment for special machines wf 470 video display...

d tib ldr. tobias ley - css...

olap ii: netcubes eine skalierbare methode für schnelles...

datenkompression · khalid sayood, ed., lossless...

sekretariate - uni-muenster.de€¦ · web...

© ppvmedien 2016 tasten test stimmungsmacher€¦ ·...

theorie und einsatz von verbindungseinrichtungen in ... ·...

folie 1 - technische universität ilmenau...digitale...

datenkompression - uni trier: willkommen · 1995 tic 22,3...

(dekodierung mit pic-mikrocontroller) · pdf filerc5...

v15 alpi huffman-kodierung 2013 - inf.fu-berlin.de · sich...

einführung proseminar datenkompression …...einführung...

diplomarbeit - monami.hs-mittweida.de · diplomarbeit herr...

masstabellen - gewinde.ch · 4 ichenerger gewinde g – 16...

datenkompression: arithmetische codierung h. fernau ·...

derkatalogiminternet - novapax...a a a a a a a a a a a a a a...

stecksystem orion plus hix-l - hofe24.de · stecksystem...

proseminar datenkompression thema : arithmetische kodierung...

gabriele fohringer (6/2007) ... · gabriele fohringer...