Ist die Luft raus? - Das Entwicklungspotential von Kompressionsverfahren digitaler Medien

Aus Winfwiki

Wechseln zu: Navigation, Suche
Name des Autors: Benjamin Smajlagic
Titel der Arbeit: Ist die Luft raus? - Entwicklungspotential von Kompressionsverfahren digitaler Medien
Hochschule und Studienort: FOM Duisburg


Inhaltsverzeichnis


1 Einleitung

1.1 Allgemeines

Die Einführung digitaler Übertragungstechnik und die Ablösung analoger Verfahren legte die wesentliche Grundlage für die Erfassung, Speicherung und Verbreitung unterschiedlichster Inhalte und Informationen ohne Qualitätsverlust. Die Standardisierung von Datenreduktionsverfahren ermöglichte es Datenmengen in kompakter Form unkompliziert bereitzustellen und abrufbar zu machen. Auf favorisierte Inhalte konnte leichter zugegriffen werden, ein problemloser Austausch war möglich, was noch Jahre zuvor nur mit großem Zeitaufwand und hohem Speicherplatzbedarf zu realisieren war[1].

Die zunehmende Übertragung hochauflösender Medieninhalte zeigt, dass die Netzwerkinfrastruktur enormen Belastungen ausgesetzt ist und schnell an die Grenzen stößt. Ohne effiziente Datenreduktionsverfahren ist die gewaltige Datenmenge nicht zu organisieren und zu verwalten.

Im Zeitalter der multimedialen Inhalte steht die Informationsbereitstellung, Wissensvermittlung und Unterhaltung an oberster Stelle. Hier zeigen sich unterschiedliche Anwendungsgebiete für einen breiten Abnehmerkreis. Die reine lineare Handlung weicht der Interaktivität. Mit der fortschreitenden Entwicklung des Massenmediums Fernsehen steigen auch die Anforderungen an die Qualität der Inhalte und die Bandbreiten der Netzwerke. Da nicht überall große Bildschirme und hohe Bandbreiten zur Verfügung stehen, beschäftigt man sich mit der Frage, wie man die Inhalte an die Übertragungskanäle anpassen kann und dabei die höchste Qualität garantiert.

Die Erforschung der menschlichen Wahrnehmung hat dabei einen entscheidenden Einfluss auf die Entwicklung von Datenkompressionsverfahren. Durch die Ausnutzung von menschlichen Unzulänglichkeiten der Wahrnehmung ist es möglich, den Aufwand der Datenkompression gering zu halten und dennoch ein hohes Maß an Qualität zu bieten.

1.2 Thema und Abgrenzung

Ziel dieser Seminararbeit ist es den Leser in das Thema der Kompression von digitalen Medien einzuführen, sowie eine Übersicht über die gängigsten Verfahren zu geben. Aufgrund der Vielfalt und Komplexität der Techniken und Methoden werden in dieser Arbeit lediglich die wichtigsten Dateiformate untersucht. Wir betrachten hierbei die Einzelbildkompression, sowie die Videokompression und Audiokompression.

Am Ende wird ein aktuelles Projekt vorgestellt, in dem Kompressionsverfahren ihren Einsatz finden. Abschließend soll dann eine Aussage über das Zukunftspotential der beleuchteten Verfahren abgeleitet werden.

1.3 Potentiale

Mit der fortschreitenden Entwicklung der Kommunikationstechnologie[2] hat sich die digitale Übertragung von Signalen durchgesetzt. Gegenüber analogen Quellen bietet die Digitaltechnik eine höhere Qualität und erlaubt eine Speicherung von Daten in kompakter und störungsresistenter Form. Als Nachteil wird dabei die gewaltige Datenflut betrachtet, die durch die Umwandlung der Signale in die digitale Form entsteht. Hier besteht eine potentielle Überlastungsgefahr[3] für Netzwerke, interne Busse eines Computersystems und für Speichermedien aller Art.

Sinkende Preise für Speichermedien, hohe Internetbandbreiten und leistungsstarke Netzwerkstrukturen gleichen die Notwendigkeit einer effizienten Verarbeitung der Datenmengen nicht aus. Hier zeigt sich der Bedarf für moderne Datenkompressionsverfahren.

In unserer multimedialen Welt nehmen audio-visuelle Inhalte einen hohen Stellenwert ein. Internetportale bieten heute Zugriff auf tausende von Kinofilmen und nicht selten auf hunderttausende Musikalben. Der schnelle Zugriff auf diese Inhalte und die Echtzeitübertragung macht einen Großteil der Attraktivität aus. Würde man Videos und Musik in ihrer ursprünglichen, unkomprimierten Form bereitstellen, so bräuchte man Stunden oder Tage, um sie nutzen zu können. Dieser Zustand ist in einer schnelllebigen Gesellschaft nicht akzeptabel.

Aber auch im Bereich der Fotografie haben sich feste Standards etabliert. Digitale Bilder gehören zum Alltag. Der Austausch von Fotos von Handy zu Handy oder zum Heimcomputer lässt sich leicht bewerkstelligen. Ohne die kompakte Form der Bilder auf Grundlage des JPEG-Standards, wäre ein Datenaustausch in dieser Form nur schwierig und kostspielig realisierbar.

Videoüberwachungssysteme[4] machen sich ebenfalls die Vorteile der Kompressionsverfahren zu nutze. Digitale Aufnahmegeräte speichern Aufzeichnungen in gleichbleibender Qualität, die jederzeit problemlos abgerufen werden können. Da Firmen nur eine begrenzte IT-Infrastruktur besitzen, darf die Aufzeichnung keine Belastung für das Netzwerk darstellen. Durch die Kompressionstechnologie können Aufzeichnungen auch in hoher Qualität angefertigt werden, ohne die zur Verfügung stehende Bandbreite zu überschreiten.

1.4 Vergleiche

Zur Veranschaulichung der Notwendigkeit für Kompressionsverfahren zeigen wir an einem kurzen Beispiel, welche Bandbreite für eine Übertragung von unkomprimierten und komprimierten Inhalten benötigt wird. Die Bandbreite wird in Bit pro Sekunde aufgeführt und beschreibt die notwendige Bitrate für einen Übertragungskanal.

Wir gehen davon aus, dass unsere unkomprimierten Signale aus einer Sequenz von 25 Bildern pro Sekunde bestehen und mit einer Farbtiefe von 24-Bit (8 Bit pro Grundfarbe/Kanal) dargestellt werden.

Ein Bild mit einem Format von 720*576 Bildpunkten hat demnach eine Dateigröße von ca. 1,19 MB (entspricht 720*576*24 Bit). Das hochauflösende Format HDTV unterstützt Formate bis zu 1920*1080 Bildpunkte. Ein Bild würde demnach ca. 5,93 MB Speicherplatz benötigen. Spielen wir jetzt ein Video ab, so erhalten wir die folgenden Ergebnisse: Unsere Bildersequenz im Format 720*576 Pixel kommt auf eine Bandbreite von ca. 248,8 MBit/s. Das HDTV-Video beansprucht eine gewaltige Bandbreite von ca. 1,24 GBit/s. Bedenkt man im letzteren Beispiel, dass pro Sekunde Spielzeit eine Datenmenge von 155 MB geschrieben werden, wäre die Kapazität einer 500 GB Festplatte nach knapp einer Stunde verbraucht.

Betrachtet man die Kompressionsleistung des MPEG-2 Standards, sieht man, dass in Abhängigkeit von der Qualitätsstufe zwischen 4 und 15 Mbit/s erreicht werden können. Im Vergleich zu den unkomprimierten Inhalten, kann die Bandbreite so um das ca. 60- bis 80-fache reduziert werden.

2 Die visuelle Wahrnehmung

2.1 Allgemeines

Kompressionsalgorithmen nutzen zur Steigerung der Effektivität nicht nur mathematische Erkenntnisse, sondern auch Ergebnisse aus der Erforschung der menschlichen Wahrnehmung.

Forschungen[5] haben gezeigt, dass die Retina des menschlichen Auges für genau drei Farben, d.h. für Rot Blau und Grün einen Rezeptor besitzt, bezeichnet als Zapfen. Auf Basis dieser Primär- oder Spektralfarben haben sich additive und subtraktive Farbmodelle entwickelt. Farben werden anhand einer Überlagerung anderer Farben oder durch ihre komplementären Werte dargestellt.

Ein zweiter Rezeptortyp (Stäbchen) ist lediglich für die Helligkeitsempfindung verantwortlich. Es stehen ca. 120 Millionen[6] Stäbchen 6 Millionen Zapfen gegenüber. Die Helligkeitswahrnehmung[7] des Menschen ist daher im Bezug auf Helligkeitskanten, den Übergängen zwischen Helligkeitsstufen weitaus besser ausgeprägt, als die Wahrnehmung von Farbkanten.

2.2 Farbmodelle

Die Einführung des analogen Farbfernsehens[8] führte zur Entwicklung von neuen Übertragungstechniken für Farbkomponenten. Die Abwärtskompatibilität zu bisherigen S/W-Geräten sollte gewahrt bleiben. Dabei suchte man nach Möglichkeiten die neuen Signale zu implementieren und die notwendige Bandbreite [9] dennoch gering zu halten.

Dieses Ziel wurde mit der Entwicklung der YUV- bzw. YIQ-Modelle und der Überführung in einen neuen Farbraum erreicht. Es wurde ein so genanntes Subsampling, ein Farbunterabtastungsverfahren, das zur Vorbereitung der Kompression dient, eingesetzt. Die Farbauflösung wird halbiert, d.h. die Farbinformationen werden je nach Verfahren nur in jeder zweiten horizontalen bzw. vertikalen Bildzeile mit übertragen.

Während der Übertragung werden eine Helligkeitskomponente (Luminanzsignal Y) und zwei Farbkomponenten UV als Differenzsignal zu den Farben Blau und Rot verwendet. Die Farbe Grün wird nicht mit übertragen, da sie sich aufgrund der bereits vorliegenden Informationen berechnen lässt.

Das hier erwähnte Subsampling ist nur ein Beispiel dafür, wie die Datenrate durch geschickten Einsatz von Methoden, im vorgestellten Fall als rudimentäre Quellenkodierung, gesenkt werden kann.

3 Grundlagen

3.1 Digitalisierung

Im Gegensatz zu analogen Signalen, die durch Veränderungen der physikalischen Eigenschaften leicht nachteilig beeinflusst werden können, sind digitale Signale in der Lage Interferenzen zu kompensieren. Generationsverluste, d.h. Beeinträchtigungen der Signalqualität nach einem Kopiervorgang, treten bei digitalen Quellen nicht auf.

Die Digitalisierung[10] eines Signals beschreibt den Vorgang, ein analoges Signal in die digitale Form (Binärcode) zu überführen. Die analoge Quelle wird in einem zeitlichen Raster abgetastet und diskretisiert. Dieser Schritt wird als Sampling bezeichnet. Es folgt ein weiterer Arbeitsschritt mit einer erneuten Diskretisierung der Informationen, dieses Mal im Wertebereich, auch bezeichnet als Quantisierung. Aus den so ermittelten Werten entsteht im Ergebnis eine digitale Datenmenge.

Je kleiner die Stufen im Sampling- und Quantisierungsraster, desto detailgetreuer ist das abgebildete Signal und desto höher ist seine Qualität. Ein daraus entstehender Nachteil ist, dass mit steigender Qualität auch der benötigte Speicherbedarf zur Erfassung bzw. die Bandbreite für die Übertragung der durch die Digitalisierung erzeugten Datenmenge zunimmt.

3.2 Datenkompression

Die Datenkompression wird als Form der digitalen Signalverarbeitung[11] verstanden. Ein Signal durchläuft einen Verarbeitungsablauf, mit dem Ziel, das Signal effizient zu kodieren (bzw. zu repräsentieren) und die relevanten Informationen des Datenstroms mittels Digitalisierung vor Störquellen zu sichern.

Die Größe einer Datenmenge ist bei der Übertragung von einem Träger abhängig, der als Verpackung der Information interpretiert werden kann. Je nach Verpackungsart ist die Information mehr oder weniger effizient umschlossen. In der Datenkompression werden die Informationen unabhängig vom Träger betrachtet, mit dem Ziel eine mögl. effiziente Verpackung zu schaffen.

Es existieren unterschiedliche Verfahren, um dieses Ziel zu erreichen. Eine hohe Datenkompression ist nur durch eine Informationsveränderung bzw. Informationsverringerung zu erreichen. Das bedeutet, dass zwangsweise Inhalte weggelassen werden. Je nach Einsatzgebiet ist eine solche Verarbeitung tolerierbar. Generell betrachtet können die eingesetzten Verfahren in Gruppen eingestuft werden, die verlustlose oder verlustbehaftete Techniken einsetzen.

3.3 Kodierung

Der angesprochene Vorgang der Erzeugung einer digitalen Datenmenge wird mittels Kodierung[12] erzielt. Eine Folge von Eingangswerten, hier die Werte des abgetasteten und quantisierten Signals, werden auf eine kürzere Folge von Werten abgebildet. Diese Übersetzung in ein neues Alphabet soll eine möglichst effiziente Darstellung der repräsentierten Informationen erzielen.

Die Kodierung von Informationen beschäftigt sich demnach mit der Frage, wie man ein entsprechendes Alphabet erzeugen kann. Oberstes Ziel ist es die Eingangswerte zunächst ohne Informationsverlust darzustellen. Hierzu greift man auf mathematische Erkenntnisse zurück, die Auftrittwahrscheinlichkeit und Informationsgehalt der Datenwerte berücksichtigen.

3.3.1 Entropiekodierung

In der Entropiekodierung[13] werden verlustfreie Techniken zur Datenkompression verwendet. Die Informationen der kodierten Daten sollen vollständig erhalten bleiben bzw. die Informationen der Ausgangsdaten muss vollständig wiederhergestellt werden können.

3.3.2 Quellenkodierung

Die Quellenkodierung[14] nutzt zur Steigerung der Datenkompression verlustbehaftete Techniken der Datenreduktion. Dazu werden Informationen in relevante und irrelevante Bestandteile zerlegt und lediglich die relevanten Informationen effizient repräsentiert. Die als irrelevant klassifizierten Daten werden verworfen.

3.3.3 Hybride Verfahren

Hybride Techniken nutzen Vorteile der Entropie- und Quellenkodierung, um eine maximale Datenkompression bei höchster Qualität zu erzielen. Angewandte Verfahren zielen demnach auf einen Kompromiss zwischen Informationsverlust und Datengröße ab.

3.4 Redundanz

Die Redundanz beschreibt die Bestandteile eines Signals bzw. Datenmenge, die den Informationsgehalt[15] nicht erhöhen und somit einen zusätzlichen Aufwand bei der Repräsentation der Informationen darstellen. Treten oft Wiederholungen auf, z.B. Muster, so können diese meist in kürzerer bzw. effizienterer Art und Weise repräsentiert werden. Wichtig hierbei ist die Beziehung der Informationsbestandteile, bezeichnet als Korrelation.

3.5 Irrelevanz

Die Irrelevanz[16] beschreibt die Informationen eines Signals bzw. Datenmenge, die für den Empfänger nicht wahrnehmbar sind bzw. keinen Informationswert bieten. Es ist zu beachten, dass weggelassene Informationsbestandteile auf der Empfängerseite nicht rekonstruiert werden können. Bei der Bewertung der Irrelevanz kommt eine stark subjektive Empfindung zum Ausdruck. Im Bereich der Video- und Audiokompression werden menschliche Unzulänglichkeiten der Wahrnehmung ausgenutzt, um den Datenstrom zu verringern.

4 Entropiekodierung

4.1 Allgemeines

Die Entropiekodierung[17] betrachtet die statistische Verteilung von Symbolen (Zeichen), den Informationseinheiten eines Signals oder einer Datenmenge. Die Eingangszeichen werden auf Codewörter (Bitfolgen) abgebildet, mit dem Ziel die Kodierungsredundanz möglichst minimal zu gestalten.

Je häufiger ein Symbol auftritt, desto kürzer ist der vergebene Code, da man einer hohen Auftrittswahrscheinlichkeit einen niedrigen Informationsgehalt zuspricht. Man beschäftigt sich mit der Frage in welchem Verhältnis der Informationsgehalt zu den Codewörtern steht und wie man möglichst repräsentative Codewörter entwickelt.

Die Entwicklung von Codewörtern variabler Länge zeigt, dass hier eine weitere Optimierung der Kodierleistung erzielt werden kann. Um eine Verringerung der Kodierungsredundanz und eine zuverlässige Dekodierung ohne Fehlinterpretation zu ermöglichen, ist ein System entscheidend, welches variable Codewörter eindeutig von einander abgrenzt.

Claude Shannon und Robert Fano[18] haben ein solches System konstruiert. Es basiert auf unveränderlichen Auftrittswahrscheinlichkeiten der Eingabezeichen mit eindeutigen Codewörtern, da kein Codewort die Anfangszeichen eines anderen Codeworts enthält. Codes mit dieser Eigenschaft nennt man Präfixcodes.

4.2 Huffmankodierung

Das Shannon-Fano-System besitzt jedoch einen entscheidenden Nachteil. Es kommt vor, dass Eingangszeichen mit der gleichen Wahrscheinlichkeit auf Codewörter abgebildet werden, die sich in ihrer Länge unverhältnismäßig hoch unterscheiden. David Huffman entwickelte 1952 ein eigenes Verfahren zur Abbildung von Zeichenfolgen auf einen Präfixcode, welches im Vergleich zu Shannon-Fano die optimale Lösung darstellt. Das Huffman System garantiert für alle Auftrittswahrscheinlichkeiten die kürzesten Codewörter.

4.3 Arithmetische Kodierung

Das arithmetische Kodierverfahren[19] ist ein System, dass das gesamte Signal bzw. alle Eingangszeichen als eine Einheit betrachtet, d.h. es werden keine einzelnen Codewörter für die Symbole erstellt. Im Vergleich zu anderen Verfahren, die mit einer ganzzahligen Bitfolge bzw. ganzzahligen Codewörtern arbeiten, wird bei der arithmetischen Kodierung eine Fließkommazahl erstellt, die als Code den Informationsgehalt der Datenmenge detailgetreuer repräsentiert.

Zur Kodierung wird ein Startintervall mit einer oberen und unteren Grenze definiert. Innerhalb dieses Bereiches werden den Eingangszeichen je nach Auftrittswahrscheinlichkeit Teilintervalle zugeordnet. Je seltener das zu kodierende Symbol ist, desto schmaler ist das Intervall. Im Abschlussintervall wird schließlich das Codewort ermittelt.

Es ist erwähnenswert, dass sowohl die Huffmankodierung als auch eine Abwandlung[20] des arithmetischen Kodierverfahrens im JPEG-Standard[21] eingesetzt werden.

5 Einzelbildkompression

5.1 Allgemeines

Im Folgenden werden Standards vorgestellt, die sich auf die Verarbeitung von Einzelbildern beziehen. Bei der Einzelbildkompression kommen hybride Verfahren zum Einsatz, die einzelne Arbeitsschritte[22] durchlaufen. Die Arbeitsschritte werden generell in die Bereiche Bildvorbereitung, Bildbearbeitung, Quantisierung und Kodierung unterteilt.

In der Bildvorbereitung erfolgt die Konvertierung von analogen zu digitalen Signalen, welche auf eine angemessene Darstellung der zu verarbeitenden Informationen in digitaler Form abzielt. Zu der Bildbearbeitung gehört der Einsatz von Algorithmen, wie z.B. das DCT-Verfahren, welches im Folgenden näher beschrieben wird. Während der Quantisierung findet dann eine Reduzierung der Eingangsdaten durch Irrelevanzreduktion statt. In diesem Schritt wird zwischen Qualität und Dateigröße abgewogen. Im letzten Schritt werden die Informationen dann durch die Kodierung ohne weiteren Verlust effizient gepackt.

5.2 JPEG

5.2.1 Überblick

Innerhalb der Internationalen Standardisierungsorganisation[23] wurde 1986 die Joints Photographic Experts Group (JPEG) zusammengeschlossen, mit dem Ziel einen leistungsfähigen Kompressionsstandard für die Kommunikation über ISDN-Kanäle zu entwickeln. JPEG beherrscht sowohl verlustfreie, als auch verlustbehaftete Verfahren, basierend auf der diskreten Kosinustransformation (DCT). Der Standard (ISO/IEC 10918-1) wurde 1994 veröffentlicht und beinhaltet eine Familie von Verfahren mit zahlreichen Funktionen.

5.2.2 Diskrete Kosinustransformation

Das DCT-Verfahren[24] beruht auf der Entwicklung von Fourier-Reihen und wird als Frequenzanalyseverfahren eingesetzt. Periodische Symbole werden anhand gewichteter Sinus-Kosinus-Schwingungen nachgebildet.

Das DCT-Verfahren[25] verarbeitet Einzelbilder, indem es diese in quadratische Blöcke von 8x8 Pixel (Bildpunkte) zerlegt und anschließend die Zeilen und Spalten der Blöcke transformiert. Es entsteht eine Tabelle mit DCT-Koeffizienten, die einer Quantisierung unterzogen werden. Alle Koeffizienten werden entsprechend einer festgelegten Quantisierungstabelle durch Parameter dividiert, die gemäß JPEG-Standard auf die menschlichen Wahrnehmung ausgelegt sind. Je nachdem welche Parameter für die Quantisierungstabelle herangezogen werden, lässt sich die Kompressionsleistung steigern, was jedoch ab einem gewissen Grenzwert nicht ohne eine nachteilige Bildqualität zu erzielen ist. Es treten dann deutlich sichtbare Blockartefakte auf - ein Effekt, der auch als Klötzchenbildung bezeichnet wird.

Das Ziel ist die Erstellung einer Transformationstabelle mit möglichst vielen identischen Koeffizienten, die dann mit Hilfe des Huffman-Algorithmus kodiert werden.

5.3 JPEG 2000[26]

5.3.1 Überblick

Um den steigenden Anforderungen des Marktes und der Anwendungen nachzukommen wurde ein Nachfolger für JPEG entwickelt. ISO/IEC 15444 definiert den JPEG2000-Standard, basierend auf einem Waveletkompressionsverfahren, welches verlustlose und verlustbehaftete Verfahren innerhalb desselben Kompressionsalgorithmus vereint. Dadurch soll eine höhere Flexibilität und eine bessere Adaptionsfähigkeit in Bezug auf Anwendungen erzielt werden.

Neben einem effizienteren Komprimierungsalgorithmus und einer höheren Fehlerresistenz, wurde die Fähigkeit zur Skalierbarkeit nach Qualität oder Dateigröße implementiert. Ein mit JPEG-2000 kodiertes Bild lässt sich demnach auf unterschiedliche Arten dekodieren. Ein Anwender erhält die Möglichkeit direkt auf den Bitstrom Einfluss zu nehmen.

Es ist ebenfalls möglich einen ROI zu definieren, einen wichtigen Bildausschnitt, der dann mit höherer Qualität kodiert werden kann. Relevante Bereiche lassen sich während der Übertragung des Bildes schneller abrufen, da nicht das gesamte Bild in höchster Qualität übertragen werden muss.

5.3.2 Diskrete Wavelettransformation[27]

Das zu kodierende Bild wird in seine Spektralanteile zerlegt, ohne Einsatz einer Blockbildung. Zur Reduzierung des Verarbeitungsaufwandes können Bilder optional in nicht überlappende Bildbereiche eingeteilt werden, die dann separat verarbeitet werden.

Es erfolgt eine Aufteilung in hohe und niedrige Bildfrequenzen mithilfe eines digitalen Filters, der Bildzeilen und Spalten durch eine Hochpass- bzw. Tiefpassfilterung führt. Die Bildwerte werden in Abhängigkeit der Frequenz einem Waveletkoeffizienten zugeordnet. Mit der Quantisierung erfolgt dann eine verlustbehaftete Weiterverarbeitung. Falls eine verlustfreie Kompression erwünscht ist, wird die Quantisierung übersprungen. Der entstandene Datenstrom wird abschließend einer Entropiekodierung unterzogen.

5.4 PNG[28]

5.4.1 Überblick

PNG steht für »Portable Network Graphics« und wurde bereits Mitte der 90er Jahre als Alternative zum GIF[29] und TIFF[30] Standard entwickelt. Im Jahr 2003 wurde PNG zum internationalen Standard (ISO/IEC 15948) erklärt.

Obwohl PNG seltener anzutreffen ist als JPEG, bietet PNG Vorteile, die den Einsatz besonders im professionellen Bereich rechtfertigen. PNG beherrscht eine Vielzahl nennenswerter Funktionen. Für jeden Bildpunkt können Farbinformationen mit bis zu 48-bit pro Pixel (16-bit pro Kanal) gespeichert werden. Transparenzinformationen sind in einem separaten Kanal, dem sog. Alphakanal mit implementiert. Dadurch lassen sich Bindinhalte getrennt vom Hintergrund in einem einzigen Dateiformat ablegen und später weiter bearbeiten.

5.4.2 Deflate Algorithmus

PNG[31] arbeitet ausschließlich mit einem verlustlosen Komprimierungsverfahren. Zur Kompression wird der patentfreie Deflate-Algorithmus basiert auf dem LZ77-Algorithmus eingesetzt. Für eine ausführliche Beschreibung sei auf David Salomon und das Buch »Data Compression – The Complete Reference« (2004, 3. Auflage, Springer-Verlag) verwiesen.

Durch den Einsatz eines »Vorfilters« kann die Leistung des Deflate-Kompressionsverfahrens mit beeindruckenden Ergebnissen gesteigert werden. Diese Vorstufe dient der Reorganisation der zu komprimierenden Daten, indem anstelle der einzelnen Eingabewerte lediglich die Differenzwerte[32] zwischen den Eingabezeichen verarbeiten werden.

5.4.3 Interessantes

Paul Schmidt ein Mitglied des PNG-Entwicklungsteams zeigte in einem Testversuch, wie man unter günstigen Bedingungen eine 48 MB große Bilddatei durch den Einsatz des geschilderten Verfahrens auf eine Dateigröße von 58 KB[33] komprimieren kann und das verlustfrei. Das entspricht einer Kompressionsrate von 847:1.

6 Bildsequenzkompression[34]

6.1 Allgemeines

Die Entwicklungen und Techniken, die aus der Einzelbildkompression entstanden sind, werden bei der Verarbeitung von Bildsequenzen herangezogen. Die Abarbeitung erfolgt ebenfalls in Arbeitsschritten, von der Bildvorbereitung bis zur Kodierung. Da die Erfahrung zeigt, dass größtenteils nur minimale Veränderungen innerhalb einer Bildsequenz auftreten, nutzen Kompressionsverfahren eine Technik aus, die lediglich die Unterschiede zwischen zwei benachbarten Bildern erfasst und den Kodieraufwand dadurch verringern. Ein Verfahren wird im folgenden Abschnitt aufgezeigt.

6.2 DPCM-Verfahren

Die Differenzielle Puls Code Modulation[35] arbeitet mit den Differenzen innerhalb eines Bildbereiches, sowie mit den Differenzen von aufeinander folgenden Bildern. Das erste Ziel ist es die räumliche Redundanz (bezeichnet als örtliche Korrelation) zu minimieren, d.h. Ähnlichkeiten benachbarter Bildpunke auszunutzen, indem nur die Differenz erfasst wird. Der zweite Aspekt beschäftigt sich mit der Minimierung der zeitlichen Redundanz (bezeichnet als zeitliche Korrelation) und erfasst nur die Differenz konsekutiver Bildpunkte.

6.3 Prädiktionsverfahren

Es werden Algorithmen eingesetzt, die eine Prädiktion ermöglichen, das heißt zukünftige Veränderungen der Bildpunkte werden vorhergesagt. Es gehört zu den Verfahren der Bewegungskompensation und richtet sich dem Namen entsprechend auf die Veränderungen eines früheren zum späteren Einzelbild. Es stößt dann an seine Grenzen, wenn sich Bildinhalte drastisch verändern bzw. starke Lichtwertveränderungen auftreten. Ein Verfahren der Bewegungsschätzung ist das Block-Matching. Einzelbilder werden in Blöcke zerlegt, deren Positionsänderungen in einer Bildersequenz anhand von errechneten Bewegungsvektoren angezeigt wird. Die Vektorinformationen werden gemeinsam mit den Differenzinformationen kodiert.

Dem Codec (Encode/Decoder) liegt ein Intra-/Intermodul[36] zugrunde. Dieses Model ist für die Intrakodierung und Interkodierung der Blöcke zuständig. Bei der Intrakodierung werden die Blöcke ohne Prädiktion, d.h. ohne Rücksicht auf vorhergehende oder folgende Einzelbilder verarbeitet. Referenzbilder dienen als Basis für Prädiktionsbilder, die anhand der Vektorinformationen gewonnen werden. Die Abweichung vom Originalbild wird als Schätzfehler kodiert.

6.4 MPEG-1/2 Standard[37]

6.4.1 MPEG-1

Die Moving Pictures Expert Group wurde 1988 gegründet, mit dem Ziel einen Komprimierungsstandard für Audio- und Videodaten in Echtzeit zu entwickeln. Neben den Anforderungen für die Bildsequenzkompression wurden auch die Audiodatenkompression mit einbezogen.

Im Jahr 1993 wurde MPEG-1 als internationaler Standard (ISO/IEC 11172-2) eingeführt. Man konzentrierte sich darauf, Audio-Video-Inhalte mit möglichst hoher Qualität zu erzeugen, ausgerichtet auf Bandbreiten bis 1,5 MBit/s.

6.4.2 MPEG-2

Auf der Grundlage von MPEG-1 wurde dann mit ISO/IEC 13818-2 ein Nachfolger geschaffen. MPEG-2[38] hat sich als solider Standard in vielen Bereichen etabliert. Die Hauptanwendungsgebiete liegen in der digitalen Distributionstechnologie, dem Broadcasting oder dem digitalen Satelliten-TV. Mit MPEG-2 wurden die Funktionen seines Vorgängers erweitert.

Bestandteile des Paketes sind höhere Bildauflösungen und Datenraten, sowie weitere Profile für einen einfachen Zugriff auf unterschiedliche Kodiermethoden. MPEG-2 eignet sich sowohl für simple Anwendungen mit niedrigen Datenraten als auch für Anwendungen mit HDTV-Auflösung. Mit der Mehrkanalunterstützung wurde auch im Audiosektor ein wichtiger Standard gesetzt.

6.4.3 Bildtypen

Im ersten Arbeitsschritt wird das Ausgangsmaterial in Makroblöcke zerlegt, die aus Luminanz und Chrominanzblöcken bestehen. Der MPEG-Standard arbeitet dabei mit unterschiedlichen Bildtypen, um den besten Kompromiss[39] zwischen Kodieraufwand und Bildqualität zu erzielen. Je nach Bildtyp werden die Makroblöcke DCT oder DPCM kodiert.

Der MPEG-Standard besitzt so genannte Bildergruppen, bezeichnet als »GOP«[40], die einen wichtigen Bestandteil der Datenstruktur bilden. Innerhalb dieser Gruppen von aufeinanderfolgenden Einzelbildern, sind I-Frames, P-Frames und B-Frames als Bildtypen die kleinsten Einheiten.

I-Frames sind intraframekodierte Bilder, die in Anlehnung an den JPEG-Standard DCT-kodiert werden. Es werden lediglich örtliche Redundanzen berücksichtigt. Prädiktive Bilder, die P-Frames, arbeiten mit Informationen eines vorhergehenden I-Frames, um ein Schätzbild zu erzeugen, dass zeitliche und örtliche Redundanzen ausnutzt. Bidirektionale Bilder werden mit einem Interpolationsverfahren erzeugt, welches zur Bewegungskompensation und der Minimierung der Prädiktionsfehler eingesetzt wird. Anstatt nur ein Bild in der Vergangenheit als Referenz für die Voraussage der Bewegungsentwicklung zu betrachten, wird ebenfalls ein bereits erstelltes Schätzbild in der Zukunft herangezogen. Als Referenz können nur I- oder P-kodierte Bilder dienen.

Der MPEG-Standard schreibt keine festen Regeln für die Struktur der »GOP« vor. Es können reine I-Frames Gruppen auftreten oder Gruppen mit allen drei Bildtypen. Generell lässt sich feststellen, dass B-kodierte Bilder die höchste Kompression ermöglichen.

6.4.4 Arbeitsverfahren

Die aus der DCT-Kodierung gewonnenen Koeffizienten[41] werden anhand einer Matrix quantisiert. MPEG besitzt für Koeffizienten der intraframekodierten Makroblöcke und für Koeffizienten der prädiktiv- und bidirektionalkodierten Makroblöcke eigenständige Matrizen. Die quantisierten DCT-Koeffizienten werden anschließend Huffmankodiert.

6.5 MPEG-4 Standard[42] / H.264

6.5.1 Allgemeines

Um den vielfältigen Ansprüchen neuer Anwendungsfelder und einer neuen Multimediageneration, vor allem im Hinblick auf die Interaktivität und Interaktion mit Internetanwendungen gerecht zu werden, wurde im Jahr 1999 ein neuer Standard definiert.

MPEG-4 (ISO/IEC 14496-2) übertrifft seine Vorgänger im Bezug auf die Kompressionsleistung und die Skalierbarkeit in vielerlei Hinsicht. Neue Algorithmen erlauben im Vergleich zu MPEG-2, bei gleichbleibender Qualität einen Bitratengewinn von ca. 40 Prozent. Mit MPEG-4 AAC (Advanced Audio Coding) wurde auch bei der Audiokodierung ein wichtiger neuer Standard gesetzt. MPEG-4 AVC (ISO/IEC 14496-10) und das Videokompressionsverfahren H.264, auch bezeichnet als Advanced Video Coding (AVC), bezeichnet die neueste Generation des MPEG-4 Standards.

MPEG-4 bietet eine Vielzahl neuer Funktionen. Zur Erleichterung der Bedienung wurden Funktionsgruppen erstellt, die durch Profile[43] dargestellt werden, wie bereits aus MPEG-2 bekannt. Bereits zu Beginn der Entwicklung wurde ein breites Anforderungsspektrum[44] definiert. Da MPEG-2 im Bereich des Broadcastings mit der Einführung von HDTV an seine Grenzen stößt, sieht man in MPEG-4 bereits einen potentiellen Nachfolger. Der Standard soll dafür geeignete Mittel zur Verfügung stellen und sich bei der Übertragung von hochauflösenden Inhalten und des IP-basierenden interaktiven Fernsehens durchsetzen. Die Entwicklung von neuen Kodierverfahren, wie dem AAC-LD[45], ausgelegt auf eine möglichst geringe Verzögerung zeigt, dass MPEG-4 auch im Mobilfunkbereich Lösungen anbieten kann.

Eine neue Technologie, die hybride Kodierung, differenziert bei der Verarbeitung zwischen natürlichen und synthetischen Bildobjekten zur Kodierung von computeranimierten Inhalten. Die unterschiedlichen Bestandteile eines Bildes werden als Bildobjekte[46] bezeichnet, die unabhängig voneinander manipuliert werden können. Diese Bildobjekte existieren in Ebenen, bezeichnet als »Video Object Planes« (VOP), die in einem Video als Frames (Einzelbilder) bezeichnet werden. Jede Ebene entspricht damit einem anderen Bildobjekt und beide Einheiten werden getrennt verarbeitet. Dadurch lässt sich die Kodierung optimal auf alle Bestandteile einer Sequenz anpassen.

6.5.2 Bildobjekt Kodierung

Während der Verarbeitung der Bildebenen werden Bildinhalte analysiert und Bildobjekte separiert. Es wird ein Rechteck um die Bildobjekte gelegt, das zur Abgrenzung benachbarter Objekte dient. Dem Rahmen werden eindeutige Informationen zur Position im Bildausschnitt, zur Form des Bildobjekts und dessen Textur zugewiesen. Im Rahmen werden drei verschiedene Arten von Markoblöcken[47] unterschieden. Makroblöcke enthalten Farb- und Helligkeitsinformation des Einzelbildes. Blöcke können sich innerhalb oder außerhalb des Bildobjektes befinden, bzw. dessen Kontur schneiden und enthalten entsprechend ihrer Lage Informationen zur den Textureigenschaften des Bildobjekts. Die Makroblöcke werden anschließend inter- bzw. intrakodiert. MPEG-4 AVC nutzt im Gegensatz zu seinen Vorgängern eine aus der DCT abgeleitete Integer-Transformation, die eine bessere Anpassung an die zu kodierenden Differenzbilder ermöglicht. Es werden zwei Arten der Entropiekodierung[48] unterstützt, die Verfahren CAVLC[49] und CABAC[50]. CAVLC ist eine effizientere Version der als Huffmankodierung bekannten variablen Lauflängenkodierung. Im Vergleich dazu wandelt CABAC alle Eingangssymbole[51], u.a. auch die quantisierten Koeffizienten, in Binärdaten um. Der Binärdatenstrom wird dann vor der Übertragung durch eine arithmetische Kodierung weiterverarbeitet.

7 Die auditive Wahrnehmung

Die Psychoakustik[52] beschäftigt sich mit der menschlichen Wahrnehmung von physikalischen Reizen, wie z.B Licht und Schall. Es wird untersucht, wie sich diese Reize auf die Wahrnehmung auswirken und wie die Vorgänge quantitativ beschrieben werden können. Das Hauptaugenmerk liegt auf der Betrachtung der Amplituden- bzw. Frequenzauflösung des Gehörs, d.h. dem Vermögen Tonhöhen- und Lautstärkeunterschiede (Dynamikunterschiede) zu erkennen.

Wichtig ist die Erkenntnisse, dass der Mensch Lautstärke nicht linear verarbeitet. Töne mit identischem Schalldruckpegel werden in Abhängigkeit von der Frequenz unterschiedlich laut wahrgenommen. Ein Ton erscheint daher mit ansteigender Frequenz leiser.

Anhand dieses Beispiels und aufgrund weiterer Effekte, die bei der Wahrnehmung von Schallsignalen auftreten, ist ersichtlich, warum Maskierungen eingesetzt werden, um nicht wahrnehmbare Bereiche innerhalb des Audiosignals zu ermitteln und zu verwerfen.

Die Frequenzmaskierung macht sich den Effekt zunutze, dass Töne durch Töne benachbarter Frequenz überlagert werden, sobald ein kritischer Bereich unterschritten wird. Schallsignale sind dann nicht mehr als zwei unterschiedliche Töne wahrnehmbar. Tonhöhenunterschiede können mit steigender Frequenz immer schwieriger festgestellt werden, d.h. die kritischen Bereiche weisen mit zunehmender Frequenz eine höhere Breite auf. Die zeitliche Maskierung beschreibt einen Effekt, bei dem ein lauter Ton leisere Töne in einem bestimmten zeitlichen Umfeld überlagert und damit die Hörbarkeit beeinflusst. Dabei spielt es keine Rolle, ob der leisere Ton vor oder nach dem lauten Ton auftritt. Lediglich der Maskierungseffekt ist von unterschiedlicher Dauer.

In der Audiokodierung nutzt man die oben beschriebenen Erkenntnisse zur Entwicklung eines psychoakustischen Modells, welches dem Koder als fester Bestandteil zugrunde liegt. Bestandteile des Audiosignals lassen sich dadurch weglassen, ohne dass das menschliche Gehör einen Verlust wahrnimmt.

8 Audiokompression

8.1 MPEG Audio Layer 3

Im Jahr 1987 wurde von der Universität Erlangen-Nürnberg in Kooperation mit dem Fraunhofer-Institut für Integrierte Schaltungen (IIS) in Erlangen ein Meilenstein[53] im Bereich der Echtzeitkodierung gelegt. Ausgelegt auf die Übertragung von Audiosignalen für Telefonleitungen war es nun möglich Musik in Echtzeit zu kodieren und direkt zu übertragen. Aus diesen ersten Forschungsarbeiten gingen dann Jahre später die MPEG-Audio Layer 1 bis 3 hervor. Mit MPEG Audio Layer 3 wurde 1993 (ISO/IEC 11172-3) die bis dato komplexeste und leistungsfähigste Version der Audiokodierung nach MPEG-Standard vorgestellt.

Die Kodierung[54] eines Audiosignals basiert typischerweise auf der Puls Code Modulation (PCM). Bei diesem Verfahren wird das Signal mit einer Rate von 44,1 kHz bzw. 44100 Messungen pro Sekunde abgetastet. Die Ergebnisse, auch als Samples bezeichnet, werden dann in einer 16-bit Integerzahl gespeichert. Durch die Rundung auf die Ganzkommazahl entstehen Fehler, die einem Informationsverlust entsprechen. Je größer der Informationsverlust und damit die Abweichung zum ursprünglichen Signalwert, desto stärker das Kodierungsrauschen[55]. Da das Rauschen einen Qualitätsverlust bedeutet, verwendet das Kompressionsverfahren des MPEG Audio Standard Maskierungseffekte, um das Rauschen unter einem Toleranzwert zu halten. Unter dieser Maskierungsschwelle ist der Informationsverlust für das menschliche Gehör nicht mehr wahrnehmbar.

MPEG Audio Layer 3 arbeitet mit einer hybriden Filterbank[56], das bedeutet zur Wahrung der Abwärtskompatibilität zu Layer 1 und 2 wird eine Mehrphasenfilterbank eingesetzt, hier jedoch gekoppelt mit einer modifizierten diskreten Kosinustransformation (MDCT). Um eine exaktere Abbildung und eine höhere Kodierleistung zu erreichen, arbeitet MP3 mit sog. Subbändern. Das abgetastete Signal wird in Frequenzbereiche mit unterschiedlichen Bandbreiten zerlegt, die gemäß der vorhandenen Dynamik innerhalb dieser Bereiche separat verarbeitet werden. Abschnitte mit gut wahrnehmbaren Frequenzen werden mit höherer Genauigkeit abgebildet als weniger wichtige Frequenzen. Um Artefakte und Verzerrungen, die an den Übergangen der Subbänder entstehen können zu vermeiden, werden überlappende Subbänder gewählt, das bedeutet sie gehen nahtlos ineinander über. Im Quantisierungsschritt[57] wird die Bitrate des Audiosignals dann verringert. Man zielt einerseits auf eine grobe Quantisierung ab, um die beabsichtigte Datenrate zu erzielen. Andererseits dürfen Abweichungen nicht zu hoch ausfallen, da ansonsten die Fehlerrate über einen Toleranzwert steigt und die Maskierungsschwelle überschritten wird. Abschließend kommt eine Huffmankodierung zum Einsatz.

MPEG Audio Layer 3 bietet Anwendern eine direkte Kontrolle[58] über Einstellungen zu Abtast- und Datenraten. Es werden Abtastraten von 32kHz, 44,1 kHz und 48 kHz unterstützt, wobei eine Datenrate zwischen 8 KBit/s und 320 KBit/s zur Verfügung steht. Eine sogenannte Bitsparkasse ermöglicht es den Nutzer bei der Kodierung zwischen einer variablen oder konstanten Datenraten zu wählen, um einen angemessenen Kompromiss zwischen Datenrate und Qualität zu erreicht.

8.2 Advanced Audio Coding

Im Jahr 1997 wurde das AAC, das Advanced Audio Coding (ISO/IEC 13818-7) als neues Kodierverfahren in den MPEG-2 Standard aufgenommen. Da AAC auch Bestandteil des MPEG-4 Standards ist, werden die eingeführten Verbesserungen gemeinsam betrachtet und nicht auf die Standards aufgeteilt.

Im Gegensatz zu MPEG Audio Layer 3 war man nicht mehr gezwungen, die Abwärtskompatibilität zu MPEG Audio Layer 2 zu berücksichtigen. Dadurch konnten neue verbesserte Kodieralgorithmen implementiert werden. So sollen im Vergleich zum MPEG Audio Layer 3 Kompressionsraten von 30-50% erreicht werden.

AAC liefert eine weitaus höhere Frequenzauflösung, sowie ein leistungsfähiges Prädiktionsverfahren, ähnlich wie bei der Videokodierung, um wiederholt auftretende Muster und Tonarten zu erkennen und die Redundanz zu verringern.

Die kaskadierte Filterbank aus MPEG Audio Layer 3 wurde durch eine reine MDCT –Filterbank ersetzt, die gemeinsam mit dem »temporal noise shaping« (TNS), einer Technik zur Minimierung des Quantisierungsrauschens die sogenannten Pre-echo Artefakte verringern soll. Diese Störgeräusche treten als klirrend-metallische Artefakte kurz vor dem eigentlichen Ton auf.

»Perceptual noise substitution« (PNS) ist ein neues Verfahren, dass zur Entlastung des Kodieraufwandes eingeführt wurde. Das Ziel ist es, Rauschsignale in einer möglichst kompakten Form zu repräsentieren. Hierzu werden nur die Parameter zur Erzeugung der Rauschsignale im Datenstrom mitgeschickt, um dann im Dekoder rekonstruiert zu werden.

9 Einsatzgebiete

9.1 Die Fraunhofer-Gesellschaft

Die Fraunhofer-Gesellschaft ist eine Organisation[59] für angewandte Forschung in Europa. »Sie betreibt anwendungsorientierte Forschung zum direkten Nutzen für Unternehmen und zum Vorteil der Gesellschaft.« Zur Fraunhofer-Gesellschaft zählen 80 Forschungseinrichtungen mit 56 Forschungsinstituten in Deutschland. Ein Leitmotiv ist die Entwicklung von Schlüsseltechnologien und die Umsetzung von Trends. Als Innovationsträger decken die Einrichtungen ein breites Forschungsspektrum ab und entwickeln dabei innovative Lösungen für eine Vielzahl von Branchen.

Die »Anwendungsorientierung[60] und die Umsetzung in die Praxis« stehen im Mittelpunkt der Bemühungen. »Das wichtigste Ziel der Fraunhofer-Gesellschaft ist der Transfer von Know-how aus der Wissenschaft in die Praxis.«

Im Folgenden werden Forschungsprojekte der Fraunhofer-Institute im Multimediabereich vorgestellt, um einen Ausblick auf den zukünftigen Einsatz von Kompressionsverfahren zu erhalten. Es sei erwähnt, dass die angesprochenen Verfahren im Zusammenspiel mit anderen Technologien angewandt werden und daher nur einen Teil der Forschungsprojekte einnehmen.

9.2 Die Fraunhofer-Allianz / Digital Cinema[61]

Kino als Begriff für die Präsentation von bewegten Bildern, hat eine Geschichte die ein Jahrhundert alt ist. Kino galt stets als Vorreiter und Trendsetter, nicht nur hinsichtlich des Einsatzes von bewegten Farbbildern, sondern auch für die Entwicklung von Soundsystemen, lange vor dem Einzug im Heimbereich. Mit der Einführung des Tonfilms sicherte sich die amerikanische Filmindustrie einen führenden Rang in der Kinolandschaft. Im digitalen Zeitalter arbeiten Forscher an der Ablösung von etablierten technischen Verfahren. Die Entwicklung von digitalen Systemen von der Filmaufnahme bis zur Projektion stellt eine große Herausforderung dar.

Mit dem Konsortium »Digital Cinema Initiatives« (DCI)[62], einer Vereinigung der großen Hollywood-Studios existieren bereits Anstrengungen, einen Standard für das digitale Kino zu definieren. Der Bildqualität als Eckpfeiler für den Erfolg des Kinos wird dabei eine besondere Beachtung geschenkt. Mit der Durchsetzung des HDTV-Formats im Heimbereich befürchtet man den technischen Vorsprung zu verlieren und dadurch auch ein Absinken der Attraktivität des Kinos.

In Deutschland arbeitet das Fraunhofer-Institut für Integrierte Schaltungen im EU-Projekt »Enhanced Digital Cinema« (EDCINE)[63] an einer Lösung für die digitale Filmarchivierung auf Basis von JPEG-2000. Ziel ist die Entwicklung eines Konzepts zur Erhaltung von Filmmaterial in Form einer Langzeitarchivierung, basierend auf einem offenen Standard, wobei auch Zugriff und Distribution des Materials berücksichtigt werden.

Filmmaterial[64] liegt in seiner Ausgangsform in 16mm bzw. 35mm Filmrollen vor. Da der Umgang mit dem Material, der Transport und die Anfertigung von Kopien finanziell sehr kostspielig ist, sieht man in der Überführung des Materials in die digitale und damit immaterielle Form entscheidende Vorteile. Da der Transfer[65] der digitalen Daten über Breitbandverbindungen realisiert wird und nicht mehr auf konventionelle Vertriebswege angewiesen ist, rechnet man in diesem Bereich mit einer Kostenersparnis von 90%. Der Datenstrom wird zusätzlich durch Verschlüsselungsverfahren gesichert, um illegale Filmkopien zu unterbinden.

Da digitale Filme eine enorme Datenmenge erzeugen, setzt man mit einem mobilen Datenspeicher auf ein handliches Gerät, das im Vergleich zu alternativen Lösungen bei geringerem Gewicht die achtfache Kapazität aufweist.

Um den Anforderungen[66] einer digitalen Langzeitarchivierung bei hoher Qualität und leichtem Zugriff auf das Material gerecht zu werden, wird ein zweistufiges Modell implementiert. EDCINE schlägt eine Architektur vor, die aus einem »Master Archive Package« (MAP) und einem »Intermediate Access Package« (IAP) besteht.

Das »Master Archive Package« ist ein verlustfrei komprimiertes Paket des Filmmaterials aus dem Postproduktionsprozess und dient als direkte digitale Repräsentation des Films. Da die Datenmenge in dieser Form für den Zugriff zu hoch ist, wird ein »Intermediate Access Package« erstellt, welches durch verlustbehaftete Kompressionsverfahren erzeugt wird. Das IAP dient dann als Ausgangsmaterial für das »Digital Cinema Package« (DCP), welches dann in digitalen Kinos zum Einsatz kommt. Zur Erleichterung der Recherchemöglichkeiten wird anhand von extrahierten Metainformationen auf Basis des »Material Exchange Formats« (MXF)[67], aus den Filmdaten ein Inhaltsverzeichnis für das digitale Archiv oder den Online-Zugriff erstellt.

Um das Fortbestehen der Langzeitarchive zu sichern, setzt man auf offene Standards, um die Archive auch für nachfolgende Generationen nutzbar zu machen. Mit JPEG-2000 und MXF hat man sich auf zwei Standards geeinigt, deren Potentiale zur Zielerreichung beitragen sollen.

10 Fazit

Beschäftigt man sich mit dem Thema »Kompressionsverfahren«, so lässt sich feststellen, dass mit der Betrachtung der wichtigsten Standards nur ein kleiner Abschnitt dieses komplexen und umfangreichen Themas angeschnitten wird. Um die angewandten Techniken im Detail zu verstehen, benötigt man mathematische, informationstheoretische und technische Kenntnisse, die weit über ein Basiswissen hinausgehen. Die menschliche Physiologie fügt neue Aspekte hinzu und zwingt den Betrachter, sich auch in diesem Bereich Wissen anzueignen.

Kompressionsverfahren spielen seit Beginn der Nachrichtentechnik eine wichtige Rolle für die Attraktivität neuer Übertragungsverfahren. In der Informationstheorie wurden bereits in den 40er Jahren die ersten Grundsteine gelegt, die zur Entwicklung von leistungsfähigen Verfahren geführt haben. Mit dem MPEG-Standard wurde dann eine neue Generation des digitalen Audio- und Videozeitalters eingeleitet. Obwohl mit der Entwicklung des Standards bereits vor mehr als zwei Jahrzehnten begonnen wurde, bietet er aufgrund seiner zahlreichen Nachkommen ein unerschöpfliches Reservoir an Einsatzmöglichkeiten. Kaum ein anderer Standard kann im Bereich der Video- und Audiokodierung mit MPEG gleichziehen.

Die Geschäftsfelder der Fraunhoferinstitute im Multimediabereich zeigen, dass Potentiale noch lange nicht ausgeschöpft sind. Neue Anwendungsfelder verlangen nach immer effizienteren und leistungsstärkeren Verfahren. Mit der fortschreitenden globalen Vernetzung ist zu erwarten, dass die Nachfrage nach Kompressionsverfahren noch zunehmen wird.

Neben dem ursprünglichen Gedanken der Datenreduktion, die Inhalte aufgrund begrenzter Ressourcen zwangsweise an die Übertragungskanäle anpassen zu müssen, zeigt sich heute auch eine qualitätsorientierte Sichtweise. Begünstigt von den fallenden Preisen für Speichermedien aller Art, konzentriert man sich zunehmend auf die Qualität der zu übertragenden Inhalte und versucht anhand dieses Ansatzes, den bestmöglichen Kompromiss zwischen Qualität und Datengröße zu erzielen. Hier vertraut man auf die Flexibilität und Skalierbarkeit neuer Standards, um Inhalte auf unterschiedlichsten Plattformen abrufbar zu machen. Letztendlich stehen die Anwender im Mittelpunkt der Bemühungen und gerade die gilt es zu überzeugen.

11 Fußnoten

  1. Vgl. Heyna et al. (2003), Seite 13ff
  2. Vgl. Strutz (2005), VII
  3. Vgl. Milde (1995), Seite 1f
  4. http://www.siemon.com/de/white_papers/cctv.asp
  5. Vgl. Strutz (2005), Seite 149
  6. Vgl. Mallot (1998), zitiert nach: Strutz (2005), Seite 144f
  7. Vgl. Strutz (2005), Seite 146ff
  8. Vgl. Strutz (2005), Seite 153f
  9. Vgl. Heyna et al. (2003), Seite 26
  10. Vgl. Heyna (2003), Seite 29f
  11. Vgl. Strutz (2005), Seite 1ff
  12. Vgl. Milde (1995), Seite 5ff
  13. Vgl. Strutz (2005), Seite 27ff
  14. Vgl. Milde (1995), Seite 18ff
  15. Vgl. Heyna et al.(2003), Seite 53f
  16. Vgl. Strutz (2005), Seite 10f
  17. Vgl. Strutz (2005), Seite 27ff
  18. Vgl. Fano (1949), No.65 zitiert nach Strutz (2005), Seite 30
  19. Vgl. Strutz (2005), Seite 43ff
  20. Vgl. Strutz (2005), Seite 54f
  21. ISO/IEC 10918-1
  22. Vgl. Effelsberg et al. (1998), Seite 6f
  23. http://www.iso.org
  24. Vgl. Heyna et al. (2003), Seite 58f
  25. Vgl. Strutz (2005), S.159ff
  26. http://www.jpeg2000info.com/why/index.html
  27. Vgl. Heyna et al. (2003), Seite 61f
  28. http://www.libpng.org
  29. http://www.w3.org/Graphics/GIF/spec-gif87.txt
  30. http://www.awaresystems.be/imaging/tiff/faq.html
  31. http://www.vias.org/pngguide (Chapter 1.3.1)
  32. http://www.vias.org/pngguide (Chapter 9.02)
  33. http://www.libpng.org/pub/png/img_png/16million-pschmidt.png
  34. Vgl. Strutz (2005), Seite 217ff
  35. Vgl. Heyna et al. (2003), Seite 55ff
  36. Vgl. Strutz (2005), Seite 218
  37. Vgl. Strutz (2005), Seite 229ff
  38. Vgl. Heyda et al. (2003), Seite 73ff
  39. Vgl. Strutz (2005), Seite 234f
  40. group of pictures
  41. Vgl. Milde (1995), Seite 48
  42. http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm
  43. Vgl. Watkinson (2004), Seite 102
  44. http://www.m4if.org/public/documents/vault/MPEG4WhitePaperV2a.zip , Seite 12ff
  45. http://www.iis.fraunhofer.de/bf/amm/projects/lowdelay/index.jsp
  46. Vgl. Watkinson (2004), Seite 287ff
  47. Vgl. Richardson (2003), Seite 164f
  48. Vgl. Richardson (2003), Seite 198f
  49. context adaptive variable length coding
  50. context adaptive binary arithmetic coding
  51. Vgl. Richardson (2003), Seite 213
  52. Vgl. Ruckert (2005), Seite 19f
  53. http://www.iis.fraunhofer.de/fhg/Images/AUDIO_fest_low_tcm97-90912.pdf , S.10
  54. Vgl. Ruckert (2005), Seite 1f
  55. http://www.iis.fraunhofer.de/fhg/Images/AUDIO_fest_low_tcm97-90912.pdf , S.20
  56. http://www.telos-systems.com/techtalk/hosted/Brandenburg_mp3_aac.pdf , S.4f
  57. http://www.telos-systems.com/techtalk/aacpaper_2/AAC_3.PDF , S.4
  58. http://www.iis.fraunhofer.de/bf/amm/projects/mp3/index.jsp
  59. http://www.fraunhofer.de/ueberuns/index.jsp
  60. http://www.fraunhofer.de/fhg/Images/Profil_dt_dez2005_tcm5-42295.pdf
  61. http://www.dcinema.fraunhofer.de
  62. http://www.dcimovies.com
  63. http://www.edcine.org
  64. http://www.iis.fraunhofer.de/bf/bv/cinema/index_edcine.jsp
  65. http://www.dcinema.fraunhofer.de/fhg/Images/dcinema_fhmag_tcm355-131405.pdf
  66. http://www.ledoux.be/EDcine/download/EDCine_Summary_v2.pdf
  67. http://www.digitalpreservation.gov/formats/fdd/fdd000013.shtml


12 Quellenverzeichnis

Milde (1995) Torsten Milde: Videokompressionsverfahren im Vergleich, 1. Auflage, dpunkt Verlag, Heidelberg 1995
Strutz (2005) Tilo Strutz: Bilddatenkompression: Grundlagen, Codierung, Wavelets, JPEG, MPEG, H.264, 3. Auflage, Friedr. Vieweg & Sohn Verlag/GWV Fachverlage, Wiesbaden 2005
Heyna et al. (2003) Arne Heyna, Marc Briede, Ulrich Schmidt (Hrsg.): Datenformate im Medienbereich, Fachbuchverlag Leipzig im Carl Hanser Verlag, München/Wien 2003
Ruckert (2005) Martin Ruckert: Understanding MP3: Syntax, Semantics, Mathematics and Algorithms, Friedr. Vieweg & Sohn Verlag/GWV Fachverlage, Wiesbaden 2005
Effelsberg et al. (1998) Wolfgang Effelsberg, Ralf Steinmetz: Video Compression Techniques, dpunkt Verlag, Heidelberg 1998
Fano (1949) Fano R.M.: The transmission of information, Research Laboratory for Electronics, Massachussetts Institute of Technology, Technical Report, No. 65,1949
Mallot (1998) H.A. Mallot: Sehen und die Verarbeitung visueller Informationen, Vieweg Verlag, Braunschweig/Wiesbaden 1998
Watkinson (2004) John Watkinson: The MPEG Handbook, Second Edition, Focal Press, 2004
Richardson (2003) Iain E. G. Richardson: H.264 and MPEG-4 Video Compression: Video Coding for Next-generation Multimedia, John Wiley & Sons Ltd., 2003, PDF-Dokument
Persönliche Werkzeuge