Eine einfache Rechnung zeigt, daß die Wiedergabe unkomprimierter Videos auf den heutigen Computersystemen schnell an seine Grenzen stößt: bei einer Auflösung von 720x480 (NTSC) und einer Bildwiederholfrequenz von 30Hz sind 10,4 Millionen Pixel pro Sekunde zu übertragen und zu dekodieren. Heute übliche Festplatten von 5 GB Größe könnten gerade einmal 4 Minuten solcher Videosequenzen speichern, von Videos in Spielfilmlänge ganz zu schweigen.
In Bezug auf die vorhandenen Speichermedien und die auf PC-Systemen erreichbaren Datendurchsätze ein Ding der Unmöglichkeit, weshalb man auf Videokompressionsverfahren wie MPEG zurückgreift.
Im folgenden werde ich das MPEG-1-Verfahren, seine Ziele und Methoden zur Datenreduktion und die MPEG-1 Video- und System-Syntax darstellen, sowie einen Ausblick auf MPEG-2 und MPEG-4 geben.
MPEG steht für Moving Pictures Experts Group - ein Standardisierungsgremium der International Standard Organization (ISO), mit dem Auftrag, Standards zur Kodierung von Bewegtbildern, Audio und deren Kombination zu entwickeln. Das Gremium trifft sich drei Mal jährlich zu jeweils fünftägigen "Meetings", an denen bis zu 350 Experten aus rund 200 Firmen und 20 Ländern teilnehmen, die sich zum Ziel gesetzt haben, die Standards zur Videokompression flexibel und effizient zu gestalten.
Um die größtmögliche Anwendungsbreite zu gewährleisten, spezifiziert der MPEG-Standard nur ein Datenmodell zur Kompression von Bewegtbildern und Tonspuren und folgt damit der Idee eines Toolkits. Auf diese Weise bleibt MPEG als generischer Standard anwendungsunabhängig, und eine Implementierung muß nicht alle Funktionen bereitstellen. Die Anforderungen an den Standard wurden jedoch von den voraussichtlichen Anwendungen abgeleitet.
MPEG-1 wurde 1993 mit dem Ziel verabschiedet, für Medien mit geringer Bandbreite (1 Mbit/s bis 1,5 Mbit/s) die Übertragung von farbigen Bewegtbildern mit zugehörigem digitalen Audio in akzeptabler Bildfrequenz und möglichst guter Qualität zu erreichen. Dabei hatte man vor allem die zu dieser Zeit aktuellen Single-Speed-CD-ROM-Laufwerke mit einer Bandbreite von 1,2 Mbit/s im Blick, die preiswerte Datenträger und wahlfreien Zugriff boten.
Die Entwurfsziele bei MPEG-1 waren, wahlfreien Zugriff innerhalb einer halben Sekunde ohne signifikanten Qualitätsverlust und gute Editierbarkeit zu gewährleisten, bei gleichzeitiger Möglichkeit, Bildfolgen rückwärts abzuspielen oder eine schnelle Vorwärts-/Rückwärtssuche durchzuführen. Außerdem mußte der Standard Möglichkeiten bieten, Audio und Video synchron zu halten. Nicht zuletzt galt es, den Datenstrom gegenüber Übertragungsfehlern robust zu halten und in symmetrischen Anwendungen (d.h. Anwendungen mit beidseitiger Kodierung und Dekodierung, wie der Videotelefonie) die Kodierungs- bzw. Dekodierungszeiten den menschlichen Anforderungen anpassen zu können, um die Antwortzeiten gering zu halten und interaktive Gespräche zu ermöglichen. Hinsichtlich der Implementierung in Hard- und Software sollte auch das Kostenargument nicht außer Acht gelassen werden, d. h. Dekodierprogramme sollten einfach zu entwickeln und MPEG-Hardware mit wenigen Chips zu realisieren sein.
MPEG-1 deckt einen großen Parameterbereich ab. Um eine Überdimensionierung von MPEG-Implementierungen zu vermeiden, wurde ein Parameterbereich, das Constrained Parameter Set (CPS), definiert. Es gibt unter anderem die maximale Bildgröße, maximale Bildfrequenz und die maximale Bitrate vor. Ein MPEG-1-Dekodierer erfüllt das CPS, wenn er Bilder der Auflösung 352x240 mit einer Bildfrequenz von 30 Hz und Bilder der Auflösung 352x288 mit einer Bildfrequenz von 25 Hz dekodieren kann. Diese beiden Angaben werden unter dem Begriff Standard Interchange Format (SIF) zusammengefaßt [2].
MPEG-1 reduziert das Datenaufkommen im Grunde in fünf Schritten:
Zunächst erfolgt die Reduzierung der Auflösung, dann verringert man die zeitliche Redundanz durch Bewegungskompensation (motion compensation). Nach der Diskreten Cosinus Transformation (DCT) wird durch Quantisierung räumliche Redundanz (bezogen auf menschliche Wahrnehmung) verringert. Anschließend erfolgt eine Variante der Entropiekodierung nach Huffman (siehe Vortrag 06).Zunächst nutzt man psychovisuelle und psychoakustische Effekte um Daten, die außerhalb der Wahrnehmungstoleranzen der menschlichen Sinne liegen, zu entfernen. Zunächst werden sowohl die horizontale wie auch die vertikale Abtastauflösung halbiert. Durch gewichtete Mittelung der Pixel wird das Datenaufkommen also stark verringert und trotzdem bleibt eine akzeptable Qualität erhalten. Speziell bei der Farb- und Helligkeitswahrnehmung heißt dies, die Pixelinformationen, die im Grafikbereich typischerweise im RGB-Format (RGB: red, green, blue) vorliegen, in YCbCr-Darstellung zu transformieren. YCbCr ist ein Akronym für die Luminanz- (Y) bzw. Chrominanzkomponenten (Cb und Cr). Dabei wird der Tatsache Rechnung getragen, daß das menschliche Auge eine besonders hohe Grün-Empfindlichkeit aufweist, während die Empfindlichkeit gegenüber Rot geringer und gegenüber Blau am geringsten ist. Bei dieser Transformation wird das RGB-Farbsignal in seinen Helligkeitsanteil Y und in zwei Farbanteile Cb und Cr, das sog. Chrominanzsignal, zerlegt. Da das Auge außerdem für Unterschiede in der Helligkeit empfindlicher ist als für Farbunterschiede, wird auf vier Helligkeitsinformationen nur eine Farbinformation gespeichert, bei der Rekonstruktion der Bilder werden die dazwischenliegenden Pixel interpoliert [3].

Bild 1: Beim Wandeln von RGB-Signalen ins YCbCr-Format werden Helligkeits- und
Farbinformation getrennt und die Chrominanz-Daten um 50 Prozent reduziert.
Um die Effizienz der Kodierung zu erhöhen, verwendet man die sog. Bewegungskompensation (motion compensation), in der Kodierungsphase auch Motion Estimation genannt [1,2].
Da sich meist zwischen aufeinanderfolgenden Bildern einer Videosequenz nur geringe Unterschiede ergeben, bietet der MPEG-Standard die Möglichkeit, diese zeitliche Redundanz zu verringern. Man bedient sich hierzu des "interframe codings" (bildübergreifende Kodierung) und führt dazu drei verschiedene Bildtypen ein: sog. Intra-Frames (I-Bilder), Predicted Frames (P-Bilder) und Bidirectional Frames (B-Bilder), wobei P- und B-Bilder nur die Differenz zwischen den von ihnen referenzierten Bildern kodieren. Eine vierte Art, die D-Bilder, ermöglichen den schnellen Suchlauf, sind aber als völlig unabhängig zu betrachten. Ein MPEG-1-Video ist als Kette von Bildern dieser drei Typen zu verstehen.
I-Bilder stellen die Einstiegspunkte für den wahlfreien Zugriff dar, bieten aber nur geringe Kompressionsraten. P-Bilder werden mit Bezug auf das letzte vorhergehende I-Bild oder P-Bild kodiert, und werden im Allgemeinen von B-Bildern referenziert. B-Bilder bieten die höchsten Kompressionsraten, da sie das letzte I- oder P-Bild als erstes und das nächste folgende I- oder P-Bild als zweites Referenzbild verwenden und das ursprüngliche Bild durch Interpolation wiederherstellen. Aufgrund ihrer interpolierenden Eigenschaften dürfen B-Bilder nicht als Referenz für die Kodierung der anderen Typen verwendet werden.
Die Verwendung der jeweiligen Bildtypen bestimmt wesentlich sowohl Qualität als auch Kompressionsgrad des komprimierten Videos. So verbessert man durch I-Bilder die Qualität, während durch B-Bilder der Kompressionsgrad erhöht wird. Insbesondere ist der Abstand zweier I-Bilder im Datenstrom ein Maß für die Qualität des Videos. Akzeptable Qualität und Kompression erreicht man, wenn die Bildtypen in der Reihenfolge IBBPBBPBBPBBIBBP... erscheinen. Die folgende Grafik illustriert den Sachverhalt und zeigt beispielhaft zwei mögliche Referenzierungen: ein I-Bild, das von einem P-Bild referenziert wird, und ein B-Bild, das zwei P-Bilder referenziert.

Bild 2: Eine typische Abfolge von Bildern in einem MPEG-Datenstrom
Man unterscheidet bei der bildübergreifenden Kodierung zwei Methoden: prädiktive und interpolative Bewegungskompensation.
Die prädiktive Bewegungskompensation geht davon aus, daß sich das aktuelle Bild "lokal" als Verschiebung eines vorhergehenden darstellen läßt. Lokal bedeutet dabei, daß Amplitude und Richtung der Verschiebung nicht überall im Bild die gleiche sein müssen. Dazu werden die Einzelbilder in 16x16-Blöcke, die sogenannten Makroblöcke, aufgeteilt. Für jeden Makroblock wird ein Verschiebungsvektor berechnet, der den Makroblock im Referenzbild angibt, auf den das Bild Bezug nimmt. Wie der Name schon vermuten läßt, wird die prädiktive Bewegungskompensation zur Kodierung von P-Bildern verwendet.
Die interpolative Bewegungskompensation stellt eine Technik dar, um gleichzeitig den wahlfreien Zugriff zu verbessern, die Auswirkungen von Fehlern zu verringern und doch signifikant zur Bildqualität beizutragen. Hierbei wird das Videosignal durch Interpolation eines vorhergehenden und eines nachfolgenden Bildes und anschliessender Addition eines Korrekturterms wiederhergestellt. In der Praxis hat diese doppelte Referenz einen immensen Vorteil: Der Fehler zwischen zwei aufeinanderfolgenden I-Bildern nimmt nicht stetig zu, sondern hat sein Maximum in der Mitte, außerdem wird das Rauschen kleiner [3]. Nachteil ist der erhöhte Rechenaufwand, der bei asymmetrischen Anwendungen für den Endanwender jedoch kaum ins Gewicht fällt. Asymmetrische Anwendungen zeichnen sich durch aufwendige Kodierung, aber schnelle Dekodierung aus, wie dies z.B. bei digital gespeicherten Spielfilmen der Fall ist. Mit Hilfe der interpolativen Bewegungskompensation werden B-Bilder kodiert.
Da bei der interpolativen Bewegungskompensation auch zeitlich nachfolgende Bilder referenziert werden können, ist es Aufgabe des Kodierers, die kodierten Bilder so in den Datenstrom einzufügen, daß sie vom Dekodierer sequentiell dekodiert und in der Darstellungsreihenfolge angezeigt werden können, die sich üblicherweise von der Kodierreihenfolge (die Abfolge der Bilder im Datenstrom) unterscheidet.
Bei der Kodierung von P- und B-Bildern besteht die Möglichkeit, nicht auf vorhergehende Bilder zurückzugreifen und die Kodierungstechnik der Intra-Bilder zu verwenden. Diese Technik nennt sich auch "Intraframe-Kodierung" und wird für P- und B-Bilder verwendet, wenn beispielsweise durch einen Szenenwechsel eine Vorhersage nachfolgender Bilder nicht möglich ist oder bestimmte Fehlertoleranzen überschritten werden. Wann Intraframe-Kodierung auf einen Makroblock eines P- oder B-Bildes angewandt wird, obliegt allein der Implementierung und deren Algorithmus zur Bestimmung des günstigsten Referenzmakroblockes.
Neben zeitlicher Redundanz tritt in Videosequenzen Redundanz auch innerhalb der Einzelbilder auf, deshalb wird die "Diskrete Cosinustransformation (DCT)" in 8x8-Blöcken (mit anschließender Quantisierung) auf die Einzelbilder angewendet [1]. Die DCT bietet dabei mehrere Vorteile:
Die DCT erwartet Eingaben im Bereich [-255,255] und erzeugt Ausgaben im Bereich von [-2048,2048], so daß sie selbst für feinstauflösende Quantisierer ausreichend Genauigkeit bietet. Das vorrangige Ziel bei der Kodierung mittels Transformation ist es, die Koeffizienten so klein als möglich zu machen, so daß sie für die Bildinformation (bezogen auf statistische und subjektive Maßstäbe) unbedeutend sind und deshalb zur Übertragung nicht kodiert werden müssen.
Grob gesagt ist die Quantisierung ein Vorgang, bei dem die Genauigkeit, mit der die Daten kodiert werden, so eingeregelt wird, daß sie den Gegebenheiten besser angepaßt ist, im Falle von MPEG bedeutet dies eine Anpassung an die Wahrnehmung des Menschen.
Da das menschliche Gehirn feine Details in einer Videosequenz nicht in gleichem Maße registrieren und verarbeiten kann wie große, dominierende Bildbereiche, nutzt man die Eigenschaft der DCT, daß DCT-Koeffizienten, die für feine Details in den Bildern stehen, in der zweidimensionalen 8x8-DCT-Matrix hohe vertikale und horizontale Indizes aufweisen.
Mit Hilfe der auf die DCT folgenden Quantisierung trägt man dieser Tatsache Rechnung: aufgrund der höheren Trägheit bei feinen Details registriert der Betrachter eine in diesem Bereich verringerte Darstellungsgenauigkeit nur in geringem Maße. Bei genauerem Hinsehen wird man jedoch erkennen, daß ein Weichzeichnungseffekt zu erkennen ist: scharfe Kanten verschwimmen, und es entstehen sogenannte Artefakte, wenn die Quantisierung zu grob eingestellt ist.
Technisch wird diese unterschiedliche Genauigkeit realisiert, indem die 8x8-DCT-Matrix komponentenweise durch die sog. Quantisierungsmatrix dividiert wird [1]:
Beispiel:
(a)
|
(b)
|
(c)
|
|
(hier: Standardmatrix für Helligkeitskomponenten bei intrakodierten Bildern) |
nach der Division |
Wie zu sehen ist, besteht die resultierende Matrix ebenfalls aus ganzzahligen Werten, da bei der Intra-Kodierung immer auf die nächste Ganzzahl gerundet wird.
Durch den Quantisierungsvorgang entsteht in der Matrix eine große Anzahl von Nullen, die im letzten Kompressionsschritt verlustfrei kodiert wird:
Dazu wird die sog. Run-and-Level-Kodierung, eine Variante der Lauflängenkodierung, in Verbindung mit variablen Codelängen (Vortrag 06) verwendet [1]. Die Run-and-Level-Kodierung ordnet die Komponenten der zweidimensionalen Matrix in eine eindimensionale Folge um, die sich die in Richtung feinerer Details erhöhte Wahrscheinlichkeit, auf Nullen zu treffen, zu Nutze macht. Die neue Reihenfolge (die sog. Zickzackdurchlaufreihenfolge) sieht im Schema so aus:
Bild 3: Die Koeffizienten werden eindimensional umgeordnet.
Die Run-and-Level-Kodierung gibt nun die in dieser Reihenfolge vorhanden Runs (Anzahl von aufeinander folgenden Nullen) und Levels (der Wert, der eine solche Nullenfolge beendet) an. Die Kodierung beginnt mit Index (0,0) und endet mit dem sog. "End Of Block" - Zeichen (EOB), das angibt, daß nach dem zuletzt angegebenen Level keine von Null verschiedenen Koeffizienten mehr auftreten. Wie das folgende Beispiel zeigt, kann damit eine beträchtliche Verringerung der Datenmenge erreicht werden: die 64 Koeffizienten (à 2 Bytes) können mit 8 Symbolen kodiert werden.
|
Koeffizienten in Zickzackreihenfolge mit EOB-Symbol
132 0 0 -1 0 2 0 0 0 1 EOB
Koeffizienten in Zickzack-Reihenfolge und Run-Level-Darstellung
132 2:-1 1:2 3:1 EOB |
Für die Kodierung der häufigsten Run-Level-Kombination verwendet man variable Codelängen, so daß z.B. EOB mit nur 2-Bit kodiert wird, während eher unwahrscheinliche Run-Level-Kombinationen über Escape-Sequenzen bis zu 28 Bit einnehmen können.
Einen Spezialfall bilden die sogenannten Durchschnittskoeffizienten (auch D(irect)C(urrent)-Koeffizienten genannt) von I-Bildern, pro Block existiert ein solcher Koeffizient, der (unter Verwendung einer Differenzbildung zum letzten Block) explizit kodiert wird.
Verschiebungsvektoren aufeinanderfolgender Makroblöcke werden ebenfalls differenzkodiert (man speichert nur die Differenz zum vorhergehenden) und anschließend mit vorgegebenen Huffman-Tabellen kodiert. Hierbei nutzt man aus, daß sich benachbarte Bildbereiche oft in dieselbe Richtung verschieben.
Die interne Darstellung und Interpretation des kodierten Datenstroms nennt man Syntax [1]. Der Datenstrom läßt sich dabei in sechs Schichten (die MPEG-Video Layer) unterteilen, die in einer Hierarchie angeordnet sind:

Bild 4: Die sechs Schichten der MPEG Syntax
Die oberste Schicht ist die Sequenz, sie stellt dem Dekodierer hauptsächlich Informationen über das Format der Bilder, benötigte Bildwiederholfrequenz und Datenrate sowie optional eine an die Daten besser angepaßte Quantisierungsmatrix (die die Standardmatrix ersetzt) zur Verfügung. Eine MPEG-Datei kann dabei mehrere Sequenzköpfe enthalten, um die wahlfreie Wiedergabe zu verbessern oder die Bearbeitung des Videos zu erleichtern.
Die Sequenz unterteilt sich weiterhin in Bildgruppen, sogenannte "Group Of Pictures" (GOPs), die durch die in ihnen gespeicherte Information der zeitlichen Synchronisation dienen und durch die Kapselung der untergeordneten Bilder Vorteile bei der Videonachbearbeitung bieten. GOPs beginnen nämlich mit einem I-Bild und sind in sich abgeschlossen, so daß bei der Videobearbeitung auf der Ebene der Einzelbilder maximal die aktuelle GOP und das erste Bild (ein I-Bild) der folgenden GOP dekodiert werden müssen.
GOPs kapseln eine Folge von mehreren Elementen der Bildschicht (picture layer), der neben Informationen über die Darstellungsreihenfolge und die vom Dekodierer benötigte Puffergröße Informationen zur Bewegungskompensation dieses Bildes enthält.
Ein Bild in MPEG-Kodierung besteht aus einer Folge von Zeitscheiben (Slices). Die Slices folgen der Abtastrichtung üblicher Bildschirme und kapseln eine frei wählbare Anzahl (>=1) von Makroblöcken. Durch die Unterteilung in Slices erreicht man eine bessere Kontrolle über Qualität und Datenrate einer Videosequenz. Außerdem wird dadurch die Fehleranfälligkeit des Datenstroms verringert, da bei Übertragungsfehlern schneller wieder ein korrekter Bildaufbau erreicht wird.
Die Makroblockschicht beinhaltet dann Informationen zur Quantisierung und Bewegungskompensation sowie sechs 8x8-Blöcke zur Helligkeits- (4 Blöcke) und Farbinformation (2 Blöcke).
Die Blockschicht bildet letztendlich die unterste Schicht und kodiert, abhängig vom Typ der Daten (Helligkeits- oder Farbinformation, intrakodiert oder interkodiert), die eigentliche Bildinformation mittels der Run-and-Level-Lauflängenkodierung.
Die MPEG Video Syntax arbeitet bitorientiert, d.h. nur wenige Symbole (die Startsymbole für die verschiedenen Schichten) müssen an Byte-Grenzen ausgerichtet sein, um eine effektive Nutzung der vorhandenen Transportresourcen zu garantieren. Weiterhin werden die vielfältigen Parameter, wann immer die Möglichkeit besteht, mit variablen Codelängen dargestellt, so repräsentieren kurze Symbole die häufig auftretenden Werte, während die seltenen lange Symbole erhalten.
Der MPEG-1-Standard ermöglicht die Kombination von Audio und Video im gleichen Datenstrom. Dazu werden die Daten durch einen Multiplexer in kleine Datenpakete desselben Typs aufgespalten, die beim Dekodieren den jeweiligen Darstellungs- bzw. Dekodiereinheiten der Hard- oder Software zugeführt werden.
Die MPEG System Syntax definiert hierzu die drei Schichten stream, pack und packet (Datenstrom-, Verpackungs- und Paketschicht) [1]. Die oberste Schicht stellt den kontinuierlichen Datenstrom dar, den der Multiplexer als Eingabe erhält, und enthält mindestens ein sogenanntes "pack". Elemente dieser Verpackungsschicht enthälten Informationen, mit denen der Zeitpunkt bestimmt werden kann, zu dem das Datenpaket den Dekodierer erreichen sollte, und Informationen über die Datenrate, mit der der Multiplexer arbeiten sollte. Beim ersten solchen Element im Datenstrom erhält der Multiplexer außerdem Informationen über die im Datenstrom enthaltenen Pakettypen und zur Synchronisation von Audio und Video.
Die eigentlichen Daten werden in der Paketschicht gespeichert, die der Verpackungsschicht untergeordnet ist und die eine variable Anzahl von Datenbytes enthält, die alle demselben Datentyp (Audio, Video oder ein benutzerdefinierter Typ, beispielsweise Dolby Digital) angehören. In MPEG-1 ist es dabei möglich, auf 32 verschiedene Audio-Datenströme (entsprechend 32 Datentypen), 16 Video-Datenströme und zwei benutzerdefinierte Datenströme zurückzugreifen, die anhand von Synchronisationsinformationen zum richtigen Zeitpunkt dekodiert und angezeigt werden.
Bereits bei der Definition des MPEG-1-Standards wurde auf Erweiterbarkeit des Standards auf breitere Anwendungsgebiete geachtet. So wurde 1995 der MPEG-2-Standard veröffentlicht, der in Übereinstimmung mit MPEG-1 ein Verfahren zur Kompression von digitalen Bewegtbildern mit zugehörigem Audio darstellt [1,2]. MPEG-2 erlaubt Datenraten bis zu 100 MBit/s und kann auch für "richtige" Videoanwendungen eingesetzt werden (Bildmaterial und Wiedergabegeräte mit Zeilensprung).
Einsatzgebiete von MPEG-2 sind z.B. die digitale Videoübertragung über Satellit und Breitbandkabel, Teleshopping, Pay-Per-View-Anwendungen, interaktive Medien, Videokonferenzen und digitales Fernsehen (HDTV). Der usprünglich angedachte MPEG-3-Standard, der vor allem digitales Fernsehen ermöglichen sollte, wurde zugunsten von MPEG-2 aufgegeben, als man sah, daß MPEG-2 bei hohen Datenraten gute Qualität lieferte.
Hinsichtlich der Kodierungsmethoden erweitert MPEG-2 vor allem die Bewegungskompensation von MPEG-1 und erlaubt eine alternative Reihenfolge beim Durchlauf durch die DCT-Koeffizienten, um auch Bildmaterial mit Zeilensprung effektiv kodieren zu können.
Da man mit MPEG-2 nicht nur auf den Endanwender mit einem einzigen Nutzungsprofil abzielte, sondern auch Dienste wie digitales Fernsehen mit Abwärtskompatibilität im Blick hatte, war die Skalierungsfähigkeit von MPEG-2 ein vorrangiges Ziel, um im selben Datenstrom z.B. mehrere Auflösungen desselben Videos zu ermöglichen, ebenso wie mehrere Bildwiederholraten.
Analog zum Parameterbereich (Constrained Parameter Set, CPS) von MPEG-1 definiert MPEG-2 Parameterbereiche, die sogenannten Levels. Die Kodiermethoden werden in Profile eingeteilt, um eine Überdimensionierung der Dekodierer zu vermeiden. Das MPEG-1 Standard Interchange Format (SIF) entspricht dem sog. Low-Level von MPEG-2 mit einer maximalen Datenrate von 4 MBit/s. Das Main-Profil von MPEG-2 ist vergleichbar mit den von MPEG-1 bekannten Kodiermethoden. Ein MPEG-2-Dekodierer, der das Low-Level und das Main-Profil unterstützt (kurz LL@MP), muß auch MPEG-1-SIF-kodierte Bilder dekodieren können.
Im Audiobereich wurde die konventionelle Stereo- und Monokodierung von MPEG-1 zur Mehrkanal-Kodierung erweitert, die die beiden Stereokanäle, den Mitten-Frontkanal und zwei Raumklangkanäle im 3/2-Stereo-Format umfaßt. Daneben werden jedoch noch andere Formate wie 3/1, 3/0, 2/2 und 2/1 unterstützt. Mit der konventionellen Stereo- und Monokodierung wird Rückwärtskompatibilität zu MPEG-1-Audio gewährleistet, außerdem besteht Vorwärtskompatiblität insofern, daß MPEG-1-Audio-Dekodierer die Stereoinformation eines MPEG-2-Audio-Datenstroms lesen und interpretieren können.
Prädestiniert für den PC-Bereich ist MPEG-4 [3,4]. Dem für die Bildkommunikation und Multimedia-Applikationen entwickelten Format genügen 10 KBit/s bis 1MBit/s.
Insbesondere kommt MPEG-4 den Forderungen nach Robustheit in fehlerbehafteten Umgebungen (z.B. Mobilfunk), hoher Interaktivität, der Kodierung von sowohl natürlichen als auch synthetischen Daten und einem weiter verbesserten Kompressionsgrad nach, und dies vor allem bei sehr niedrigen Bitraten (unter 64KBit/s).
Für Multimedia-Autoren bietet MPEG-4 eine verbesserte Wiederverwendbarkeit der Inhalte und auch die Möglichkeit, Urheberrechte zu schützen. Für den Endanwender soll MPEG-4 multimediale Kommunikation in Echtzeit ermöglichen, und dies vor allem auch in mobilen Anwendungen.
MPEG-4 gliedert den Inhalt eines Bildes in Objekte, die gezielt angesprochen werden können. Mit Hilfe der MPEG-4 Syntactic Description Language (MSDL) soll es Anwendungsprogrammierern ermöglicht werden, Objekte weiterverarbeiten zu können, die der MPEG-4-Algorithmus identifiziert hat. Damit zieht der objektorientierte Ansatz auch im Videobereich ein.
Die folgende Bildsequenz soll dies veranschaulichen [3]. Der MPEG-4-Algorithmus identifiziert Bildsegmente als eigenständige Objekte (Gesicht, Haare und Jacke) und weist sie als solche aus (2. Bild), die Objekte können dann angesprochen und manipuliert werden, beispielsweise kann ein neuer Hintergrund eingeblendet werden (3. / 4. Bild).

Bild 5: Der objektorientierte Ansatz
von MPEG-4
In eine ähnliche Richtung zielt die sog. Structured Audio Orchestra Language (SAOL), die in Kombination mit der Structured Audio Score Language (SASL) synthetisch erzeugte Sprache (lippensynchron, sprachunabhängig und auf das Alter und Geschlecht des Sprechers anpassbar) wie auch synthetisch erzeugte Klänge (per Wavetable, FM, etc.) und bestimmte Filter (Echo, usw.) bietet.
Aufgrund der weiter erhöhten Komplexität des MPEG-Standards wurde der MPEG-2-Ansatz der Profile entsprechend erweitert. Es existieren Profile für alle wichtigen Untermengen der MPEG-4-Syntax, so daß Dekodierer nicht alle Details implementieren müssen.
Im Oktober 1998 wurde die Arbeit an MPEG-4 Version 1 eingestellt, der MPEG-4-Standard wird jedoch weiterentwickelt: MPEG-4 Version 2 wird dem Standard weitere Profile hinzufügen und wird zu Version 1 rückwärtskompatibel sein. Beispielsweise steht die Integration von Java (hier MPEG-J genannt) an.
MPEG-7, das jüngste Kind der MPEG-Familie, wird einen Standard zur Beschreibung von Multimediadaten darstellen, der von den anderen MPEG-Standards unabhängig verwendet werden kann, z.B. auch für analoges Video [4]. Mit MPEG-7 wird es möglich sein, mit den Multimediadaten Informationen über das Format, Urheberrechte, verwandte Themen und Zielgruppen zu assoziieren, oder auch szenenbeschreibende Informationen mitzuliefern. Diese Information könnte dann benutzt werden, um mittels Suchmaschinen zu einem gegebenen Kontext passendes Videomaterial zu finden. MPEG-7 wird jedoch erst 2001 das Stadium eines "International Standard" erreichen.