Inhalt
HD, 4K, 8K, 16K? Die Evolution der visuellen Komponente im Bereich der Unterhaltungsmedien scheint rasant voranzuschreiten, doch wie sieht es mit Audio aus?
Das MPEG-H Audio-Format, auch als Next Generation Audio (NGA) bezeichnet, revolutioniert die Art und Weise, wie wir Audioinhalte wahrnehmen.
Es ermöglicht immersiven 3D-Klang und verbesserte Tonqualität für ein beeindruckendes Hörerlebnis – egal ob das Monitoring über Lautsprecher oder binaural Kopfhörer ein Thema sind.
Mit dem Begriff Next Generation Audio wurde der neuesten auditiven Entwicklung im Rundfunk- und Streamingsektor ein eingängiger Name verpasst.
Next Generation Audio soll den Konsument/innen nicht nur immersive Hörerlebnisse verschaffen, sondern auch Interaktionsmöglichkeiten bieten. Das klingt schon vielversprechend, also was steckt dahinter? Zuerst ein paar Grundlagen.
Vom DVB-Konsortium fiel die Entscheidung, die beiden Formate Dolby AC-4 und MPEG-H zu unterstützen. Das sind beides Audioformate die mehrkanälige und objektbasierte Inhalte unterstützen und zudem mit einer vergleichsweise geringen Bandbreite auskommen.
Die Rolle von ITU-R und Audioformate: Die International Telecommunication Union-Radiocommunication Sector (ITU-R) spielt eine zentrale Rolle bei der Standardisierung von Audioformaten wie MPEG-H. Diese Formate verbessern nicht nur die Klangqualität, sondern zielen auch darauf ab, die Sprachverständlichkeit und Immersivität zu erhöhen.
Der große Vorteil von objektbasiertem Audio ist die Kanal-Unabhängigkeit, da das Rendering erst im Wiedergabesystem des End Users erfolgt. Systeme, die Next Generation Audio unterstützen, müssen also einen entsprechenden Decoder eingebaut haben. Dadurch verspricht man sich eine stets optimierte Audiowiedergabe.
Wie sieht es nun mit der Interaktion aus? Das Zauberwort diesbezüglich heißt: Meta-Daten. Wie schon angesprochen erfolgt das Rendering erst im Wiedergabesystem. Mithilfe von Metadaten können Audio-Systeme personalisierte Hörerlebnisse bieten.
Informationen über Positionen von Audio-Objekten und Interaktionsparametern ermöglichen es den Zuschauern, ihren eigenen Klangmix zu gestalten. Wie weiß der Decoder also, wie der Mix zu klingen hat? Richtig, durch Meta-Daten. Diese werden als eine eigene Spur mitübertragen und enthalten Informationen über Lautstärkeverhältnisse, Positionen von Audio-Objekten, sowie Interaktions-Parameter.
Der/Die Produzent/in hat neben dem Mixing die Möglichkeit Parameter festzulegen, inwieweit Interaktionen später bei der Wiedergabe möglich sind. Das sind in der Praxis meist Lautstärkeverhältnisse auf die man eingreifen kann, oder die Wahl unterschiedlicher Presets.
Zum Beispiel unterschiedliche Sprachen oder Sprachverstärkung für schwerhörige Personen. Theoretisch könnte man aber als Produzent/in die Möglichkeiten ausloten und auf alle erdenklichen Parameter bei der Wiedergabe eingreifen lassen. Eine interessante Vorstellung die wiederum interessante Fragen aufwirft.
Denkt man kurz über die theoretischen Interaktionsmöglichkeiten nach, wird schnell klar, dass es wahrscheinlich nicht immer sinnvoll ist dem/der Konsument*in so viel Vorteile zu geben. Man denke beispielsweise an die Nachrichten oder generell an Politsendungen.
Hier wäre zu viel Individualisierung wohl kontraproduktiv oder fast manipulativ, wenn gewisse Personen einfach stumm geschaltet werden könnten. Das heißt, wie man mit Next Generation Audio umgeht und umgehen wird, ist Content-abhängig. Weiterführend stellt sich dann die Frage, ob und wie sich z.B. Fernsehsendungen entwickeln werden. Das Potential für neuartige Sendungskonzepte ist hiermit definitiv gegeben!
Als schwierig könnte sich die Etablierung dieser neuen Freiheiten herausstellen, da man es als Benutzer nicht unbedingt gewohnt ist, in den Mix einer Sendung eingreifen zu können. Außerdem dürften diese Möglichkeiten generell eher nur Technologie-affines Klientel ansprechen und am Großteil der Masse wohl unbekümmert vorbeigehen.
Wer weiß, vielleicht könnten auf Next Generation Audio optimierte Sendungen dabei helfen, dass die Interaktionsmöglichkeiten von den Leuten nicht nur registriert, sondern auch aktiv aufgenommen wird.
Spannend sind auch die Auswirkungen dieser Möglichkeiten auf der Produktionsseite, da der/die Mischer/in sich davon verabschieden muss, einen in Stein gemeißelten Mix abzuliefern.
Pessimistisch gesehen gibt man dann einen Mix frei der wahrscheinlich nicht das persönlich präferierte Optimum sein wird, da man sozusagen dessen Vollendung dem/der Konsumentin überlässt. Optimistisch gesehen ist es jedoch eine neue Herausforderung bei er es ums erforschen und ausprobieren neuer Dinge geht, und das ist doch spannend.
Seit Mai 2017 ist in Südkorea mit MPEG-H erstmals ein Next Generation Audiocodec im Regelbetrieb eines 4K UHD TV Services. Großveranstaltungen sind oft wichtige „Sprungbretter“ zum Vorantrieb neuer Technologien.
So auch die Olympischen Spiele 2018 in Pyeongchang, hinsichtlich dem Einsatz von Next Generation Audio. Weiters wurde auch schon das „Rock in Rio“ Festival und der Eurovision Songcontest im MPEG-H-Format übertragen (siehe Video mit immersive Audio).
Mittlerweile wird das Format auch in China und Brasilien offiziell genutzt. Diesbezüglich wäre es spannend zu wissen, was die Konsumenten, die jene Formate schon regelmäßig nutzen, allgemein dazu sagen.
Die Audiocodecs AC-4 (aka Dolby Atmos) und MPEG-H kommen auch schon im rein musikalischen Bereich zum Einsatz, und zwar bei diversen Musikstreamingdiensten. Hier ist bis jetzt allerdings nur der immersive Aspekt von Next Generation Audio (NGA) relevant.
Das noch recht überschaubare Angebot an „3D Musik“ ist meist nur über einen Aufpreis zum normalen Abonnement eines Streamingservices nutzbar. Zudem sind, abgesehen von Kopfhörern, noch recht wenig Produkte am Markt die NGA wiedergeben können.
Es dürfte wohl noch etwas Zeit brauchen, bis sich das Format auch für die Mischung durchsetzt, sofern die Audioinhalte nicht leichter zugänglich gemacht werden.
Die Technologie von Next Generation Audio ist bereits weit fortgeschritten. Die Möglichkeit, personalisierte Klangerlebnisse zu schaffen, weckt das Interesse von Experten und Content Creators gleichermaßen, während es gleichzeitig die Art und Weise, wie wir Audio konsumieren, grundlegend verändert.
Doch die Technologie ist bereits sehr weit und die kreativen Möglichkeiten sind endlos, also ein Standard naht.
Für die Teilnahme am Eurovision Song Contest gelten strenge Regeln. So dürfen die Songs beispielsweise nicht vor dem 1. September des Vorjahres veröffentlicht worden sein und eine Länge von drei Minuten nicht überschreiten. Die meisten Werke reizen tatsächlich die 180 Sekunden fast aus – kürzer ist aber auch denkbar.
Cover sind nicht erlaubt, aber die Sprache, in der gesungen wird, ist nicht vorgeschrieben, sodass auch Beiträge in Fantasiesprachen möglich sind. Es dürfen pro Land maximal sechs Personen auf der Bühne stehen, während Tiere verboten sind.
Die Lieder werden live vorgetragen, aber die Musik kommt vom Band. Seit 2021 dürfen zudem die Stimmen der Background-Sängerinnen und -Sänger vorab aufgezeichnet werden, was zuvor nicht erlaubt war. Damit kann ich das Vorurteil „die können alle nicht singen“ nicht unterschreiben.
Next Generation Audio hat definitiv Potential frischen Wind in das Audio-Konsumverhalten und in die Produktion zu bringen. Es wird sich zeigen, inwieweit dieses Potential genutzt wird. Und vor allem, ob es bei den Menschen ankommt.
Ich denke ein Schritt in die richtige Richtung wäre es, die Zugänglichkeit einerseits für den Konsumenten attraktiver zu gestalten, und andererseits auch entsprechende Produktionstools für freischaffende Produzenten leichter zugänglich zu machen.
Letzteres betrifft vor allem den musikalischen Sektor. Doch die Technologie ist bereits sehr weit und die kreativen Möglichkeiten sind endlos. Ich habe richtig Lust, das immersive und interaktive Audio über NGA auch an die Leute zu bringen – lang kann es nicht mehr dauern.
Mehr über die neue Generation des Tons