Inhalt
Gastbeitrag zu objektbasiertes Audio für Musikproduktion in 3D im Vergleich zu Stereo von Daniela Rieger
„Although most engineers ultimately rely on their intuition when doing a mix, they do consciously or unconsciously follow certain mixing procedures“ (Owsinski, B. (2006). The Mixing Engineer’s Handbook)
Objektbasiertes Audio revolutioniert die Musikproduktion, indem es ein immersives Klangerlebnis bietet, das über traditionelle Stereo- und Surround-Sound-Systeme hinausgeht. Besonders hervorzuheben ist der 3D-Sound, der durch die dynamische Platzierung von Audioobjekten in einem virtuellen Klangraum individuelle Hörerfahrungen ermöglicht. Technologien wie Dolby Atmos zeigen die Flexibilität und Anpassungsfähigkeit von 3D-Sound in verschiedenen Anwendungen.
Eine neue Chance den Ton für Medien und einer Vision von Audioerlebnis zu nutzen? Schauen wir uns den Vergleich der Stereo Media gegen den neuen Content mit den Szenarien an die mehr als nur ein Trend Klang sind.
Jede/r Tonschaffende verfügt durch Erfahrungswerte, Präferenzen und eine Vielfalt an weiteren Einflüssen über individuelle Workflows. Diese bewirken zahlreiche unbewusste, zeitliche und materialbezogene Entscheidungen. Nichtsdestotrotz gibt es eine Schnittmenge an allgemeingültigen Vorgehensweisen. Eine übliche Produktionskette bei der Stereo Pop-Musikproduktion könnte im Groben und Ganzen so aussehen:
Auf Grundlage dieses “allgemeinen” Workflows haben sich Parallelen in der praktischen Anwendung von Dolby Atmos Music und 360 Reality Audio gezeigt. Der Workflow für objektbasiertes Audio kann in Produktions- und Distributionsweise, sowie Aufnahme, Editing und einem Teil der Mischung durchaus dem Stereo-Workflow gleichen.
Eine Unterscheidung erfolgt ab dem Punkt, ab dem die objektbasierte Audio Software integriert wird. Das bedeutet: Sobald beispielsweise die Dolby Atmos Production Suite oder der 360 WalkMix Creator (früher: 360 Reality Audio Creative Suite) in der Produktionsumgebung verwendet werden, entstehen neue Workflows – mit neuen Herausforderungen, und neuen Möglichkeiten.
Bevor wir nun die beiden Workflows genauer betrachten, gilt es an dieser Stelle, die Relevanz der Unterscheidung zwischen den Audio-Begrifflichkeiten „immersiv“ bzw. „3D“ und „objektbasiert“ herauszustellen. Der Ansatz in der objektbasierten Audioproduktion umfasst die Anwendung eines optischen Trackingsystems, um die Positionierung von Klangquellen in einem objektbasierten Audiowiedergabesystem für Live-Aufführungen zu steuern. Dieser Ansatz konzentriert sich auf die Schnittstellen zwischen verschiedenen Systemen und Geräten, um die Benutzerfreundlichkeit zu verbessern.
Die Unterscheidung des Workflows bei objektbasierten Produktionen zu Stereo-Produktionen erfolgt, wie oben beschrieben, erst mit Integration der entsprechenden Software. Ein immersiver Produktions-Workflow spielt hingegen bereits früher eine Rolle:
Während der Aufnahme kann unter Berücksichtigung von 3D-Aufnahmetechniken eine andere Räumlichkeit geschaffen werden. Diese kann später durch den Einsatz spezieller 3D-Plugins für Hall, Delay, Kompression und Effekte verstärkt herausgearbeitet werden. Verschiedene digitale Audioformate kommen hierbei zum Einsatz, um die spezifischen Anforderungen von 3D- und objektbasiertem Audio zu erfüllen. Diese Audioformate bieten unterschiedliche Stärken und Schwächen, die in HiFi-Anwendungen, Streaming und Mehrkanal-Audio von Bedeutung sind.
Da nicht jede immersive Produktion objektbasiert, jedoch die meisten objektbasierten Audio-Produktionen immersiv sind, wird der Einfachheit halber im restlichen Artikel von letzterer Annahme ausgegangen.
In der Grafik lässt sich erkennen, dass es durchaus Änderungen im Produktions-Workflow gibt, die grundlegenden Schritte jedoch sehr ähnlich bleiben.
Besonders im Schritt “Encoding” und “Wiedergabe” wird deutlich: Die Grundidee, wie diese Prozesse funktionieren, ist gleich. Beide Schritte basieren auf der Verwendung von Cloud-, Software- oder Hardware-Encodern sowie Hard- oder Software-Decodern.
Der größte Unterschied ist einfach der, dass sowohl Encoder als auch Decoder für die herkömmliche kanalbasierte Musikproduktion stark etabliert und “gängig” sind – für NGA befindet sich all dies aktuell im Werden. Es ist schlicht und einfach noch nicht so allgegenwärtig.
Die Gegenüberstellung zeigt: durch Ähnlichkeiten zu Beginn des Produktions-Workflows kann man auch von einer Stereo-Mischung in die objektbasierte Audio Produktion starten.
Die Anlieferung eines DAW-Projektes – sofern es sich hierbei um eine von objektbasierter Software unterstützte DAW handelt – bietet eine Möglichkeit, gestalterische Entscheidungen der Stereo-Mischung beizubehalten, und darauf basierend eine objektbasierte Audio Mischung zu erstellen. Hierbei spielen technische Daten wie Datenrate, Abtastrate und Speicherbedarf eine wichtige Rolle, um die Leistungsfähigkeit der Formate zu gewährleisten.
Dies gelingt, da die Produktions-Software (Dolby Atmos Production Suite, 360 WalkMix Creator) in die DAW-Projekte bereits vorhandenen Stereo- oder Surround-Mischungen integriert werden kann.
Die Wahl der DAW beeinflusst aktuell noch die weitere Herangehensweise an die Produktion, insbesondere in Hinblick auf die Verwendung von Aux- oder Audio-Spuren mit größeren Kanal-Konfigurationen als 5.1 (beispielsweise für die Erstellung von Mehrkanal Bett- oder Effektspuren). Hier gibt es je nach DAW Einschränkungen, die allerdings mit Workarounds oder der Verwendung spezieller Tools (Beispiel: SAD von NAT) zu lösen sind.
Die wohl auffälligste Abweichung der Workflows ergibt sich durch den neuen Schritt des Authorings. Dieser beschäftigt sich mit der Erstellung (beispielsweise den Einstellungen zum Objekt-Rendering) und Überprüfung der Metadaten und bringt verschiedene Neuerungen mit sich. In der Medienproduktion spielt die Erstellung und Verwaltung von Metadaten eine entscheidende Rolle, da sie die Anpassung von Medieninhalten an die Bedürfnisse der Nutzer:innen ermöglicht und die Produktionsabläufe optimiert.
Durch das Zusammenspiel von Audio + Metadaten entstehen verschiedene Vorteile, das bekannteste Stichwort ist sicherlich “flexibles Rendering”: Die Übertragung von Audio + Metadaten sorgt dafür, dass die Mischung am Endgerät flexibel auf das vorhandene Setup angepasst wird. Das bedeutet auch, dass durch die Verwendung von Objekten nicht “nur” eine binaurale Kopfhörer-Mischung gemacht werden kann, sondern eben diese Mischung durch das flexible Rendering auch auf Soundbars oder Lautsprechern wiedergegeben werden kann.
Dieses flexible Rendering führt dazu, dass bei NGA (Next Generation Audio) Monitoring-Output und Export nicht, wie von kanalbasierten Produktionen bekannt, das Gleiche sind.
Das Monitoring im Renderer (Beispiele: Dolby Renderer, 360 WalkMix Plugin, Fraunhofer MHAPi, Auro Renderer,…) ist eine Preview dessen, was im Endgerät passieren wird. Durch die Monitoring-Auswahlmöglichkeiten in den Tools (Stereo, Binaural, 5.1+4H etc.) können verschiedene Renderings vorgehört werden. Diese Renderer-Einstellung und -auswahl ist aber komplett unabhängig vom Export.
Zusätzlich bringt die Funktionsweise objektbasierten Audios mit Metadaten eine weitere Neuerung mit sich: andere Anforderungen an den Mastering-Prozess.
Das große Thema “Mastering” eröffnet neue technische Anforderungen an mögliche Software-Entwicklungen. Hat sich das herkömmliche, kanalbasierte Mastering über die Jahre zu einem festen Teil der Musikproduktion etabliert, so erfordert objektbasiertes Audio Mastering eine neue Herangehensweise:
Dadurch, dass keine finale Mischung übertragen wird, die bei jedem Konsumenten in der gleichen Art und Weise wiedergegeben wird, sondern eine Kombination aus Audio + Metadaten, kann am Ende der Produktion nicht auf herkömmliche Masteringtechniken zurückgegriffen werden. Die Verarbeitungsanforderungen (demands) der Geräte spielen hierbei eine entscheidende Rolle, da viele Konsumgeräte aufgrund ihrer Anforderungen an die Rechenleistung Schwierigkeiten haben, objektbasiertes Audio zu decodieren und wiederzugeben.
Es müssen nicht wie bei kanalbasierten Produktionen Lautsprechersignale, sondern Audioobjekte gemastert werden. Etablierte Konventionen existieren hierfür aktuell noch kaum.
Um objektbasiertes Audio Mastering genauer zu betrachten, sollte dieser allgemeine Schritt in mehrere Einzelteile aufgeteilt werden: Klangliches Mastering (EQ, Kompression), Album-Mastering, Archivierung und Backups sowie Distributions-vorbereitungen. Insbesondere Dynamikbearbeitung (Compressor, Expander, Limiter) entscheidet bei der Musikmischung über den Gesamteindruck.
Wird bei kanalbasierten Mischungen (wie Stereo oder 5.1 Surround) oft mit Bus-Kompression gearbeitet, um einzelne Instrumente, bestimmte Frequenzbereiche oder den Gesamtklang zu komprimieren, so stellt dies bei objektbasierten Produktionen eine erhöhte Schwierigkeit dar, da das flexible Rendering dies nicht zulässt.
Insbesondere der Aspekt des Binaural-Renderings und damit einhergehenden klanglichen Verfärbungen (durch Verwendung verschiedenster Binaural-Renderer) stellt eine weitere Herausforderung dar, da während des Masterings kaum Einfluss darauf genommen werden kann.
Neue Wiedergabemöglichkeiten wie Streaming führen ebenfalls dazu, dass sich der Masteringprozess wandelt: Der Schritt, verschiedene Titel als Album zusammenzuführen, gerät teilweise in den Hintergrund, da Musik-Streaming beim Hörer oftmals titelbasiert erfolgt und nicht durch Wiedergabe eines kompletten Albums. Somit erfolgt Mastering oft nur für einzelne Titel, nicht für ein gesamtes Album – der Schritt des Album-Masterings entfällt teilweise (außer natürlich bei Alben, die komplett immersiv produziert werden).
Ein neuer Mastering Schritt ist außerdem die Überprüfung des Authoring-Prozesses (kor- rekte Formate und Metadaten), Archivierung objektbasierter Mischungen (beispielsweise als ADM-Dateien) sowie die Encodierung in das entsprechende Format und die damit verbundene Vorbereitung für sämtliche Distributions- und Wiedergabewege.
Im Vergleich beider Produktionsarten ist außerdem auffällig, wie sehr die Abweichungen vom herkömmlichen Produktions-Workflow von der jeweiligen zugrundeliegenden objektbasierten Audio Technologie abhängen. Ein Beispiel hierfür ist das Encoding und die daraus resultierende Wiedergabe:
Bei Stereo-Produktionen wird meist eine .wav-Datei exportiert und beispielsweise als AAC- oder mp3-Datei encodiert (welche basierend auf den weitreichend verbauten Decodern nahezu überall wiedergegeben werden kann). Bei objektbasierten Audio Produktionen werden aktuell entweder eine ADM-Datei mit einem speziellen, technologie-abhängigen Profil erzeugt, oder ein proprietäres Format exportiert, welche dann im Encoding-Prozess teilweise in unterschiedliche Audioformaten encodiert wird.
Das ermöglicht, dass die Datei auf unterschiedlichen Geräten wiedergegeben werden kann. Dies zeigt eine der Neuerungen objektbasierten Audios auf: In verschiedenen Schritten des Workflows wird mit speziellen, (noch) nicht kompatiblen Formaten gearbeitet. Der Entscheidungsprozess für eines der Formate liegt im objektbasierten Workflow deutlich früher als in der herkömmlichen Stereo oder 5.1 Surround Produktionskette. Konvertierungstools können hierbei jedoch Abhilfe schaffen und Produktionen von einem Format in ein anderes überführen.
Welche Bedeutung Audioobjekte speziell in der Musikproduktion haben können, ist mit der Produktionsart und dem Musik-Genre verknüpft. Das liegt daran, dass sich dieses auf den objektbasierten Produktions-Workflow ähnlich auswirkt wie auf den einer Stereo-Produktion. Dabei ist es wichtig, die Inhalte für verschiedene Plattformen anzupassen und zu optimieren, insbesondere bei der Produktion und Verbreitung von Audio- und Videoinhalten.
Zum einen gilt zu unterscheiden zwischen Live-Produktionen und Studio-Produktionen. Bei einer Jazz- oder Klassikmischung (sowie bei Live-Produktionen) kommt dem Klangkörper im Raum (und somit der Aufnahmetechnik) eine besondere Bedeutung zu.
Im Gegensatz dazu spielt bei einer elektronischen (sowie Studio-basierten) Produktion die Gestaltung und Kombination aufgenommener und synthetisch erzeugter Klangelemente eine größere Rolle.
Insbesondere bei der Aufnahme eines Klangkörpers im Raum kommt es zum Übersprechen zwischen einzelnen Instrumenten, was in der Mischung berücksichtigt werden muss (Delay Compensation), und bei der Verwendung von Instrumenten als einzelne Objekte zu Problemen führen kann.
In Bezug auf objektbasierte Audio Produktionsweisen bedeutet dies, dass sich der Fokus je nach Genre verschieben kann: Bei einer Klassik-Produktion bietet es sich an, dass insbesondere eine präzise Lokalisation einzelner Objekte sowie der Aspekt der Immersion und Räumlichkeit in den Vordergrund rückt: durch die Möglichkeit, den gesamten Raum einschließlich der Höhendimension abzubilden, kann die Akustik verschiedener Konzertsäle dargestellt werden.
Im Rundfunk haben diese Innovationen im Bereich des objektbasierten Audios das Hörerlebnis revolutioniert. Insbesondere für Radio und Fernsehsendungen bietet objektbasiertes Audio die Möglichkeit, personalisierte und interaktive Inhalte zu schaffen, die den Hörer stärker einbinden.
In Kombination mit dem flexiblen Wiedergabe-Rendering (beispielsweise der Binauralisierung) bedeutet dies, dass dem Hörer realistischere Hörerlebnisse simuliert werden können. Mögliche Nutzer-Interaktivität bei der Wiedergabe kann ebenfalls dazu beitragen.
Nutzer-Interaktivität ist ein weiteres Feature von objektbasiertem Audio wie z.B. dem MPEG-H 3D-Audio Codec. Im Authoring-Prozess können verschiedene Presets festgelegt werden, die mittels Metadaten definieren, ob und inwieweit Nutzer mit dem Material interagieren können. Im Musikbereich wären Beispiele eine Auswahl der Hörerposition im Raum (Parkett, 1. Rang, Dirigentenposition) oder ein “Play-Along” Presets, bei welchem die Solo-Stimme deaktiviert wird und Nutzer so frei mitspielen könnten.
Bei „abstrakten“ (beispielsweise elektronischen) Produktionen hingegen können die zumeist einzeln vorliegenden, aufgenommenen oder synthetisch erzeugten Klangelemente als bewegte Objekte in Szene gesetzt und somit eine atmosphärische Klanglandschaft erzeugt werden.
Bei elektronischer Musik bietet es sich außerdem besonders an, eine dreidimensionale Räumlichkeit durch kreatives (in Maßen eingesetztes) Objekt-Panning zu erschaffen. Hier muss nicht – im Gegensatz zu klassischer Musik – auf eine korrekte und realistische räumliche Positionierung und Reproduzierung geachtet werden.
Verschiedene Genres können somit von unterschiedlichen Aspekten objektbasierten Audios profitieren – wobei der Fokus stets auf dem Hörer liegen sollte. Besonders im Radio ermöglicht die Nutzung von Object Based Audio eine Transformation der Audio-Inhalte, die ein individuelles und interaktives Hörerlebnis schafft. Das Responsive Radio erlaubt es den Hörern, die Art des Live-Kommentars, den sie hören möchten, aktiver zu wählen.
Insbesondere im Klassikbereich existieren traditionell geprägte und etablierte Hörgewohnheiten, welche auch bei objektbasierten immersiven Produktionen zumindest im Ansatz bedacht werden sollten.
Ein tiefes Verständnis der digitalen Audiotechnologie ist entscheidend, um die Techniken, die sich bei Stereo-Produktionen bewährt haben, auch auf objektbasierte immersive Mischungen anzuwenden. 3D-Audio ist eine Erweiterung von Stereo. Etablierte Produktions-Workflows sind somit weiterhin relevant und können durch neue Produktionstechniken und Möglichkeiten angereichert werden.
Abschließend betrachtet spielt bei objektbasierter Musikproduktion zum einen besonders der immersive Aspekt eine Rolle. Dieser kann gleichzeitig auch eine verstärkte Emotionalität mit sich führen.
Zum anderen bewirkt das flexible Wiedergabe-Rendering, dass erstellte Produktionen vom Konsumenten über Kopfhörer, Soundbars oder Lautsprechersysteme gehört werden können. Personalisierungsmöglichkeiten sind gegeben und somit besteht ein Mehrwert gegenüber rein binaural oder kanalbasiert produzierten immersiven Mischungen.
Abschließend lässt sich feststellen: es wird noch einige Zeit dauern, bis sich im Bereich der objektbasierten, immersiven Musikproduktionen ähnliche Konventionen und – zumindest teilweise – standardisierte Workflows etablieren.
Die gewohnten Produktions-Workflows der Stereo-Musikproduktion müssen allerdings nicht grundlegend verändert werden, sondern dienen weiterhin als Basis, auf denen neue Prozesse aufbauen können.
Objektbasiertes Audio bringt viele neue Features mit sich, von der Nutzerinteraktivität, neuen kreativen Möglichkeiten durch den dreidimensionalen Raum bis hin zum flexiblen Rendering. In der Musikproduktion spielen insbesondere letztere beide Punkte eine Rolle und tragen zu einem verbesserten Nutzungserlebnis bei, indem Inhalte personalisiert und für verschiedene Ausspielwege optimiert werden.
Im Gegensatz zur herkömmlichen 2-Kanäle Stereo-Musikproduktion sind vor allem die Encoding- und Decoding-Prozesse noch nicht allgemeingegenwärtig, und nehmen somit im Workflow eine komplexere Aufgabe ein.
Wie auch bei anderen Next Generation Audio Themen erleben wir jedoch den “Innovationsprozess” der neuen Technologien gerade live mit.
Somit bietet sich jetzt für alle an objektbasierten Musikproduktionen interessierten Tonschaffenden eine gute Möglichkeit, von Anfang an bei diesen neuartigen Workflows mitzumischen – im wahrsten Sinne des Wortes!
Wer also dabei sein will und Starthilfe braucht, schreibt mir einfach eine Mail!
Kontakt aufnehmen