Inhalt
Ein Gastbeitrag von Daniela Rieger
„While an engineer familiar with the complications of sound reproduction may be amazed at the tens of thousands of trouble-free performances given daily, the public takes our efforts for granted and sees nothing remarkable about it.[…]
The public has to hear the difference and then be thrilled by it […]. Improvements perceptible only through direct A-B comparisons have little box-office value.“
(Garity & Hawkins, 1941)
Dies ist Teil 1 von zwei Teilen über die Herausforderungen der immersiven Musikproduktion. Hier geben wir einen Überblick über die Geschichte und Zukunft von 3D Sound und Immersive Audio. Ein wichtiger Aspekt dabei ist die Verwendung der Dolby Atmos Production Suite, die in DAWs wie Pro Tools, Nuendo und Logic zur Erstellung von ADM-Dateien für die 3D-Audiomischung genutzt wird. Im nächsten Teil werden wir auf die Schwierigkeiten eines immersiven Musikproduzenten eingehen.
3D-Audio oder immersives Audio übt zweifelsohne einen Reiz aus – auf Tonschaffende möglicherweise noch mehr als auf KonsumentInnen. Dies zeigt sich auch durch die Vielzahl an Beiträgen zu „3D-Audio“ auf den Audio-Konferenzen der letzten Jahre (Tonmeistertagung 2018, Prolight+Sound 2019, AES Virtual Vienna 2020, TMT 2021). Eine wichtige Komponente dabei ist die 3D Audio Matrix, die über die Platzierung von Audioobjekten hinausgeht und die Freiheitsgrade der Benutzer (0DoF, 3DoF, 6DoF) berücksichtigt, was wichtige Aspekte der Zuhörerinteraktion in verschiedenen Audioformaten betont.
3D-Audio bringt eine neue Komplexität mit sich – Codecs und Formate, verschiedenste Technologien und Software, neue, kreative Gestaltungsmöglichkeiten und erweiterte Wiedergabesysteme. Doch eben diese Komplexität birgt die Gefahr, dass EndkonsumentInnen aus dem Fokus verdrängt werden.
Wie bereits die beiden Fantasound-Entwickler William E. Garity und John N.A. Hawkins im Jahre 1941 feststellten, so kann eine Technologie noch so kompliziert und komplex sein.
KonsumentInnen interessieren sich großteils nicht für all die Hürden, die überwunden wurden oder all die Technik, die dahintersteckt. Sie möchten die Inhalte möglichst unkompliziert hören und einen Mehrwert erleben.
Denn nur so kann eine neue Technologie funktionieren – nur so entsteht Begeisterung und Interesse. Nur so wird das neue Format konsumiert und nur so kann es sich durchsetzen. Auch dies haben Garity und Hawkins bereits vor knapp 80 Jahren festgestellt und auch dies hat in der heutigen Zeit nicht an Relevanz verloren.
Der größte Reiz bietet sich, wenn Technik kreativ genutzt werden kann. Erst so kann ein „Sweetspot“ gefunden werden, der das innovative und neue Potential wirklich entfacht. Kann immersive Musikproduktion also wirklich eine Chance gegen jahrzehntelang etablierte Stereo-Workflows haben, insbesondere wenn Technologien wie Spatial Audio in Musik und Film immer mehr an Bedeutung gewinnen? Beim Dolby Atmos mischen müssen technische Anforderungen und Kanalkonfigurationen berücksichtigt werden, um eine optimale Audioqualität zu gewährleisten.
3D-Audio hat sich im Filmbereich bereits seit längerem etabliert (Dolby Atmos, DTS:X, Auro-3D), und es gibt schon etliche Tausend Kinofilme in diesen Formaten. Die Verfügbarkeit von (kanalbasierten) 3D-Musikproduktionen allerdings ist bisher noch recht gering. Surround Sound hat eine entscheidende Rolle in der Evolution der Audioformate gespielt, indem es die dreidimensionale Klangwiedergabe im Vergleich zu einfachen Stereoformaten ermöglicht hat.
Objektbasierte, immersive Musik wurde Ende 2019 erstmals eingeführt, indem die beiden Technologien Dolby Atmos Music und 360 Reality Audio vorgestellt wurden. vorgestellt wurden. Genau genommen handelt es sich nur bei 360 Reality Audio um eine rein objektbasierte Technologie, Dolby Atmos ist “hybrid” (durch Verwendung des Kanalbettes).
ADM-Dateien spielen eine zentrale Rolle in der objektbasierten Audioproduktion. Diese Audio-Definition-Model-Dateien werden in Nuendo erstellt, importiert und exportiert und unterstützen Formate wie Dolby Atmos und MPEG-H. Sie ermöglichen die Wiedergabe in externen Renderer-Anwendungen oder -Geräten.
Es gab zuvor schon etliche Experimente, die aber absolutes Nischendasein genossen. Knackpunkt war und ist einfach, dass die wenigsten der KonsumentInnen auch die nötige Anzahl an Lautsprechern zu Hause haben. Hier werden gerade und in Zukunft wohl Soundbars und Smartspeaker immer passender werden.
Es war daher ein Format gefragt, welches Lautsprecher- und damit kanalunabhängig ist. Das Stichwort: objektbasierte Produktion. Somit bringen 360 Reality Audio und Dolby Atmos Music gerade frischen Wind in ein altes Problem.
Anmerkung: “objektbasiert” ist nicht ausschließlich mit „3D“, „immersiv“ oder „Raumklang“ gleichzusetzen. Prinzipiell kann auch objektbasiert und mono produziert werden. Im Folgenden wird aber davon ausgegangen, dass die objektbasierte Musikproduktion immersiv gestaltet wird und einen herausragenden Klang bietet.
Wie bei der Quadrophonie ab den 1960er Jahren und der darauffolgenden Einführung von 5.1 Surround – was sich beides kommerziell nicht durchsetzen konnte – handelt es sich bei den objektbasierten Formaten um neue Technologien zur Produktion, Distribution und Wiedergabe von Musik.
Im Unterschied zu damals ist die Ausgangslage heutzutage jedoch eine andere: Während 5.1 Surround durch die kanalbasierte Produktionsweise auf ein festes Lautsprecher-Layout und die Distribution über physische Medien abzielte, so kann objektbasiertes Audio flexibel auf verschiedene Wiedergabesysteme (Lautsprecher und Kopfhörer) gerendert und über Musik-Streaming-Dienste vertrieben werden. Stereo-Sound hingegen nutzt zwei Kanäle, um ein räumlicheres Klangbild zu erzeugen, was ihn von Mono- und Surround-Sound unterscheidet.
Ein weiterer Vorteil objektbasierter Audioformate zeigt sich bei Live-Produktionen. Hier wird das OSC-Netzwerkprotokoll verwendet, um externe Renderer für Live-Audioevents zu steuern, was insbesondere für Live-Performances oder Veranstaltungen von Bedeutung ist.
Abgesehen von der bereits erwähnten, nötigen Abspielsituation zuhause kam auch hier wieder das Henne-Ei-Problem zur Geltung. Solange es keine guten Surround-Inhalte gab, war die Motivation für die Investition auch gering. Umgekehrt mussten Tonschaffende überzeugt werden, in einem Format zu produzieren, dass bei einem Großteil der NutzerInnen überhaupt nicht wiedergegeben werden konnte.
Die Wahrnehmung von Klängen aus links und rechts trägt wesentlich zur Schaffung einer räumlichen Klangerfahrung bei, was bei Stereo- und Surround-Sound besonders deutlich wird.
Seit den ersten Versuchen der Schallaufzeichnung gegen Ende des 19. Jahrhunderts hat sich der Bereich „Musik“ stetig gewandelt und unterliegt einer fortlaufenden Entwicklung:
Kopfhörer für 3D Audio spielen eine wichtige Rolle in der modernen Musikproduktion, da es ermöglicht, binauralen Sound und HRTF (Head-Related Transfer Function) zu nutzen, um Klänge so zu simulieren, dass sie aus verschiedenen Richtungen wahrgenommen werden.
Somit haben sich über die Jahre bei der Musikproduktion, abhängig von Genre und Kontext, viele einzelne Produktionsschritte etabliert sowie auf Seiten der Distribution und Wiedergabe einheitliche Konventionen gefestigt.
Dieser Prozess der Entwicklung eines Workflows steht bei objektbasiertem Audio generell, sowie insbesondere der objektbasierten Musikproduktion noch am Anfang. Es existiert eine Vielzahl an unterschiedlichen Begrifflichkeiten, Formaten und Codecs, welche sich auf alle Schritte der Produktionskette von der Mischung bis zur Wiedergabe auswirken. Besonders die Konfiguration der Spur in Audiosoftware, wie z.B. bei der Nutzung von MixConvert V6, beeinflusst die Eingangskanalkonfiguration und das Routing von Audiosignalen in verschiedenen Audioformaten.
Durch die vielfältigen Musik-Distributionsarten (Schallplatte, CD, Blu-ray, digitale Portale wie iTunes oder Soundcloud, Streaming-Dienste) ergeben sich insbesondere im Hinblick auf mögliche formatagnostische Produktionsweisen neue Anforderungen. Es warten also diverse Herausforderungen auf alle Beteiligten an der Produktion. Plötzlich müssen Mischentscheidungen, die wir das ganze Audio-Leben lang fast automatisch getroffen haben, auf einmal grundlegend hinterfragt werden.
Ein wichtiger Aspekt in diesem Zusammenhang ist die Nutzung von Spuren im Routing von Audiosignalen innerhalb eines Dolby-Atmos-Projekts. Verschiedene Arten von Spuren, wie Gruppenspuren und Quellspuren, werden verwendet, um Audio-Objekte zu erstellen und effizient zu mischen.
Der Begriff ‘Klangwelten’ beschreibt die Möglichkeiten von 3D-Audio und räumlichem Hören, die durch Streaminganbieter wie Amazon und Apple bereitgestellt werden. Diese Technologien bieten ein intensiveres und immersives Hörerlebnis und prägen die Zukunft des Musikhörens.
Ein Aspekt ist die Produktionsart – aktuell wird neben herkömmlichen Stereo-Mischungen auch kanalbasiert, szenenbasiert und objektbasiert, immersiv sowie rein binaural produziert. Diese Vielzahl an Produktionsweisen, die auf unterschiedlichen Codecs basieren und verschiedene Endformate sowie Wiedergabeanforderungen mit sich bringen, sorgen für Unübersichtlichkeit und hindern möglicherweise daran, dass Produktions-Ressourcen aufgewendet werden.
Surround Sounds spielen eine entscheidende Rolle bei der Schaffung immersiver Audioerlebnisse, indem sie es ermöglichen, Klangobjekte aus verschiedenen Richtungen zu erleben und so die räumliche Wahrnehmung und Tiefe des Sounds erheblich zu verbessern. Durch die Verwendung von stereo 3d können dreidimensionale Effekte erzielt werden, indem originale Stereo-Hallräume dupliziert und angepasst werden. Dies verbessert die räumliche Wahrnehmung der Musik, wobei die Mischung auf Kopfhörern anders wahrgenommen werden kann als auf Lautsprechern.
Im Idealfall würde in Zukunft nur noch objektbasiert produziert werden: Es gäbe somit ein Format, das auf jedem Endgerät bestmöglich wiedergegeben werden kann – und das alles mit Verwendung von nur einem Masterfile. Anders als bei klassischen Surround Produktionen, in der Downmixe und Upxmixe für Kino oder TV nötig sind.
Trotzdem stoßen auch objektbasierte Formate wie Dolby Atmos oder 360RA an ihre Grenzen. Sei es, weil – zumindest aktuell – der Produktionsaufwand im Vergleich zu Stereo steigt. Oder die Anwendungen eben nicht so leicht der Unterhaltungs Schublade “Musik” oder “Film” zugeordnet werden können, und bei der Produktion spezielle Ansprüche gelten, die bei den aktuell verfügbaren objektbasierten Technologien nicht unterstützt werden. Denn die 3D Audio Welt ist vielfältig, wie diese Übersicht zeigt.
Ähnlich wie bei der Quadrophonie in den 1960er–1980er Jahren bergen die verschiedenen Formate und Codecs die Gefahr, dass sich nichts davon durchsetzen wird. Dennoch ist hier ein Unterschied festzustellen: Während beim Quad-Format das Problem eher auf der Seite der EndanwenderInnen lag (kein Kauf der Lautsprecher für die Quad-Wiedergabe), so liegen bei objektbasierten Inhalten die Probleme vielmehr auf Seiten der Tonschaffenden und Technologie an sich.
Aktuell bedeutet die Produktion objektbasierter Musik eine Produktion für einen spezifischen Codec. Das ist ganz anders als bei der Stereo-Musikproduktion, welche codec-agnostisch erfolgt. Das heißt, dass nicht für eine spezielle Technologie produziert wird, sondern das Endprodukt flexibel nutzbar ist. Die AirPods Max bieten hierbei ein besonders immersives Audioerlebnis, da sie Spatial Audio und Dolby Atmos unterstützen und den Sound entsprechend der Kopfbewegungen des Nutzers anpassen.
Bei der objektbasierten Produktion werden zum einen herkömmliche Produktions-Workflows aufgegriffen und weiterentwickelt. Zum anderen lassen sich beide objektbasierte Technologien zwar in herkömmliche Produktionsketten integrieren, weichen jedoch ab dem Schritt der Nutzung der objektbasierten Software bis hin zur Wiedergabe von etablierten Stereo-Produktionsprozessen ab. Praktische Tipps zur Bewältigung dieser Herausforderungen können dabei helfen, den Arbeitsablauf zu verbessern und neue Perspektiven zu gewinnen.
Der Vergleich dieser zwei objektbasierten Formate hat gezeigt, dass bereits hier große Unterschiede insbesondere im Export-, Encoding-, Distributions- und Wiedergabeprozess herrschen. Damit sich objektbasierte immersive Produktionen behaupten können, bedarf es einer Entwicklung von einheitlicheren Vorgängen in allen Bereichen der Produktionskette.
Aber wie gesagt, meist entscheidet der Content selber, welches Format am besten geeignet ist. Eine One-Stop Solution ist noch nicht in Sicht. Die Nutzung der AirPods Pro auf iPhones zeigt dabei besondere Klangerfahrungen, die den Unterschied zwischen Stereo- und 3D-Audio-Versionen unterstreichen.
Apple spielt eine führende Rolle in der Entwicklung von 3D-Audio-Technologien, insbesondere durch Produkte wie Apple Music, AirPods und HomePod, die ein immersives Klangerlebnis bieten. Ein wichtiger Bestandteil dieser Technologien ist die Verwendung der Dolby Atmos Production Suite, die in DAWs wie Pro Tools, Nuendo und Logic genutzt wird, um ADM-Dateien für die 3D-Audiomischung zu erstellen und in bestehende Audioworkflows zu integrieren.
Sofern sich nicht ein Format durchsetzen wird, so muss zumindest der Aspekt der kombinierten Produktionsweise und Konvertierung verschiedener Formate in den Vordergrund rücken: Für ein Album die kompletten Produktionsketten für mehrere Formate zu durchlaufen ist zeit- und kostenintensiv.
Bei Verwendung der jeweiligen Produktions-Software wurde deutlich, dass bereits ab diesem Schritt der Workflow stark von technischen Spezifikationen abhängt und von diesen vorgegeben wird, begonnen bei der Nutzung der Produktions-DAW. Die AirPods Pro bieten eine immersive Audioerfahrung durch die Unterstützung von Spatial Audio und 3D-Audio, was besonders auf iPhones zu einer herausragenden Klangerfahrung führt.
ADM-Dateien spielen eine zentrale Rolle in der objektbasierten Audioproduktion. Sie ermöglichen die Erstellung, den Import und Export von Audio-Definition-Model-Dateien, die für Formate wie Dolby Atmos und MPEG-H genutzt werden können. Diese Dateien sind essenziell für die Wiedergabe in externen Renderer-Anwendungen oder -Geräten.
Weiterhin bedarf es der Entwicklung von Plugins, die speziell für die Anwendung in objektbasierten und immersiven Mischungen ausgelegt sind (beispielsweise Hall-, Kompressions- oder Mastering-Plugins, die sowohl mit dreidimensionaler Räumlichkeit als auch mit Objekten arbeiten können).
Weiterhin muss der gesamte Schritt des Masterings für objektbasierte Mischungen angepasst werden – insbesondere in diesem Fall ist es notwendig, dass sich Vorgehensweisen etablieren, die formatübergreifend durchgesetzt werden können.
Hierzu zählt auch, den neuen Workflow-Schritt des Authorings (der Generierung und Überprüfung der Metadaten) in den Mastering-Prozess zu integrieren. Eine wichtige Rolle spielt dabei die Konfiguration der Spur, insbesondere bei der Verwendung von MixConvert V6, da sie die Eingangskanalkonfiguration beeinflusst und die Art und Weise bestimmt, wie Audiosignale in verschiedenen Audioformaten geroutet werden.
Eine wichtige Rolle spielen dabei die AirPods Max, die durch ihre Kopferfassungstechnologie und Unterstützung von Spatial Audio und Dolby Atmos ein immersives Klangerlebnis bieten. Diese Kopfhörer werden sowohl in der Stereo- als auch in der 3D-Audio-Wiedergabe getestet, um Unterschiede in der Klangqualität zu diskutieren.
Die konsequente Implementierung technischer Anforderungen ist unerlässlich, um sowohl Produktionsprozesse als auch Wiedergabemöglichkeiten zu verbessern. Flächendeckende Lautheitsmessung- und -normalisierung muss für objektbasierte Formate genauso etabliert werden, wie für herkömmliche Stereoproduktionen, um den Ausbruch eines neuen “Loudness-Wars” zu verhindern.
Ein wichtiger Aspekt dabei ist die Nutzung verschiedener Arten von Spuren, wie Gruppenspuren und Quellspuren, um Audiosignale innerhalb eines Dolby-Atmos-Projekts effizient zu routen und zu mischen.
Weiterhin könnten die objektbasierten Audioinhalte, einschließlich spatial audio Technologien wie Dolby Atmos und Apple Spatial Audio, auf einer Vielzahl an Wiedergabegeräten abgespielt werden, hierfür fehlt es jedoch noch an konsequenter Implementierung der technischen Anforderungen in den Endgeräten.
Nicht zuletzt spielt der finanzielle Aspekt eine Rolle – während Stereo-Produktionen eine Vielzahl an Verwertungswegen bieten (Schallplatte, CD, Blu-ray, digitale Portale wie iTunes oder Soundcloud, Streaming-Dienste) und wirtschaftlich betrachtet somit breit aufgestellt sind, so beschränkt sich dies bei objektbasierten Produktionen aktuell auf einige Streaming-Dienste sowie vereinzelte Blu-rays.
Ein weiterer wichtiger Aspekt ist die Anwendung von objektbasiertem Audio in live produktionen. Hierbei wird das OSC-Netzwerkprotokoll eingesetzt, um externe Renderer für Live-Audioevents zu steuern, was insbesondere für Live-Performances oder Veranstaltungen von Bedeutung ist.
Ein Beispiel für die praktische Anwendung und den finanziellen Nutzen von 3D-Audio-Technologien sind die AirPods Max. Diese Kopfhörer unterstützen Spatial Audio und Dolby Atmos, was immersive Klangerlebnisse ermöglicht und somit die Attraktivität und den Marktwert von 3D-Audio-Produktionen steigert.
Abschließend gilt, wie bei jeder neuen Technologie, dass die Nachfrage über den kommerziellen Erfolg entscheiden wird. Durch die Einbindung von Dolby Atmos Music und 360 RA bei Streaming-Diensten werden die objektbasierten Inhalte der breiten Öffentlichkeit präsentiert.
Wird dieses Angebot von der breiten Masse angenommen, so steigt der Bedarf an Produktionen sowie der Entwicklung und Optimierung von spezieller Soft- und Hardware – und damit einhergehend die Nachfrage nach einheitlicheren Workflows zur Produktion von objektbasierter Musik.
Interesse, objektbasiertes Audio zu produzieren? Hier geht’s zur Kontakt-Seite!
Kontakt aufnehmen