Inhalt
Was ist immersive Audio? Dieser Artikel entstand für den Filmton Guide der Berufsvereinigung Filmton (BVFT). Natürlich soll dieser auch für nicht-Mitglieder verfügbar sein. Mein Ziel war es hier, das Thema immersives 3D Audio im Kontext des Kinos im Film Sound und TV zu beleuchten.
Doch darüber hinaus ergeben sich vielfältige Möglichkeiten für den Soundtrack des Bewegtbildes. Welche dies sind und wie der gute, räumliche Ton zur vollen Geltung kommen, im Folgenden. Viel Spaß beim Lesen!
Zugegeben, es wird in der Tonmeister-Szene wohl kaum ein Wort gerade so gehypt wie „immersiv“. Dabei steht „immersives Audio“ gerne als Synonym für „3D Audio“. Das unterschlägt, dass selbst eine Mono-Wiedergabe durch eine mitreißende Geschichte auch immersiv sein kann. Und auch Musik im guten alten Stereo lädt sehr wohl dazu ein, die Augen zu schließen und in eine Klangwelt abzutauchen.
Kunstkopf-Stereofonie ist schon seit Jahrzehnten beliebtes Aufnahmeverfahren für die Wiedergabe auf Kopfhörern. Aktuell kommt aber wieder sehr viel Schwung in die Thematik, da Ton nun auch als dreidimensionales Ereignis für ein größeres Publikum mit Lautsprechern immer zugänglicher wird.
Außerdem ploppen in den verschiedensten Bereichen zusätzliche Technologien wie Headtracker, Datenbrillen und Echtzeitrenderings auf, die uns immer realistischer den Höreindruck vermitteln, wie wir ihn aus unserer natürlichen Umwelt gewohnt sind.
Vereinfacht gesagt, können damit Emotionen, Präsenzgefühle und Wahrnehmungen ausgelöst werden, die tief mit den eigenen Erfahrungen verknüpft sind – unmittelbarer, als es etwa Mono könnte, weil eine Abstraktionsebene wegfällt und für unser Gehirn leichter zu verarbeiten ist. Daher trifft es das Stichwort Immersion, also das Eintauchen in eine virtuelle Welt Umgebung, doch recht gut.
Das ändert natürlich alles – oder nicht?! Die Euphorie unter den Film Sound TonmeisterInnen ist groß und das Thema auf den einschlägigen Tagungen ein Dauerbrenner. Aber wo und wann kann 3D Audio überhaupt einen Mehrwert bieten? Ich durfte mich in den letzten Jahren so intensiv wie kaum ein Anderer mit immersivem Audio in den verschiedensten Zusammenhängen auseinandersetzen. Doch gerade wegen meiner Begeisterung hinterfrage ich gerne, ob 3D Ton immer die erste Wahl der Dinge ist.
Denn ich möchte davor warnen, „3D Audio“ gedanklich in der Schublade „besser als Stereo“ abzuspeichern. Es gilt also herauszufiltern, wo die neue Technologie bestmöglich funktioniert und was vielversprechende Anwendungsgebiete sein könnten. Da es sowieso schwer genug ist, dem Thema in Gänze gerecht zu werden, wollen wir hier trotzdem möglichst gut an der Oberfläche kratzen.
Die Möglichkeiten, mit 3D Audio zu arbeiten, sind schier unbegrenzt. Dabei denken die Meisten erst einmal an Dolby Atmos für immersive Film Sound- oder auch Musikproduktionen. Doch das ist eigentlich nur ein kleiner Teil der denkbaren Anwendungen und “reißerischer Spoiler-Alarm”: Ich finde, das wahre Potential liegt woanders verborgen. Doch dazu später mehr.
Mittlerweile gibt es zum Glück etliche Hersteller, die auf den immersiven Zug aufgesprungen sind: Mikrofone, Plug-Ins, Distributions-Plattformen. Trotzdem gibt es noch viel Forschungsbedarf im Bereich Next Generation Audio (z.B. MPEG H), personalisiertes Hören, Binauralisierung etc. und gefühlt endet jede Diskussion auf einschlägigen Konferenzen mit dem Stichwort HRTF (Head-Related Transfer Function). Doch würde ich behaupten, dass uns aktuell weniger die Tools und Theorien fehlen, als das Wissen, was wir in der kreativen Praxis damit tun können.
Ich kenne mindestens eine Handvoll KollegInnen, die gleich bei Produktveröffentlichung des Ambeo VR-Mics in Kombination mit einem Zoom F8 zugeschlagen haben; in weiser Voraussicht, dass bald die ganzen 360° Anfragen kommen. Ein paar Jahre später ist nun klar: das ist nie passiert. Wie kann es aber sein, dass in anderen Bereichen trotzdem so viel mit 3D Audio produziert wird wie nie? Daher fangen wir mit dem wohl bekanntesten Beispiel an.
Typische Herangehensweise ist es, 3D Audio dort zu verwenden, wo es auch schon mit Surround sound gut geklappt haben. Dass über tausend Kinofilme bereits immersive in Dolby Atmos gemischt wurden, ist wohl kein Geheimnis mehr. Allein diese Tatsache ist für den Sound schon beachtlich. Während man aktuell das Hörerlebnis fast ausschließlich in Kinos oder befreundeten Studios genießen kann, wird in Zukunft der dreidimensionale Mix über mehr erfahren. bald auch im heimischen Wohnzimmer vermehrt Einzug finden. Clevere Algorithmen mit virtuellen Lautsprechern machen’s möglich.
Oder noch einfacher: in quasi jedem Haushalt gibt es Kopfhörer, die eine dreidimensionale Audio-Wiedergabe in Form des binauralen Stereos für KonsumentInnen zugänglich machen. Man bekommt als Zuhörer immer mehr das Gefühl nicht nur einen Film zu schauen, sondern Teil des Geschehens zu sein. MischtonmeisterInnen können sich außerdem über die bessere Transparenz freuen, da mit der spatialen Aufteilung der verschiedenen Klangebenen im Raum weniger Kompromisse eingegangen werden müssen, als bei Stereo.
Die Technologie dahinter wird als objektbasiertes Audio bezeichnet. Vereinfacht gesagt dient als Grundlage für diffuse Sounds wie Atmosphären und Reverbs das sogenannte “bed”. Dieses wird durch Mono-Objekte ergänzt wird, welche dem Ganzen seinen Namen geben. Diese Objekte werden aber nicht, wie im klassischen Workflow, untrennbar auf eine Summe gemischt, sondern liegen selbst im Masterfile noch als separate Files vor, die mit Metadaten zusätzlich beschrieben werden.
Doch objektbasiertes Audio bietet nicht nur die Möglichkeit der Dreidimensionalität, auch wird personalisierte Interaktivität immer spannender. Dadurch, dass die Files auch noch bei EndnutzerInnnen getrennt im Codec vorliegen, ergeben sich ungeahnte Möglichkeiten.
Wie wäre es zum Beispiel, bei einer Fußballübertragung das Audio-Objekt „Kommentator“ stumm schalten zu können, um die einhüllende Stadionatmosphäre zu genießen und besser mit seinen Kumpels auf der Couch eigene Kommentare machen zu können? Gleiche Möglichkeit bietet der immersive Film Sound dann bei Unterhaltungsformaten, wie es der Kino Saal nicht hergibt.
Damit kann das eigentlich heilige Audiomaster des Mischtonmeisters vom Zuschauer manipuliert werden – zumindest soweit, wie es in der Mischung definiert wird. Eine Vorstellung, an die sich die MacherInnen wohl erst einmal gewöhnen müssen.
Die spannende Frage ist aber: Wie könnten in Zukunft etwa interaktive TV-Formate funktionieren, bei denen der Ton personalisiert werden kann? Ein Feld, bei dem Interaktivität vielleicht sogar noch spannender als Dreidimensionalität sein könnte und etwa beim BR als “Dialog+”, im Rahmen eines Pilotprojekts bereits umgesetzt wird. Apropos personalisiertes Hören – blicken wir nun in einen Bereich, der im wahrsten Sinne das immersive Eintauchen in den Film und dessen Sound ermöglicht.
Zu Beginn erst einmal ein großes „Achtung“: Die meisten TonmeisterInnen reden von VR, meinen aber eigentlich 360° Videos. Solche Produktionen sind aber nur eine sehr kleine Nische von der ganzen virtuellen Realität und sollten eher als Spezialfall betrachtet werden. Es gibt nämlich zwei große Einschränkungen: 360° Videos sind wie herkömmliche Filme zeitlich linear und ermöglichen zweitens nur eine Rotation der Blickrichtung um drei Achsen: X, Y und Z.
Auch bekannt als drei Freiheitsgrade (3DoF, three degrees of freedom). Der Hype um solche Produktionen ist bereits abgeflaut und wird in Zukunft wohl nur eine untergeordnete Rolle spielen – auch wenn die Flut von Tools und Plug-Ins einen Bedarf suggeriert, der auf dem Markt kaum noch vorhanden ist.
VR Anwendungen im eigentlichen Sinne sollten als interaktives Erlebnis betrachtet werden, und haben mehr mit Computerspielen als mit Filmproduktionen gemeinsam. Hier kommt man an Game-Engines wie Unity oder Unreal und Middlewares wie Fmod oder Wwise nicht vorbei. Das setzt Programmierkenntnisse und ein gewisses Umdenken in der Audioproduktion voraus.
In dieser Interaktivität, die zeitlich nicht linear verlaufen muss, steckt aber das wahre Potential von VR. Darüber hinaus bekommt 3D Audio eine weitere Komponente, da zusätzlich zu der Achsen-Rotation auch die Transformation anhand der drei Raumachsen hinzu kommt. So können sich NutzerInnen also nicht nur von einem fixen Standpunkt aus drehen, also Umsehen, sondern sich auch frei im Raum fortbewegen. Somit werden drei weitere Freiheitsgrade ergänzt und werden damit auch als Erlebnisse mit 6DoF (six degrees of freedom) bezeichnet.
Somit gibt es nicht mehr die eine optimale Abhörposition, wie sie bei Audio Mischungen als Grundlage genommen wird. Viel mehr muss dabei berücksichtigt werden, dass der Standort der Wiedergabe überall im virtuellen Raum sein kann. Damit ergeben sich unfassbar viele Anwendungsmöglichkeiten, den Ton neu zu denken. Da dieser Beitrag dem nicht gerecht werden kann, will ich mich nun in Sachen immersive Film Sound auf den Bereich 360VR konzentrieren.
Zurück zur Welt der kugelförmigen Videos. Wie sollte es anders sein, ist hier nicht nur das Bild eine runde Sache, sondern auch der Ton. Als Quasi-Standard hat sich für 360° Videos das Format Ambisonics etabliert und wird unter anderem seit 2016 von YouTube und Facebook offiziell unterstützt. Hinzu kommt noch eine Head-Locked Stereo Spur, die sich im Gegensatz zum Ambisonics-Schallfeld bei einer Kopfbewegung nicht verändert.
Dieser zusätzliche, optionale Audiostream, wird vorzugsweise für Voice-Overs oder Musik verwendet. Das, um Audioinhalte zu erzählen, die sich nicht im virtuellen Raum befinden. Damit verschwimmen die Grenzen zwischen diegetischen und nicht-diegetischen Inhalten. Es gibt damit noch viel Diskussionsbedarf, die NutzerInnen nicht mit Sprache und Musik zu verwirren, die sich visuell nicht in einer 360° Szene widerspiegeln, sondern mit einem gezieltem Soundtrack das Storytelling zu unterstützen.
Ambisonics wird in der Tonszene gerne schlecht geredet, da es gewiss Nachteile etwa der Lokalisation mit sich bringt, die auch höhere Ordnungen nur bedingt lösen. Dennoch hat es aufgrund der Praktikabilität und in Kombination mit objekt-basiertem Audio in Form von Mono-Quellen hier absolut seine Daseinsberechtigung. Da es hier aber vor allem um den inhaltlichen Anteil und weniger um die sich ständig entwickelnde Technik dahinter gehen soll, nun weiter im Text:
Für TonmeisterInnen bedeutet das Mischen von 360° Videos, sich vom „Center-Channel“ zu verabschieden. Es gibt keine fixe Blickrichtung mehr und der oder die NutzerIn entscheidet nun, wo das Interesse hinfällt. Das verlangt für FilmemacherInnen eine große Umstellung in fast allen Departments. Daher ist dieser Bereich aktuell meist mit Leuten besetzt, die das crossmediale Arbeiten verstehen und auch Erfahrung mit Videospiel-Produktionen haben. Und dennoch wird hier nicht der Soundtrack nur dazu genutzt, das Bild zu vertonen. Ich gehe gerne soweit und behaupte, dass immersive Film Sound sogar mehr als 50% der Experience in VR ist. Denn wir können in VR Dinge zwar übersehen aber nicht überhören.
Zum Beispiel: Kommt jemand von hinten links durch die Tür, können wir etwa ein paar Sekunden früher schon Schrittgeräusche einfügen. Damit wird der Zuschauer subtil in die Blickrichtung gelenkt und verpasst nicht den Moment, wenn der neue Protagonist den Raum betritt. Hört man aber im Kino hinten links Schritte, so beeinflusst es zwar die Erzählweise, aber motiviert nur im Extremfall das Publikum auch den Kopf von der Leinwand wegzudrehen, was meist nicht gewünscht ist. In VR möchte man aber genau diese physische Kopfdrehung erreichen, um mit intuitiven Mitteln den Blick und damit den Bildausschnitt zu beeinflussen.
Die meisten Anwendungen mit 3D Audio nehmen sich gerne zum Ziel, die Wiedergabe möglichst realitätsnah zu gestalten. Das mag für manche Anwendungen die Maxime sein, wir als Filmtonschaffende wissen aber: Die Realität klingt meist ziemlich enttäuschend. Der Begriff „larger than life“ trifft aber auch im 3D Raum zu: Es geht nicht darum, die Realität abzubilden, sondern eine glaubwürdige Klangkulisse zu schaffen, die vor allem das Storytelling unterstützt.
Nun das etwas kompliziertere Stichwort: Der Mehrwert. Es ist aber gar nicht so einfach, einen 3D-Mix auch wirklich besser klingen zu lassen, als einen Stereo-Mix im Vergleich, wie folgendes Beispiel zeigen soll: Dolby Atmos Music und Sony 360 Reality. Hier wurden über 1000 bekannte Songs neu in 3D gemischt und auf Streaming-Anbietern wie Amazon Music oder Tidal angeboten. Produziert in Major Studios, also eine echt große Sache und Riesenchance, KonsumentInnen für 3D Audio zu begeistern.
Mehrere Hörproben und stundenlange 5.1.4 Listening-Sessions ließen eine handvoll TonmeisterInnen und mich aber recht entgeistert mit dem Résumé zurück: die meisten 3D-Mischungen klingen im Vergleich zur jeweilig originalen Stereo-Mischung nicht unbedingt besser. Ob Auro 3D das vor den Streaming Services besser gemacht hat? Wohl kaum, denn das alles hat weniger mit irgendeinem Lautsprecher Setup zu tun. Eher mit der Fähigkeit der Sound Designer die sich schon seit Jahren wie ich damit befassen.
Es soll hier nicht pauschalisiert werden, da es auch sehr schön gemachte Mischungen gibt, aber meistens hatte man das Gefühl, als wäre der ganze Druck abhanden gekommen, zu Gunsten von Räumlichkeit, die den meisten Produktionen nicht unbedingt gut tut. Wer den Selbstversuch machen will: Hier sind alle Streaming-Anbieter und Formate aufgelistet, die aktuell eine 3D Audio Wiedergabe ermöglichen.
Die möglichen Ursachen sprengen den Artikel hier, seien aber mit Zeitdruck, ungewohnten neuen Tools, Stereo-Stems statt Einzelspuren und object-based mastering kurz angerissen.
Bedeutet das, dass 3D Musik keinen großen Stellenwert in Zukunft haben wird? Natürlich nicht! Daher möchte ich ein anderes Extrembeispiel nennen, das Unsereiner gerne belächelt, aber trotzdem hoffen lässt: 8D Audio. Für mehr Details am besten die Suchmaschine seines Vertrauens fragen, aber die Kurzfassung lautet: Jemand kam auf die Idee, einen Song durch einen Spatializer zu jagen und endlos um den Kopf kreisen zu lassen. Klingt absurd und das ist es für unsere geschulten Ohren auch.
Und trotzdem: Hier wurden Millionen von Menschen mit 3D Audio Inhalten erreicht und die Klickzahlen sind im neunstelligen Bereich. Das zeigt, wie gut es sein kann, mal unkonventionell zu denken und Dinge zu tun, gegen die man sich unter Umständen sträubt. Etwas, was Dolby Atmos Music bis heute nicht erreicht hat.
Man darf dabei nämlich nicht vergessen, für wen und warum wir eigentlich etwas mischen. Wollen wir eine 3D Mischung, die man seinen KollegeInnen guten Gewissens zeigen kann (hier wäre wohl Dolby Atmos die Wahl), oder den Konsumenten erreichen (8D Audio zeigt, dass es geht). Die Wahrheit liegt wohl irgendwo dazwischen, es wird also Zeit, das Potential aus beiden Welten zu nutzen und den Mehrwert von 3D Audio zu finden.
Unsere Ohren haben hier übrigens unerwartete Verbündete: Unsere Augen. Als Menschen fällt es uns wesentlich leichter, das Gehörte zu interpretieren, wenn wir es auch sehen. Auch im 3D Audio Kontext plädiere ich dafür, nicht den Ton dem Bild oder umgekehrt das Bild dem Ton unterzuordnen, sondern eine Symbiose zu schaffen, die für immersive Audio anders angegangen werden muss, als wir es vom klassischen Film Sound gewohnt sind.
Es ist schön, wenn man eine immersive Mischung für einen Kinofilm hat. Doch würde diese nur als Stereo vorliegen, würde die Erzählung wahrscheinlich genau so gut funktionieren und nur das physische Immersions-Erlebnis darunter leiden.
Das ist auch gar nicht weiter schlimm, doch wird es schwierig, so ZuschauerInnen für 3D Audio auch wirklich zu begeistern. Dennoch wagt ihr Netflix mit seinem Spatial Audio einen Schritt nach vorne und hat mit Sennheiser einen Algorithmus entwickelt. Dieser ermöglicht es ausgewählten Filmen über Kopfhörer (binaural) und Lautsprecher (transaural) räumlicher zu klingen.
Aber es geht noch besser als Filme künstlich mehr nach Surround klingen zu lassen. Hier kommt das nächste Hype-Wort ins Spiel: immersives Storytelling. Komplexes Thema, aber das Prinzip ist einfach: Es gilt eine Anwendung zu finden, bei dem räumlicher Ton einen Mehrwert hat, der über die reine Vertonung hinausgeht.
Damit sind nun wir als TonmeisterInnen gefragt. Und das schon weit bevor es ans Set oder in die Postproduktion geht. So muss der Tonposten mit der bloßen Aufnahme und Mischung erweitert werden und auch in gewisser Weise als Regiedepartment und Projektmanagement auftreten, um überhaupt Einfluss auf die Produktion nehmen zu können.
Vielleicht sind linear erzählte Filme auch nicht das beste Medium, um mit immersive Audio Vertonungen zu experimentieren. Es lohnt sich aber, den Spieß umzudrehen und über den Filmbereich hinaus zu überlegen, in welchen Branchen und Anwendungen ungeahntes Potential steckt. Getreu dem Motto “Sound First”.
Bei all dem immersiven Trubel darf man aber nicht den Blick für das große Thema immersive Film Sound verlieren. Schon jetzt schlagen die nächsten Hype-Themen auf: Künstliche Intelligenz, Blockchain, Voice Assistants, smart speakers etc. Was erstmal nach Buzzwords klingen, die fern von unserer Filmton-Welt liegen, handelt es sich eigentlich um ganz heiße Eisen, die man sich als TonmeisterIn mal genau anschauen sollte.
Klingt etwas abstrakt, aber das Wunderbare am Ton ist, dass es sich um eine Querschnittstechnologie handelt, mit dem man quasi bei jedem anderen Thema andocken kann – und das geht weit über immersives Audio hinaus. Nun heißt es also, selber MacherIn zu werden, seine Komfortzone zu verlassen und in ungeahntes Audio-Terrain vorzustoßen. Denn es liegt in unserer Hand, Zukunftsmusik zu gestalten und diese hat mehr als nur drei Dimensionen.
Danke an die LektorInnen kurz vor Weihnachten: Philipp Eibl, Regina Bäck, Alexander Rubin, Felix Andriessens, Jörg Elsner, Mathis Nitschke
Kontakt aufnehmenVerwandte Blogartikel
Spotify 3D Audio: 3D Musik Hören auf Abruf – Streaming Dienste im Überblick
Die große 3D Audio Content Übersicht - inspirierende Demo Inhalte
3D Audio Wiki: Ein Aufruf an die Community fürs Glossar
"Immersive Audio" ist mehr als nur "3D Musik" - Tauche ein!
Immersive Sound: Audio Immersion - Berufsbild für XR immersive Spatial 3D Sound