Inhalt
Spatial audio? Schon gehört? Die Chancen stehen gut, dass man da schon einmal darüber gestolpert ist. Manche kennen es aus dem Gaming, manche von Filmen oder VR. Tatsächlich ploppt ein Hinweis auf das Thema gerade von allen Richtungen auf – zu Recht, wie ich finde!
Ich, das ist Martin Rieger, auch bekannt als VRTonung (vrtonung.de), einer der wohl größten Enthusiasten auf diesem Gebiet. Jemand, der sich vor Jahren schon gesagt hat “das Thema ist so krass, ich will nichts mehr anderes machen”. Dennoch ist das Thema so neu und es schwirren viele Mythen um diese Technologie.
Da fallen schnell die tollsten Marketingbegriffe – “Immersives Audio”, “Dolby Atmos”, “3D, 360°”, “8D Sound” oder “die Musikrevolution” etc. Man will ja schließlich neue Software oder Hardware verkaufen. Doch wir machen heute einen Deep Dive, schauen uns den Ton aus allen Blickrichtungen an und wissen danach die wichtigsten Grundlagen, um uns dann im nächsten Artikel anzuschauen und anzuhören, wo diese nur Spielerei ist oder wirklich Sinn macht. Doch gehen wir einmal drei Schritte zurück.
Das Prinzip ist simpel. Spatial audio beschreibt ein Wiedergabeverfahren, das es ermöglich, Sound nicht nur von vorne links und rechts (wie bei Stereo) oder von hinten (wie bei Surround-Sound), sondern eben auch über oder unter sich hörbar zu machen. Ihn vor dem inneren Auge sichtbar zu machen.
Wieso soll das jetzt ein Game-Changer sein? Naja, wir Menschen hören immer dreidimensional. Wir wissen, wie es klingt, wenn jemand hinter uns steht und mit uns spricht. Wir müssen die Person dafür nicht sehen. Und nun ist es technisch möglich, diesen natürlichen Klangeindruck auch künstlich nachzubilden.
In diesem Zusammenhang spricht man auch gern von “immersives Audio”. Ein einhüllender Sound, der so natürlich ist, dass wir Menschen uns in dieser digitalen Realität echt wohl fühlen. Wir quasi in die künstliche Welt eintauchen und alles um uns vergessen (und bisschen wie die Immersion bei VR-Brillen, nur eben auf den Ton bezogen). Idealerweise werden aber alle Sinne in die Immersion mit einbezogen. Wie wir aber wissen, kommt man mit guter Bildqualität & Ton bei den meisten Medien schon sehr weit.
Doch wenn man so möchte, kann selbst Stereo oder sogar Mono “immersiv” sein, wenn der Inhalt gut gemacht ist. In der Disco lassen sich Menschen trotzdem in den Bann der Musik ziehen – auch wenn sie nicht mehr als zwei Audiokanäle hat. Daher sage ich am liebsten „3D audio“, da es irgendwie impliziert, eine Technik zur Verfügung steh, die man irgendwie um sich herum hören kann.
Apple macht es auch so, im Englischen nennen sie es „Spatial Audio“. Das wird hier wiederum gerne als „Raumklang“ zurückübersetzt. Aber man merkt schon, so ganz einig ist man sich da noch nicht, also mal schauen, was man in ein paar Jahren dazu sagt.
Einer der Gründe, warum diese Technik erst so langsam Mainstream wird, ist, dass es dann leider doch manchmal recht schwierig sein kann, überhaupt in den Genuss des 3D Klangs kommen zu können. Dafür gibt es zwei Möglichkeiten. Die eine hat sich bis heute nie so wirklich durchgesetzt (Lautsprecher). Die andere besitzt jeder: Kopfhörer.
Zunächst die Lautsprecher. Ganz ehrlich, nicht einmal 5.1 Surround hat sich wirklich bis ins heimische Wohnzimmer durchgesetzt. Wie der Name sagt bräuchte man dafür insgesamt fünf Lautsprecher, die man vor Links, Mitte und Rechts, sowie hinten Links und Rechts platziert. Hinzu kommt ein sechster Lautsprecher in Form eines Subwoofers, auch LFE genannt, damit man z.B. Explosionen im Film nicht nur hört, sondern auch spürt.
Klingt alles irgendwie unpraktisch – ist es auch. Von den Lautsprechern, für die man nicht nur den Platz braucht, muss man auch Kabel querfeldein ziehen und sollte einen Raum haben, der zumindest ein bisschen akustisch angepasst wurde. Für 3D audio braucht man sogar noch mehr Lautsprecher. Hier wird gerade 7.1.4 zum Quasi-Standard für Tonstudios. Richtig gelesen, man zimmert sich gerade mindestens 12 Lautsprecher ins Studio an die Wand oder Decke.
Für Konsumenten alles nicht so ganz zumutbar, doch hier gibt es schon Abhilfe in Form von Soundbars. Diese länglichen Lautsprecher stellt man meist einfach unter oder vor den Fernseher, hier ist meist genug Platz. Doch dieser Platz wird maximal effizient genutzt, denn in diesen Lautsprecher sind eigentlich mehrere Lautsprecher verbaut. Ein paar zeigen nach vorn – wo sich im durchschnittlichen Wohnzimmer die Couch befindet. Doch manche der Lautsprecher feuern an zur Seite – oder sogar nach oben.
Hä, also an uns vorbei? Richtig, doch das Ziel sind eigentlich eure Wände oder Decke, dort wird der Schall reflektiert und wir die Leute, die auf der Couch einen Film gucken, klingt es dann so, als hätte man tatsächlich Lautsprecher an der Decke hängen, oder seitlich von einem. Das Gerät misst sich und euren Raum bei der Inbetriebnahme mit sämtlichen Audio Einstellungen ein. So weiß es ungefähr, wo sich eure Wände befinden und eliminiert gleichzeitig noch die sogenannten Raummoden, also Frequenzen, bei denen euer Raum dumpf klingen könnte. Man spricht hier auch gerne von Beamforming oder virtuellen Lautsprechern.
Was noch nicht so gut funktioniert ist das „von hinten“, weil man hier den Sound zweimal über die Bande spielen muss. Daher wird das Paket ganz gerne mit zwei zusätzlichen Lautsprechern verkauft und noch einem Subwoofer für die Bass-Liebhaber. Jetzt muss man nur noch drauf achten, wie viele Lautsprecher in der Soundbar verbaut sind, etwa 5.1.2 oder sogar 9.1.6. Tatsächlich kann man hier sagen: Viel hilft viel, je mehr desto besser. Wenn dann auch noch Dolby Atmos draufsteht, stehen die Chancen gut, dass man das Gerät per HDMI direkt an seinen Smart-TV anschließen kann und sich das Kinofeeling über Streaming Dienste nach Hause holen kann. Aber nicht die TV Lautsprecher als Unterstützung nutzen, sondern das Heimkinosystem durch die Soundbar Funktion arbeiten lassen.
Netflix hat kürzlich eine Partnerschaft mit Sennheisers Ambeo angekündigt, um das Streaming-Erlebnis für alle Kunden zugänglich zu machen, ein räumliches Klangerlebnis auch ohne spezielle Hardware erleben wollen. Mit der Integration von Netflix Spatial Audio können verschiedene Titel nun noch immersiver genossen werden, egal ob Filme oder Serien.
Mit einem eigens entwickelten Verarbeitungsalgorithmus wird die Dialogintegrität aufrechterhalten und dem Surround-Sound ein Gefühl von Räumlichkeit hinzugefügt, ohne künstliche Hall- oder Raumklänge. Netflix hat diese Option über zwei Jahre getestet und von den Toningenieuren für den Streaming-Katalog genehmigt. Es ist wirklich aufregend zu sehen, wie die Zukunft des Streaming-Erlebnisses aussieht – und das alles dank der Netflix App.
Wenn Sie sich die aktuell verfügbaren Film Titeln mit 3D Audio ansehen möchten, suchen Sie einfach auf Netflix nach „Spatial Audio“ und tauchen Sie ein in eine neue Ära des Streamings! Man benötigt keine extra Einstellung, sondern muss nur im Browser die richtige Serie einstellen und kann ihn mit der Lieblings Lautstärke genießen
Diese Homepods nutzen oft ein ähnliches Prinzip. Sie verstehen, wo sie sich im Raum befinden und versuchen diese Situation so gut wie möglich zu nutzen. Dennoch ist die Nutzung meist eine ganz andere. Während Soundbars meist unter dem Fernseher für Film genutzt werden, stehen Smartspeaker meist im Raum und eignen sich am besten für die Musik- oder Podcast-Wiedergabe.
Die Interaktion ist meistens eine andere. Meist ist ein Sprachassistent integriert, den man munter seine Wünsche sagt. In der Hoffnung, dass er oder sie versteht, was man möchte. In der Realität klappt das nicht perfekt, aber es kann schon einfacher sein, als auf seinem Smartphone händisch zum gewünschten Audio-Inhalt zu navigieren. Doch. Wir alle kennen den Hype um ChatGPT, somit bleibt zu hoffen, dass die Smartspeaker sich nun auch wirklich „smart“ nennen dürfen.
Aber zurück zum Thema surround sound: Ich durfte eine Bachelorarbeit betreuen, wo mein Student mal herausfinden wollte, wieso in einem Smartspeaker eigentlich mehrere Lautsprecher verbaut sind. Einfach gesagt will das Gerät größer klingen lassen, als es ist. Und tatsächlich, mit den richtigen 3D audio Inhalten, klingt die Box nicht mehr, wie sie aussieht. Klar kommt der Ton immer noch tendenziell aus einer Richtung, aber bei der nächsten Generationen kann man mehrere Geräte miteinander koppeln und sich noch besser mit Sound einhüllen lassen.
Ich bin ja eher der Kopfhörer-Typ. Aus dem einfachen Grund, dass gefühlt jeder Mensch ein paar Kopfhörer hat – wahrscheinlich sogar mehrere. Viele denken, dass man spezielle Kopfhörer braucht, um spatial audio hören, aber das stimmt nicht. Die zeigen die späteren Hörbeispiele und wie unser räumliches Hören funktioniert.
Das heißt, es ist schon eine riesige Infrastruktur vorhanden, um 3D Audio Content wiedergeben zu können. Die einzige Voraussetzung ist eben, dass besagte Inhalte binaural vorliegen müssen (wie das geht, kommt gleich). Oder dass die Inhalte vom Wiedergabegerät in Echtzeit auf zwei Kanäle umgewandelt werden (wie bei Dolby Atmos). Das Problem ist leider, dass oft wo spatial audio draufsteht, wo nicht wirklich spatial audio drin ist. 3D audio ist kein Qualitätssiegel und wird gerne als Marketing-Label instrumentalisiert. Selbst Dolby Atmos heißt nicht gleich „das klingt super“. Es gibt einfach manche Inhalte, die besser oder schlechter in 3D funktionieren. Ein bisschen wie bei 3D Filmen: macht bei Action schon Spaß, aber bei ruhigeren Genres macht es nicht immer Sinn.
Ich empfehle für den Hörgenuss Over-Ear Kopfhörer. Einfach weil der Ton dann möglichst weit weg vom Trommelfell erzeugt wird. Erfahrungsgemäß funktioniert das etwas besser, als wenn der Sound wie bei Earbuds im Trommelfell entsteht und damit wenig Strecke durch unseren Hörapparat zurücklegen muss. Als Tonmeister bin ich Fan von Kopfhörern mit einem linearen Frequenzgang, diese verfälschen den Audioinhalt am wenigsten. Aber wie gesagt, man hat eigentlich kein besonderes Modell.
Naja, außer man will das gewisse Etwas. Und das ist in diesem Fall Head-Tracking. Das bedeutet, in der Hardware sind Beschleunigungs-Sensoren verbaut, die in Echtzeit erkennen, wohin man schaut. Bewegt man seinen Kopf, rotiert das spatial audio Klangfeld entsprechend. Die Technologie wird jetzt schon in alle Apple Kopfhörer eingebaut und die Konkurrenz ist schon nachgezogen. Aber was hört man dann? Diese Frage wird ausführlich im nächsten Artikel beantwortet. Tatsächlich wissen das die Hersteller meist selber nicht. Das ist auch gar nicht so schlimm, weil sie jetzt schon eine Hardware Infrastruktur gebaut haben, die Software-seitig mit spannenden Anwendungen oder Inhalten im Nachhinein immer noch angepasst werden kann.
Das räumliche Hören ist faszinierend und lässt uns die Welt um uns herum in 3D erleben. Aber wie können wir das mit nur zwei Ohren schaffen? Es ist alles eine Frage von Timing und Intensität. Unsere Ohren hören die Schallwellen aus der Umgebung auf unterschiedliche Weise, je nachdem, woher sie kommen. Das Gehirn verarbeitet diese Unterschiede und schafft so eine räumliche Karte, die uns sagt, woher ein Sound kommt. Es ist ein unglaublich komplexer Prozess und dennoch schaffen wir es mühelos und ohne es zu bemerken. Dabei spielen drei Faktoren die größte Rolle, wie unser Gehirn aus dem Vergleich zwischen linken und rechtem Ohr Höchstleistung verbringt.
Klingt alles etwas abstrakt, daher ein kleines Beispiel. Stellen wir uns vor, wir stehen an einer Straße und hören von rechts ein Auto hupen. Dann erreicht der Schall zuerst das rechte Ohr, bevor es das link Ohr erreicht (ITD). Das rechte Ohr ist ja schließlich näher am Auto, auch wenn es nur 17-20 Zentimeter sind. Außerdem ist der Ton auf dem rechten Ohr auch lauter als links, weil der Kopf das Schallereignis wie eine kleine Mauer abschattet. Und zu guter Letzt hat das Hupen auf beiden einen anderen Frequenzgang, was an der Form unserer Ohrmuschel liegt. Während rechts der Sound recht einfach in den Gehörgang eindringen kann, wird links der Schall um unseren Kopf gebrochen und durch die Ohrmuschel eingefangen. Dabei verändern sich die Frequenzen.
Das, was unser Gehirn also unser Leben lang in Echtzeit macht, versuchen Software Algorithmen nun nachempfinden. Die Tools fragen sich also immer: Ich habe so-und-so viele 3D Objekte in meinem virtuellen Raum – wie würde das jetzt für zwei menschliche Ohren klingen. Diesen Vorgang nennt man auch Binauralisierung. So schafft man es, mit nur zwei Ohren 3D audio zu hören – selbst auf handelsüblichen Kopfhörern.
So das einfache Prinzip, aber wie man sich vorstellen kann, sind diese Algorithmen nicht nur CPU-hungrig, sondern auch nur näherungsweise korrekt. So hat jeder Mensch eine andere Ohrform und Kopfgröße, weswegen bei der Berechnung meist nur mit durchschnittlichen Zahlen gerendert wird. Wenn der Renderer aber weiß, wie die eigenen Ohren aussehen, kann das angepasst werden. Personalisierte HRTF wird das genannt und tatsächlich hat Apple als einer der Ersten Das Erlebnis salonfähig gemacht, Bilder von den eigenen Ohren zu machen. Daraus wird ein 3D Modell zur Verfügung gestellt, das den Schall genauso bricht, wie es für jeden einzelnen Menschen individuell passiert.
Gehen wir etwas weg von der Technik, hin zur Wahrnehmung. Was spatial audio über Kopfhörer erzeugen will, ist eben der Eindruck, dass der Sound um uns herum passiert und wir quasi im Mittelpunkt des Geschehens sind. Aber ist das nicht immer so?
Nicht ganz, denn ich nenne euch nun ein Problem, von dem ihr nicht wusstet, dass es ein Problem ist. Wenn man über Kopfhörer z.B. einen Podcast hört, also ein Mono-Signal, passiert auf dem Kopfhörer folgendes. Das Signal wird auf dem linken und rechten Kanal gleichzeitig ausgegeben. Das hat zur Folge, dass der Schall am Trommelfell gleichzeitig ankommt. Damit ist der Pegel-, Zeit- und Frequenzunterschied gleich 0. Womit unser Gehirn zur logischen Schlussfolgerung kommt: Der Ton muss in unserem Kopf sein. Tatsächlich nennt sich das dann auch Im-Kopf-Lokalisation.
Im Kopf was?! Klingt abstrakt, daher einfach folgendes Video gucken und Kopfhörer aufsetzen: 3D Audio Demonstration. Mono wird also über Kopfhörer immer in der Mitte unseres Kopfes wahrgenommen. Selbst wenn man mit Stereo arbeitet, kann man die Schallquelle eben nur nach links oder rechts drehen, womit unser Hirn aber immer noch weiß, dass der Ton vom Kopfhörer kommt. Es gibt Mikrofon-verfahren wie das ORTF, das sich, wie ein Kunstkopf, einen Abstand zwei Mikrofone zu Nutze macht. Damit kann schon eine gewisse Räumlichkeit über Stereo erreicht werden.
Aber erst wenn die drei Parameter des räumlichen Hörens erfüllt sind, entsteht wirklich das Gefühl, dass der Ton „von außen“ kommt. Ich sage auch ganz gerne, dass es sich so anfühlt, als würde man gar keine Kopfhörer tragen. Mir ist es schon des Öfteren passiert, dass ich 3D Inhalte über Kopfhörer gehört habe, aber dachte, der Ton komme von meinem Lautsprechern und die Kopfhörer wieder absetzen wollte. Womit ich in einem stillen Tonstudio saß und merke: Die Lautsprecher waren gar nicht an und die Kopfhörer haben mich ausgetrickst. Das ist die Magie von 3D audio.
Dafür gibt es zwei Möglichkeiten: Den Ton schon dreidimensional mit speziellen Mikrofonen aufnehmen, also der richtigen Hardware. Oder man nimmt bereits existierende Mono-Aufnahmen und fügt ihnen künstlich eine gewisse Räumlichkeit hinzu.
3D Sound aufzunehmen ist übrigens nichts Neues. Der eine oder andere kennt bestimmt Kunstkopfaufnahmen. Diese werden mit einem Mikrofon erzeugt, dass dem menschlichen Hörapparat nachempfunden wurden und tatsächlich Ohren besitzt. Also wie eine Schaufensterpuppe mit einem Mikrofon in jedem Ohr. Das Paradebeispiel, wie so ein Mikrofon kreativ genutzt werden kann, ist der Virtual Barbershop. Doch auch ASMR nutzen gerne ein ähnliches Exemplar und bekommen damit Millionen von Views: is.gd/virtual_barbershop
Leider hat so ein Kunstkopf eine großen Nachteil: Was auf Kopfhörern super funktioniert, klappt bei einer Wiedergabe auf Lautsprechern überhaupt nicht. Hier gerne mal selber den Vergleich machen. Um also Töne dreidimensional so aufzunehmen, dass sie auch auf Lautsprechern gut funktionieren, eignen sich andere Verfahren. Etwa wie Ambisonics oder ORTF-3D von SChopes oder das Sennheiser Ambeo VR Micro. Hier zeigen 4, 8 oder mehr Mikrofone in alle Richtungen, ein bisschen wie eine 360° Kamera, bei der mehrere Linsen eine Kugel bilden. Wer einen Überblick aktueller GEräte will, dem habe ich hier einen zusammengestellt, fein säuberlich geordnet: vrtonung.de/360-mikrofone-3d-audio-aufnahme-ueberblick
Hat man dieses Schallfeld eingefangen, kann man es im Nachhinein meist recht flexibel eben auf einem 1, 2, 4 oder 8 Lautsprechern wiedergeben, die um einen herum platziert sind. Doch man erahnt schon, dass das etwas unhandlich ist. Und was ist, wenn ich Szenen erstellen will, zu denen ich nicht mal eben so ein Mikrofon-Array schleppen kann. Oder Orte, die auf der Erde nicht einmal existieren?
Hier kommt die zweite Variante, die es ermöglicht, spatial audio Inhalte zu erstellen: Nämlich mit der passenden Software, gerne auch englisch „Spatializer“ genannt. Hier gibt es die verschiedensten Plugins, die als Input etwa ein Mono Signal nehmen und in einen künstlichen Raum platzieren, z.B. rechts hinter uns, etwas von oben kommend. So erhält der Sound auf einmal dreidimensionale Informationen. Jetzt muss die Software nur noch in Echtzeit das Signal so umwandeln, dass es über Kopfhörer eben die Illusion erzeugt, als würde es sich genau an dieser Stelle befindet. Die kostenlose IEM Suite der Grazer Hochschule könnte man dafür nutzen.
Wenn man mehrere Lautsprecher nutzen möchte, muss die Software eben wissen, was für eine Konfiguration man nutzt. Etwa 5.1, 7.1, oder 7.1.4. (sieben Lautsprecher auf der Horizontalen, ein Subwoofer, 4 Lautsprecher die von der Decke hängen). Auch hier passiert diese Berechnung und Echtzeit und schon kann man ein Mono-Objekt dreidimensional um den Kopf fliegen lassen. Die wohl bekannteste Software ist wohl Dolby Atmos. Es ist am Ende des Tages ein Panner (Der Drehregler, den man bei Stereo entweder nach links oder rechts drehen kann), nur dass man nun auch noch zwei zusätzlicher Regler hat für vorner/hinten und oben/unten.
Damit haben wir doch alles, was wir brauchen, oder? Nicht ganz. Bis jetzt haben wir einfach nur einen Sound in einem virtuellen Raum umher bewegt. Aber welcher Raum überhaupt? Das ist der Knackpunkt, weil der Einfachheit halber hier einfach von einem schalltoten Raum ausgegangen wird. Das hat aber zur Folge, dass die Kopfhörerwiedergabe nur so semi-gut funktioniert. Dolby rechnet hier etwa noch künstlich einen Studio/Kinohall drauf. Sonst hat man das Gefühl, die Schallquellen kleben einem sehr nahe im Gesicht, sind aber nicht räumlich.
Zusammenfassend lässt sich sagen, dass 3D-Audio eine innovative und aufregende Technologie ist, die es uns ermöglicht, komplexe, immersive und realistische Klangwelten zu schaffen. Ich hoffe in diesem Artikel wurden die wichtigsten Fragen geklärt, denn auf diesen Grundlagen wollen wir im nächsten Artikel aufbauen, wenn es um die Anwendungen geht.
Du hast noch Fragen? Kein Problem! Ich bin wirklich gespannt, was die Leute über das Thema schon immer mal wissen wollten. Bist du bereit, deine eigene Reise mit der 3D-Audiotechnologie zu beginnen? Bleib dran für den nächsten Artikel, in dem wir tiefer in diese faszinierende Technologie eintauchen.
Nehmen Sie Kontakt mit mir auf!