Inhalt
Das Coronavirus betrifft aktuell jeden in irgendeiner Art und Weise. Das Spannende daran ist, wie unterschiedlich das Ausmaß sein kann: In der VR-Szene ist dadurch mehr Bewegung hereingekommen, und es gibt Anwendungen, die vom Lockdown durch Covid-19 tatsächlich profitieren. Eine solche Anwendung ist das virtuelle Event, das besonders durch die Tonübertragung profitiert.
Auch wenn ich als Berater schon einige Plattformen mit den Buchstaben „VR“ unter die Lupe nehmen konnte, sollen die Anbieter heute nicht das Thema sein. Vielmehr möchte ich zeigen, welches versteckte Potential immersives Audio solchen “virtual Events” verleihen kann und wo es noch an Lösungen bedarf.
Schon mal aufgefallen: Ein Skype- oder Zoom-Meeting beginnt meist nicht mit einem “Hallo”. Stattdessen begrüßt man sich eher mit einem: “Kann man mich hören?!”. Dieses Phänomen ist in VR ähnlich, nur um einiges komplexer: Dadurch, dass man sich in einem virtuellen Raum aufhält, muss beim Ton auch räumlich gedacht werden. Hier spielt der Raumklang eine entscheidende Rolle.
Bei Veranstaltungen in der Realität reichen einige Meter Entfernung aus, um sicherzugehen, dass niemand ungewollt mithört. Ein großer Faktor, der dabei hilft, das Gefühl für Präsenz zu vermitteln, sind Hallräume. Man stelle sich ein Treppenhaus vor, in dem man gerade eine Unterhaltung führt. In der Realität hallen die eigene Stimme und die des Gesprächspartners durch sämtliche Stockwerke. Dadurch weiß unser Gehirn direkt, wie laut wir sprechen müssen und wer uns wahrscheinlich hören kann.
In der Realität hören wir unsere Stimme also zweimal. Ein Teil wird durch den Raum abgegeben, reflektiert und von unserem Ohr wahrgenommen. Und ein Teil wird direkt vom Sprachorgan ohne Umwege als Knochenschall übertragen. Das führt übrigens auch dazu, dass die eigene Stimme auf Aufnahmen für uns so ungewohnt klingt – wir hören uns eben anders.
In VR fällt jedoch der erste Punkt weg, da die Stimme nicht im Raum reflektiert wird. Es ist jedoch möglich, diese Funktion zu implementieren, was allerdings durchaus rechenintensiv ist und etwa bei Games recht komplex umgesetzt wird. Hier könnte die Integration von stereo audio oder sogar einer erweiterten Technik wie der Head-Related Transfer Function (HRTF) zu einem verbesserten Klangerlebnis beitragen.
Nun wurden schon die Themen “Lokalisation”, “Distanz” und “Präsenz” angesprochen. Aber gerade beim letzten Punkt fehlt noch ein entscheidender Faktor: Die Aufbereitung durch Sounddesign.
Selbst wenn sich unsere Stimme – wie oben beschrieben – im virtuellen Raum durch Hall-Parameter realistisch ausbreiten kann, so denkt unser Gehirn immer noch, wir seien in einem leeren, abstrakten Raum. Hören wir Hall auf unserer Stimme, wissen wir immer noch nicht so recht, ob wir uns etwa in einem Bahnhof, Konzertsaal oder Restaurant befinden. Erst wenn wir eine Grundatmosphäre hören, wie etwa klirrendes Besteck, kann unser Gehirn den Ort korrekt einordnen.
Die Herausforderung ist somit Folgende: Guter Ton darf nicht fehlen, aber auch nicht auffallen. Einige Plattformen für das virtuelle Event nutzen Audio-Objekte, um etwa Vogelgezwitscher (draußen) oder Raumtöne (innen) zu erzeugen. Das ist jedoch nicht die optimalste Herangehensweise, da der Ton somit gut lokalisierbar ist und unnötige Aufmerksamkeit erzeugt. Mehrkanalige Audioformate bieten hierfür bessere Möglichkeiten, um solchen Räumen Leben einzuhauchen.
Kommen wir noch kurz zu den “Hard Sound Effects”, also Tönen, die bei Interaktionen ausgelöst werden. Ein gutes Beispiel hierfür sind Schritte, denn das sind fast die einzigen Geräusche, die wir von uns geben, wenn wir uns bewegen. Wird dies akustisch in VR nicht umgesetzt, kann es schnell passieren, dass eine Person plötzlich und unerwartet neben einem steht, da man nicht hören konnte, wie sie sich angenähert hat.
In der Realität nehmen wir andere Menschen meist unbewusst wahr. Wenn sie hinter uns stehen, können wir sie zwar nicht sehen, aber hören. Damit erschrecken wir auch nur, wenn sich jemand anschleicht – die Ohren haben einfach nicht vorwarnen können.
Sprache ist ein wichtiges Medium zur Kommunikation bei Virtual-Event-Plattformen. Trotzdem klingen die Stimmen der Gesprächspartner meist etwas wie “über das gute alte Telefon”. Der Grund hierfür ist Datenreduktion. Hörversuche und psychoakustische Analysen haben ergeben, dass wir nicht alle Frequenzen hören müssen, um Sprachinhalt interpretieren zu können. Bei Social-VR bedeutet dies, dass alle Stimmen eher elektronisch und blechern klingen. Der Toningenieur würde auch von einem “Bit-Crusher-Effekt” sprechen. Letztendlich wird nämlich genau das gemacht: die Anzahl der Bits zerkleinert.
Dabei klingen die eingebauten Mikrofone von VR-Brillen wie der “Oculus Quest” oder “Oculus Go” mit Head Tracking gar nicht so schlecht. Doch die Priorität liegt auf der Audio-Übertragung in Echtzeit – damit müssen die Datenpakete möglichst klein gehalten werden, um weiterhin verständlich und lückenlos übertragen zu werden.
Aktuell werden aber bereits die ersten Audio-Codecs speziell für Virtual-Event-Software entwickelt. So kann man auf der Plattform des Anbieters “High Fidelity” auch bei vielen Menschen in einem Raum nur über das Gehör seine Freunde finden. “TivoliCloud-VR” hat den Codec bereits lizenziert. Hier passiert momentan im Backend der Tools also einiges.
In der Welt der Mixed Reality und VR-Events spielt räumlicher Ton eine entscheidende Rolle, um ein immersives Klangerlebnis zu schaffen. Durch die Nutzung von Stereo Audio und Sounddesign lassen sich realistische Geräusche und Raumklang erzeugen, die den Nutzern ein Gefühl von Präsenz vermitteln. Stereolautsprecher und Stereokopfhörer tragen dazu bei, dass die Töne präzise in der virtuellen Realität positioniert werden.
Die Integration von Head Tracking und fortschrittlichen Audio-Formaten wie der Head Related Transfer Function (HRTF) ermöglicht es, den Ton dynamisch an die Position des Nutzers anzupassen, wodurch die Interaktionen noch realistischer wirken.
Dabei aber bitte unbedingt eine Audio-Etikette beachten: Jeder Beteiligte sollte unbedingt Kopfhörer tragen, damit möglichst kein Übersprechen der Audiowiedergabe auf das eigene Mikrofon stattfindet!
Wenn der Ton nämlich über Lautsprecher ausgegeben wird, geht er direkt wieder ins Mikro. Damit hören sich Gesprächspartner mit leichtem Zeitversatz und eine recht unangenehme Rückkopplung entsteht. Man kennt es aus der virtuellen Telefonie mit Skype oder Zoom. Das Ganze ist technisch mit Noise Reduction lösbar, aber am besten diese Hürde gar nicht erst entstehen lassen. 😉
Lies mehr über die Vorteile