Inhalt
Wer hat anlässlich unserer globalen Gesamtsituation noch keinen Video Call geführt, keine Videokonferenz abgehalten, keinem Online Meeting beigewohnt? Oder wie auch immer man es nennen will. Innerhalb des letzten Jahres ist der Austausch über Videotelefonie aus offensichtlichen Pandemie Gründen Teil des Alltags vieler Menschen geworden.
Obwohl Skype und Co. mittlerweile so verbreitet sind, ist in der technischen Entwicklung bezüglich Audio und Klang, gefühlt recht wenig passiert. Doch natürlich gibt es schon einige Bestrebungen die großen Dienste auditiv weiterzuentwickeln. Man könnte es bereits ahnen: Der effektivste Schritt einen Video Call (auditiv) zu verbessern, ist wohl die Einführung von Spatial Audio. Der Folgende Beitrag soll die Vorteile von immersivem Audio gegenüber dem jetzigen Mono Standard bei Videokonferenzen näher bringen.
Vermutlich hat jede/r NutzerIn nicht nur einen der besagten Videotelefonie-Dienste in Verwendung. So werden die meisten schon einen Überblick über die Stärken und Schwächen der jeweiligen Anbieter haben: Manche können mehr Personen anzeigen, manche sind übersichtlicher, andere haben jene Hintergrundfunktion, usw..
Tatsache ist jedenfalls, dass die Unterschiede fast ausschließlich auf der visuellen Ebene liegen, auditiv muss man sich meist mit spärlichen Audioeinstellungen und Mono-Format begnügen.
Zoom hat bereits einen Schritt getan und bietet eine Stereo- bzw. Hi-Fi-Funktion an. Dies erleichtert aufgrund der höheren Audioqualität die Sprachverständlichkeit und bringt die Möglichkeit Musik in stereo zu streamen. Die Stereofunktion ist beispielsweise auch sehr praktisch um binaurale Audiobeispiele zu streamen, wie etwa bei entsprechenden Events wie diesem hier.
Wir sehen bei Zoom also schon einen Schritt in die richtige Richtung. Was aber der eigentliche Mehrwert von Spatial Audio in Bezug auf Video Calls ist, soll im folgenden geklärt werden.
Update immersives Erlebnis
Zoom Apps bietet jetzt neue Möglichkeiten für immersive Meeting- und Webinar-Erlebnisse. Durch die Verwendung von virtuellen Hintergründen können die Teilnehmer jetzt ihre Video-Feeds auf dynamische und personalisierte Weise anpassen. Mit der Möglichkeit, Video- und grafische Elemente miteinander zu verschmelzen, hebt Zoom Apps Meetings auf eine neue Ebene des Engagements und der Individualisierung.
Ob und wie immersive das Ganze dann ist – einfach mal ausprobieren. Aber wie man erahnen kann, steckt hier mehr Potential im Ton.
Nur einen Monat nachdem dieser Artikel erschienen ist, legt Apple auf der WWDC auch schon vor. Mit iOS 15 können Anrufe via Facetime 3D Audio nutzen. Dabei ist die Stimme aus der Richtung zu hören, wo sich auch der Bildschirm des Geräts befindet. Außerdem werden Störgeräusche noch besser herausgefiltert. Dies ist für den Raumklang besonders wichtig, da dieser möglichst isoliert sein sollte.
Ich freue mich zu verkünden, dass Spatial Audio auch auf iOS-Geräte kommen wird. Da sich in der Regel ziemlich viele Leute in einem Raum befinden (oder sagen wir: mehr als zwei), wird es einfacher sein, zwischen den Personen zu unterscheiden, die sich unterhalten. Alle kabelgebundenen und kabellosen Kopfhörer werden die 3D-Audiofunktion unterstützen. Bluetooth hat eine technische Einschränkung, aber der Effekt wird trotzdem angewendet.
Update 2022/04: In ihrem Blog post stellen sie auch fest, dass einige Leute Stereo-Input für Live-Musik verwenden. Sie sind sich bewusst, dass Stereo nicht so einfach in räumliches 3D Audio zu implementieren ist wie eine Monoquelle. Ihre Lösung besteht darin, Quellen aus den beiden Kanälen von links und rechts zu monoisieren. Auf diese Weise bleibt die Stereobreite erhalten, während nun räumliche Tiefe hinzukommt.
Dolby.io hat mit der Einführung der Spatial-Sudio-Funktion in seinen Kommunikations-APIs das Konferenzerlebnis verbessert. Diese Technologie ermöglicht es Nutzern aus der ganzen Welt, sich in einen 3D-Audio-Raum zu versetzen und so andere Teilnehmer von ihrer jeweiligen Position aus zu hören.
Entwickler können jetzt auf diese Audiofunktion zugreifen, indem sie eine neue Anwendung erstellen und das Open-Beta-Flag über das Dashboard von Dolby.io aktivieren. Darüber hinaus wird das Audioerlebnis durch das hochmoderne Audiosystem der Anwendung noch weiter verbessert, das die Benutzer beim Beitritt zu einer Konferenz um einen bestimmten Teilnehmer herum platziert. Wenn jemand spricht, leuchtet sein Kreis auf, während der Ton aus dem entsprechenden Bereich auf der Webseite kommt. Die Spatial-Audio-Funktion von Dolby.io ist ein Novum in der Konferenzbranche und setzt den Standard für zukünftige Audioerlebnisse.
Microsoft führt diesen Monat eine brandneue Audiofunktion für die Teams-Desktop-Clients ein, die Online-Meetings zu revolutionieren verspricht. Die neue Funktion namens Spatial Audio schafft eine natürliche und integrative Atmosphäre für alle Teilnehmer und ermöglicht es ihnen, sich besser auf Gespräche zu konzentrieren. Diese leistungsstarke neue Funktionalität hat die Feature-ID 107783 erhalten und wird voraussichtlich im Mai in MS Teams eingeführt werden.
Update: Microsoft Räumliches Audio jetzt für alle verfügbar
Damit Sie das Ganze auch mal hören können, benötigen Sie USB-verkabelte Stereo-Kopfhörer oder -Lautsprecher oder die integrierten Stereolautsprecher Ihres Geräts. Bitte beachten Sie, dass Bluetooth-Audiogeräte derzeit nicht unterstützt werden. Diese gehen meist in einen Telefon-Modus und erlauben nur eine datenreduzierte Mono-Wiedergabe.
Um räumliches Audio zu aktivieren, sollten Teams-Besprechungen mehr als zwei Teilnehmer in der Katalogansicht haben. Es ist wichtig zu wissen, dass das räumliche Audio deaktiviert wird, wenn die Netzwerkbandbreite oder der Computerspeicher begrenzt ist, um die Audioqualität aufrechtzuerhalten. Bitte beachten Sie auch, dass Einzelanrufe und große Besprechungen mit mehr als 100 Teilnehmern derzeit nicht unterstützt werden.
Schritt für Schritt Anleitung: Wählen Sie „Einstellungen und mehr“ und dann „Geräte“ aus. Unter „Lautsprecher“ sollten Sie Ihr kompatibles Gerät auswählen und die Umschaltfläche für räumliche Audiowiedergabe aktivieren. Diese Einstellungen werden automatisch gespeichert und gelten für alle zukünftigen Teams-Besprechungen.
Während einer Besprechung können Sie zu Ihrem Teams-Kalender wechseln, die gewünschte Besprechung auswählen und „Geräteeinstellungen“ vor dem Beitritt auswählen. Wählen Sie unter „Lautsprecher“ Ihr kompatibles Gerät aus und aktivieren Sie die Umschaltfläche für räumliche Audiowiedergabe.
Offizielle Anleitung von MicrosoftAbgesehen von der Audioqualität, was unterscheidet ein direktes Gespräch von einem Video Call? Auf auditiver Ebene vor allem der Richtungseindruck! Bei einer Videokonferenz mit mehreren Personen wird es mit dem derzeitigen Mono schnell chaotisch. Sobald mehr als eine Person spricht, wird es schnell unübersichtlich. Unser Gehirn tut sich schwer die Stimmen überhaupt auseinander zu halten, da sie alle aus der gleichen Richtung kommen.
Bei Mono spricht man aus Audio Ingenieur Sicht auch von einer Im Kopf Lokalisation. Trägt man also Kopfhörer, hört man lauter fremde Stimmen in seinem Kopf. Klingt fast nach einem Fall für einen Psychiater. Die Lösung ist hier aber nicht der Besuch beim Arzt, sondern kann technisch über die sogenannte Externalisierung gelöst werden. Dazu später mehr.
Verteilt man nämlich die Stimme jeder Person im 3D Audio Raum, so wie wir es in der Realität gewohnt sind, erleichtert das die Differenzierbarkeit schlagartig – Spatial Audio machts möglich. So wird eine Gesprächssituation räumlich nachempfinden, wie wir sie aus Meetings, Diskussionen oder dem gemütlichen Beisammensitzen kennen. Genau genommen reicht dazu sogar Stereo, wie dieses Video zeigt:
Das Beispiel von Highfidelity Gründer Philip Rosedale macht schon mal hörbar in welche Richtung es gehen könnte. Hier fehlt aber vor allem die Räumlichkeit, wie sie auch in der Realität herrscht. Hier wird lediglich mit einem links-rechts Panning gearbeitet. Dadurch wirken die Stimmen sehr nah am Zuhörer. Zu nah, um natürlich zu sein.
Doch es gibt noch mehr Details, die das Potential der Technologie entlocken würden. Also weiter gehts!
Für eine wirklich akkurate Schalllokalisation helfen kleine Kopfbewegungen. Wenn wir im Alltag mit unseren Ohren etwas genauer orten wollen, so bewegen wir meist unbewusst den Kopf. Durch die Änderung des Winkels zur Schallquelle und der damit einhergehenden Änderung der Laufzeit- und Pegelunterschiede zwischen den Ohren können wir Schallquellen noch genauer orten.
Um diese Bewegungen beim Video Call mit einzubeziehen, ist Head-Tracking nötig. Klingt nach einem technischen Aufwand. Doch auch diese Technologie ist im Anmarsch und mittlerweile schon verfügbar. Es gibt sogar mehrere Möglichkeiten die Kopfbewegungen zu messen:
Apple hat mit den AirPods Pro und den AirPods Max, sowie Samsung mit den Galaxy Buds Pro bereits Head-Tracking-fähige Kopfhörer auf dem Markt – um zwei bekannte Vertreter zu nennen. Weiters gibt es die Möglichkeit externe Head-Tracker zu verwenden, die man an den Kopfhörern befestigt. An dieser Stelle möchte ich auf diesen Blogpost für mehr Informationen verweisen.
Nun ist aber nicht jeder im Besitz derartiger Audiogeräte. Die dritte Option ist das Head-Tracking mittels der Webcam und gerade für Desktop-Anwendungen spannend. So in etwa sieht die Gesichtserkennung aus, welche nötig ist, um das 3D Audio Schallfeld in Echtzeit an unsere Kopfbewegung anzupassen:
Die Möglichkeit Kopfbewegungen über die Webcam zu ermitteln ist eine eindeutige Win-Win-Situation für spatialisierte Video Calls. Denn ein Video Call setzt eine Kamera voraus wodurch keine zusätzlichen Hardware-Anschaffungen anfallen. Und die nötige Technologie zur Audio-Spatialisierung kann sogar in den Browser integriert werden. Diesbezüglich sind die Kollegen von atmoky ganz vorne dabei und die richtigen Ansprechpartner.
Etwas weiter gedacht ließe sich durch die Spatialisierung der Stimmen sogar der Videoaspekt vernachlässigen – zumindest wenn es um die Differenzierung der Personen geht. Zudem würde ein spatialisiertes Telefonat ein ganz anderes Präsenz Gefühl der anderen Person vermitteln, also auch auf psychologischer Ebene wirken.
Es gibt mittlerweile eine Vielzahl von Anbietern solcher Bird View Meeting Places. z.B. gather town, spatial chat oder das bereits erwähnte High Fidelity. Wie das klingt, ist hier zu hören:
Personen die mehreren Videokonferenzen pro Tag beiwohnen, kennen das Gefühl wahrscheinlich. Man ist nach dem Video Call wie ausgelaugt, obwohl man vielleicht gar nicht so aktiv dabei war. Dieses Phänomen wird als Zoom Fatigue bezeichnet, also eine gewisse Müdigkeit nach Webmeetings. Dies muss nicht unbedingt etwas mit dem Inhalt des Meetings zu tun haben, sondern mit dem nicht zu ende gedachten Audio!
Wie schon erwähnt, ist Mono der Standart beim Video-Telefonat und dies verlangt von unserem Gehirn mehr Leistung. Warum? Dadurch, dass alle Stimmen ohne Richtungseindrücke, eben über Mono, auf unsere Ohren treffen, ist das Gehirn damit beschäftigt diese zu differenzieren und zuzuordnen. Dieser Prozess passiert im realen Gespräch ohne diesen Mehraufwand fürs Gehirn – da wir Schallquellen lokalisieren können.
Dies bestätigt beispielsweise dieses wissenschaftliche Paper. Durch Spatial Audio kann eine realistische richtungsabhängige Szenerie simuliert werden. Die Integration dieser Technologie beim Video Call würde unserem Gehirn also unnötige Denkarbeit ersparen. Demnach wären Meetings angenehmer und letztendlich auch effizienter durch steigende Produktivität.
Diesen Ansatz zur True-To-Life Communication in Virtual Meetings verfolgt auch das Team von atmoky. Ihre Demo zeigt, wie Spatial Audio in Webmeetings eingesetzt werden kann. So wird eine natürliche akustische Szene zu erzeugt und die Sprachverständlichkeit erhöht. Das Potential des Cocktail-Party-Effektes und des sogenannten Spatial Unmasking sollen so voll ausgeschöpft werden..
Was man tatsächlich nicht braucht ist ein teures, fancy 3D Mikrophon – auch wenn es hier eine schöne Übersicht gibt 😉 . Es reicht ein ganz normales Mono-Mikrofon am Headset oder das ohnehin im Laptop eingebaute. Denn die Virtualisierung der Räumlichkeit passiert Software-seitig. Dabei werden dem Audiostream Meta-Daten zugeschrieben und das Programm berechnet in Echtzeit, wie das virtuelle Audio klingen muss.
Ein Problem können dann hörbare Artefakte werden die bei der Datenreduktion als Mono während der Übertragung entstehen können. Doch langfristig ist auch das zu lösen: NVIDIA hat beispielsweise eine Möglichkeit gefunden, das Video anzuzeigen – ohne es überhaupt zu übertragen (siehe Video unten)! Künstliche Intelligenz macht es möglich.
Ebenso hat NVIDIA mit der RTX Voice Applikation eine unfassbar gute Software zur Geräuschunterdrückung entwickelt. Dadurch können die Stimmen viel klarer ohne Störgeräusche übertragen werden. Das ist beim Einsatz von Spatial Audio natürlich auch vorteilhaft. Dann hört man nicht eine virtuelle Schallquelle mit Lärm des Laptop Gebläses und Tastaturgeklimper. Sondern eine schöne aufpolierte Sprache, wie wir sie aus der Realität kennen.
Eigentlich ist es verwunderlich, dass bei Video Calls bis jetzt generell so wenig Aufmerksamkeit auf Audio gelegen ist. Auch unabhängig von Corona wäre es schon an der Zeit gewesen hier den nächsten Schritt zu tun. Doch angesichts der inflationär steigenden Stunden die mit Video-Telefonie “dank” der Pandemie verbracht werden, ist eine auditive Weiterentwicklung wohl schon längst überfällig. Man sieht also, dass hier Handlungsbedarf besteht. Die Integration von Spatial Audio in unseren Video-Meeting-Alltag würde sich positiv auf die Produktivität auswirken und am Ende des Tages hätten wir vermutlich mehr Energie und Motivation übrig. Außerdem verbessert es ungemein das Präsenzgefühl der anderen Menschen um noch kurz das Stichwort embodiment zu nennen.
Daher wollte ich unbedingt auf dieses Alltagsthema aufmerksam machen, das mit dem richtigen Ansatz zur vollen Geltung kommt. Solche Lösungen kann ich mit meinen Kollegen von atmoky auch direkt für Webmeetings, Virtuelle Interaktion, Video Calls und Co anbieten. Also jetzt direkt die genannten Features implementieren – wir helfen bei der Umsetzung
Kontakt aufnehmen