Inhalt
Die PlayStation Pressekonferenz, die im Juni 2020 stattfand, zeigte eine Vorschau auf Gameplay- und Cinematic-Szenen einiger angekündigter Spieltitel. Die Wirkung war beeindruckend.
Warum erwähne ich das? Für die Antwort müssen wir einen Schritt zurückgehen. Zu Beginn des Jahres präsentierte Mark Cerny den technologischen Fortschritt der Playstation 5. Bei dieser Gelegenheit verriet der leitende Systemarchitekt der PS5, dass die nächste Konsole eine eigene Hardware-Einheit für Audio haben wird: TEMPEST 3D AudioTech, zu sehen bei 38:30 im Video.
Als Audio-Enthusiast und Sound-Designer musste ich diese Informationen erst einmal verarbeiten. Deshalb habe ich mich entschieden, dieses Argument als Hauptthema meiner Master of Arts-Dissertation zu verwenden. Lass mich zeigen, wie das Thema auch über die Welte der Games hinaus interessant ist.
Die Macher der neuen Konsolengeneration, PS5 und Xbox Serie X, kündigten an, dass die neue eingebaute Audiokarte die Entwicklung noch detaillierteren Klangwelten ermöglichen wird. Den Ingenieuren der Konsolen ist es gelungen, die meisten Probleme im Zusammenhang mit der Speicherauslastung von Sound zu lösen, wodurch Platz für die Kreativität der Sounddesigner geschaffen wird. Diese Informationen brachten mich dazu, über die Möglichkeiten der Analyse entscheidender Audio-Workflows sowohl bei Film- als auch bei Spieleproduktionen nachzudenken.
Die akustische Beschaffenheit eines Raumes spielt eine entscheidende Rolle für die Immersion des Zuschauers. Je genauer die Geräusche im Raum erscheinen, desto leichter kann das Publikum die Position der Schallquellen bestimmen. Doch wie kann ein Sounddesigner diese Lokalisation erreichen?
Das Ziel eines Sounddesigners ist es, Klanglandschaften zu schaffen, die es dem Zuschauer ermöglichen, die Grenzen des Bildschirms zu erweitern. Es gibt viele Techniken, um dieses Vorhaben zu erreichen. Aber diejenige, die ich hier hervorheben möchte, ist die objektbasierte Mischtechnik, object based mixing. Sie besteht darin, alle Klangquellen entsprechend zu kodieren, um die Landschaft genau zu beschreiben. Diese Quellen haben Parameter, die als Metadaten registriert werden. Sie geben die spezifischen Koordinaten an, um eine genaue Lokalisierung der Objekte zu ermöglichen.
Das Audioformat, das in der oben erwähnten PS5-Pressekonferenz geliefert wurde, war binaural, also Stereo Kopfhörer. Dieses Format ermöglicht es, die Räumlichkeit einer Klanglandschaft einhüllend wahrzunehmen. Daher passt die objektbasierte Mischtechnik perfekt zu diesem Format, da sie eine genaue Positionierung der Klangquellen innerhalb der Landschaft ermöglicht. Im Vergleich etwa zu kanalbasierten Systemen, die an die Position der Lautsprecher gebunden sind. Zum ersten Mal konnten nun also die PlayStation Besitzer eine Kostprobe des TEMPEST 3D AudioTech erleben.
Dabei habe ich mich etwas gefragt: Wenn die Gamer das Gameplay im binauralen Format erleben, werden sie dann nicht auch die Unterschiede bemerken, wenn sie verschiedene Audioformate hören, die auf den meisten Streaming-Websites auf dem Markt angeboten werden? Ich nämlich schon, und deshalb habe ich angefangen, Spielszenarien mit Filmsequenzen zu vergleichen, um zu verstehen, warum einige der Software und Workflows, die in Game Audio verwendet werden, noch nicht in die Filmindustrie integriert sind. Kann binaurales Audio ein Standard in der Filmproduktion werden?
Objektbasiertes Audio ist die Technik, die in Videospielen verwendet wird, um Echtzeitveränderungen innerhalb der Klangwelt zu erzeugen. Die Spieleindustrie bedient sich Game-Engines (z.B. Unity und Unreal), die mit Middleware (Wwise, Fmod) kommunizieren können, um jeder bewegten oder stabilen Quelle in der Landschaft einen Sound zuzuordnen. Während dies bei Workflows in der Spieleproduktion ein Standard ist, ist dies bei Filmen nicht der Fall. Auch wenn einige Regisseure beginnen, mit Game-Engines zu arbeiten, wird die Middleware immer noch nicht verwendet.
Ich möchte hier einige ähnliche Szenarien zeigen, in denen, meiner Meinung nach, Filme durch Spiele-Mischtechniken beeinflusst wurden. Also, direkt die Kopfhörer schnappen und reinhören.
Ratchet and Clank: Rift Apart’s Marcus Smith bekräftigt während des „Sony PlayStation 5 Reveal Events“, dass die binauralen Audioeigenschaften, die von der neuen Konsolengeneration unterstützt werden, einen fundamentalen Unterschied zwischen dem Hören eines Fernsehers und dem Spielen darstellen. Er sagt, dass es beim Hören dieses neuen Gameplays so ist, als würde man mitten in den Wald gehen, es bringt einen auf eine Art und Weise in diese Welten hinein, wie es bisher nicht möglich war.
In Ratchet and Clank: Rift Apart Gameplay ist die Verwendung des objektbasierten Mixes offensichtlich. Die Stimmen im Mix werden entsprechend dem Drehwinkel des Kopfes der Hauptfigur wahrgenommen. Dies erhöht nicht nur die Immersion des Spielers. Dank dieses Audioformats können wir auch die Höhe des Raumschiffs wahrnehmen, das über Ratchet vorbeifliegt. Die Klangwelt wird als dreidimensionaler Raum beschrieben. Wie cool ist das denn? Der Sounddesigner kann uns genau hören lassen, was auch die Hauptfigur hört.
Cuarons Gravity weist eine ähnliche Mischtechnik auf. Bei Minute 3:50 sieht der Zuschauer den Astronauten von der rechten Seite der Szene nach links kommen und folgt seinem Weg nach hinten. Tontechnisch wird diese Szene so beschrieben, dass der Zuschauer von der Kameraposition aus zuhört: Der Dialog des Astronauten wird während seiner Bewegung im Raum mit seinem Körper mitbewegt. Der Hörerpunkt befindet sich in der POV, was theoretisch bedeutet, dass es sich um die gleiche Mischtechnik handelt, die im oben erwähnten Spiel verwendet wird.
Im Gameplay von Star Wars Battlefront II ändert sich die Wahrnehmung des auditiven Raums drastisch zwischen dem Ego-Shooter-Modus und dem Third-Person-Shooter-Modus. Das geschieht dadurch, dass die Kamera hinter den Spieler bewegt wird, um eine breiteres Sichtfeld zu haben. Wenn der Spieler den ersten Modus wählt, ist der Sound gedämpft, da sich die Spielfigur im Raumschiff befindet. Im zweiten Modus ist der Zuschauer immer in die Klangwelt eingetaucht, aber er sieht das Geschehen aus einer anderen POV, also hört er die Weite des Raums von außerhalb des Raumschiffs.
Das Video unten stellt das Innere des Astronautenhelms dar; der Zuschauer hört/schaut also, was die Figur erlebt. Wir nehmen nicht nur den auditiven Raum wahr. Der emotionale Zustand wird durch den Einsatz eines Tiefpassfilters wiedergegeben, der Verwirrung vermittelt. Allmählich verschwindet der Filter, wenn die Kamera den Rahmen außerhalb des Helms bewegt: Hier nehmen wir die Szene als zweiten Astronauten wahr, der in den dreidimensionalen Raum eintaucht, aber weiter von der Hauptfigur entfernt ist.
In Shadow of Colossus nimmt der Spieler das Geschehen aus der Third-Person-Kamera-Perspektive wahr. Wenn die Spielfigur unter Wasser geht, versteht der Spieler dies dank der Splash-Soundeffekte. Aber auch wenn die Kamera nicht unter Wasser geht, hört der Spieler die Szene trotzdem von außerhalb des Wassers. Sobald die Kamera den Charakter unter Wasser erreicht, nimmt der Spieler die Umgebung wahr, als wäre er in das Wasser eingetaucht. Der Point-of-Audition ist also mit dem Point-of-View verbunden.
Blade Runner 2049 hat ähnliche Actionszenen. Die unten angezeigte beschreibt eine Kampfszene, in der ein Charakter versucht, seinen Gegner zu ertränken. Wie der Tonmeister das Game Audio gestaltet hat, folgt den gleichen Konzepten von Shadow of Colossus.
Die Filmindustrie nutzt bereits die Vorteile von Spielesoftware, vor allem um herausragende visuelle Ergebnisse zu erzielen. The Mandalorian, Spielbergs Ready Player One und Villeneuves Blade Runner 2049 nutzten die Unreal Engine, um die VFX-Ergebnisse in Echtzeit über das virtuelle Kamera-Plug-in direkt vor Ort zu betrachten. Warum wird der Ton bei diesem Prozess noch nicht berücksichtigt?
Wir haben gesehen, dass das Spielerlebnis gar nicht so weit von dem des Films entfernt ist. Jetzt, wo das Game Audio einen Schritt weiter geht, erwarte ich, dass das Film-Audio reagiert und ein anderes Niveau erreicht.
Ich helfe Dir, das nächste Audio Level zu erreichen