［CEDEC 2020］「AES x CEDECコラボセッション。ゲームオーディオに応用できる技術・知識」聴講レポート

[2020/09/07 09:00]

　AESという団体をご存じだろうか？　AESは専門的な国際団体で，世界中のオーディオ技術者や研究者が所属している。ゲーム業界にも無縁ではなく，近年特にその結びつきを強めている。主な活動は彼らが議論して得た知見を団体内で共有したり，オーディオ規格を策定したりするといったものだ。

　2020年9月3日に行われた講演「[AES(Audio Engineering Society)×CEDECコラボセッション]ゲームオーディオに応用できる技術・知識」では，そのAESに所属する3人のエンジニアによる知見が披露された。かなり専門的で一部超最先端技術の紹介もあり，「これぞCEDEC！」という内容の講演だ。

モデレーターを務めたカプコンの岸　智也氏からアジェンダが示された

　最初にモデレーターである岸智也氏によって，AESの説明が行われた。AESには世界中のオーディオ技術者や研究者が所属しており，その数2万人だそうだ。ヨーロッパとアメリカで毎年一度ずつ行われる包括的な「コンベンション」と，テーマを絞った「カンファレンス」が各国で定期的に開催されている。現在は新型コロナウイルス感染拡大を防ぐために，どちらもオンライン開催となっているそうだ。

　AESの主要な組織として，「テクニカルカウンシル（技術評議会）」とスタンダードコミッティ（標準化委員会）」があり，前者は各分野に特化した技術会議を行い，後者はオーディオの規格を議論・決定する委員会だ。

　テクニカルカウンシルは詳細な分野に分かれており，分野ごとの最新技術の動向をとりまとめたり，議論したものをAESの中で紹介して知識を広めていったりする役割を担っている。また，最新技術の規格化をスタンダードコミッティに提案することもあるという。
　一方，スタンダードコミッティはスライドにある5つの小委員会に分かれている。プロには馴染み深いデジタル伝送規格であるAES/EBUなども，この委員会から生まれたものだ。

　ゲームに関するテクニカルカウンシルも2003年に発足し，これまでに5回ロンドンで開催されている。2021年は東京で開催される予定だったが，現在の状況を鑑みて予定は見直しとなったそうだ。

アーツリッジ代表社員濱崎公男氏

　AESには学会の論文発表のような基本的な技術開発的な側面だけでなく，各分野における新しい技術の導入事例や人材育成などを目的としたチュートリアルセッションやワークショップの開催，NABやNAMM Show，InterBEEといったような展示会の実施，さらには新しい技術規格の制定なども行っている。つまりAESに参加することで，必要なオーディオ技術情報やその詳細をすべて知ることができるというわけだ。

　以上を前置きとして，AESに所属する濱崎公男氏による3Dオーディオ，別名「イマーシブ・オーディオ（没入度の高いオーディオ）」の解説が始まった。

　まずは，イマーシブ・オーディオの説明が行われた。オーディオ再生はモノラルからステレオ，ステレオからサラウンドに進化してきており，サラウンドを3Dオーディオと呼ぶが，濱崎氏はイマーシブ・オーディオを「高さ方向の情報を入れた3Dオーディオ」と定義する。ステレオ音響と呼ばれていたステレオやサラウンドオーディオに加え，物理音響的アプローチによるさまざまな手法ができあがってきたことが大きな特徴だそうだ。制限なく音場を集音，再生できるという時代になってきているとのこと。

　イマーシブ・オーディオで使われている技術が紹介された。方向制御はいわゆるマルチチャンネル再生だ。聴取点制御はバイノーラル再生。3つめが新しい空間制御再生で，Ambisonicsなどがこれに該当する。

　空間制御には4つの方式があり，中でもFirst Order Ambisonics（FOA）と，その精度を高くすることでより精密な音場を再現できるHigher Order Ambisonics（HOA）が，ゲームで実際に使われている技術だ。

　サラウンド再生の場合。左側が収音，右側が再生となる。ある音場で何らかのマイクロフォンテクニックを利用して再生をしていく（マイクロフォンテクニックとは，録音時にサラウンド再生できるようマイクの設置場所などを工夫して収録し，再生時にはそのマイク配置に沿った形でスピーカーが構成されるのだと思われる）

　マルチチャンネルのスピーカーで再生する際，スピーカーから耳に到達するHRTF（頭部伝達関数）のインパルスレスポンスであるHRIRをそれぞれたたみ込んで左の信号と右の信号に合わせることで，バイノーラルレンダリングを行う（ダミーヘッドを使う伝統的な録音手法はバイノーラル。演算によってこれを行うのがバイノーラルレンダリング）。

　FOAでは空間を全方向性+双方向性のXYZ軸という3つの信号で捉え，これをエンコードと呼んでいる。空間の情報をエンコードするということが重要となり，その時使われるのが空間を表す（指向性を表す）これらの信号だ。スライド右側で示されているように，4つの振動板で構成されるマイク（Aフォーマット・マイクロフォン）で収録できる。これをBフォーマットと呼ばれるフォーマットに展開すると，全方向，X方向，Y方向，Z方向の信号が取り出せる。1970年代に生まれた技術で，長らくいろいろなところで使われてきた。

　収録されたBフォーマットをデコードするにあたり，左のスピーカー配置なら左の計算式，右のスピーカー配置なら右の計算式で空間定位が行える。スピーカーの配置によって，エンコードされたデータから元の空間を再現できるというのがAmbisonicsの考え方だ。

　この方向情報を高めていく目的でHOAが出てきた。2nd Order AmbisonicsではFOAと比較してより多くの方向軸が加えられた。球面調和関数を使い（双方向性マイクが増えていくため）空間の精度はFOAより高くなっている。

3rd Order Ambisonicsではさらに精度が高くなっていく

　マルチチャンネル音響はマイクによる集音テクニックを使用して再生するが，Ambisonicsは図のような球面調和関数を用い，空間をエンコードして，再生時にデコードする。「球面調和関数というものはいろいろな指向性を図のように形作る理論だと理解してもらえば，その指向性において，それぞれの音場における音が係数，つまり重み付けを持つ。

　その係数をエンコードしてデータとして保持しておけば，デコードを行う際，スライド写真右のように多数のスピーカーを並べることもできるし，ヘッドフォンにレンダリングすることもできる。なので，「ある空間をエンコードして情報として捉え，それをデコードしていく，というのがAmbisonicsの考え方」と，濱崎氏は説明した。これがゲームには非常に有益なため，使われているのではないかとの見解を示していた。補足しておくと，Ambisonicsはチャンネルや再生装置に依存せず音場を再現できるため，ステレオ，マルチチャンネルスピーカー，ヘッドフォンなど多用な再生機器でプレイされるゲームに適している，ということだろう。

　前述の分類に加えて，最近ではこれらを別の名前で呼ぶことも多い。NGA（Next Generation Audio）がそれで，チャンネルベースオーディオ，オブジェクトベースオーディオ，シーンベースオーディオが挙げられる。3Dマルチチャンネル音響は，チャンネルベースオーディオとオブジェクトベースオーディオに分かれる。この2つは基本的な考え方が同じだ。ある空間を想定するマイクロフォンテクニックで収録し，それをある決まったスピーカーで再生するしたり，それぞれの音を個別にとって，位置情報をメタデータとして再生したりするのがオブジェクトベースオーディオだ。そして位置情報を含め，信号として最初からマイクロフォンで録るのがチャンネルベースオーディオとなる。
　つまり，サラウンドに聞こえるよう複数のマイクで集音したものを，決まったポジションのマルチチャンネルスピーカーで再生するのがチャンネルベースオーディオで，ゲーム的な360度座標で音が定位するのがオブジェクトベースオーディオだ。
　
　それに対してシーンベースオーディオはHOAのことだが，空間をエンコードして，再生する。上のスライドの右列はすべて最近使われているツールの一覧だ。

シーンベースオーディオをFOAでエンコードしてバイノーラルレンダリングにデコードしたもの。同じくシーンベースオーディオを5th HOAでエンコードし，バイノーラルレンダリングにデコードしたもの。7.1.4チャンネルのチャンネルベースオーディオを5th HOAでエンコードしてバイノーラルレンダリングにデコードしたものの，計3つのデモが行われた

　次に中原雅孝氏が登壇し，3Dリバーブのゲーム内での再現，というテーマを取り上げた。「イマーシブ時代になって，空間音響的なエフェクトということでリバーブの話をしたい」という言葉でのスタートだ。

ソナ専務取締役/オンフューチャー代表取締役中原雅孝氏

　その場をその場らしく構築する，つまりリバーブを正確に復元するには，部屋の響きというものがどういう風に出来ているのかという根本原理を理解しておく必要がある。部屋の響きとはご存じの通り，壁の反射波，壁が作る反射音によって構成されている。この反射音は，例えば誰かが声を出すと，最初に青色で表示した直接音がやってきて，次に壁から反射して返ってきた反射音がやってくる，ということになる。ただここまでは，音を視覚的に理解しているに過ぎず，音の世界ではこういう理解にはならないと中原氏は語る。

　聴覚だけの世界では，反射波を生む元の音を「実音源」といい，壁が見えずに壁の向こうに「虚音源」という鏡に映ったようなもうひとつの音源ができ，壁はなくなる。そして実音源が再生されると同時に虚音源が仮想音源として再生される。そうすると，届く音は先程と同じく，直接音が届いた後わずかに遅れて仮想音源が反射音として耳に到達する。つまり，目を閉じて部屋の響きをイメージした場合，壁の形ではなく，壁の向こう側に仮想音源がある世界が見えているということになるので，これを正確に再現すると，もっともその部屋らしいリバーブが実現できるということになる。

　つまり，「ものがそこにある」ということを音で表現しようとした場合，この「仮想音源」を配置する，ということになり，その仮想音源を時間領域に変換すると，よく言われるリバーブの反射波の一波になるわけだ。

　部屋で発生する反射音は部屋の外に誕生する一つの仮想音源に相当する，ということになるので，部屋の響きとは，部屋の外に出来た無数の仮想音源からやってくる音の集合体と考えられるだろう。つまりこの仮想音源のパターンが部屋によって違うため，その部屋らしい仮想音源のパターンを再現すると，まさにそこに音で壁を作るようなことができる。

　リバーブの音源を採取するツールは特別なものではなく，AmbisonicsのAフォーマットマイクを使うことができる。ただし，その出力をBフォーマット（W/X/Y/Z），全指向と3方向の双指向に変換することが必要だ。先程の濱崎氏の解説によると，A球面調和解析を行い，このWXYZを足し算することで，その音場を復元するというのがAmbisonicsの理論となる。しかし中原氏はこれと異なる使い方で，足し算ではなくかけ算をしている。全指向と双指向をそれぞれかけ算することで，XYZ方向の音の方向情報を持った音響インテンシティという音の物理量を抽出することができる。これを使ってロケ（収録）を行うわけだ。

そのロケの結果として，あるスタジオでサンプルした仮想音源の例が披露された。中央の黄色背景に青い線が，Aフォーマットで採取された音から算出した音響インテンシティXYZ方向の音の到来情報と強さを表している。収録時間は0.3秒間

音が来てから0.3秒の間に部屋がどういう音の挙動を作っているのかが示され，0.3秒間の間にいろいろな方向から音がやってくることが視覚化された

右側の球体グラフで，どの方向から音が来るのかが分かる。この波形から虚音を抽出すると，右球体グラフの青い丸印になり，これだけの反射音がやってくる

　これらを空間に付置すると，先程説明した部屋の外に広がる仮想音源の分布になる。これが収録したスタジオの響きのいわゆる「指紋」だ。このパターンが部屋によっても、低域，中域，高域によっても異なるので，この3種類に分けて採取するということを行ったそうだ。まずはAフォーマットマイクロフォンでインパルスレスポンスを録音するのだが，Ambisonicsの技術でデコードせず，他の技術を使ってこの仮想音源分布を抽出する。

　仮想音源分布が出ると，中央グラフの中心で聞いている音を再生したら同時に部屋の外にできた仮想音源（これはすべてスピーカーだと考えるとよい）が一斉にやってくることで，この部屋のリバーブを作っていることになる。それを時間領域に変換するとリバーブのできあがりとなる。中原氏達ははこれをVSVerbと呼んでいるそうだ。つまり最初にリバーブの時間波形をサンプルしにいくのではなく，リバーブの音場をサンプルしにいって，時間領域に変えるというやり方になる。

　右側の画像は中央グラフの中央付近を拡大したところだ。部屋のある位置で聞いている音というのは，この虚音源分布だ。仮想音源分布は音源の位置が同じであれば，変わらないので，黄色の矢印二本のうち左側の矢印の時点で仮想音源の音が到達する。ではそこから右に動いてみると，さっきの位置で聞いていたよりも更に少し遅れて右側の矢印の時点でしかも少し小さな音でやってくるが，仮想音源自体はすべて同じだ。

　同じく波形で確認すると，少し右にずれて山は高くなるので，左の山を右の山のように時間軸をずらして少し小さくしてやればよい。場をサンプルしていれば，その部屋のリバーブで起きる色々なことが再現できるというわけだ。

　「このようにサンプルしたものを実際どのようにリバーブに変換していくのか，Maxである程度組んでいるので，その様子を見て欲しい」（中原氏）ということで，デモが披露された。デモはヘッドフォンで効果が確認できるようバイノーラル処理されている。上部の波形グラフはサンプルして作成したロー・ミッド・ハイ（低域，中域，高域）で，左端がオリジナルのモノラルだが，それぞれ反射がどこからきたのかという方向情報を持っている。それを使って，それぞれに頭部伝達関数（HRIR）をたたみ込んだものが右側の2つ1組の波形グラフだ。

　要は方向情報を持ったモノラルのオリジナルサンプルをバイノーラル化したことになる。なので，無数の音が方向情報をもって作られているのが，バイノーラルリバーブだと考えていいだろう。一方，従来の作り方の2chだと左からやってくる音は左から，右からやってくる音は右からとなるので，オリジナルのモノサンプルの方向情報を使って左から来る音は左チャンネルに，右から来る音は右チャンネルに分割したものが中央の2つ一組の波形グラフとなっている。なお，下の3つのグラフはそれぞれ左からロー・ミッド・ハイのサンプル音場（仮想音源分布）を表している。

　リバーブの生成は，まず頭部伝達関数のインパルスレスポンス（HRIR）のデータを.sofaという世界共通のAES69-2015フォーマットに変換して，解析した虚音源データの分布を.vsbに入れると，そのスタジオのロー・ミッド・ハイは上記スライド下段のようになる。これはスタジオを上から見た表示だ。

　低域は虚音源分布（仮想音源）がスカスカで，ミッド，ハイと周波数が高くなるにつれ，密度が濃くなっているのが分かる。この空間分布が，このスタジオの響き（声紋）になるわけだ。これをまずサンプルして時間情報に変換する。そうするとこのスライドの冒頭で説明したリバーブ（上段）ができあがる。

　単純に時間情報に変換するとモノなのだが，その反射はどの方向から来たのかという方向情報は音源情報が持っているので，それに基づいてバイノーラル化したのが上段右側の左右で一組のグラフとなる。単純に左右どちらから来ているかだけを基に作成したのが上段真ん中の左右で一組のグラフとなる。作成したデータは7.1.4chにも展開できるし，5.1chにも展開できる。好きなフォーマットに展開できるが，今回はバイノーラルに展開したそうだ。

作成したVSVerbをモノラル/2ch/バイノーラルの3種類で聞き比べてみるデモも行われた

　「2chでも広がりは出るのだが，バイノーラルにした場合は全方向なので，非常に自然な空間感がある。2chを組み合わせて5.1ch/7.1.4chを作っていくと，だんだん実在空間と乖離していくのだが，最初から4方向のリバーブを作っておくと結構自然な音場感が生まれると思う」（中原氏）。これがメリットだそうだ。

　デモのリスニングポイントはサンプルしたマイクポジションにおけるリバーブを聴いたが，そこから右後ろに振りむくと，聞こえ方が変わる。角度が変わっただけでリバーブを変えたりしないが，どう変わるか披露された。

　次に上を向いてみた例も示されたが，これでも聞こえ方は変わるそうだ。ただし，同じ部屋なので大きく変わってはいけない。同じ部屋のテイストを残しながら，微妙な違いが出ていることが披露された。

　最後に斜め後ろに振り向いて上を向いた状態で7mマイクポジションから離れる。画面中央の図で現在のリスニングポイントが表示され，画面左の青色のノブでアジマス（方位角），紫色のノブで仰角を，その下の「distance」と書かれた横バーで距離を変更できる。また，方位角を135度に変更したデモ，加えて仰角を30度に変更したデモ，加えて距離を7mに変更したデモも行われた。

このデモには直接音が入っており，それに耳が引っ張られてしまう。したがって，本当にリバーブとしてどういう差があるかというのを示すため，同じ設定でドライ音のみオフにしてリバーブ100%の状態で聞くデモも行われた。場所によるリバーブの違いだけを聞けた

　「このようなことはいわゆるサンプリングリバーブ（IRリバーブ）や音場シミュレーションといった時間波形から作るリバーブにはなかなかできない。場を表現するためには場を録りにいく，という話だ」（中原氏）。
　これは，リアルタイムに動き回るゲームと非常に相性が良さそうな新技術だろう。これまで見たことのないアプローチでAmbisonicsからリバーブを創り出す様はまさに次世代を感じさせる。こちらが実用化されると，ゲームのリバーブエフェクトがリアルタイムに部屋内での変化を表現できるようになるだろう。非常に複雑で理解しにくいが，印象的な次世代技術だ。

この件に関する情報が掲載されているAESのサイトが紹介された

　続いて「オーディオ・エンジニアリングについて」というタイトルで染谷和孝氏が登壇した。

ソナ制作技術部副部長染谷和孝氏

　AESには音響研究者だけでなく，世界的に活躍するオーディオ・エンジニアも多数参加しており，ワークショップやチュートリアルを開催していることが紹介された。染谷氏はゲームオーディオエンジニアと共有できるエンジニアリングとして，ポストプロダクションにおける音量調整の肝である，ダイナミクスの管理，距離感の作り方，リバーブ処理に関して，という3つのアジェンダを掲げた。

　まずはダイナミクスの管理から。オーディオ・エンジニアの必須ツールである「コンプレッサー（ダイナミックレンジ≒音量コントローラの一種）」の使い方について説明された。ポスプロではボイスが基準になるので，ボイスの処理に関してどういうことが行われているのかが中心の内容だ。また，コンプレッサーの例として，Universal Audioから発売されている，Neveの名機「Neve 33609」をシミュレートしたソフトウェア・コンプレッサー/リミッターが紹介された。

　コンプレッサーの使用目的はダイナミクス（音量差）をコントロールすること。つまりボイスの強弱やばらつきを補正することだ。高いレベルを抑え（コンプレッション），低いレベルを持ち上げ（エクスパンド），レベルを均一に整えて聞こえやすくする。

　次に各コンプレッサーの通過特性を得ることが挙げられた。これは，いろいろな種類（処理方式）があるコンプレッサーを通すことで，より好みの音に変化させていく。簡単にいうと，その機器やソフトウェアを通すことで音質傾向がわずかに変化してエンジニア好みの音になるので，その変化を得るということだ。

　使用する際の注意点として，コンプレッサーに用意された各パラメーターの役割を正確に理解して使用することが示された。
　ボイス処理に関しての染谷氏からの提案は，「好みはあると思うが，基本的にはミディアム・アタックタイム，ファースト・リリースタイムの設定で，ゲインリダクションは3dB～-5dBまで。常時-5dBは行き過ぎ」だそうだ。

　スレッショルドやレシオに関しては収録の状況やキャラクターの設定に依存することが多いので，設定値は異なるが，レシオは4:1くらいから変化させていくことが多いそうだ。なお，ざっとの説明になるが，アタックタイムとはコンプレス（音量圧縮）処理を開始して実際処理が始まるまでの時間だ。そしてリリースタイムはコンプレス処理が終了した後実際に処理が完了するまでの時間で，ゲインリダクションはコンプレス量（何dB圧縮するか），スレッショルドはコンプレス処理が開始される音量レベルのこと。レシオは圧縮率でx:1のxが大きいほど程圧縮率が高く，スレッショルド以上の音が大きく圧縮される。

　実際の設定例として，オーディオ・エンジニアに愛用者が多いWavesの「Renaissance Compressor」のGUIに染谷氏の設定を加えた画像が紹介された。プロの設定を観れるまたとない機会となった。

　この設定ではアタックタイムは95.3ms。「この値はミディアムアタックではないのでは？　と思うかも知れないが，音源によって若干異なる。ボイスの立ち上がり（アタック）を大切にしたいのに，あまりアタックが速いとテンションが変わってしまい，演技を壊してしまうことがあるので，そういうことに気をつけるとよい」（染谷氏）とのことだ。

　リリースタイムは22.1ms。非常に速いわけではないが，次のボイス頭にリリースの頭が被ってしまうと明瞭度が落ちることもあるので，そういう影響がないようにするには，このように設定しなければならないそうだ。

　ゲインリダクションに関しての表示はないが，かかり過ぎはよくないので，メーターを見ながら-3dB～-5dBくらい，常時-5dBは行き過ぎという認識を持って調整を行うとよいという。

　次に「各コンプレッサーの通過特性を得る」ことについては，ハードウェアのコンプレッサーはVCA方式，ダイオードブリッジ方式，光学方式，FET方式など，色々な処理方式があるので，目的にあったコンプレッサーを選択することが重要だ。だが，それにあたり方式ごとにどういった回路で構成されているのか知っておいたほうがいいので，情報収集して音作りに役立てて欲しいとのこと。方式が異なると音の印象も変化の具合も大きく変わるので，その時々に応じて適切な処理方式のコンプレッサーを使いなさいということだろう。

　ソフトウェアのコンプレッサーはどのくらい正確にハードウェアの実機をモデリングしているかが重要なので，その辺を勉強して使用するとよい効果が得られるのではないか，とのこと。

　コンプレッサーを収録時に利用する使用方法が解説された。「ダイアログの収録時にコンプレッサーを使用しない方も多いようですが，私はガンガンかけていくタイプ」（染谷氏）だそうで，その目的は「録音時にボイスのダイナミックレンジをコントロールして，後処理を楽にすること」だ。

　アナログコンソールで収録すると，通常上のダイアグラムのようになるが，この方法だと突発的な大声で歪みを生じる可能性が高い。なので，染谷氏からの提案は下のダイアグラムの接続順だ。具体的にはコンプレッサー→コンソールフェーダーの順番をコンソールフェーダー→コンプレッサーの順番に変え，ヘッドアンプ（マイクプリアンプ。図ではHA）のゲインを下げ目，具体的には4～8dBくらい下げ目にして，フェーダー側でメイクアップしたものをコンプレッサーに入れて，レベルをコントロールしながらレコーダーに録音していく。

　「こうするともちろん完璧ではないが，ある程度歪みの回避対応ができる。コンプレッサーを使って収録するのは抵抗があるという人も多いようだが，正しい設定をすれば皆さんの助けになると思うのでぜひ試して欲しい」（染谷氏）。

　台本を見ながら大声だなと思ったらフェーダーを下げて小さめの音で録音し，囁き声など小さな声ならフェーダーを上げて大きめの音で録音する，というアナログコンソールのノウハウがあるエンジニアならではのテクニックだろう。

　ダイナミクス関連の3つめ，ミキシング時のダイナミックレンジ設定だが，多数の作品に関わっている染谷氏の経験を踏まえた設定が披露された。これも大変貴重な情報だ。

　映画はモニターレベルが業界レベルで決まっていて，85dBCだ。この場合，リファレンスレベルは-20dBFsが基準になっているので，ボイスレベルはそこから大体-3dBくらいになるよう目指して作業を行うとのこと。一番大切なことは，作品全体のダイナミックレンジ（一番大きい音量のパートと一番小さい音量のパートの差）を考慮しながらレンジを決めていくことだそうだ。

　TV番組は自主基準となるが，大体79dBCくらいがよいと言われているそうだ。リファレンスはNHKを除き-20dBFsなので，ボイスレベルはこれより-3dBくらいを目指して，映画同様作品内容を考慮したダイナミクスを設定して，ラウドネス基準の-24.0LKFSを満たすことを目指す。

　ゲームの場合も自主基準で，モニターレベルは76dBC。リファレンスレベルは-16または-14dBFsと少し大きめで，ボイスレベルは0dB近辺を目指して，作品全体の起承転結を考慮の上ダイナミクスを設定。最近ではゲームもラウドネス基準があるので，最終的にカットシーンとインゲームのレベルをこれに揃える。

　ダイナミクス関連のトピックの後は距離感の作り方が解説された。これはONマイク（マイクに近づいた状態で録音されていることを指す）でどうやってOFFマイク（マイクから離れた状態で録音されていることを指す。部屋の残響がミックスされた状態で録音される）のように聞かせるか，の解説となる。

　ゲームやアニメ作品では様々な事情で，ボイスの収録時に映像が決まっていなかったり，台詞を使い回したりすることから，基本的にONマイクで収録することが多い。だがシーンによっては少しOFFマイクっぽくしなければならないこともある。今回はポスプロの処理でどのようなOFF処理を行うのかが解説された。

　デモとして3つの台詞が用意された。Dialogue Aは台詞，Dialogue BとCはかけ声。距離設定は0m，3m，8mだ。

　まずはDialogue Aの距離0mから。スライド上に実際の設定があるので，オーディオ・エンジニアにとっては大変貴重な情報となる。

　Dialogue Aの距離3m。エンジニア以外は右のリバーブの設定は何をしているのかさっぱりだろうが，左のイコライザーのGUIで低域と高域をフィルターしていることは分かるだろう。右のリバーブは「Decay（残響の減衰時間）」が0mのときより長く設定されているのが分かる。

Dialogue Aの距離8m。さらに低域と高域がフィルターされ，右のリバーブはより「Decay（残響の減衰時間）」が長く設定されている。

　最後にリバーブ処理に関して説明がなされた。染谷氏も3D対応の仕事が増えてきていて，3Dリバーブもかけなければいけないのだが，現状中原氏が見せてくれたような商品はまだないので，7.1.2chなどを作る場合は同じ5.1chリバーブソフトウェアを3セット組み合わせるそうだ（現状7.1.2chに1台で対応しているソフトウェアリバーブがないとのこと）。

　オブジェクトベースの場合は，DAWのインサート機能を使用して，各音源に対してリバーブ処理を施しているそうだ。定位が変わるときでも，オートメーション機能を用いて，リバーブのドライとウェットを切り換えていくなどで対応している。前述の7.1.2chリバーブと組み合わせて使用することで，リバーブのコントロールは容易になるそうだ。

　以上でセッションは終了し，岸氏からまとめの言葉が入った。「バラエティパックということでいろいろな内容があったが，AESに参加する意義が伝われば幸いだ。我々もなかなか忙しくてちゃんとした勉強ができず，結果オーライになりがちだが，AESではそこから一歩踏み込んだ技術や知識を得ることができる。そのメリットは再現性が高くなることだと思う。『偶然できた』から『狙ってできるようになる』。さらに開発というものは知見をためていくことも大事なので，そういった意味でも非常に重要だ。1か月に1回昼ご飯を我慢するくらいの金額で，過去60年のプロオーディオの技術や知識が手に入るので，興味のある方はぜひ入会を検討してみて欲しい」。

　いかがだっただろうか。あまりの情報密度の濃さには筆者も驚いたが，最先端技術の紹介や知見の披露とはこういうものであろう。とくに中原氏のVSVerbはこれまでなかった手法を用いるリバーブ処理ということもあり，その先進性には舌を巻く。これが数年後には実用化されるかも知れない……と思うと夢も膨らむ。
　一方で濱崎氏の導入部ともいうべき3Dオーディオの解説がなければ，ちんぷんかんぷんという人も多かっただろう。染谷氏の話はオーディオ・エンジニアリングのノウハウがたくさん散りばめられていて大変参考になった。本セッションは冒頭にも書いたがある意味CEDECでしかできない（専門家限定のAESなどは別）極めて専門度の高いものだったと思う。オーディオ関係者はもちろん，そうでない人も興味があれば是非目を通してみてほしい。また，もう少し初心者向けの内容を知りたいということであれば，4Gamer.netに掲載されている「こちら」の記事がおすすめだ。

テクノロジー関連記事

ゲーム開発者会議「CEDEC 2025」，受講登録受付を開始。約5分の短いセッションが展開される「CEDEC Lightning 2025」の講演者情報も公開へ

　コンピュータエンターテインメント協会は本日，ゲーム開発者会議「CEDEC 2025」の受講登録受付を開始した。受講パスは，レギュラーパスやデイリーパスなどの既存の5種類に加え，新たにPERACONへの応募とZOOM参加が可能となる「PERACONパス」が用意されている。また，「CEDEC Lightning 2025」の講演者情報も公開された。

[2025/06/02 13:24]

開発
テクノロジー
4Gamer
ニュース
CEDEC

［GDC 2025］Amazon Web Servicesのクラウドサービスはゲーム開発と運営をどう変えるのか――キーマンに聞く最新の展望【PR】

　2025年春にAWSが発表した「Amazon GameLift Streams」は，ゲーム開発元が独自の料金体系やプレイ環境を設定できるクラウドゲーミング基盤だ。プラットフォームに依存しない柔軟性が，クラウドゲームの未来をどう変えるのか。GDC 2025会期のサンフランシスコでAWSのキーマン2名に話を聞いた。

[2025/04/22 16:14]

テクノロジー
4Gamer
広告企画
インタビュー
Game_Developers_Conference

アリババクラウド，日本市場向けAIパートナーシッププログラムを開始。ゲーム業界向けのカスタムAIソリューションも提供へ

　アリババクラウドは3月5日，日本市場向けの新たな「AIパートナーシッププログラム」を開始したと発表した。同プログラムでは，同社の独自基盤モデル「Qwen」を活用し，日本国内のパートナー企業と協力して…

[2025/03/05 17:06]

テクノロジー
ニュース

GamesIndustry.biz Japan Edition

［CEDEC 2020］「AES x CEDECコラボセッション。ゲームオーディオに応用できる技術・知識」聴講レポート

求人情報検索

トピックス