[GDC]AIを使った超リアルな音声合成はゲーム制作を変えるか?
ここでは2020年3月17日(現地時間3月16日),本来GDCが開催されていれば会期初日となった日に合わせて開始されたVirtual Talksの中から「Experimental AI Lightning Talk: Hyper Realistic Artificial Voices for Games」の模様を紹介したい。非常に短いセッションなので,技術的な詳細についてはほぼ触れられていないが,SonanticのZeena Qureshi氏は,同社の作成したツールでゲーム制作がいかに便利になるかを解説していた。
音声合成のゲームでの利用は,日本では主にプレイヤー名を呼ばせるために昔から使われてきているが,かなり前に紹介したこともある「めざましマネージャー アスナ」などでは音声合成を使ってニュースの読み上げほか,キャラクターの特性を再現した状態での高品質な音声合成が行われていた。
音声合成のクオリティ自体は非常に上がってきている。だが,ゲーム内の音声そのものに使うというのはほとんどない(と思う)。これはボイスを使うようなタイトルでは声優の演技に依存する面も大きいからだろう。しかし,機械学習などで音声合成のレベルがさらに上がってきたらどうなるだろうか?
Sonanticの主張は簡単だ。ボイス付きのゲームを作っていて,終盤でシナリオの変更があったとすると,数行のテキストのためにスタジオやエンジニアの予約なども入れなければならない。声優との契約なども関わってくる。非常に面倒なことになってしまう。それを避けるために,テキストはAIに読ませようというわけだ。
最初の問題は,これが使いモノになる品質に達しているのかどうかというところだろう。
こちらのアーカイブで,7時間35分24秒くらいのところからデモが行われている(下の埋め込みムービーでは,直接デモ部分から始まるが,止めるのが面倒なのでサイトでの視聴を推奨)。デモはすべて合成された音声によるものだ。
GDCのGDC 2020 Virtual Talksをwww.twitch.tvから視聴する
英語のセリフなので正確な評価は難しいが,少なくとも合成音声ぽくはない。言われなければ分からないレベルで,一般的な音声合成のような説明調のものでもない。
エディタ上でタイムラインに沿って文章が並べられている様子なども公開されていたのだが,セリフ一つをとっても,その場に合った読み方というのはあるわけで,AIが自動生成したものが最適とは限らない。同社が制作したダイアログエディタでは,自動的にテイク2,テイク3を生成して並べてくれるような仕組みも用意されていた。
使う側が抑揚などの演技要素も自由に指定できるようになれば,不慣れな映画俳優やアイドルをキャスティングしてゲームが残念なことになることもなくなるだろう。
同社は,2つの目的でこれを開発しているという。1つは音声の演技を確実なものにするためだ。声優の音声からアクターモデルを作り出している。2つめの理由は,ゲームデベロッパをサポートするためだ。このようなツールが使えれば,トレイラーなどで使うNPCのモノローグなどは簡単に作成できるので制作効率が向上する。
同社の技術がそのまま日本語などに使えるかどうかは不明だが,同様なアプローチが使えない理由はない。ハードウェアの高性能化と並んで機械学習は長足の進化を遂げつつあり,音声合成でもさらなるブレイクスルーが起きることが期待できる。
あまりに高品質でできてしまうと声優の需要に影響が出そうなので契約関係で別の問題になりそうだが,ちょっとした修正などでこういった技術が使えると便利であるのは間違いなく,法律などの周辺環境も整備を含めて,今後の発展に期待したいところだ。これでド〇ゴンボールも安泰になったりしないだろうか。