CD ProjektがCyberpunk 2077のローカライズにAIを使った理由

カナダのフェイシャルアニメーション企業Jali ResearchのPif Edwards氏が,同社の技術が大ヒットRPGにどのように貢献したかを語ってくれた。

 Cyberpunk 2077には多くのビッグネームが関わっている。

 The Witcher 3: Wild Huntで有名なポーランドのスタジオCD Projektが制作を担当し,待望のSF RPGとなっている。MatrixやJohn Wickに出演したキアヌ・リーブスが Johnny Silverhand役で出演しているほか,パンク界のレジェンドであるRefusedやポップセンセーションのGrimesがサウンドトラックに参加している。

 馴染みがない人が多いかもしれない名前に,Jali Researchがある。カナダのトロントを拠点とするフェイシャルアニメーション企業で,CD ProjektのCyberpunk 2077のローカライズに協力している。

 この会社はトロント大学の博士課程の学生であるPif Edwards氏とアカデミー賞を受賞したアニメーター兼監督のChris Landreth氏Eugene Fiume氏Karan Singh氏の両教授によって設立された。

 Edwards氏はコンピュータサイエンスの博士号を取得しており,当初は顔のアニメーションに焦点を当てたいと考えていたが,「人が表現しているときは,ほとんど常に話していることが分かった」という理由で,音声に注目することにしたという。当時利用可能だったスピーチやアニメーションを扱うツールに不満を感じていた氏は,独自のツールを作ることにしたのだ。

特定の文字や音に対して口の形を作るのは,1対1ではありません。「enという音だからこうなる」ようなことは言えないのです

 CD ProjektがJaliに目をつけたのは,2016年に開催されたコンピュータグラフィックスの年次会議SIGGRAPHに投稿されたカナダのアウトフィットの論文を読んだあちだった。それはプロシージャルスピーチに焦点を当てたものだった。

 2015年のThe Witcher 3では,CD Projektはアルゴリズムを使って8つの言語のボイスオーバーの顔アニメーションを処理していた(参考URL)。これはある点までは成功したが,Cyberpunk 2077ではより高い目標を掲げていた。英語,ドイツ語,スペイン語,フランス語,イタリア語,ポーランド語,ブラジルポルトガル語,ロシア語,北京語,日本語の10言語に対応したリップシンクだ。

 Cyberpunk 2077では,CD ProjektとJaliは機械学習とルールベースの人工知能を組み合わせて使用した。前者は,Jaliが「アライメント」フェーズと呼んでいるものに使用されており,誰かが話すときに実際にどのような音が出るのかを把握する機械学習プロセスだ。

 「たとえば,誰かが『こんにちは』と言っている音声ファイルがあるとしましょう」と,Jali の共同創業者で CTO の Pif Edwards 氏は説明する。

 「H'はどこで始まり,どこで止まるのでしょうか? また,'e','l','o'の音はどこにあるのでしょうか? その情報を特定の言語のためにマークアップし,そのデータを使って機械学習プロセスを訓練して,どんな音が鳴っているかを認識するのです」

 「しばらくすると,今までに見たことのないようなまったく新しい台詞を与えることができ,音の境界線がどこにあるかと,それぞれの音素の長さを予測できます」

Jali Researchの技術は,それぞれの単語を形成する個々の音を検出し,それに応じてキャラクターの顔をアニメーション化できる
CD ProjektがCyberpunk 2077のローカライズにAIを使った理由

 その後,Jaliは第2段階であるアニメーションに移行する。ここでは,昔ながらのルールベースのAIを使って,どのような顔の動きが音に対応しているかを判断している。これは,よりシンプルな「もしこれがあれば,それがあれば」というシステムで,特定の入力に反応して言われたことを実行するだけだ。

 「ルールベースの方法論は,どのような音が鳴らされているかに応じて,どのような口の形を生成する必要があるかを把握するために使用するものです」とEdwards氏は語る。「たとえば,"dude "は "you "と同じように見えますが,まったく別の言葉です。コアとなるアーティキュレーション(口の形を作ること)は,実際に何が出てくるかを予測したり,どこにあったかを記憶したりすることです」

機械学習プロセスを言語ごとに特別に訓練する必要がありますが,アニメーションの要素は同じです

 「特定の文字や音に対して口の形を作るのは,1対1ではありません」と氏は語る。「ああ,'en'の音だから,こんな風になるんだ」みたいなことは言えないのです。後ろに'e'がついていれば,'ni'や'noo'の音になるかもしれません。'n'の音の形は,その周りに何の文字があるかということで,必ずしも音が出た形ではありません。それから,'s'のようなものがあります。そこには,摩擦があるために十分に歯を近づけています」

 「発話にはさまざまなことがあります。言語学のさまざまな側面がどうであれ,何を発声しているかに関係なく,どのような顔の表現が必要なのかを知っているルールがあるのです」

 この技術の組み合わせの素晴らしいところは,人間は異なる言語間で同じ音に対して同じ表現をするので,異なる言語の機械学習プロセスでも音声を通すると,同じルールベースのAIをさまざまな異なる方言にまたがって使用できることだ。

 「各言語に合わせて機械学習プロセスを特別に訓練する必要がありますが,アニメーションの要素は同じです」とEdwards氏は語る。「日本語に特化したアニメーションモデルといったものはありません。誰かが話すときに誰かの口がどのような動作をするかという一般的な原理は,言語に特化したものではないのです」

 「驚いたことに,言語学の一般的な原理はすべての言語に共通しているのです。しかし,それは難しいものです。このようなルールベースの仕事をしたがらないのは,ルールを知らなければならないからです。それには時間がかかります」

Jali Research チーム
CD ProjektがCyberpunk 2077のローカライズにAIを使った理由

 このプロセスは,膨大な時間の節約にもなる。平均して,ゲーム内でのわずか1分間の台詞をキャラクターに言わせる作業にアニメーターがかかる時間は7時間と言われている。自分で計算することもできるが,膨大な量の台詞を誇るだけでなく,10の言語に対応したリップシンクもサポートしているRPG体験のためにアニメーションの仕事をしなければならないというのは,とんでもない偉業だ。そのためにはとんでもない工数が必要になる。

 その結果,世界中のより多くの言語が "一流の市民 "として扱われることを意味する,ゲームのローカライズという技術が生まれた。多くの場合,ゲームの出荷時には,1つの言語,つまり一般的には英語用に設計されたリップシンクが搭載されている。その後,このバージョンのゲームは他の言語用にローカライズされ,一般的には新しいオーディオダブの形で提供される。

プレイしていると,北京語を話している人が実際に北京語を話しているように見えます。口だけではなく,額や目,瞬きが起こるときの目もそうです

 このプロセスには多くの努力が必要だが,翻訳の結果は,特定の口の動きがないと収まらなかったり,元の音声と同じスペースに収まるように詰め込まなければならなかったりと,かなり不器用なものになってしまうだろう。

 さらに,言語は言葉だけではない。顔の表情や,実際に何かを言っているときの表情は,コミュニケーションの大きな部分を占めている。

 「たとえば,英語からフランス語に翻訳したい台詞があるとしましょう」とEdwards氏は説明する。「それは,元のセリフよりもずっと長いものになるかもしれません。しかし,多くのゲームでは,アニメーションを拡大縮小するだけで終わってしまうでしょう。かなり間抜けに見えるかもしれませんが,リップシンクをやり直すことができないのでスタジオはそうしなければなりませんでした」

 「顔のアニメーションもそうです。Jaliの場合は,すべてがマッチしています。今,ゲームをプレイすると,北京語を話している人が実際に北京語を話しているように見えます。口だけではなく,額,目,瞬きのタイミング,首の動き,顔の動きなど,すべてが一致しているのです。これらすべてが英語と同じエンジンでできます」

 CD Projektは今日ではRPGで最もよく知られているかもしれないが,実はこの会社は母国ポーランド向けにゲームをローカライズしたことからスタートしている。

Jali Researchのローカライズは単なるリップシンクだけではなく,顔の表情まで考慮に入れているので,各セリフに説得力を持たせることができる
CD ProjektがCyberpunk 2077のローカライズにAIを使った理由

 ソ連崩壊後の国では,ほとんどの人がゲームの海賊版を喜んで購入していたが,その理由の1つには,ゲームを作ったりパブリッシングしたりしている会社がポーランド語への翻訳に力を入れていなかったことが挙げられる。CD Projektは,翻訳やローカライズに力を入れて,人々が実際に買う価値があると感じるものを作ることで,その国のゲーマーが喜んでその苦労して稼いだお金を製品に使うことができることを発見した。

 その哲学は現代にも受け継がれているようだ。夏には,CD Projektの中国広報マーケティング担当ディレクターDarren Ding氏がLinkedInの投稿で(参考URL),Cyberpunk 2077の予約注文で最も人気のある地域であると発言している。これは国の大きさの違いによるものかもしれないが,簡体字と北京語の両方で吹き替えと字幕が付けられ,Jaliのリップシンクマジックが北京語で実行されているゲームを応援するコスプレイヤーが出てくるのも不思議ではない。

 つまり,ローカライズに関しては,努力を惜しまなければ,顧客はそれに報いることができるということだ。

 「我々がやっていることについてロシア人の同僚と話していました」と氏は語る。「彼はThe Witcher 3の大ファンですが,英語でしかプレイしたことがなかったのです。彼らはネイティブにロシア語を話します。彼は英語でプレイしていますが,最も注目を集めたのがそのバージョンだったからです。 彼がCyberpunk 2077をプレイすると,英語を話す人と同じ経験をすることになるので,彼はとても興奮していました」

 氏はこう締めくくっている。「これは,人々をよりゲームに取り込むための方法です。不信感を除くことができるので,本当にストーリーにのめり込むことができるのです」

※本記事はGamesIndustry.bizとのライセンス契約のもとで翻訳されています(元記事はこちら