既存のスタジオでは世界の潮流に対応できない…。ソノロジックデザインが世界標準に対応させた横浜・恵比寿のスタジオ

ここ10年、Netflixなどの普及によって、日本のコンテンツは国内だけに留まらず、制作されたものは常に世界中に公開される時代へと変化しました。映画、ドラマ、アニメ、ゲーム、日本語翻訳…など、あらゆる作品が日々制作され、世界へと発表されています。そんなコンテンツの音に関わる部分として、ナレーションやフォーリーなどを録音するスタジオはいろいろありますが、これらのスタジオが世界の標準に対応できているか、というとなかなかそうではないのが実情のようです。

大きくなりすぎてアップデートすることができなかったり、慣習が邪魔をしていたり…と、さまざまな問題が考えられますが、そもそも現状に慣れきってしまい、世界の潮流が見えていない、というケースも多そうです。そんな中、ソノロジックデザインという会社が横浜と恵比寿にスタジオを作り、実際にワールドワイドな仕事をしているというのです。世界の基準とは、どんな録音環境なのか、どんな方法で録音しているのか、そもそも基準とはなんなのかなど、代表取締役の牛島正人さんにお話を伺ったので、紹介していきましょう。

ソノロジックデザインの恵比寿のスタジオでお話を伺った。左から松岡啓介さん、安齋拓磨さん、代表取締役の牛島正人さん

バークリー卒業後、効果音をひたすら作りゲームに実装していた

--牛島さんは、いつごろから音響とかレコーディングといったことに興味を持つようになったのですか?
牛島:90年代のバンドブームのころ、中学生だったのですが、そのころにギターを弾き始めた、というのが最初です。バンドも組んでいて、高校生になったころ、将来のことを考えた時に、バンド活動というよりも、もっと本気で音に関わる仕事に就きたいと思うようになったんです。理由としては、バンドを組んでいたころにPAの設営などを自前で行うことが多く、そこに面白さを感じたからです。高校卒業後は、九州芸術工科大学(現在の九州大学)のに行こうと思っていたのですが、英語だけが全然ダメで落ちてしまったのです。そこで浪人する…というのも手ではあったのですが、どうせなら英語克服も兼ねて留学しようと思い、アメリカ・ボストンのバークリー音楽大学に進みました。バークリーでは、今はないのですがミュージックシンセシスという学科に入って、当時主流になりつつあった打ち込みやパッチング、シンセの音色作り、EQやコンプの回路図を見て勉強したりなど、工学部に近い内容を学びました。ここ出身の人は、スタインバーグやNIなどのメーカーに行く人が多いんですよ。私の場合は卒業後、日本に戻ってきて2008年から横浜の小さい音響制作会社からキャリアをスタートしました。

--海外で仕事というわけではなく、横浜で働き始めたんですね。
牛島:この会社では、プレステ3やDSなど、効果音をひたすら作ってゲームに実装するということをしていました。ほかには、パチンコ系とかも担当していましたね。小さい案件、大きい案件、いろいろあったのですが、常に5タイトルぐらいは関わっているような状態だったので、在籍した7年半ぐらいで、50~60以上のプロジェクトは担当しましたね。そのころから効果音と実装をずっと行なっていたのですが、あるときWwise(ワイズ)というオーディオミドルウェアを使うことになったんです。当時日本では誰も使っていなかったので、そのWwiseを理解するために英語ができる人、効果音ができる人を探しているということで、私に声がかかり担当することになったのです。具体的にはWwiseを使ってプロレスゲームのWWEを開発することになりました。そのプロジェクト終わったところで、一区切りついたこともあり1度フリーランスになったのです。が、その後、Wwiseの開発元であるカナダのAudiokineticという会社の日本支社が作られて数年後、2016年にオファーを頂きプロダクトエキスパートとして入社することになりました。Audiokineticに所属していたころも、週の半分ぐらいは、ちゃんと最前線のことを知りたかったので、現場の仕事をしたいということを伝え、フリーランスの立場でサウンドの制作は続けていましたね。実際Audiokineticに勤めていたのは、5年ぐらいです。

今回お話を伺ったソノロジックデザインの牛島正人さん

オーディオミドルウェアWwiseの開発元Audiokinetic退社後、ソノロジックデザインを設立

--私も最初に牛島さんにお会いしたのはAudiokineticにいらっしゃったときでした。その後、ソノロジックデザインを設立することになるんですか?
牛島:ソノロジックデザインという名前自体は、フリーランスになったときから使っていたのですが、法人としての設立自体は2021年4月です。Audiokineticの退社は2022年の3月なので、若干かぶっている時期はありますね。法人化した理由としては、立体音響などが必須になってきて、XboxやPCゲームはDolby Atmos対応が標準になり、プレステーション5に関してはAmbisonicsのシステムが基本的で、最近はDolby Atmosにもデコードできるようになった中で、これらに対応するためです。さらに設備的にもちゃんとした7.1.4chの再生環境がないと制作しているデータを正しく判断できないので、イマーシブスタジオを作るために法人化した、という感じですね。

予算が足りないから、音を諦めるというプロジェクトが多かった

--世の中的にも必要となり、対応するためにスタジオ作ったということですね。
牛島:環境的にもそうですし、需要的にも必要だったんです。そもそもオーディオミドルウェアを全てのプロジェクトで使用できるとは限りません。予算の関係でオーディオミドルウェアを使わないプロジェクトも多く、自社ソフトで作ったり、UnityとかUnreal Engineの標準のオーディオ機能だけで作業するっていうケースがあるんです。もちろん予算を掛ければ立体音響はできますが、プロジェクトは予算があるので、費用対効果で諦めるという判断をしているプロジェクトも結構多いんです。けど予算が足りないから音響を妥協するって、もったいないですよね。なので、横浜にあるse:design studioは自宅兼スタジオにすることで、固定費を下げて、予算の都合で今まで立体音響を諦めていた人にも、この環境ならできますよ、というところで提案をしています。

se:design studioにはフォーリーブースも併設されている

--やっぱり、予算が掛かってしまうものなんですね。
牛島:映像がどんどんリッチなってきているので、映画のような音作りが求められるんです。効果音ライブラリーは積極的に使用しますが、足りないときはフォーリースタジオなどで録音する必要があります。ちょっとしたもの、たとえば足音だけを録る場合でも、これまでは大きいスタジオを使うといった選択肢しかなかったのでコストが掛かりすぎてしまうんですよね。なので、se:design studioにはフォーリーブースも併設して、コストを抑えながらもしっかりとした録音を可能にしています。一方で、ゲームのサウンド制作は効果音の作成、実装、ゲーム中のリアルタイムミックスの設定管理も行います。ゲームも他のメディア同様、音声のレベルを基準にして効果音やBGMのレベルがラウドネス値に収まるようにミックスします。そのため、音声の収録レベル、品質はとても重要なので、よりよいゲームのミックスを実現する目的で音声収録に特化したスタジオを作りました。ナレーターさんや声優さんが足を運ぶ必要があるので、都内のアクセスの良さも重要視しました。

恵比寿にあるre:voix studioは、音声を収録することに特化したスタジオとなっている

日本の音声録音は、世界基準でみると品質が低い

--フォーリーだけ、音声だけ、というわけではなく、音に関することを一貫して行われていますが、それには何か理由があるのでしょうか?
牛島:過去にモバイルゲームのプロジェクトで、「BGMが全然聴こえないので、データを第三者として確認して意見してほしい」という相談が来たことがありました。実際見てみると、まず音声データがバキバキで、まさにコンプがかかったノリ波形。ラウドネスを測定してみると-11LKFS/LUFS以上と凄まじい値。で、「音声データが全部占めちゃってるから、音楽とか効果音は、もちろん聴こえないのです」と伝えました。その結果、こちらで音声データを聴きやすい形に修復していくという話になったため、「処理前の生データをください」といったところ、とんでもない事実が発覚したんです。そのプロジェクトが依頼していた音声スタジオは、プラグインのコンプを使って掛け録りしていたんですよ。この時点で意味がわかりません。まあハードのコンプを使っているなら、まだ分かりますよ。なんでプラグインのコンプを掛け録りにするんだ、って。そのせいで、何もエフェクトの掛かっていない生データは存在していないということで、もうお手上げでした。音声を基準として効果音や楽曲すべてのバランスを保つことが重要です。ここがちゃんとできてないスタジオが存在するのが現実なんですよ。そうなると自分の業務を100%提供しようと思ったときに、音声も含めて収録できるスタジオが必要だと思ったんです。

ゲーム業界では標準になりつつあるReaperを使ってレコーディングも行っている

--もちろんスタジオによると思いますが、原因はなんだったのでしょうか?
牛島:まあさっきの話はレアケースですが、現実的に既存のスタジオだとテレビやCMの収録もするので、それだと音圧が高めの音声データを納品することが多いんですね。すると、スタジオの設備をそっち基準にしている場合、簡単に配線を変えたりとかできなくて、コンプを掛け録りせずにってことはできなかったりするんです。ほかの業務にも影響が出てしまうので、簡単に設備を変更できないのが問題でしょうね。

世界ではTLM103やC414など多様なマイクを使い、マイクから60cm離れて収録

--テレビやCMの場合、音圧が高めという話でしたが、そこの分野では問題になっていないんですかね。
牛島:私個人の意見としては非常に問題だと感じています。いつも映画やストリーミング配信を見たり海外ゲームで遊ぶとき、あえて言語を英語に設定しています。正直、英語のほうが日本語より自然に映像とあった品質だと感じることが多いです。Audiokineticに勤めていた経緯もあって、海外のサウンドの人にいろいろな話を聞いてみると、もうコンプを掛け録りしていないんですよ。またマイクからの距離も60cmは離していて、さらに1m先にオフマイクみたいなものを同時に録音してたりします。もしコンプをかけるとしても、電気的な信号を抑える意味で、ハードのコンプをレシオ2とかで、本当に薄くかけるというのが大体でしたね。最近のゲームだと7ヶ国語対応とかなんですが、全部のデータをもらってミックスレベルをチェックしてみると、日本語だけ距離が近いというケースが多いです。コンプは1176とマイクはU87を使って、30cmぐらいの距離で収録。きつめにコンプをかけて、音圧を高くするという昔ながらの収録方法が、アップデートされていないんですよ。きっとテレビだったら、音声をしっかり聞かせたいので、そこまで問題になっていないのだとは思いますが、ゲームの場合だと遠い音声は遠く聴かせたい。しかしコンプを掛け録りしていると、遠くに置いても近くに感じるので、ここの演出ができないんです。

モニタリング用のヘッドホンは、Austrian AudioのHi-X60

--海外の録音はどうやって行われているのでしょうか?
牛島:Netflixの作品納品仕様には、どういったマイクプリを使って、どう収録するべきか全部記載されているので参考になると思います。知り合いの海外エンジニアに色々聞きましたが、TLM103やC414といったサイズのマイクを60cm離して録るというのが、一般的な意見でしたね。コンプは、使う人も使わない人もいますが、前述の通り電気的なピークを抑える意味で使っていますね。過去、弊社で複数マイクを複数距離のマイキングで収録してブラインドテストを行いました。その時はC414の60cmが一番という結果になりました。まあ偶然にもNetflixの仕様と近い結果になりました。音圧が高い音声データというのは、日本だけの特徴だとは思うのですが、問題意識を持っている人の割合が少ないというのも実情。CMだとパッツンパッツンの音声データでないと、音のことを知らないクライアントからOK
が出なかったり、ラウドネス規格に沿ってデータを作れば他のプログラムとそろってくるはずなのに、無駄に音圧を上げる作業がいまでも行われているようですし……。海外コンテンツと聴き比べると日本語コンテンツは正直残念な気持ちになることがあります。

フェイシャルキャプチャーのシステムも導入していた

最新技術と世界基準をクリアしたse:design studioとre:voix studio

--そういった問題をse:design studioやre:voix studioではクリアしているということですね。実際に導入している機材としてはどんなものがあるのでしょうか?
牛島:re:voix studioでは業界定番のU87aiはもちろん導入していますが、主にAustrian AudioのOC18を使っています。ある意味、C414の後継的な位置づけとしてOC818およびOC18があると思うんです。実際にOC18を試したところ、男女関わらず、どんな人でもフラットにきれいに録れたし、クリエイターは新しい機材を使うべきだと私は考えているので、あえて古いC414を使う理由はないかな、という意味でこれをチョイスしています。se:design studioではFoley収録ではガンマイクやコンデンサーマイク、ペンシルマイクなどのマイクを使用しています。フィールドレコーディングの時はSPS200というAmbisonic Mic、ポイント収録はガンマイクといった感じです。他にも電磁波を音として収録するようなマイクやコンタクトマイクなど、変な音を収録できるマイクも保有しています。

メインのマイクは、Austrian AudioのOC18

--バックアップ用のレコーディングもされているんですよね。
牛島:もしも何かで録音に事故があった場合を想定し、まったく別回線でバックアップでZOOMのF6を回しています。もちろん普通は使うことはないのですが。一方フェイシャルキャプチャーのシステムも導入しています。ゲームのレコーディングでは顔の動きを捉えるために声優とは別にフェイシャルアクターという人を使うケースが多いのですが、このフェイシャルキャプチャーは、声優のレコーディング時に簡単に顔の動きを捉えることができるのです。この際、音声収録をタイムコード同期して収録することで、フェイシャルアクターを使うことなく、この時点でゲーム内のキャラと顔の動きを合わせてしまうのです。これによって、ゲームの開発におけるコストを下げるとともに、時間短縮を行なっていたりします。ミキシングルームについても部屋自体をフラットに作っており、周波数ごとの残響時間も揃っているので、確実なモニタリングが可能となっています。

--そのほか、モニタースピーカーなどはいかがですか?
牛島:se:design studioでは7.1.4chのスピーカーでモニターできるようにするため、スピーカーはGENELECの4430Aを導入しています。これは、LANケーブル1本で、電源、スピーカーの管理を行えるので、拡張性も考えてこれを導入しています。また、ゲームはプログラムデータを作って製品を出荷するというものでデジタルで納品されるので、デジタルのデータをなるべくデジタルで聴いてみたい、というコンセプトからスピーカーを選定しました。一方、re:voix studioでは、生の収録音を生のまま聞きたいというコンセプトのもと、メインはPMC6の3.0ch構成とし、サブモニターとしてOutput Frontierの2chを導入しています。3.0構成の理由は、ダイアログは基本センターチャンネルなので、収録段階からセンターチャンネルでモニターするべきという理由です。コントロールルーム側は音響設計・施工は徹底して作っているので、世界的に見ても高品位なモニター環境が整っていると思います。

DAWにはゲーム業界標準のReaparを採用

--一方で、DAWはPro Toolsというわけではないんですよね?
牛島:re:voix studioは商業スタジオを想定してるのでもちろんProTools+MTRX Studioを導入していますが、スタジオオープン以降ほぼ使用しているDAWはReaperになります。ゲーム制作は基本Windowsで行われるので、ゲームサウンド制作ではNuendo/Cubaseなどが昔から良く使われてきましたが、この5年くらいで業界の半分くらいのかたがReaperに移行したと私は感じています。Reaperは自由度がかなり高いので、スクリプトを組むことで音声データを整理することができ、人件費や作業効率が可能なんです。そもそもゲームでは何千、何万、場合によっては何十万といった数のサウンドファイルを扱うため、たとえばサンプリングレートコンバートとかをするのでも人がやったら膨大な時間がかかるし、ミスも発生してしまいます。でもRepaerのスクリプトを組めば自動で正確に処理できますからね。さらにリージョン・マネジャーっていうものがあり、リージョン単位で波形を出力することができ、そのリージョン情報をCSVファイル形式で出力できるんです。そうすると、エクセルのデータベースをとりこんで、何万個のファイルのリネーム作業も一瞬で行うことが可能です。こうした点だけでも人件費が大きく変わりますから。Pro ToolsなどほかのDAWはこうした機能が弱いので、ゲーム業界ではReaperを使う比率が増えてきています。

Reaperのリージョン・マネージャー。これを使ってリージョンを切り出し、その情報をExcelで管理できる

--以前、ゲーム業界だとSOUND FORGEを使うケースが多い、といったことを聞いたことがありましたが…。
牛島:確かに、以前はSOUND FORGEやWaveLab、BIAS Peakなんかを使うケースが多かったし、こうしたソフトにもバッチ処理機能があったので便利ではありましたが、これら波形編集ソフトでの処理するデメリットは破壊編集である、という点です。昨今のゲームはファイル数も膨大になり、多言語対応も増え、複数のサウンド制作会社が関係します。そのためEQやコンプをかけたりして音質を調整することがあるので、そうなったときに非破壊で元に戻れるようにしたい。そうしたことを考えるとReaperが便利なんですよ。ゲーム業界でReaperの導入が進んできたため、録音段階からReaperを使っておくのが便利ですから、ウチではReaperを使っているのです。ちなみに横浜のse:design studioはWindows環境でのReaper、恵比寿のre:voix studioはMac環境でのReaperです。

ソノロジックデザインでのメインDAWであるReaper

--最新技術も取り入れつつ、現在の世界的な基準にも準じたスタジオというわけですね。本日はありがとうございました。

【関連情報】
ソノロジックデザイン