ここ1、2年、音声合成や歌声合成が急速に進化し、さまざまなサービスが登場してきていますが、またちょっと違う方向から、スゴいサービスが登場してきました。自分の声をマイクで入力すると、数秒後に女性キャラクターの声になって返ってくる音声変換システム、VOICE AVATAR 七声ニーナ(ボイスアバター・ななこえニーナ)です。5月12日に、突如としてWeb上に誕生し、無料でいくらでも利用できることから、世間を大きく騒がせています。男性でも女性でも、誰がどのようにしゃべっても、声優の高田憂希(@sunflower930316)さんCVの七声ニーナのキャラクタボイスに変換されるというものなのです。
パソコンでもスマホでも、サイトにアクセスしてRECボタンを押してしゃべりかければ、すぐに使えます。そして、その結果を聴けば誰もが驚かされるはず。このシステムはAIを用いて作られているとのことで、それを開発したのはDeNAのプロジェクトチーム。使ってみればすぐにわかりますが、従来のボイスチェンジャーなどとは大きく違うし、文字を入力してしゃべらせる音声合成ともまったく異なるシステムです。実際これはどんなもので、どんな仕組みになっているのか?またユーザーはどこまで自由に利用できるのか……。気になることがいっぱいだったので、東京・渋谷にあるDeNA本社に伺い、プロジェクトチームのみなさんにお話しを聞いてみました。対応してくれたのは、岩朝暁彦さん、遠藤俊樹さん、竹村伸太郎さん、滝口啓介さんの4名です。
--七声ニーナのクオリティーの高さに驚きました。このサービスをスタートした経緯を簡単に教えていただけますか?
岩朝:昨年の春、Delight Boardという社内のアイディアコンテストが行われ、そこで竹村がこのプロジェクトを提案し、それが採択された、というのがキッカケです。このコンテストは新規事業に限らず、社内の組織改革などさまざまなアイディアを募るものだったのですが、1,000人を超える人が投票した結果、このプロジェクトが動き出したのです。
竹村:私は以前、大手ゲームメーカーでエンジニアをしていて、2020年1月にDeNAに入社しました。入って思ったのは、優秀なエンジニアはいっぱいいるけれど、オリジナルのIPを作って発信していくという雰囲気が薄いな、ということ。ここはエンタメ企業ですし、もっとみんなが自らキャラクタを作って発信したら面白いことになると思い、提案したんです。その時の提案はオリジナルのIPを作ること、二次創作を前提としたものにすること、そして私がAIシステム部にいたので、AIの技術を使うもの…といった内容であって、具体的なことは何も決めていなかったんですよ。
システム本部データ統括部AI基盤部 竹村伸太郎さん
--完全に、この音声変換の技術がベースにプロジェクトが動いていたのだと思いました。では、どのようにこの内容が決まっていたのでしょうか?
竹村:入社して最初に配属されたのがB2Bの音声変換を行う部署でした。具体的にはDeNAとセコムさん、ドコモさん、AGCさんで展開しているバーチャル警備員のシステムを開発するところです。ここではCGで警備員を表示させるとともに、警備員のキャラクタでしゃべらせることをしていたので、これが一つの背景にはなっています。
滝口:私は昨年4月に新卒でDeNAに入社しました。AI関係の研究開発をしつつ、9月にはこのプロジェクトに就き、竹村と二人で技術検証をしつつ、アイディアを出し合っていました。
遠藤:当社の強みある事業分野として、ゲームやPocochaのようなライブストリーミングサービスがあるのですが、それらに貢献しうるAIの研究開発領域として何がいいのだろうか……という枠組みから企画を練っていったのです。表現豊かなことができそうなのは音声変換。もちろん、各社さん、いろいろなことを行っている中、音声変換はまだ決定打になるようなものが出ていない。せっかくなら、これを他社よりも先に出したいと考えたのです。音声変換には将来性があり、可能性があることを多くの方に理解してほしいという思いもあり、音声変換に寄せていったのです。
システム本部データ統括部AI研究開発部第二グループ グループリーダー 遠藤俊樹さん
--リアルタイムでの声の変換というと、楽器メーカーが出しているボイスチェンジャーがあるほか、クリムゾンテクノロジーのリアチェンボイス/ボイドルなどがあります。
岩朝:他社のものに対するコメントは避けますが、従来の音声変換はフィルタリングで音響的にいじって……というのが一般的であり、どうしても元の人の声が残るという欠点がありました。そのため、ユーザーも、キャラクタの声に近づけてしゃべる必要があるなど、使いづらい面があったのも事実です。そうした欠点をなくし、誰がどのようにしゃべっても、目的の人の声にする音声変換をいち早く実現したい、実現したものをアピールしたい…と取り組んできたのです。われわれはライブストリーミングのプラットフォームを提供しており、この配信をもっと豊かな体験にしていくことができる、という思いもありました。
--試してみて最初に思ったのは、これは音声認識してテキスト化してから音声合成しているのかな、と。そこで「モニャミニャ…」とか言葉にならない擬音を入力しても、しっかり声が変換されたので、音声認識ではないんだな…と。
遠藤:そうですね。我々が行っているのは音声認識ではないです。ただ、言葉的な情報をある程度取り出して、音を作っています。合成するところでは音声合成の技術を使っているわけで、それぞれどんな情報を使うかや、どんなアーキテクチャにするかは、まさにトライ&エラーで開発してきました。この両方に秘伝のタレがあるわけです。
VOICE AVATARでは音声認識などをすることなく、変換を行っている
--面白いなと思ったのは10秒の声を変換し、結構すぐに結果が返ってくること。これならストレスなく使えるなと感じましたが、利用者が増えるとレスポンスが悪くなっていくのでしょうか?
滝口:いえ、レスポンスの悪化なく大量のトラフィックに耐えうるアーキテクチャを採用しています。もちろん、当初はリアルタイム変換というアイディアもありました。しかし、声の品質的に見ても、運用コスト的に考えても短時間で、変換するほうが断然パフォーマンスがよくなります。それならリアルタイムに限る必要はないのでは…とこのような形に決まっていきました。また10秒でなくてはならない、というわけではなかったのですが、短時間で、すぐに変換して返すほうがUX上もいいし、処理コスト的にも安く抑えられることから、このようにしています。実は発表当日は24時間で14万件もの変換がありましたが、大きな障害や遅延なくレスポンスをすることができています。。また変換時に「変換開始」などと表示しているのも少しでもストレスを減らすためです。
システム本部データ統括部AI研究開発部第二グループ 滝口啓介さん
--VTuberやゲーム実況などでのニーズはとても高いと思いますが、ボイスチェンジャーのようなリアルタイム変換でなくても、2秒での変換ならなんとか許容範囲といった感じですよね。
遠藤:今回は、サービスとしてのアーキテクチャのそれは、リアルタイムとは大きく異なりますし、そこは最大の課題だと考えています。ストレスなくコミュニケーションをとることができると思われる200〜300msecあたりを目指したいなと思っています。。ただ、現状はあくまでも無償のサービスであり、AIの技術のショーケースとして手軽に使え、我々のコスト的負担も大きくならないということで、こうしています。100secを切るのはちょっと難しいけれど200~300msecでのできるよう頑張っているところです。
--実際、開発にはどのくらいの時間がかかったのですか?
滝口:昨年11月くらいに、ようやく方向性が固まり、そこから検証などをしつつ、具体的な開発に着手したのは1月だったので、4~5か月というところです。
遠藤:実は、当初4月6日リリース予定で進めていたのです。技術サイドとしてはその時点でのベストを出しているので、これ以上は難しいと考えていました。が、最終段階になって、岩朝から、こだわるべきポイントをいろいろ指摘され、1か月延期することになったのです。かなり苦しかったラストスパートではありましたが、この1か月で大きく進化し、リリースになったのです。といっても、Ver.1.0ではなく、Ver.0.2.7なんです!(笑)。
--DTMステーションとしてお伺いしたいのは、これをボーカルに利用できるのか、という点です。少し歌を試したところ、どうもピッチを反映してくれず、うまくいかないようでしたが…。
遠藤:実際に歌わせているデモをYouTubeで発表されている方もいましたが、現状歌に使うのは難しいですね。歌わせるためには、いま扱っていない別の情報を使う必要があります。現状の七声ニーナは2、3歳児の状況で、まだまだ成長させていく必要があります。イントネーションがあるんだな…というのは学習はしているので、その成長過程で少しずつ、なんとなく歌えるようになっていくだろうと思います。
--ところで少し話題が変わりますが、この七声ニーナを利用する際の制限事項というのはありますか?VOICEROIDなどでは、商用利用は許諾が必要……といった事項がありますが。
岩朝:サイト内の「ご利用にあたって」というページでも記載していますが、「Twitter、Facebook、LINE、YouTubeその他のSNSサービスに投稿することができます」としています。つまりYouTuberやVTuberが配信に使う分には問題ありません。また間接的な表現にはなりますが、SNSをビジネスで利用することはSNSの規約内で禁止されていませんから、問題ないという認識です。また一般ユーザーが動画を作るのも構いません。もっとも、これを使って音声素材をいっぱいつくり、それを売るというのは……、その点は想定していないという感じです。そもそもニーナは10秒しかしゃべれないので、そんなに大げさなことはできないと思います。これをどう利用していただくかは、ユーザーのみなさんのアイディア次第で、我々としてもショーケースとしていろいろ見させていただいています。現在ご提供しているサービスのまま収益化する考えはありません。それよりも、どんな使い方をしているのかぜひ教えていただきたい、という思いですね。ただし、公序良俗に反しないこと、という条件は付きます。また、声優の高田憂希さんのの役柄や、七声ニーナのキャラクタ性を傷つけないようにはしていただきたいですね。
竹村:実際、リリースして24時間以内に、YouTubeでのゲーム実況が出ていたのには感動しました。10秒という制限がある中、使いづらいのでは…と思っていたのですが、すごいですよね。
--おそらくユーザーからは、さまざまなフィードバック、要望も来ているのでは……と思います。単純に考えても、男性のキャラクタが欲しいとか、もっと数多くのキャラクタが……といった声も届いているのではないでしょうか?
岩朝:まだ、具体的に発表できる段階にはありませんが、男性の声などもあるとよさそうですね。ただ、1つ1つのキャラクタを大切に育てていきたいと考えており、キャラクタを量産していく……というような考えはありません。
--当然、企業が取り組んでいるのですから、ビジネス展開を視野に入れているのだと思います。たとえば、今、七声ニーナは無料だけど、そのうち有料になる……なんてことはあるのでしょうか?
遠藤:ビジネス展開として考えている案はありますが、今のVOICE AVATAR 七声ニーナを、このまま有料化するというようなことは考えていません。具体的なアイディアをいま明言することはできないですが、まずは技術をブラッシュアップし、ビジネスになり得るものへと成長させていきたいですね。
岩朝:七声ニーナをビジネス的に見たとき、これはシンボルであり、かつシグナルである、ととらえています。VOICE AVATARとは「声を装う」という意味であり、見せたい自分を見せるためのツール。声のお化粧のようなものであり、そのシンボル的なものとしてVOICE AVATARと名前を付けたのです。また、これはAI技術だけでなく、Pocochaなどのリアルタイム配信の技術、セキュリティなどの技術……などさまざまな技術を終結させ、ここは熱い!というシグナルを出しているのです。
--最後にDTMステーション読者に向けて、何か伝えたいことはありますか?
岩朝:仲間、募集中です! もちろん転職ということだけでなく、個人として協力してくれる方、何か一緒にやっていこうという方がいらっしゃれば、ぜひお話できればと思っています。お互いの技術情報を共有しつつ、新しいこと、面白いことができればと思っています。
--ありがとうございました。