自分の声をまったく別のキャラクタの声に変えることを実現するAIボイスチェンジャー。エフェクトを使って自分の声を加工する従来のボイスチェンジャーとは異なり、自分の声は完全に消えて、まったく別人になりきれるのが特徴で、これまでもVoidolやCoeFontボイスチェンジャーといったものを記事でも紹介してきたほか、中国系のフリーウェアでもかなりの精度を持ったものがいろいろ登場してきています。
そうした中、12月25日、まったく新たなAIボイスチェンジャー、Parakeet.VC(パラキート・ブイシー)が、福島県のベンチャー企業、Parakeet株式会社からリリースされました。ここには東北ずん子や東北きりたん、またずんだもんをはじめ、計109種類の声が収録されており、ユーザーはそれらを選んで、マイクで話せばリアルタイムにキャラクタの声に変換することが可能です。既存のAIボイスチェンジャーと比較して、高品質で、低遅延で、小容量だという、このParakeet.VCとはどんなものなのか、少し試すとともに、開発者に話を伺ってみました。
低遅延、高音質、小容量なボイスチェンジャー、Parakeet.VC
Parakeet.VCは、マイクでしゃべる自分の声をまったく別の声にリアルタイムに変換するAIボイスチェンジャー。今回、Windows版およびMac版がリリースされましたが、PC以外のスマホなどについては、今後順次対応していくとのことです。
このParakeet.VCにはトータル109キャラクタの音声が入っていて、ユーザーはキャラクタを選択するだけで、その声でしゃべることが可能になるのです。
まずは以下のビデオをご覧ください。左チャンネルが元の声で、右チャンネルが変換後の声となっていますが、まったく違う声に、そして非常に滑舌のいいキレイな声質の音声に変換されていることがわかると思います。
元の声と変換後の声に若干のタイムラグがありますが、これが変換にかかる時間。従来のAIボイスチェンジャーだとここが結構な時間差となっていましたが、Parakeet.VCではAppleシリコンのMacで80msec程度、Windowsだと150msec程度と非常に高速に変換しているのも大きなポイントです。
さらに驚くべきは、これだけ多くの声モデルが収録されているのにファイルサイズ的には130MB程度と非常にコンパクトであるということ。現時点では日本語対応となっていますが、今後は多言語対応していくとのことです。
匿名のプロ声優の声、男女100人分を利用できる
1月末まで全ボイス無料、それ以降も、ずんだもんなど3キャラクタは無料で利用可
今回の12月25日の発表はα版のリリースという位置づけであるため、全キャラクタをすべて無料で使うことが可能で、その無料利用期間は1か月。この間、Parakeetではユーザーからのフィードバックなども得ながら、改良を加えて1月末に正式リリースする予定となっています。
その正式リリース後も、
つくよみちゃん
小春音アミ
の3キャラクタにおいては無料で使うことが可能とのこと。今回、その発表前にParakeet.VCを試させてもらいました。
Windows版もMac版も使い方自体はまったく同じ。サウンドデバイスとして入力デバイスと出力デバイス、それにモニターデバイスを設定するとともに、変換速度とボリュームを設定すれば、すぐに使うことが可能です。
ただし、最初の起動時のみ、「事前録音」というものを行います。といっても、やることはいたって単純。入力デバイスを設定した上で、録音開始ボタンを押し、画面に表示される「パラキート株式会社がこのアプリを制作しています あなたの声を好きな声に変換します」という文章を読み上げて録音終了するのみ。
この際、できるだけ地声で、ハッキリとそして普通にしゃべるのがポイント。変にキャラクタに寄った高い声とかでしゃべらずに、普段の声で入力するようにします。ちなみに、この文章を読み間違えても大丈夫。さらにいうと、ほかの文章でもいいので、もう少し長い時間読んだほうが、より良い変換が可能になります。
また、出力チャンネルはOBSなどへ繋ぎこむポートを指定し、モニターチャンネルは自分の声をリアルタイムに変換した結果を聴くためのポートを設定します。OBSなどへ繋ぎこむ際はVB-Cableなどを利用するのがいいですね。
声を選択してマイクに向かってしゃべれば変化される
準備ができたら、画面左側の話者選択とある部分のアイコンをクリックすると、声の選択ができるようになっています。ここには匿名のプロ声優の声が女性51種類、男性49種類の計100種類収録されているほか、キャラクタボイスとして、以下の9種類の声が選択できるようになっています。
ずんずんプロジェクト | 東北ずん子 | 東北イタコ | 東北きりたん |
ずんだもん |
四国めたん | 九州そら | 中国うさぎ | ||
つくよみちゃん | つくよみちゃん | 本ソフトウェアの音声変換には、フリー素材キャラクター「つくよみちゃん」(©Rei Yumesaki)が無料公開している音声データを使用しています。 ■つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/ ■イラスト素材:えみゃコーラ様https://tyc.rei-yumesaki.net/material/illust/ ■つくよみちゃん公式サイトhttps://tyc.rei-yumesaki.net/ |
||
小春音アミ | 小春音アミ | 本ソフトウェアの音声変換には、「あみたろの声素材工房(https://amitaro.net/)」が無料公開している音声データを使用しています。 |
あとはマイクに向かってしゃべるのみ。この際、ノートパソコン内蔵のマイクなどを使うより、オーディオインターフェイス経由でコンデンサマイクやダイナミックマイクでしゃべるほうが、よりキレイに変換できます。この際、コンデンサマイクでもダイナミックマイクでもいいのですが、周りの雑音を拾いにくく、抑揚をつけやすいという面ではダイナミックマイクのほういいように感じました。
なお変換速度は右にすると遅延が小さくなり、左にすると大きくなるのですが、小さくしすぎるとチリチリしたノイズが入ったりするので、適度なところを探してみてください。
試してみると分かりますが、ここまでの変換ができてしまうというのは驚異的。VTuber、VRChat界隈では、今後広く使われていきそうです。また、これに合わせ、VTuber Studio用にずんだもんのモデルも無料公開されたので、ずんだもんの存在感がさらに増していきそうですね。
そのParakeet.VCを開発したParakeet株式会社の代表取締役 中村泰貴(@supikiti)さん、ずんだもんや東北ずん子などのキャラクタを提供したSSS合同会社 CEOの小田恭央(@oda_yasuo)さんに、オンラインでいろいろ話を伺ってみました。
Parakeetの中村泰貴さん、SSSの小田恭央さんインタビュー
--このParakeet.VCリリースの件、小田さんに情報をお伺いして初めて知りましたが、もともと小田さんとParakeetの接点や東北姉妹の声を提供した経緯はどういうことにあったのですか?
小田:今年6月に、中村さんから東北姉妹の声を使いたい、という連絡をいただいたのがキッカケです。お話させていただいたところ、Parakeetさんが、福島県双葉郡の会社とのこと。東北ずん子をはじめとするキャラクタは東北復興支援キャラクタという位置づけでもあり、快諾させていただきました。
中村:東北ずん子、東北イタコ、東北きりたん、ずんだもん、四国めたん、九州そら、中国うさぎの7キャラクタを使わせていただき、このうち、ずんだもんに関しては、今後も誰でも無料で利用可能とさせていただいています。
Parakeet株式会社 代表取締役の中村泰貴さん
--ずんだもんは無料ということは、ほかは有料ということなんですか?
中村:Parakeet.VC、この7キャラクタのほかに、つくよみちゃん、小春音アミの2キャラクタ、さらに100名のプロ声優の声の計109名の音声が入っていて、今回のリリースから1か月は無料で使えます。が、それ以降は各音声ごとに課金をすることを予定しています。まだ詳細な料金体系は検討中です。
--Parakeetの会社紹介ページを見てみると、メンバーのみなさん、東京大学や東北大学に在籍中の方が多いんですね。
中村:はい、私も東京大学の猿渡・高道研究室の博士課程2年で、メンバー9名中5名が同じ研究室です。当社は2022年4月設立で、世界中の人がコミュニケーションの楽しさや、そこでの快適さを感じる社会の実現、ということを目的としています。その一つとして、今回のParakeet.VCを開発しました。一般に向けて公開する製品という意味では、今回が当社で初の製品です。
--なるほど、音声合成や音楽信号処理などで著名で、JSUTコーパスを出しているあの研究室ですね!これまでもリアルタイムのボイスチェンジャー、いろいろと出ていますが、このParakeet.VCの特徴を教えてください。
中村:AIによるリアルタイムボイスチェンジャーですが、既存のものと比較して非常にレイテンシーが小さいです。MacのM1、M2プロセッサ搭載マシンであれば入力から出力までで80~100msec程度、Windowsでも150msec程度ですが、さらに縮めて、将来的には50msecの実現をめざしているとこ
ろです。
小田:このParakeet.VCはGPUが不要であるという点も大きいと思いますよ。
SSS合同会社 代表取締役の小田恭央さん
--GPU不要で、100msec程度というのはすごいですね。実際試してみても、非常にレイテンシーが小さいと感じました。GPUがあれば、もっとレイテンシーが縮まる?
中村:我々のモデルはGPUを使うと逆に遅くなるんです。また、VRChatで利用する方が多いのではと思いますが、VRChatだとGPUの計算資源をかなり喰うので、そのパワーの取り合いになるのもよくないため、あえてGPUは非サポートとしています。一方で、非常に滑舌がいいのも特徴です。ほかの多くのボイスチェンジャーはRVC(Retrieval-based-Voice-Conversion)を使っているのに対し、我々は独自のものを使っています。RVCだと「ボボボーボ、ボーボボ」が言えないんです。
--「ボボボーボ、ボーボボ」?何ですかそれ?
小田:ボイチェンの世界で滑舌をチェックするのに、よく使う言葉なんですよ。
中村:RVC系のものだと、「ほほほーほほーほほ」みたいになってしまい、入力した滑舌を再現できないんです。普通に聞き取れる滑舌でしゃべっていれば、そのまま保存して、再現させることが可能です。さらに抑揚もしっかり出せるのもParakeet.VCの特徴です。RVCだと、イントネーションがすべてノペっとしてしまうんです。
小田:だからものすごく感情をこめて入力しても、そこを反映することができなかったのですが、Parakeet.VCはそこがだいぶできるようになっていますね。
--そのほかの特徴はいかがですか?
中村:3番目にあげられるのがボイスをマージするボイスブレンド機能の搭載です。ずんだもんプロジェクトは対象外なのですが、匿名のプロ声優の100名の声などをブレンドというかモーフィングしたような、声を作ることも可能になっています。このブレンド、あえて3名までとしているのですが、著名なデザイナーさんとUIの相談をした際、多すぎても分かりにくいということで、3名を組み合わせる形にしました。
--もう一つ伺いたいのは歌についてです。Parakeet.VCを歌声変換用として使うことは可能ですか?試しに歌を入力してみたところ、うまくいきませんでしたが。
中村:歌声変換について、現時点ではまだ対応できておらず、1月末の本リリースで間に合わないかもしれません。ただ、今後のアップデートで歌声変換モードを搭載する形で機能追加していく予定ですので、ぜひご期待くださいl。
--ところで、今回のタイミングで、VTube Studio用に、ずんだもんのモデルが公開されたんですよね。
小田:はい、Parakeet.VCの公開と合わせて、無料配布をスタートしました。VTube Studioは顔の動きや目や口の動き、また手の動きをトラッキングしてキャラクタを動かすことが可能ソフトウェアです。Streamのアカウントを作成し、Streamをインストールしたうえで使うなど、少し煩雑な面はありますが、基本無料で使うことができます。Parakeet.VCと合わせて使っていただけると、いろいろな楽しみ方ができると思いますので、ぜひ活用してみてください。
--ありがとうございました。