2021/10/12

Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に

VOCALOID・歌声合成・音声合成テクノロジー

自分の声をAI機能でアイドルの声やキャラクタの声などにリアルタイムに変換するユニークなソフトとして、これまでも何度か紹介してきたVoidol。これはクリムゾンテクノロジー株式会社が開発するリアルタイム音声変換技術「リアチェン voice」を搭載したアプリケーションで、VTuberやゲーム実況などの世界でも幅広く使われているWindowsおよびMacで動作するソフトとなっています。

そのVoidolがこれまでのAIリアルタイム音声変換機能に加えて、まったく新たな音声変換エンジンを搭載し、Voidol 2へとメジャーバージョンアップすることが関係者への取材から分かりました。正式な発表・発売は10月20日になるとのこと。税込み価格は13,200円（12月26日までは発売記念価格の8,800円）が予定されています。今回Voidolに加わった最大のポイントは、声をリアルタイム処理でシンセサイジングするエンジンで、さまざまなパラメーターを用いて自由自在に声を作り上げることができるようになったのです。さらに、効果音やBGMなどをワンタッチで鳴らすことができるサンプル・プレイヤー機能、Voidol 2で変換された音声をWEB会議システムやOBSなどに直接送り込むことができる音声ドライバー(Windows版のみ)を搭載するなど、さまざまな強化が図られています。最終β版も試してみたので、Voidol 2とはどんなソフトなのか紹介してみましょう。

１０月２０日に正式発表・発売される予定のVoidol 2

これまでのVoidolは、AIによって自分の入力した声を、キャラクタの声にリアルタイム変換するという、ユニークなソフトとして親しまれてきました。今回、リリースされる予定のVoidol 2は、従来のVoidolにさまざまな機能を追加したというもの。メジャーバージョンアップではありますが、従来のVoidolのほうも、2,200円のまま併売されるとのこと。また、これまで入手したオプションのボイスモデルも、そのままVoidol 2で利用できるようになっています。

実際、どんなことができるのか、気になる方も多いと思うので、まずは以下のデモビデオをご覧になってみてください。

だいたい、どんなことができるかの雰囲気が掴めたでしょうか？そう、これまでのVoidol 2は用意したボイスモデルを設定すれば、ほぼすべて全自動で、そのボイスモデルの声に変換できるものであったのに対し、Voidol 2のシンセシス機能を使うと、数多くのパラメータを用いて自由自在に音作りができるようになっているのです。まさに声のシンセサイザ。もちろんプリセットから選んで簡単に使うこともできるし、細かなパラメータまで追い込んで自分だけの音色を作っていくことも可能となっています。

Voidol 2の最大のポイントであるシンセシス機能

これまで、いわゆるボイスチェンジャーというものは多くのメーカーから、ハードウェア、ソフトウェア合わせ、さまざまなものが発売されてきました。その中で、Voidol 2のシンセシス機能は、その機能面、パラメーターの豊富さ、音作りの自由度の高さという意味では、圧倒的であり、究極のボイスチェンジャーといえそうです。

標準モードで、AIモードを選ぶと、従来のVoidolとは大きく変わらない

画面を見ながら、もう少し具体的に紹介していきましょう。Voidol 2にはSYNTHモードとAIモードの2つがあり、AIモードの場合、基本的には従来バージョンのVoidolとほぼ同様の機能、性能になっています。

EXPERT MODEをオンにすると、周りに配置されているさまざまな機能がアクティブになる

ただし、ここでEXPERT MODEをオンにするとAIモードを取り囲む形で、いろいろな機能がアクティブになり、より使いやすく、高機能なものへと変身します。

画面左側にはINPUT EQというものがあり、AI音声変換のエンジンに声を入れる手前でイコライザをかけることが可能になっていて、これまでより、より滑らかに音声変換を掛けられるようにしています。

音声変換エンジンに入る前に声質を調整できるINPUT EQ

また、画面下にはSAMPLE PLAYERというのがありますが、これは、いわゆるポン出し機能。5つあるボタンにWAVファイルもしくはMP3ファイルをドラッグ＆ドロップして仕込んでおくと、これを押すだけで効果音が鳴らせたり、BGMを鳴らすことができるようになっているのです。

ポン出し機能などを実現するSAMPLE PLAYER

従来のVoidolではマイク入力とは別にAUX入力というものがあり、ここからBGMなどを流すことは可能になっていましたが、そこがこのSAMPLE PLAYERに置き換えられた格好です。ボタンは5つですが、BANKが4つあるので、最大20個までWAV/MP3が仕込めるわけですね。またMONOがオンの場合、一番最後に押したボタンの音だけが流れ、POLYがオンの場合は、BGMを再生しながら、効果音を鳴らす…といった音の重ね合わせが可能になります。

ちなみに、DUCKING機能は従来と同様のもの。たとえばBGMを流しながら、AI音声変換でしゃべると、BGMの音量が下がり、声が明瞭に聴こえるようになります。

さらに画面右下には、リバーブをかけたり、ノーズゲート処理をするSPACE＆GATE、また最終的な出力にイコライザを掛けるOUTPUT EQも搭載されています。

リバーブやノイズゲート、OUTPUT EQで最中調整を行う

そして画面右上の赤いRECORDINGボタンを押すと、SAMPLE PLAYERからの音も含め、Voidol 2での音をすべて録音して、WAVファイルとして保存することができるようになっていますが、これもVoidol 2になって追加された新機能です。

通常のモニター用とは別にSTREAMINGという出力が用意された

一方、Windows限定ではありますが、Voidol 2をインストールすると録音用のサウンドデバイスとして「Voidol音声」というドライバが追加されます。これは、まさにVoidol 2の出力のループバックであり、OUTPUTにあるSTREAMINGで設定された音量が流れていくようになっているのです。これをOBSなどの配信ソフトに設定したり、Zoomなどのミーティングソフトに設定することが簡単にできるようになっています。これまで出力音を別のオーディオインターフェイスの入力に接続する……など面倒なセッティングをしていた人も少なくないと思いますが、これならばとっても簡単ですね。

Windows用のドライバがインストールされるため、OBSなどでの設定が断然簡単になる

macOSで利用している場合は、このSTREAMING OUTPUT用のドライバは含まれていないため、VB-CABLEやSoundflower、BlackHoleなどを別途インストールして使う形になります。

と、周辺機能から先に紹介してしまいましたが、このVoidol 2の目玉機能は、冒頭でも紹介したシンセシス機能であり、画面上部のSYNTHをクリックしてSYNTHモードにすることで、使えるようになります。この際、EXPERTモードでのINPUT EQやSAMPLE PLAYERなどの機能は、すべて同じように使えます。

SYNTHモードをオンにすると、中央上のエンジン部分が差し替わる

このSYNTHモードには、プリセットが用意されているので、まずはこれを選んで使うのが簡単。「男⇒女性アニメ風」、「男⇒女性ハスキー」などあるので、これを選ぶだけで自分の声を変換することができます。画面には4つのプリセットだけが見えますが、BANK 1～4で切り替えることが可能になっているので、計16のプリセットが使えるおうになっています。

このSYNTHモード、基本は

PITCH
FORMANT
UNVOICE
ROBOT PITCH

という4つのパラメータがあり、これで調整します。

ボイスチェンジャー系の製品を触ったことのある方なら想像がつく通りで、PITCHで声の高さを調整し、FORMANTで声質を男性っぽくしたり、女性っぽくしたり…と調整していきます。一方UNVOICEは無声音と有声音のバランスを調整するもので、よりハスキーな声にしていくといったことが可能。ちなみにWHISPERをオンにすると、完全なささやき声になります。

ROBOTをオンにすると、音の抑揚が固定され、ロボットのように単調な音程の声になります。このときの音程をROBOT PITCHで調整する形です。

一番右のROBOTをオンにするとロボットボイスになり、ROBOT PITCHでピッチを調整できる

と、ここまでは、まあ、よくあるボイスチャンジャーと同様ですよね。でも、Voidol 2のすごいのはここからなんです。DETAILというボタンを押すと、いきなり難しそうな英語のパラメータがいっぱい登場してきます。パッと見で15種類のパラメータが表示されていますが、画面が縦にスクロールするようになっており、ざっと数えて39のパラメータが用意されています。

DETAILボタンを押すと現れる詳細なシンセパラメーター設定画面

まだ、ちゃんと使っていないので、どのパラメータがどんな意味を持つのかしっかり理解できていませんが、まあ、これを見ると、自由自在に作りこむことができるようになっているみたいです。

スクロールさせると、どんどんパラメーターが現れてくる

が、それだけではありません。ANALAYZERというボタンがあり、これをオンにすると、オシロスコープのようなものが登場してきます。

マイクからの入力をリアルタイムに解析するANALAYZER画

が、これも単なるオシロスコープなどとは全然違うんです。画面上は縦軸が強さ、横軸が周波数のグラフ、画面下は音の振幅を波形で表したもので、時間軸に従って右から左へ流れていくものとなっていますが、重要なのは、表示される内容。たとえば、上のグラフのほうには

f0 range seting
f0 analyzed
f0 trail

とf0解析結果がリアルタイムに表示されるんです！これスゴすぎませんか？（※音声合成や音声解析を技術的に研究している人向けの発言であり、一般の人はまったく理解する必要のないものなので、無視していただいて大丈夫です）

ここではこれ以上、突っ込みませんし、私もまったく理解できていませんが、このソフト、測定器ソフトとして100万円で販売しても売れるものなのでは……と思ってしまいました。

このVoidol 2を開発したクリムゾンテクノロジーの代表取締役である飛河和生さん、同社のCTOでAIエンターテイメント事業部研究部部長の高橋賢一さんにオンラインミーティングの形で、少しお話を伺ってみました。

Voidol2開発者インタビュー

クリムゾンテクノロジーの高橋さん(左)と飛河さん(右)

－－今回、Voidol 2にバージョンアップした背景について教えてください。
飛河：これまで多くの方々にVoidolを使っていただいていた中、たくさんの意見やご要望もいただいていたので、それを反映させた製品にしたかったというのが一番にあります。従来の音質・品質を改善するために、INPUT EQを追加したり、ノイズカットなどもできるようにしました。また、ストリーミング機能を追加し、OBSなどともより簡単に連携できるようにしています。さらに、SAMPLE PLAYERを追加したことで、より手軽に効果音を出したり、BGMを流せるなど、ユーザーのみなさんにとって使いやすいものにしています。その一方で、当社で開発してきたシンセシスエンジンが、実用的なものになったので、このタイミングで、AIエンジンに追加する形で搭載したのが今回の新製品です。

－－AIエンジンは、名古屋大学の戸田智基教授との共同研究で開発してきたと以前伺っていましたが、このシンセシスエンジンはオリジナルなのですか？
高橋：そうですね、エンジンはほぼ私が作っています。もっともベースとしては、現在明治大学にいらっしゃる森勢将雅先生が開発したWORLDを使っています。ただ、WORLDではそのままリアルタイムに組み込めるわけではないため、いかにレイテンシーを小さくするか、分析や合成の時間をいかに縮めるかという点で、いろいろな工夫を凝らしながらCPUの処理負荷をできる限り下げ作っていきました。このリアルタイム性という意味では世界一のものができたのでは、と思っております。

－－それにしても、ここまでのアナライザーを合成パラメーターをユーザーに開放してしまっていいんですかね？
高橋：とくに制限をする必要もないので、今あるものを全部見せちゃおうということで、このようにしました。もちろん、誰もが使うというような機能ではないので、標準画面であるSYNTH-BASIC PARAMETERSには4つのパラメーターだけを表示するようにし、DETAILボタン、ANALAYZERボタンを押して初めて、細かなものが表示されるようにしています。

－－このDETAILとANALYZERを見ると、完全にコンシューマソフトの域を超えていると思います。興味のあるエンジニアだと、これを使って何かを開発し別のアプリケーションに組み込みたいという人も出てきそうですね。
飛河：実は、いまSDKも作っているので、必要があれば、こうしたものも提供できるようにしていこうと思っているところです。興味のある方は当社まで直接お声がけいただければと思います。

－－一般のユーザーにはなかなか難しそうなDETAIL画面ですが、簡単に使えるパラメーターなどがあったら、少し教えていただけますか？
高橋：そうですね。たとえば、DETAIL画面の一番下にPitch Stretcherというパラメーターがあるので、ここにチェックを入れたうえで、Pitch Strecher Exponentsを動かしてみてください。これにより発音するイントネーションを強調することができるのですが、マイナスの値にすると、逆効果を与える形になり、方言で話をしているような不思議な声になります。また、一番上にはCoarse Tuneというものがあり、ピッチを変えられるのですが、上下3オクターブ変えることができ、ここまで変えても音が破綻しません。こうしたボイスチェンジャーはこれまでほとんどなかったと思います。

－－なるほど少しずつ試してみようと思います。
飛河：まだ正式発表前ではありますが、2分間だけの限定で使える評価版をテスト配布を開始しているので、これを使っていただければ、どんなものかは理解いただけるのではないかと思います。ぜひ、一度試してみてください。

－－ありがとうございました。

※2021.10.21追記
昨日、予定通りVoidol 2が発売されましたが、それを記念して、声優の小岩井ことり（@koiwai_kotori）さんをゲストにVoidol 2に関する特別配信が行われました。以下のYouTubeがそのアーカイブです。この番組中で明らかになったのは、10月31日までにRock oNでVoidol 2を購入すると、特別プレゼントとして、ボイスモデル「華園ことね（CV田村響華）」(通常価格4,180円）がもらえるということ。DTMステーションPlus!でお馴染みの田村響華(@tamura_kyoka)さんの声に自分の声を変換できるようになります！

【価格チェック＆購入】
◎Rock oN　⇒　Voidol 2
◎ティアックストア　⇒　Voidol 2