すでにご存じの方も多いと思いますが、8月22日、ヤマハが合成音声の常識を打ち破ることを目的とする研究スタジオ「VOCALOID β-STUDIO」を立ち上げたことを発表するとともに、そこでの初の試みとして技術試作であるAI歌声合成プラグイン「VX-β」というものを一般公開する、ということも同時発表されました。このVX-βはWindowsおよびMacで動作するVST3/AudioUnitsのプラグインですが、市販されるというわけではなく、クリエイターを対象に使ってみたい人を公募するとともに、不定期に行われる抽選に当選した人に配布される、というものです。
私自身も、ネットニュースでその事実を知って翌日申し込んだ結果、何日か経過したタイミングで、ラッキーなことに当選の連絡があり、使うことができました。実際、それを使った様子を先日配信したDTMステーションPlus!の番組内でも紹介したのですが、「VOCALOID β-STUDIOとは何なのか」、「VX-βはどういう位置づけのものなのか」など気になることもいっぱい。そこでヤマハに取材を申し込んだところ、担当者にいろいろお話を伺うことができました。そこで、ここではインタビューを通じて、VOCALOID β-STUDIO、VX-βについて紹介していくことにしましょう。お話を伺ったのはヤマハ株式会社 研究開発統括部の主事で、VOCALOID βーSTUDIOプロジェクトのキャプテンである才野慶二郎さん、同統括部の大道竜之介さん、そして電子楽器開発部の吉田雅史さんの3人です。
※以下のインタビューは2023年9月12日現在の内容です。VOCALOID β-STUDIO、VX-βは研究段階のものであり、随時アップデートしていくので、今後大きく内容が変わってくる可能性もあるので、その点ご了承ください。
- AI技術が急速に進化する中、ユーザーととも未来を探るVOCALOID β-STUDIO
- 参加申し込みをした人の中から抽選でVX-βが配布される
- Powerノブひとつで、音量に限らず音楽的な強弱を表現
- リアルタイムに歌わせることができ、DAWとの連携性も抜群</2
- 売れる、売れないに関わらず多くのボイスバンクを収録
- Cubaseのキーエディタで音符・歌詞を入力して歌わせることができる
- VOCALOID、CeVIO、Synthesizer V、UTAU、Music XMLデータも読み込み可能
- 各パラメータをリアルタイム操作でき、オートメーションにも対応
- VX-βの使用期限は2024年3月31日
- 基本的に商用利用もOK。ぜひ積極的に使ってほしい
AI技術が急速に進化する中、ユーザーととも未来を探るVOCALOID β-STUDIO
--まず最初に確認しておきたいのですが、VX-βというのがVOCALOID 6の次のバージョンのβ版……というわけではないんですよね?
才野:はい、そこは最初に強調しておきたいところでして、VOCALOID 6を生産完了にして、VX-βにいくというのではまったくありません。VOCALOID 6は現行製品であり、今後も販売・アップデートを行っていきます。これまでのVOCALOIDも同様で、次世代の研究は研究部門でクローズドに行っていました。今回その研究をオープンにして、みなさんに見える形で行ってみようという試みなんです。今回VOCALOID β-STUDIOという今後の歌声合成のためのさまざまな挑戦、模索をするための場として立ち上げました。趣旨としては、歌声合成をより広い世界で使ってもらえるようにしたい、音楽制作者なら誰もが当たり前に使う未来をビジョンとして掲げているんです。
--そこで開発したのがVX-βということなんですね。
才野:この究極のゴールともいえるところに向かって、さまざまなことを模索しているわけですが、我々が、「今我々が持っている技術をこのように実装してみたら音楽制作者にとって有用なのではないか?」という仮説を立てて、それを研究試作プロダクトとしてVX-βという形にしてリリースしたのです。これをみなさんに使っていただいて、実際どんな曲が生み出されるのか、我々と一緒にやってみませんか、ということで始めたものなのです。
--でも、これまで研究開発部門の中でクローズドで研究してきたものを、なぜ今回、オープンな形にしたのですか?
才野:いま、AI技術が急速に発展している、という現実があります。こうした技術は要望から生まれたのではなく、AIが発展してくる中で誕生したもので、これをどのような利用をするのがいいのか、世の中で定まりきっていないのが実情だと思います。これは歌声合成の話だけでなく、AI技術全般に言えることだとは思います。そこで、こうした技術をクリエイターのみなさんに見せた時、どんな使い方をしてくれるのだろうか……という可能性を探っていきたいと考えているのです。音楽クリエイターと一口に言っても、アマチュアのボカロPさんもいれば、職業作曲家としてCMソングを作っている人もいれば、バンドマンとか、さまざまな音楽家がいるわけで、それぞれによって歌声合成の使い道も異なってくるのでは…と思っています。従来は、我々企業側が、こういうものを作れば、こんな人に利用されるはずだ、という想定の上で製品化してきたわけですが、それをするには可能性が広がりすぎているのがAIの世界です。だからこそ、ユーザーのみなさんと一緒にやっていく必要性が極めて高まった、というのが今回オープンにした理由なのです。
参加申し込みをした人の中から抽選でVX-βが配布される
--8月22日のニュースで私も初めて知って応募したわけですが、そうしたニュースや応募要項などを見ても、いつ抽選の発表があり、何人が当選する…といった情報がなかったように思いますが、その点、実際はどうなっているのですか?
大道:22日に応募を開始して、第一弾の抽選・配布をしたのは翌23日でした。それが何人か、ということは、公表していません。また、その後随時追加の抽選・配布をおこなっていくのですが、そのタイミングとかペースについても申し訳ないのですが、非公表とさせていただいております。
ーー結構多くの人が応募しているのでは……と思うのですが、首を長くして当選を待っている人もいっぱいいる感じなのでしょうか?
大道:応募者数などはお答えできませんが、我々の想定以上にたくさんの応募をいただき、驚いているところです。こちらの受け入れ体制もあり、現時点において全員にはお配りできておりませんが、順次配布数を拡大中という状況です。
Powerノブひとつで、音量に限らず音楽的な強弱を表現
--では、ここからVX-βの具体的なことをお伺いしたいのですが、まず概要的なことを教えていただけますか?
才野:VX-βについてはVOCALOID β-STUDIOのWebサイト(https://vocaloid.beta.yamaha.com/)の冒頭でも紹介しているのと、以下のコンセプトムービーでも紹介してますが、ここには大きく4つの特徴があります。
1つめはPowerノブという新しいパラメータを用意しており、ワンノブで音楽的な強弱をコントロールできるようになっているのです。
大道:これは音量だけでなく、強弱表現に関するあらゆるものがワンノブで変わるように作っているため、声の張りであったり、弱くしたときは息混じりの歌声になったりします。またAIシンガーによって変わってきますが、強くしたときにビブラートがよくかかるようになるとか、アタック部分でしゃくったような歌声になるなど、違いもでてきます。これは学習元のシンガーの特徴によって変わってきますね。
リアルタイムに歌わせることができ、DAWとの連携性も抜群</2
--2つ目は何ですか?
才野:今回のVX-βにおいて我々はリアルタイム性にかなりこだわっているんです。音を鳴らしている最中にパラメータを動かすとリアルタイムに変わっていくというのが、エンジン的な大きな新しさだと考えています。でも、楽器のシンセにおいては当たり前のことです。歌声合成では当たり前ではないけれど、世界中の音楽制作者が歌声合成を当たり前に使うようになる未来を考えると、ここは重要なポイントだろう、と。
大道:そして3つ目はDAWとの連携です。これまでVOCALOIDに限らず他社の歌声合成ソフトにおいても、専用のエディタでメロディーや歌詞を入力する形になっていました。でも、普通のシンセの世界から見ると、非常に独特であり、こうした状況を突破したいと考えたのです。ただ、これはプラグイン側、すなわちVX-βの開発だけで実現することは不可能で、DAWとプラグインが歌声合成に必要な歌詞などの情報をやりとりするために、DAW側にも特別な仕組みの開発が必要になります。今回、VX-βでこれが実現できたのは、Cubaseの開発元でありヤマハのグループ会社でもあるSteinberg社の協力を得られたためです。VOCALOID β-STUDIOは2024年3月末までの期間限定の活動を予定しているため、その限られた期間内に他のDAW開発元と協力して同様の仕組みを実現することは困難だと思いますが、近い将来の歌声合成プラグインによる音楽制作ワークフローの提案として、Cubaseだけでも実現してみることに価値があると考えました。ぜひお試しいただきたいと思います。
売れる、売れないに関わらず多くのボイスバンクを収録
--そして4つ目は?
才野:ボイスバンクの種類がたくさんある、ということです。単に数が多いという話だけでなく、種類の幅が広いのも特徴です。これは研究活動ならではなのですが、「売れると思われるものを狙って出す」のではなく、「売れるかどうか分からないものを、今こそたくさん用意しよう」と載せているのです。「売れないだろう」という理由で製品化してこなかったようなものでも、実はすごく面白い使い方があるかもしれない……と広げてみたのです。
ボイスバンク | 声の特徴(得意言語) |
1. prtv_0 | 湧き立つ勇気と元気をくれるハツラツシンガーボイス。(日本語) |
2. prtv_1 | ときに優しく、ときにキュートに心と身体を包み込む魅惑のストリートシンガーボイス。(日本語) |
3. prtv_2 | ハイトーンにまでミドルエイジの渋みがきらめくスタジオシンガーボイス。(日本語) |
4. prtv_3 | 美しく透き通った歌声からパワフルなロングトーンまで歌い上げる正統派シンガーボイス。(英語) |
5. 我然β | 飽くなき自由を求めるオールドロックシンガーボイス。(日本語) |
6. nagiβ | 落ち着きと透明感のある男性ボイス。(日本語) |
7. multiβ-N | 複数のシンガーをスタイル毎に切り替えることのできる特別ボイス。(日本語) |
8. ゲキヤクβ | 強気で素朴な少女声。(日本語) |
9. カゼヒキβ | 中性的な掠れた声。(日本語) |
--今回のボイスバンクで、「ゲキヤクβ」、「カゼヒキβ」ってありますが、これはUTAUから持ってきた…ということなんでしょうか?
大道:はい、「ゲキヤクβ」や「カゼヒキβ」はおっしゃる通り、UTAUのキャラクタとして非常に人気を博したものであり、カッコイイ作品もたくさん出ています。くるくる数字さんという方が音声提供されたUTAU音源なのですが、そのくるくる数字さんにコンタクトをとって、「今回のVOCALOID β-STUDIOのボイスバンクの中でゲキヤクとカゼヒキのキャラクタを使わせていただけないでしょうか?」と交渉してみたところ、ご協力いただけることになり、UTAUの著名キャラクタがVX-βの中に登場したというわけなのです。もちろん、UTAUのデータをそのまま引っ張ってきたというわけでなく、くるくる数字さんに協力いただいて、新たに歌声データを学習させて作っています。
--実際のボイスバンクを数えてみると9つある、ということですか?
大道:9つのうち、1つが虹色のmultiβーNというものになっていますが、これだけは少し特殊で、この中に女性ボイスでf00~f11の12種類、男性ボイスでm00~m04の5種類の計17種類が入っています。つまり先ほどのゲキヤクβ、カゼヒキβなど合わせて計25種類の歌声が入っている形になります。またmultiβ-Nであれば、歌わせながらシンガーを切り替えることも可能になっています。
Cubaseのキーエディタで音符・歌詞を入力して歌わせることができる
--では、機能的な話に入ってきたいのですが、先ほどCubaseで使える、という話がありましたが、VST3/AUのプラグインであるということは、ほかのDAWでも使えるのですか?
才野:はい、制約はあるけれど使えます。Cubaseだけができるのが何かというと、ホスト側に書いてある音符情報、歌詞情報をプラグイン側が読み取って音を鳴らすという面です。ほかのDAWの場合、プラグインの中にシーケンスデータをロードすれば歌うことができます。
--なるほど、Cubaseのキーエディタ(ピアノロールエディタ)でドレミファソって入れれば、それで歌ってくれる、ということですね。でも、その場合、歌詞データはどのように入力するのですか?
大道:実はCubaseのキーエディタにはテキストというフィールドがあって、ここに歌詞をひらがなもしくは英語の単語列で入れればそれが反映されるようになっているんです。そのため、ノートの入力、歌詞の入力という操作をすべてCubaseのキーエディタの中で完結できるのです。
CubaseのキーエディタからVX-βを直接歌わせることができるのが最大の特徴
VOCALOID、CeVIO、Synthesizer V、UTAU、Music XMLデータも読み込み可能
--Cubaseであれば、VX-βのほうのエディタ機能は使わずに歌わせることができる、ということなんですね。
才野:VX-βには左から右にピアノロールが流れていく形になっていますが、実はこれはビューワーでしかなく、エディット機能は備えていないんです。もっとも、これは現状の話で今後エディット機能を搭載する可能性もありますが…。その一方で、シーケンスデータのロード機能を備えていて、VOCALOIDのデータを読み込める形になっているんです。
--vsqxファイルが読める、というわけですね。
大道:実はvsqxには現時点では対応できておらず、vprというVOCALOID 5およびVOCALOID 6のデータが読み込める形です。さらには他社さんの歌声合成ソフトのシーケンスも読めるようになっていて、CeVIOのccs、Synthesizer Vのsvp、さらにUTAUのust、そして一般的な楽譜フォーマットのMusic XMLのフォーマットも読めるようになっています。ただし、ここで読み込んでくるのは音符データと歌詞データであって、それ以外のパラメータは読み込んでいません。
各パラメータをリアルタイム操作でき、オートメーションにも対応
--Powerノブをリアルタイムに動かせるという話でしたが、ほかにもいろいろパラメータもリアルタイムに操作できるようですね。
才野:その通りです。息の成分をコントロールするAir、声質を変えるFormant、立ち上がりをコントロールするAttack、ビブラートを変えるVibratoという4つのノブがあるほか、ピッチやプレゼンスなどのパラメータが全部で16個あり、その最も目立つところにあるのがPowerノブというわけです。これらすべてプラグインパラメータとしてリアルタイムにコントロールすることができるので、まさに普通のソフトシンセのプラグインのように使えるようになっています。
大道:だから、このパラメータの動きを記録させていけば、DAWでオートメーションを実現させることもできるんです。実はこうしたパラメータだけでなく、PowerやSoftなど、歌声の雰囲気を切り替えるスタイルというプルダウンメニューもオートメーションで扱っていくことができます。
才野:ただし、ボイスバンクの切り替えはパラメータではないので切り替えはできないですね。また、先ほどの17の歌声が入ったmulti-β Nのスタイルだけは、17種類の歌声を切り替えるものであって、シンガーの切り替えに相当するため、オートメーションでも記録することが可能です。multiβ-Nの場合は他のボイスバンクではスタイル切り替えとして使用しているところをシンガー切り替えとして使用していますが、内部的には同じことが起こっています。具体的にはオートメーションにおいて整数値でシンガーの指定を記録できる形です。ただし、整数値を1変えるとまったく別人の声になることには注意が必要です。
VX-βの使用期限は2024年3月31日
--ところで、このVX-βは利用できる期間が決まっているんですよね?また、VX-βはオンライン環境じゃないと使えないのでしょうか?オフライン環境でも利用は可能ですか?
才野:まず使用期限は2024年3月31日までとなっていて、今の計画では2024年4月1日以降はVX-βは起動できなくなってしまうので、この点はユーザーのみなさんにも気を付けていただきたいところです。せっかく作った大切なデータが再生できなくなってしまうので、必ずオーディオデータとしてエクスポートするのは忘れないようお願いしたいです。また最初に使う際はオンラインでないとアクティベーションができないのですが、その後は一定程度の時間はオフラインでも使うことは可能です。ただし、ときどきオンラインにしないと使い続けることはできないようになっています。
吉田:VX-βの利用規約において、ユーザーの操作情報を取得する、ということに関して承諾いただく形になっていて、承諾いただかないと使えない仕様になっています。そのため、一定時間が経過するとオンラインである必要が出てくる形です。
--やはり研究素材だから、ある程度のログをとるというわけですね。ただ、どんな情報がとられるのか、という点はちょっと気になるところですが…。
才野:ユーザーのみなさんからすると、何の情報がとられているのかは不安に感じると思うので、その点についてはウェブサイトにも記載しています。個人を特定しない統計情報で、どのボイスバンクを使っているか、各機能の操作頻度、ホストDAWの種類、コンピューターのスペックやOS、使用時間・時間帯…といった情報を取得しています。ぜひご安心いただきたいのは、ここで歌詞の情報とかメロディの情報とか、実際に生成した音声などは一切とっていないので、その点は心配せずにご利用いただければと思います。
基本的に商用利用もOK。ぜひ積極的に使ってほしい
--ほかに、これをしてはいけない…といった禁止事項はありますか?
才野:我々のスタンスとしてはVX-βを使って作った曲は、基本的に商用利用も含めてどんどん使っていただければ、というのが基本スタンスです。
吉田:ただし、ゲキヤクβ、カゼヒキβについては、それぞれのキャラクタの利用規約があるので、そちらを確認してください。こちらに利用規約があるので、ぜひしっかりチェックの上、活用いただければと思います。
--最後に、現在すでにVX-βを利用している方、またこれから使われる方に向けて、ほかに伝えたいことはありますか?
才野:我々からクリエイターのみなさんにお願いしたいのは、とにかく音楽を発信していただきたい、ということです。そうしたら我々もそれを観測していきます。また、これまで歌声合成を使ってきたみなさんには、「一味変わったね」と思っていただきたいし、やっぱりちょっと違う新しい表現ができるんだということを示していただけたら、そんなにありがたいことはないですね。一方で、「これまで歌声合成ソフトなんて使ったことない」という方、「そもそも機械に歌わせるなんて、そもそもちょっとなぁ…」という方にも使っていただきたい、と思っています。その上で、仮歌に使えるのではないか……、とかコーラスに使えるのでは……、などいろいろ模索してもらえるなら嬉しいですね。必ずしもVOCALOIDが主役である必要はなく、仮歌に使ったり、コーラスに使うなど、いろんな形で遊んでいただきたいですね。
--ありがとうございました。
【DTMステーションPlus!】
番組内でのVX-β紹介コーナー