10月13日、ヤマハ株式会社から待望のVOCALOID新バージョン、VOCALOID 6が発表されるとともに、同社運営のVOCALOIDオフィシャルショップであるVOCALOID SHOPhttps://www.vocaloid.com/にてダウンロード販売が開始されました。VOCALOID 6の最大の特徴はAI歌声合成を実現する新エンジン、VOCALOID:AIを搭載したこと。これにより、従来のVOCALOIDと比較して、よりナチュラルな歌声を実現できるようになっています。一方、これまでのサンプリングベースによるVOCALOIDのエンジンも搭載したハイブリッドになっているのもVOCALOID 6としての重要なポイント。曲制作のニーズに合わせて、従来のVOCALOID 3、4、5のボイスバンク(歌声ライブラリ)も選択して使うことができるようになっています。
このVOCALOID 6にはVOCALOID:AIに対応したボイスバンクが4種類と、VOCALOID 5に収録されていたボイスバンクが4種類の計8種類が標準で搭載され、税込価格は27,500円。従来のVOCALOIDからバージョンアップする場合はVOCALOID 6アップグレード版(16,500円)が用意されているので、より手軽に購入することが可能です。このVOCALOID 6と同時リリースという形で株式会社インターネットからVOCALOID6 Voicebank AI Megpoidが発売されています。こちは単体のボイスバンク(パッケージ版:13,200円、ダウンロード版:11,220円)のほかに、VOCALOID 6のエディタとセットになったスタータパック(パッケージ版:27,500円、ダウンロード版:23,375円)が用意されており(ヤマハ製のボイスバンクは入ってません)、全国のショップ、通販でも販売されるとのことです(10月13日時点ではインターネット社のオンラインショップshop.ssw.jpでのみ、その他流通は順次対応予定)。
そのVOCALOID 6、機能・性能的に大きく進化したのとともに、エディタの見た目もDAWっぽく、かなり洗練された感じがしますが、これまでのVOCALOIDと何が違うのか、VOCALOID:AIとは何なのか、昨今のAI歌声合成と何が共通で何が異なるのか、そして、なぜこの同じタイミングでMegpoidが登場したのかをヤマハ株式会社 電子楽器開発部 音響・コンテンツグループの吉田雅史さん、研究開発統括部 第1研究開発部 音楽情報処理グループの大道竜之介さん、そして株式会社インターネット 代表取締役の村上昇さんの3人に、オンラインでインタビューしてみました。
4年ぶりのバージョンアップであるVOCALOID 6はハイブリッド・エンジン
--CeVIO AIやSynthesizer Vなど、競合が活発に動くなか、本当に久しぶりのVOCALOIDのバージョンアップだと思いますが、VOCALOID 5からずいぶん時間がかかりましたよね?
吉田:VOCALOID 5をリリースしたのが2018年7月だったので約4年での新バージョンなわけですが、実はVOCALOID 4からVOCALOID 5ときも約4年、その前のVOCALOID 3からVOCALOID 4は約4年、VOCALOID 2からVOCALOID 3では約4年だったので、順当に進めてきた形ではあるのです。もっとも他社の動きがとても速かったので、ユーザーのみなさんにはお待たせしてしまったという思いはあります。VOCALOID 5リリース以降はAI美空ひばりさんのような技術公開を行うなど、AIを取り入れつつ、どのような方向で進化させるべきかをいろいろ議論してきました。その結果、今回の形でのリリースとなったのです。
--各社AI歌声合成を全面に出してきているので、VOCALOIDもその流れに追従したという形ですか?
吉田:競合が出てきているのは私個人的には喜ばしいことだと思っています。まだまだ成長産業であって、伸びしろがあるんだな、と前向きに捉えています。今回、AIという技術がVOCALOID 6の肝になっているのは事実です。でもだからといって、今までの技術が否定されるわけではありません。楽器の世界を振り返ってみると、電子ピアノやシンセサイザが誕生しても、アコースティックピアノが使い続けられているのと同様、置き換わってしまうわけではありません。そこで今回は従来のVOCALOIDエンジンを残しつつ、VOCALOID:AIという新しいエンジンを搭載し、両方が使える製品としました。もちろんエンジンが違うので、ノート・歌詞という一番重要な部分の使い方は共通にするけれど、各パラメーターは別々になっています(注※ダイナミクスとピッチベンドも共通になっており、VOCALOIDトラックとVOCALOID:AIトラック間をコピーするなどして行き来しても引き継がれる仕様になっている)。
--AI美空ひばりのプロジェクトがNHKで放映されたのを見たときはすごく感激したし、驚きました。今回、それがようやく製品として発売された、ということですね?
大道:同じAIという用語を使っているので、混同してしまいますが、美空ひばりさんのときのAIと今回のVOCALOID:AIの技術は系統が違うというか、似て非なるものなんです。コンセプト的にいうと、ひばりさんのときは、ひばりさんのご自身らしく、ご本人のAIに曲を歌ってもらうことを目指して開発していったので、まさにひばりさん自身の声や歌い方を生かす形にしました。それに対しVOCALOID 6は電子楽器として開発しており、クリエイターがこのツールに向き合いながら、自分の個性を生かせるようなものにしているんです。たとえばひばりさんのAIは、ご本人が歌っておられた音域はものすごくリアルにご本人らしく歌いますが、音域から外れたところを歌わせようとしても、歌えないというか、苦しそうな声になってしまいます。それに対しVOCALOID6の場合は音域が外れても歌うことができます。AIによる学習で声の強さのコントロールはかかるけれど、パラメータを調整することで、自由に歌わせることができるようにしているのです。
--なるほど、AI美空ひばりはすごいなと思いましたが、それとは違うんですね。
大道:計算量、コンピュータの負荷という面でも大きくことなります。ひばりさんのときは、かなり高性能なコンピュータを用い、実時間以上の時間をかけて声を生成していましたが、VOCALOID 6ではごく普通のパソコンでもサクサクと動かすことができるようになっています。AIを使っているので、元の歌手らしい歌い方が自動で現れるべきであるという考え方がある一方、クリエイターの個性が出せるようにしたい側面もあり、そのバランスをどうしていくかが難しかったところですね。とくにピッチの問題が開発における議論となっていました。あまり元の歌手の歌い方に忠実にやりすぎると、個性が強すぎてしまうし、平坦過ぎると、これじゃあ、今までのVOCALOIDじゃん、となってしまう。
クリエイターの意思を自由に表現できる楽器としてのVOCALOID
--Synthesizer VやCeVIO AIの場合、ベタ打ちでも、すごく人間らしい歌声だけど、VOCALOID 6は、それらとは少し方向性が違う、ということですか?
大道:他社製品を正確に理解しているわけではないのですが、それら製品はキャラクターの声が全面的に出ることが特徴のように感じています。一方、VOCALOID 6ではピッチに応じて声色が変わり、歌い方も変わる。歌声としてより自然性が保たれるように開発しています。
村上:ダイナミクスに関しては、ベタ打ちの場合、オリジナルの声の動きをあまり反映してないなと思いました。そのため、従来のVOCALOIDと近いニュアンスですが、そこからノートのエクスプレッションツールと、ピッチツールでそれなりにエディットしていくと、すごく人間っぽい歌い方になるし、その描き方によって表現が大きく変わりますね。だから同じボイスバンクを使っていても、ユーザーによってかなり違った作品ができそうです。
吉田:まさにそこが我々の狙っているところであり、楽器としてのVOCALOIDである部分です。実在の歌手の忠実な再現を目指しているわけではない、ということですね。
--ベタ打ちで、誰でも簡単に人間そのもののような歌い方をするのもいいと思いますが、VOCALOIDが目指しているのはそれとは違う、ということですね。
大道:同じメロディー、同じ歌詞であっても、強く歌うのか、優しく歌うのか……など、作り手次第であるべきで、全部同じ雰囲気になるのではクリエイターの意思が発揮できないな、と思うのです。たとえば”Let It Go”なんか、その典型例で、同じ歌詞・メロディーだけど、1番のサビと3番のサビではまったくといっていいほど歌い方、打ち出し方が違っていて、それがこの曲の楽しさ、素晴らしさだと感じています。だから歌詞と音符だけで、自動で判断していいのか、ということですね。
--ほかにもVOCALOID 6ならではの特徴はありますか?
大道:言語を混ぜることができるというのもVOCALOID 6のAI機能の大きな特徴となっています。たとえばMegpoidの収録は日本語であり、日本語のボイスバンクではあるのですが、このMegpoidで英語をキレイに歌わせることができます。VOCALOID 6では、1つのトラックの中というか、1つのパートの中で日本語と英語が混在してもスムーズに歌わせることができます。日本語の歌詞の中に英語が入っているというケースは多いですが、上手に歌っていきます。使い方は簡単でひらがな・カタカナだと日本語で歌い、アルファベットだと英語で歌います。この際、カタカナ英語がいいなというときは、カタカナで入力すると、そうなりますね。英語ボイスバンクであるALLENやSARAHに日本語を歌わせても結構上手に歌ってくれます。多少外国人が歌っている日本語というニュアンスはあるものの、片言で歌っているという感じではなく、かなりキレイな日本語ですよ。
吉田:現在使えるのは日本語での入力と英語での入力となっていますが、今後のアップデートで中国語にも対応する予定です。ただし、この場合エディタとともに、ボイスバンクも新しく中国語を学習したものでないと中国語を歌えないので、併せてボイスバンクもアップデートさせる必要があります。もちろん、そうしたアップデートは無償で行える予定です。
--ハイブリッドエンジンということで、1つ質問なのですが、従来のVOCALOIDエンジンを使った場合、音に違いがあったりするのでしょうか?
吉田:これについてはVOCALOID 5とまったく同じエンジンであるため、変わりません。VOCALOID 6では、VOCALOID 3、VOCALOID 4、VOCALOID 5のボイスバンクを読み込んで使うことができるようになっています。
MegpoidがVOCALOID 6と同じタイミングでリリース
--さて、ここからMegpoidについても詳しくお話を伺いたいと思います。先日、喋るMegpoidであるA.I.VOICE GUMIが発売されたわけですが、そこから1か月もたたずにVOCALOIDが登場した形ですね。どういう経緯で今回のVOCALOID 6との同時リリースになったのですか?
村上:時系列的にお話すると、先日の「Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る」の記事のインタビューでもお話をした通り、昨年秋くらいから、そろそろMegpoidの新製品を出そうと考え始めていました。ヤマハさんにはことあるごとに、新バージョンはいつごろですか…と聞いていたのですが、なかなか進展がなかったのです。そうした中、エーアイさんからの提案をいただき、先にトークのほうから開発に着手する中、再度、ヤマハさんにこれ以上待てないので、2022年内に出せないのなら、他社に乗り換えるかもしれない……と伝えたんですよ。そうした中、A.I.VOICEの収録中に、具体的な話をいただき、急遽、バタバタと動き始めました。中島愛さん側にもスケジュール調整していただいて、そのままVOCALOIDのほうの収録を続けていった形です。
--以前、村上さんとお話をしていた際も、CeVIO AIやSynthesizer Vへの乗り換えるべきか、悩んでいらっしゃった感じでした…。
村上:ヤマハさんとはVOCALOID 2、VOCALOID 3、VOCALOID 4とやってきた経緯があります。じゃあ、ここでVOCALOIDを捨てて他社に行っていいのか…と。他社に行った後にやっぱりまたVOCALOIDに戻ります…ということはできないと思うので、簡単には踏み切れなかった…というのが正直なところです。やはり長い歴史があるので、VOCALOIDは大切にしたいし、安易に他には行きにくい。だからこそ、何度も何度も状況を聞き続けていたのです。
--これまでの歴史的経緯などは、いったん置いておいて、ボイスバンクを作るベンダーとして、VOCALOID、CeVIO AI、Synthesizer Vを比較してみてどうでしたか?
村上:VOCALOID 6のプレゼンをヤマハさんにしていただいた際にサンプルの録音時の音声と合成音を聴かせてもらってのですが、合成音の音質がとても良いと感じました。より人間っぽい歌い方をさせたい、というのが目標ではあるけれど、誰が入力しても同じ音符、歌詞なら同じ歌い方でいいのだろうか…という疑問がありました。クリエイティブな要素をどう盛り込むことができるができるか、また、いわゆるベタ打ちでの出音から意図した表現にエディットできるかも重要だろう、と。シンセサイザの技術進化の中、サンプラーが誕生し、ピアノの音もリアルに再現できるようになったけれど、弾き方をコントロールするのはクリエイターです。単に生音に近づけるだけでなく、いかに表現力を高めるかも重要なポイント。VOCALOID6ではこのあたりのコントロールができると思いました。それがVOCALOIDを選んだ大きな理由でもあります。
従来のMegpoidらしさをそのまま踏襲しつつ、より滑らかに、より自由度高く歌わせることが可能になった
13年の歴史があるMegpoidを、どうAI化するかで試行錯誤
--そうはいっても、従来のVOCALOIDと比較して、より人間っぽい歌い方ができるVOCALOID:AIにMegpoidを持ってくるというのは簡単ではなさそうですね。
村上:そこがまさに難関でした。新しいキャラクタであれば、その歌手に普段通りに歌ってもらい、それを収録し、学習させていけばいいわけですが、Megpoidの場合、VOCALOID 2からの13年以上の歴史があり、その歌声を人間らしくするにはどうするかは悩ましいところでした。みんながイメージするMegpoidを生々しい声にする…というのは我々にも分からない。だから、まずはVOCALOID 2というかネイティブの歌声を元にして、中島さんに「この声質で歌ってみてください」というところから始めたんですよ。でも、中島さんからは「この声で感情を込めて歌うって、どういうことですか?」と聞かれてしまって……ホントにそこが難しい。まさにサジ加減であって、感情込めたら声質も変わっちゃうので、それがMegpoidとして正しいのだろうか…と。声質はそのままに、ある程度振れ幅を持たせる必要があるけど、その度合いをどうすればいいんだろう…と。
吉田:私も収録には同席していましたが、村上さんがMegpoidとしての声質を見極めつつ、私が振れ幅をチェックしながら録音を進めていきました。もっとも、収録してその場で、どんな声が生成されるかがわかるわけではなく、一度AIで学習しないと見えてこないため、何曲か録って、試作して、こんな声質でこんな振れ幅で…というのが見えてきてという繰り返し。イメージに合うよう、選曲を見直すなど、試行錯誤を繰り返したため、結局2か月近い収録期間となりました。
MegpoidとVOCALOID 6 Editorがセットのスターターパックも登場
--その結果、10月13日に同時リリースとなったわけですね。ちなみにMegpoidをインストールすると、StyleにもMegpoidオリジナルのものが入ってますよね?これはどういうものなのですか?
村上:Styleはオーディオエフェクトとブレスをセットしたもので、私がいくつかプリセットとして作りました。実際には軽くリバーブとコーラス、EQでちょっと高域を上げて息の成分を強めに出す形にしています。
吉田:VOCALOID 6のStyleは内蔵のオーディオエフェクト、ロボットボイス、ブレスのパラメータをセットにしたものです。エフェクトに関してはVOCALOID 5のものとまったく同じですね。シンセサイザのプリセット音色にエフェクトがかかっているのと同じように、曲を作っていく上で、エフェクトがあったほうが作業しやすいだろうということで用意した機能です。VOCALOID 6自体がDAWのプラグインとして機能する一方で、VOCALOID 6にプラグインのエフェクトを組み込めるわけではないので、とりあえず使えるエフェクトという位置づけで、細かな調整はみなさんお手持ちのDAWで自由にお使いください…という位置づけです。もっともVOCALOID 5のときからそうですが、これらエフェクトは決しておまけの簡易的エフェクトというのではなく、ヤマハの研究開発で作り上げたVCMテクノロジーを使ったもので、プロ用のコンソールなどに搭載されているものと同等のものが搭載されているので、ぜひ有効活用いただければと思っています。
--VOCALOID 6は基本的にVOCALOID SHOPからのダウンロード販売ですが、Megpoidのスターターパックという形であれば、一般のお店など、VOCALOID SHOP以外からも購入可能になっているんですね。
村上:そうですね。ボイスバンク単体と、MegpoidとVOCALOID EDITORをセットにしたスターターパックがあり、それぞれにパッケージ版とダウンロード版があるので、計4製品あるわけですが、10月13日の段階では、当社のオンラインショップshop.ssw.jpでの販売になります。Amazonをはじめとしたネットショップや量販店などでは、順次お求めいただけるようになる予定です。これらを購入いただいた方には、Windows版およびMac版のプラグインであるVST FormantShift2というオリジナルのエフェクトプラグイン(VST/AU)を別途ダウンロードできるようになっているのも特徴です。これを使うことで、かなり声質を変化させることができるので、ぜひVOCALOID 6と組み合わせて活用いただければと思います。また公式デモソングのVOCALOIDデータ(.vprデータ)もダウンロードできるようにしているので、VOCALOID 6の使い方研究用などの参考にしてみてください。
吉田:AI MegpoidのボイスバンクはVOCALOID SHOPでも販売しております。
録音した歌声をVOCALOID:AIの歌声に変換するVOCALO CHANGER
--そのほかVOCALOID 6ならではの機能というのはありますか?
吉田:ぜひ、みなさんに使っていただきたいのが、VOCALO CHANGER(ボカロチェンジャー)です。これは打ち込みだけではなかなか入力できないものを、オーディオからの変換で実現するというものとなっています。具体的にはオーディオトラックを作成した上で、ここにボーカルを読み込んで置き、VOCALO CHANGERで変換することによって、VOCALOID 6用のボイスバンクであるAKITOとかHARUKA、そしてAI Megpoidの声にできるというものです。ピッチ変化やダイナミクス変化などがそのまま変換されるほか、MIDIではなく、オーディオなので言語も関係なく利用できます。発声させていくるのはあくまでもVOCALOID:AIなので、打ち込みを駆使すればここまでできるという実例ともいえますね。
--つい先日、私のAV Watchの連載記事で、自分の声を持田香織さんの声に変換できる「なりきりマイク」について大道さんにインタビューさせていただきましたが、あの機能がVOCALOID 6に搭載されている、というわけですか?
大道:歌声を変換するTransVoxという大きな枠組みとしては一緒ですが、「なりきりマイク」と今回VOCALOID 6に搭載したVOCALO CAHNGERは別系統の技術です。用途ごとにそれぞれ別の進化をさせています。なりきりマイクの場合は、カラオケの現場で楽しく使うものなので、リアルタイム性重視で、レイテンシーを詰めるとともに、伴奏音に反応しないよう、雑音環境にも強いシステムとしています。また、持田香織さんの声になりきるのを目標としているため、歌う人が素人で、多少、歌い方が下手であっても、持田さんっぽい歌声、歌い方になるようにしています。それに対し、VOCALO CHANGERは、楽譜入力だけでは、なかなか出せない複雑で豊かなニュアンスをオーディオのボーカルから出していきたいという用途で作っているため、入力された音色やピッチの動きをより繊細に反映するようにしています。ハッキリした発音はハッキリと、モゴモゴした発音はモゴモゴといったように、入力の声のニュアンスをそのまま反映して、それぞれのボイスバンクの声で歌ってくれます。入力の音に繊細に反応する特性を利用して、開発のテスト中には、わざとドラムの音を入力してボイスパーカッションのようなものを作って楽しんだ人もいました。またVOCALO CHANGERはリアルタイムではなく、読み込んだオーディオを変換させる形ですね。
吉田:VOCALOIDにはオーディオのレコーディング機能はないため、DAWなどで事前にボーカルデータを作成しておいてもらい、それをオーディオトラックに読み込んで使ってください。
--最後に今後のVOCALOID 6での展開について教えていただけますか?
吉田:VOCALOID 5のStyleセットにあったキャラクタ(旧:ジェンダーファクター)がVOCALOID 6にはまだ搭載されていないので、今後のアップデートで追加していきたいと思っているほか、先ほどの中国語対応など、機能的なアップデートを図っていきます。またボイスバンクのほうもいろいろと企画しているところなので、徐々に増やしていきたいと思っています。とりあえず、31日間フル機能使うことができるVOCALOID 6の体験版も用意していますので、ぜひ多くの方にまずはお試しいただければと思います。
--ありがとうございました。
【関連情報】
VOCALOID 6製品情報
VOCALOID 6体験版ダウンロード
AI Megpoid製品情報
AI Megpoid公式デモ動画
【価格チェック&購入】
◎VOCALOID Shop ⇒ VOCALOID 6 , VOCALOID 6アップグレード版 , AI Megpoid
◎VOCALOID Shop ⇒ VOCALOID 6体験版
◎shop.ssw.jp ⇒ AI Megpoid(ダウンロード版/パッケージ版)
◎shop.ssw.jp ⇒ AI Megpoidスターターパック(ダウンロード版/パッケージ版)
VOCALOID 6&AI Megpoid発売・緊急生放送
2022年10月13日 19:30~21:30
【ニコニコ生放送】https://live.nicovideo.jp/watch/lv338830193
【YouTube Live】https://youtu.be/IFmPe8pAgUU
2022年10月13日のVOCALOID 6およびAI Megpoidの発売に併せ、DTMステーションPlus!の緊急生放送を行います。出演者は記事でインタビューをしたヤマハの吉田雅史さん、大道竜之介さん、インターネットの村上昇さんの3人。実際のVOCALOID 6での操作画面を見せるとともに、その歌声などを詳しく紹介していきます。放送中コメント欄などで質問いただければ、お答えしていきますので、ぜひご参加ください。またYouTubeはアーカイブとしても残り、後日ご覧いただくことも可能です。