2022/10/14

VOCALOID 5の資産をすべて引き継ぎつつ、AI歌声合成を実現させたVOCALOID 6の実力

VOCALOID・歌声合成・音声合成

昨日のインタビュー記事でも紹介した通り、ヤマハからVOCALOIDの新バージョン、VOCALOID 6が発表され、VOCALOIDオフィシャルショップであるVOCALOID SHOPからダウンロード購入ができるようになりました。AI歌声合成エンジンと、従来からのVOCALOIDエンジンの2つが使えるVOCALOID 6はWindowsおよびMacのスタンドアロンで動作するとともにVST 3およびAudioUnitsのプラグインとしても動作する形になっています。ここにはハイブリッドエンジンを搭載したVOCALOID 6 Editorとともに、VOCALOID:AIに対応したボイスバンクが4種類と、VOCALOID 5に収録されていたボイスバンク4種類の計8種類がセットとなっているほか、DAWであるCubase AI 12も同梱されています。
通常価格は税込価格で27,500円となっているほか、VOCALOID旧バージョンを持っている人であれば購入可能なアップグレード版というものもあり、こちらはCubase AI 12は付属していないものの、税込価格が16,500円とより手頃な値段で入手できるようになっています。4年ぶりのメジャーバージョンアップとなったVOCALOID 6はAI歌声合成が可能になっただけでなく、さまざまな新機能が搭載された、かなり手ごたえのある製品となっています。昨日の緊急生放送「VOCALOID 6＆AI Megpoid発表・発売」でも、いろいろと見ていきましたが、改めてVOCALOID 6はどんなもので、これまでのVOCALOIDと何が同じで、何が違うのかなどチェックしていきましょう。

4年ぶりのメジャーバージョンアップとなったVOCALOID 6

まずは、VOCALOID 6の簡単な機能紹介動画があるので、こちらをご覧ください

これで、AIによる非常に滑らかな歌声や、その機能概要は、なんとなくお分かりいただけたのではないかと思いますが、もう少し具体的に見ていきます。

VOCALOID 6は通常版とアップグレード版の2種類のみ
新しいAIエンジンの入力基本操作は従来のVOCALOIDの手法を踏襲
ひらがな/カタカナで日本語、アルファベットで英語を歌わせることが可能
従来のVOCALOIDと新しいVOCALOID:AIの両方のエンジンを搭載
VOCALOID:AIの調声方法
発音のタイミングをずらすTake機能
録音した生声をVOCALOID:AIの声に変換するVOCALO CHANGER

VOCALOID 6は通常版とアップグレード版の2種類のみ

今回登場したVOCALOID 6は通常版とアップグレード版の2種類のみで、その中身としては以下の通りとなっています。

発売と同時タイミングで31日間利用できる体験版もリリースされているので、これまでVOCALOIDを使ったことのある方なら、まずはそれを使ってみるとよさそうです。

		VOCALOID 6	VOCALOID 6 アップグレード版	VOCALOID 6 体験版
VOCALOID 6 Editor		〇	〇	〇
VOCALOID 6 AI ボイスバンク	HARUKA（日本語）	〇	〇	〇
	AKITO（日本語）	〇	〇	〇
	SARAH（英語）	〇	〇	〇
	ALLEN（英語）	〇	〇	〇
VOCALOID 5 ボイスバンク	Kaori（日本語）	〇	〇	－
	Ken（日本語）	〇	〇	－
	Amy（英語）	〇	〇	－
	Chris（英語）	〇	〇	－
Cubase AI 12		〇	－	－

この表からもわかるとおり、VOCALOID 5のときのようにSTANDARDとPREMIUMといったボイスバンク数の異なるグレードは存在せず、製品的にはひとつのみ。またVOCALOID 5ボイスバンクの4種類については、その名前の通り、VOCALOID 5に入っていたボイスバンクそのものであって、とくに違いはありません（体験版にVOCALOID 5ボイスバンクは付属しません）。一方で、VOCALOID 3～5のボイスバンク（歌声ライブラリ）はそのまま読み込んで利用できるので、アップグレードしたユーザーは、手持ちのソングボイスを活用していくことが可能です。

VOCALOID 6のラインナップ的には1種類。買い方としては通常版とアップグレード版がある

インストールして驚くのはそのコンパクトさです。これまでのVOCALOIDはサンプリングベースであったため、ひとつのボイスバンクはGB単位のものとなっていましたが、VOCALOID:AIのボイスバンクは1つにつき10MB程度。何かの間違いでは…!?と思ってしまうほどコンパクトなものとなっています。そう、従来のVOCALOIDとVOCALOID:AIでは仕組みがまったく異なるということがこのことからも見えてきます。

新しいAIエンジンの入力基本操作は従来のVOCALOIDの手法を踏襲

このVOCALOID 6はVOCALOID 5と同様、WindowsでもMacでも動作させることができ、またスタンドアロンでもVST/AUのプラグイン環境ででも動作させることが可能です。試しにWindowsのスタンドアロン版で起動させて、新規プロジェクトを作成してみたところ、従来のVOCALOID Editorと比較して、かなり洗練されたデザインになっていて、Cubaseっぽいというか、DAW風なUIになっていています。

VOCALOID 6 Editorをスタンドアロンで起動させ、新規プロジェクトを作成した画面

デフォルトでは、VOCALOID:AIのHARUKAのトラックが作成されており、画面下にはピアノロール画面が用意されています。試しに、ここでペンツールを用いてドレミファソと入力してみると、1音ごとに「あ」、「あ」、「あ」と発音していきます。これがHARUKAの歌声ですね。

ドレミファソと鉛筆ツールで入力。歌詞は「あ」と自動的に入る

右クリックしてコンテクストメニューを表示させるとともに「歌詞の流し込み」を選んで、「こんにちわ」と入力していけば、5つの音符に歌詞を入力できます。もちろんノートをクリックして1文字ずつ入力したり、発音記号で入力できるあたりの使い勝手はこれまでと基本的に同じです。

ひらがな/カタカナで日本語、アルファベットで英語を歌わせることが可能

しかし、実は日本語だけでなく、普通に英語の入力もできてしまうのが、VOCALOID 6のすごいところ。

歌詞はノートをクリックしてひとつずつ入力することもできるし、歌詞流し込みで一気に入力することもできる

これはVOCALOID:AIのトラックに限る機能ですが、HARUKAやAKITOなどの日本語のボイスバンクであっても、英語を流暢に歌わせることができるし、1つのパート内で日本語と英語が混在していてもまったく問題なく歌ってくれます。

日本語のボイスバンクにも英語を入力し、流ちょうな英語で歌わせることも可能

逆にALLENやSARAHなどの英語のボイスバンクにおいも、英語の歌詞だけでなく、日本語の歌詞を歌わせることが可能で、しかもかなりキレイな日本語で歌わせることができるため、これまでのVOCALOIDから考えるとまさに画期的な機能向上といえると思います。この辺も緊急生放送の番組内で紹介していたので、こちらをご覧になってみると分かると思います。

従来のVOCALOIDと新しいVOCALOID:AIの両方のエンジンを搭載

そして、このVOCALOID 6の大きな特徴は、このAI歌声合成によるVOCALOID:AIと従来のVOCALOIDの両方を同時に使うことができるという点です。使い方はいたって簡単。画面左上にある「＋」ボタンを押すと、VOCALOID:AIトラックを作成するか、VOCALOIDトラックを作成するか、またはオーディオトラックを作成するかの選択画面が現れるので、ここでVOCALOIDトラックを作成すればいいのです。

画面左上の「＋」をクリックすると、3種類のトラックからどれを作成するかを選択するダイアログが現れる

デフォルトの設定においてはVOCALOID:AIトラックが赤なのに対し、VOCALOIDトラックは青なので、見た目にもどちらを使っているかがすぐにわかります。またVOCALOID 6 Editorの制限としては、オーディオトラックも含めて全部で32トラックまでとなっているので、VOCALOID:AI、VOCALOIDそれぞれ多くのボイスバンクを同時に歌わせることが可能になっているのです。

VOCALOID;AIのトラックに追加して、VOCALOIDトラックを作成

この際、VOCALOID 6にバンドルされているVOCALOID 5ボイスバンクのKaoriやKenなどを選択できるだけでなく、これまでのVOCALOIDの資産が利用できるのも重要なポイント。VOCALOID 3～VOCALOID 5までのボイスバンク（歌声ライブラリ）が利用可能なのなので、初音ミク、Megpoid、結月ゆかり……といったものが、そのまま利用可能です。ヤマハによれば、エンジンはVOCALOID 5と同じであって、出音はこれまで通りでまったく変わらないとのことでした。ちなみに、VOCALOID 4以前にあったクロスシンセシスやJobプラグインなどの復活はないようですね。

さて、このようにVOCALOID;AIのトラックとVOCALOIDのトラックの両方が扱わるわけですが、入力した音符・歌詞の入ったパートをドラッグ＆ドロップすれば、VOCALOID:AI－VOCALOIDトラック間で、データのコピーが可能なのも嬉しいところ。逆にいえば、旧バージョンのVOCALOIDで作ったデータを読み込んだ上で、VOCALOID:AIのトラックへコピーすれば、VOCALOID:AIに歌わせることも可能というわけです。

従来のVOCALOIDのデータを読み込み、VOCALOID;AIトラックへコピーして使うことができる

ただしVOCALOID:AIとVOCALOIDでは、歌わせるためのエンジンがまったく別モノなので、すべてがそのままというわけにはいきません。コピーできるのはノート（音符）情報と歌詞、それにダイナミックスとピッチ情報。これだけの基本的な情報は引き継がれるので、細かな調整はそこから各ボイスバンクごとに行っていくという感じですね。

VOCALOID;AIの歌声を調声するためには、従来のVOCALOIDとは少し異なる方法で行っていく

VOCALOIDトラックについては、基本的にVOCALOID 5のものそのものなので、ここでは割愛しますが、VOCALOID 6で登場したVOCALOID:AIトラックのエディタ画面についてもう少し見てみましょう。

VOCALOID:AIの調声方法

先ほどのようにノート情報、歌詞を入力すると歌うわけですが、画面下側のエディット画面における左上のアイコンボタンを見てみると矢印、鉛筆、はさみに続いて4つのアイコンが並んでいます。

矢印、鉛筆、はさみツールの右側に4つの編集ツールのアイコンが表示されている

1つ目のピッチツールを選択するとノートのピッチが調整できるようになっています。デフォルトの設定でも自動でピッチの動きが作られますが、ユーザーにニーズに応じて動かせるようになっています。ただし、このピッチの調整などは従来のVOCALOIDやVOCALOID 6におけるVOCALOIDトラックとはだいぶ異なる仕様になっています。これまではピッチベンドを使いながら、しゃくりを作るとか、ビブラート作るなどしていましたが、そういう形ではありません。やはりAIによる歌声なので、どのくらい度合で変化させるのかを決めるといものとなっていて、細かな動きは自動で生成されるのです。これによってナチュラルな感じで歌声を調整していくことが可能です。

ピッチツールを選ぶと、波形表示された画面が現れ、ここでピッチを調整できる

一方で、ビブラートにおいては別途用意される形になりました。2つ目のアイコンのボタンがそれ。どの範囲をどのくらいの周期で、どのくらいの深さでビブラートするのかを調整していくのです。この辺はシンセサイザ的な使い方ですね。

3つ目はノートの強弱を決めるエクスプレッションツールで声の大きさを調整できるようになっています。このエクスプレッションでの調整のスゴイのは単に声の大きさだけが変化するわけではないということ。この大きさに応じて、声色も自然な形で変化するんですね。実は先ほどのピッチにおいても同様で、音の高さ、大きさによって、声色がナチュラルに変わるというのもVOCALOID 6の大きな特徴となっています。

そして4つ目のタイミングツールは、まさにタイミングを調整するためのものです。ノートと歌詞を普通に入力しても、もう少し発音タイミングを遅らせたいとか、前に持っていきたいということはありますよね。従来のVOCALOIDならノートの位置を微調整していましたが、VOCALOID:AIでは、ノート情報はそのままに、発音タイミングだけをズラすことができます。さらに子音と母音のタイミングを調整できるのも大きなポイント。これによってさまざまな表現が無理なく可能になっています。

こうした機能はあくまでもVOCALOID:AIトラックだけのもので、VOCALOIDトラックは従来通りです。音符と歌詞を入力する、という基本的な操作は同じですが、調整のための流儀はまったく異なるので、この辺は少しずつ慣れていくしかなさそうです。

ちなみに、VOCALOID:AIトラックで単純に音符を置いて歌詞を入れるという、いわゆるベタ打ちで歌わせてみた感想ですが、確かに従来のVOCALOIDと比較すると、とてもナチュラルな歌い方になってはいます。ただ、他社のAI歌声合成などと比較するとやや単調というか、従来のVOCALOID的なニュアンスが残っているようです。その理由については、昨日UPしたインタビュー記事「AI歌声合成に対応したVOCALOID 6が発表・発売に。インターネットからはAI Megpoidが同時リリース」の中でもいろいろ語られていた通りです。つまり、クリエイター側がどのように歌わせたいのかを反映させやすくするため、あまりキャラクタの個性をベタ打ち入力で出しすぎないようにしているようです。そのため、先ほどのピッチ、ビブラート、エクスプレッション、タイミングの各ツールをいかにうまく使うかが、VOCALOID 6の使いこなしのキーになる、ということのようです。緊急生放送においてもAI Megpoidを例に、いろいろと調声をする実例をお見せしていったので、この辺をご覧になると雰囲気がわかると思います。

発音のタイミングをずらすTake機能

VOCALOID 6にはまだまだたくさんの新機能が搭載されているので、見ていきましょう。やはりVOCALOID:AIトラック限定ですが、Take機能というものが搭載されています。これはノートの位置を変えずに、発音タイミングをズラして歌いなおしてくれるというものです。Synthesizer Vに、AIリテイク機能というものがありましたが、それとは異なり、VOCALOID 6のものは歌い方はそのままにタイミングだけを微妙にズラすというもの。これを利用することでいわゆるダブリングに便利に使えるのです。つまり同じトラックを複数コピーしてユニゾンで歌わせる際、そのままだと音量が変わるだけで、複数の人が歌っているように感じられないところ、Take機能を利用してタイミングをズラすことで音に厚みを出していくことができる、というわけです。

一方でエンジン自体は変わらないものの、VOCALOIDトラックのほうにもちょっとした機能進化があります。それは鉛筆ツールとラインツールの切替が可能になったという点。これにより調整がよりしやすくなっています。

また機能的には変わりませんが、AttackとReleaseのエフェクトは、画面右に表示されるインスペクターに移動する形になり、より操作しやすくなっています。

録音した生声をVOCALOID:AIの声に変換するVOCALO CHANGER

そして、もう一つ非常にユニークな機能が搭載されています。それがAudioトラックを活用するVOCALO CHANGER（ボカロ・チェンジャー）という機能です。これまでAudioトラックはオケを流し込んだり、ブレスなどの効果音を入れるためのものとして使われていいましたが、このVOCALO CHANGERはそれらとはまったく違う使い方です。

これはAudioトラックに入れた、人間のボーカルを、VOCALOID:AIの声に変換してしまうというもの。いわゆるボイチェンの非リアルタイム版というわけですが、出てくる声は、完全にVOCALOID:AIによる歌声となるため、元の声の成分は何も残らない形です。ピッチやビブラート、エクスプレッションの動きなどで、いくら細かく指定して調声してもなかなか表現できない歌声というものがありますが、それを声を入力する形で作り出すことができるのです。

ただし、この機能はあくまでもAudioトラック上での変換であり、VOCALOID:AIのノートデータとして取り出すことはできません。そのため歌詞データも不要であり、日本語や英語はもちろん、何の言語であってもボーカルのオーディオデータになっていれば変換することが可能なのも面白いところです。

VOCALOID 6 Editorにはオーディオ録音機能などはないため、VOCALO CHANGERを使うためには、予めボーカルデータをWAVファイルとして用意しておく必要があります。サンプリングレートは何でもいいようですが、読み込んだタイミングで44.1kHzに変換されるため、予め44.1kHzで用意しておくのが一番よさそうではあります。緊急生放送でお見せした例を見ると、その威力が分かると思います。ちなみに番組後半で歌ではなくラップ的なものをVOCALO CHANGERにかけてみましたが、かなりうまくいくようなので、アイディア次第でいろいろ使えそうです。

以上、VOCALOID 6の新機能を中心にざっと紹介してみましたが、いかがだったでしょうか？ VOCALOID 5を見送った人でも、今回VOCALOID 6は、まったく新しいVOCALOID:AIエンジンを搭載しているとともに、VOCALOID 5の機能もすべて持っていることを考えると、持っておくべきソフトではないか、と思います。とくにこれまでのVOCALOIDを持っている人であれば、16,500円と低価格でアップグレード版を入手できるので、まずは体験版を試してみた上で、購入してはいかがでしょうか？

【価格チェック&購入】
◎VOCALOID Shop　⇒ VOCALOID 6　,　VOCALOID 6アップグレード版
◎VOCALOID Shop ⇒　VOCALOID 6体験版
【DTMステーションPus！】
VOCALOID 6&AI Megpoid発売・緊急生放送
10月13日に配信したDTMステーションPlus!の特集番組です。