9月26日、いよいよ話題のCeVIO Creative Studioが発売されます。VOCALOIDの対抗馬ともいえる、まったく新しい歌声合成エンジンを搭載した、このCeVIO(チェビオ)。すでに、無料のCeVIO Creative Studio FREEが4月(ソング対応は6月)にリリースされていたので、使ったという方も多いと思います。以前の記事でも紹介したとおり、CeVIOは、歌わせるソング機能と、喋らせるトーク機能の2つを持つユニークなソフト。FREE版においては、さとうささら、というキャラクタの女の子が、歌ったり、喋ったりするものでした。
今回、製品版として発売されるものは、トーク機能に2つのキャラクタボイスが追加されるのと同時に、ソング機能にはFREE版にはなかった、歌の調教機能が搭載されているのがポイントです。発売を前に、製品版のCeVIO Creative Studioを入手することができたので、CeVIO Creative Studioのソング機能がVOCALOIDとどう違うのか、という観点から、チェックしてみたいと思います。
9月26日に発売されるCeVIO Creative Studioのパッケージ
これまでFREE版を使った人の反応を見ていると、「ベタ打ち入力しただけなのに、すごく歌声がきれいで自然!」というものと「ボカロ同様に入力したが、うまく歌えず使いにくい」という反応の2つがあったように思います。今回、製品版を触ってみて、なぜ両極端な意見が出ていたのか、ハッキリした気がします。
パッケージにはインストールディスクと素材ディスクがあり、素材ディスクにはWAVのSE音などが収録されている
その最大の理由はCeVIOは、VOCALOIDやUTAUなどと、根本的に異なる歌声合成の技術が使われているからです。そうVOCALOIDなどがサンプリングによるシステムであるのに対し、CeVIOはHMM(隠れマルコフモデル)音声合成という手法であるため、歌わせるためのテクニック=調教方法も、まるっきり異なるのです。その結果、VOCALOID特有のテクニックを用いると、ベタ打ちと比較しても悪化してしまうケースが多いのです。
CeVIO Creative Studioの起動画面(※画面は発売前の開発中のものです、以下同)
以前、HMM音声合成エンジンを開発した、名古屋工業大学大学院・教授の徳田恵一先生に話を伺った際「VOCALOIDはMIDI楽器であるのに対し、CeVIO Creative Studioは歌声合成ソフト。そのため、扱い方がまったく違うんですよ」とおっしゃっていました。その話を聴いたとき「VOCALOIDも歌声合成ソフトなのに…」とイマイチ理解することができなかったのですが、製品版を触ってみて、その意味が見えてきました。
ソングトラックを選択すると、画面下にピアノロールのエディタが表示される
まずは簡単な例から紹介していきましょう。たとえば「きっぱりと(ド・レ・ミ・ファ)」と歌わせたい場合、VOCALOIDなら、「き(ド)」を短いノートにし、「ぱ(レ)」、「り(ミ)」、「と(ファ)」の3つは歌わせたい音長に合わせて、ノート長を調整しますよね。そのため、分解能も事前に1/64に設定して、できるだけ細かく調整していくのが基本。これは、まさにMIDIの考え方ですよね。
CeVIO Creative Studioでは譜面通りに音符を入力していく。この際、歌詞には自動的にドレミファソの音階が入る
それに対し、CeVIOでは譜面どおりに入力していく必要があり、ノート長を調整してはいけないのです。また「っ」も文字として入力することができ、「っ」があるかどうかで、歌い方も大きく変わってくるのです。
「とはいえ、それぞれの音符の発音の長さは自分で調整したい」という人も多いはず。CeVIO Creative Studioでももちろん、そうした調整は可能で、VOCALOIDより遥かに細かく調整可能なのです。ただし、それはノートで調整するのではなく、各音素のタイミングを調整していくのが特徴。具体的に見ていきましょう。
タイミング調整画面。ピンク線が音素の頭。画面下に音素名が表示されており「っ」は「Cl」と表記されている
では、CeVIO Creative Studioに搭載されたタイミング調整画面をご覧ください。あまり見慣れない画面だと思いますが、ここで子音、母音の発音位置が細かく表示されており、その位置=タイミングを自在に調整することが可能になっているのです。
拡大表示させると、 音符に対し、子音や母音のタイミングがどうなっているかがハッキリわかる
VOCALOIDの場合、母音の発音位置がノートのスタート位置に合うように作られているのに対し、CeVIOのHMMエンジンでは中の人のクセがそのまま再現されており、必ずしもジャストタイミングではありません。人によって、また文字や音程によって、前ノリだったり、後ノリだったりと、微妙な違いがあるのです。でも、タイミング調整機能を使うことで、必要に応じて、ドンピシャにしたり、前ノリにしたりといったことが可能になります。
しかも子音、母音とも1文字につき5つのタイミングから構成されています。たとえば「k」という子音の発音。これをスローモーションで見てみると、一瞬口を閉じてから開きながら発音していくのですが、CeVIO Creative Studioでは、それぞれのタイミングをキッチリとパラメータとしてとらえているため最初の破裂音部分だけを長くするなど、本当に微妙な発音調整が可能になっているのです。この5つのタイミングは画面を拡大していくとハッキリとわかるでしょう。
1音素が5つに分割されているが、その分割された1つずつのタイミングをズラすことも可能
また、先ほどのベタ打ち入力での歌詞を「きっぱりと」から「きぱりと」に替えると、各音素のタイミングも変わるし、「っ」が子音として捉えられていたということも確認できると思います。
「きっ」を「き」に直すと、音素の5分割されたタイミングが明らかに変わっているのを確認できる
ところで、すでにお気づきの方も多いと思いますが、1つの音符に、複数の文字を入力できるというのもCeVIO Creative Studioの特徴です。1音符に3文字入力すれば、自動でいい具合にタイミングを3分割してくれるのですが、必要に応じて各文字の長さを音素のタイミング調整によって変えることもできるわけです。
1つのノートに複数の文字を入れることもでき、それに応じて音素のタイミングも変わる
次に、ピッチ調整についても見てみましょう。これも画面を見ると分かる通り、VOCALOIDのPITパラメータとは大きく異なります。VOCALOIDでは、MIDIのピッチベンドとして調整する形になっていましたが、CeVIO Creative Studioのものは、各音の音程がそのまま緑色でグラフ表示されているのです。SONARのV-VOCALやMelodyne Editorのようなものと言えばわかりやすいでしょうか?
ピッチはV-VOCALやMelodyneのような感じで表示される
実際に歌わせるピッチを自在に描いていくことも可能なのですが、最初少し戸惑ったのは、自分が描いた線はオレンジで表示され、オリジナルの緑の線はそのまま残っていること。オレンジの線があると、こちらが有効になり、緑は発音上無視されます。しかし、入力したオレンジが気に入らなければ、消しゴムで消すことで、オリジナルの緑が有効になるのです。たとえば、ドレミファと入力していても、このピッチ調整画面で、ソの位置に直線でピッチを描くと、ずっとソで単調に歌う形になるのです。
上書きはオレンジで表示されるが、オリジナルの緑の線も表示上は残っていて、消しゴムで取り消しが可能
ちなみにVOCALOIDでは、「しゃくり上げ」を表現するのに、PITを使うほかに、音符を切って、音符後半の母音部分を1オクターブ上げる、といった手段をとったり、「こぶし」を表現するのに、音符を細かく区切って、途中の母音で半音下げる、なんて手法がありますが、CeVIOにおいてこれは厳禁。この方法は明らかにMIDIのコントロール手法であり、譜面としては正しくないものになるので、CeVIOでこの方法を使うと間違いなく破綻するので注意してください。
ボリューム調整画面。波形編集ソフトのような感じで、音量が表示される
次に、ボリューム調整画面を見てみましょう。こちらは青で音量変化が表示されています。これもVOCALOIDのDYNとはまったく考え方が異なるものです。DYNはMIDIの音量設定コマンドであるのに対し、CeVIO Creative Studioのボリューム設定は、時間の流れに対しての音量変化を示すもの。つまり波形編集ソフトにおける音量変化や、レベルメーターに現れる音量の動きのようなものと考えればいいと思います。
自分で描いたボリューム軌跡はオレンジで表示される。歌い始める前に入るブレスを消すことも…
こちらも、やはり自分で描いたものはオレンジで表示され、オリジナルの青で表示されているものは消えません。また、ちょっと不思議に思うのが、歌い始める前の部分にも音量変化があることです。なんだろうと思い、そこを極端に音量を大きくして聴いてみると、ブレスノイズが入っているんですね。確かに歌手が歌う場合、声が出る前に息を吸い込むわけですが、CeVIOでは、そこまでシミュレーションされていたわけですね。オレンジの線で、描くことにより、そのブレスをより強調したり、消してしまうことも可能になっています。
さらにビブラートについては2つのパラメータが用意されています。一つはビブラートの振幅調整、もう一つがビブラートの周期調整です。先ほどのピッチ調整を大きく拡大して、ビブラートを付けることも可能だとは思いますが、それとは独立した形でビブラート専用のパラメータが2つあり、ここで細かくエディットしていくことができるわけです。
画面を見ても分かる通り、予めビブラートがかかっているわけですが、それをもっと深くしたり、まったくなくして機械的な歌声にしたりということもできる、ということです。またビブラートの波形を見ても分かる通り、音によってかかり具合が違うのも興味深いところです。
この点について、徳田先生に伺ってみたところ、「CeVIOは録音された波形を使っているのではなく、HMMという方式で合成しています。その合成においては、音の高さや音符の長さ、そして子音や母音といった情報はもちろんのこと、何小節目なのか、小節内の何番目の音であるか、さらにはテンポ(TEMPO)や拍(BEAT)、調(KEY)など、さまざまな情報を元に行っているので、出てくる音にはいろいろ違いがでるのです」とのこと。
つまり、同じC4の音を出すにしても、音符の長さや文字が違えば、ピッチもボリュームもビブラートも違うのは当たり前。1小節目にあるのか3小節目にあるのかによっても違いが出る可能性があるというわけです。なかなか奥が深そうですよね。
そのほか、CeVIO Creative Stduio FREEにはなかった、非常に強力な機能が、エディタの右に表示されている音質調整のパラメータ。デフォルトでは中央の50になっていますが、これを00~100の間で変化させることができ、音質というより声質を変化させることができます。これはVOCALOIDでいうところのGEN(ジェンダーファクター)と近いものですね。標準の、さとうささらとは、ずいぶん異なる声になるので面白いですよ。
最後に、DAWとの連携について。CeVIO Creative Studioは内部的に48kHzで動作しているようで、ここからエクスポートされるWAVファイルは16bit/48kHzとなります。そのため、これをDAWで読み込む際は、DAW側のプロジェクトも48kHzにするか、サンプリングレートコンバートなどを行って変換する必要があります。反対に、CeVIO Creative Studioにも、外部オーディオトラックというものがあり、WAVファイルを取り込んで、CeVIOのトラックと同時に再生することが可能です。こちらも48kHzデータのみを受け付ける形になっており、44.1kHzなどのデータを読み込むことができません。うまくいかない場合は、波形編集ソフトなどを利用して、48kHzへリサンプリングしてから取り込んでみてください。
以上、CeVIO Creative Studioについて、ざっと見てきましたが、いかがだったでしょうか?まだ細かく探れていませんが、ここまでのことから、CeVIOでのデータ入力方法、調教方法はVOCALOIDやUTAUでのものとは、まったく異なるものであることが分かると思います。慣れるには、ある程度の時間はかかりそうですが、VOCALOIDからは完全に頭を切り替えて使う必要がありそうですね。
なお、発売日当日には、アップデータが公開されているとのことですから、購入した人はまずCeVIO公式ページをチェックの上、最新版にしてから使うことをお勧めします。
【関連サイト】
CeVIO公式ページ
CeVIO Creative Studio製品情報
CeVIO Creative Studio FREEダウンロードページ