でんぱ組.inc夢眠ねむさんのボカロ化にみる、実在人物の歌声を再現する最新ライブラリ開発の舞台裏

VOCALOIDというと、やはり初音ミクに代表される、ある意味、人工的な歌声で表現する使い方をイメージする方が多いと思います。ところが最近、それとはまただいぶ異なる使い方に注目が集まっています。それは、実在するアーティストの歌声、さらにはその人そっくりな歌い方を手元のDTM環境で再現するという使い方です。

その背景には、ヤマハのVOCALOIDエンジンの進化とともに、VOCALOIDの歌声ライブラリの作り方の進化があるようなのです。たとえばVOCALOID Fukaseを使うことでSEKAI NO OWARIのボーカリスト、Fukaseさんの声を再現できるし、つい先日発売された夢眠ネム(ゆめみねむ)を使うことで、人気アイドルグループ、でんぱ組.inc夢眠ねむさんの歌声を手元で自在に歌わせることができるのです。また2014年には、亡くなったX JAPANhideさんの歌声をVOCALOIDで再現させて、「子 ギャル」という新曲がリリースされたのを覚えている方も多いでしょう。いずれも、かなりリアルな感じで歌わせることができるのですが、なぜそんなことができるようになったのか、ヤマハで歌声ライブラリの開発を行う新規事業開発部VOCALOIDグループの馬場修三さんに話を伺ってきました。


最近のVOCALOIDの歌声ライブラリに関して、ヤマハの馬場修三さんにお話しを伺った



私が馬場さんにお会いしたのは今回が初めてだったのですが、剣持秀紀さんなどが他部署に異動した現在、VOCALOID開発チームの中では、もっとも古いメンバーなんだとか。まだVOCALOIDの初期バージョンが誕生する前の「DAISYプロジェクト」と呼ばれていた段階でフリーのミュージシャン・プロデューサーから転身してヤマハに入社して以来、VOCALOIDの開発に携わっているそうです。

--今日は、「夢眠ネム」など、中の人そのものような雰囲気で歌う、最近のVOCALOIDライブラリについてお話を伺いたいと思っています。

馬場:VOCALOIDは黎明期のころから、出力音はフラットなのが望ましいとされてきました。バラつきが少ないほど、レゾナンスのズレや音量差に起因するノイズや音質不良等を避けられる利点もあります。できるだけ単調で色付けされていない歌声を出せば、逆にユーザーが自由に色付けできるからであり、そうした歌声にすることが開発側の目標となっていました。そうした考え方が長く続いてきた中、僕個人的には、もっと変なもの、偏ったものがあってもいいんじゃないの……と思ってはいたんです。ただ、そう思っていただけで、何をどうすればいいのか、という手法が確立されていたわけではなく、ちょっとモヤモヤとした思いだったんですね。


現在のVOCALOID開発チームの中では、もっとも古くいるメンバーとなったという馬場さん

--なるべく色の付かない歌声にするためにも、呪文のような歌詞を平坦な歌い方で収録してきたんですよね。
馬場:その通りです。ところが、そんな中、X JAPANのhideさんの新曲「子 ギャル」をVOCALOIDで出すという仕事が舞い込んできたんです。当初別の担当者が行っていたのですが、頓挫しそうになっていたところを、これはチャンスだと思い、あまり根拠はないながらも「できるから、やらせてください!」って引き継いだんですよ(笑)。

--hideさんの場合、もう亡くなられているわけだから、VOCALOIDの通常での手法のレコーディングは不可能ですよね。
馬場:このプロジェクトのために、ユニバーサル・ミュージック様から、hideさんの全楽曲のボーカル素材やコーラス素材、ナレーションなどの音声データをご提供いただいておりましたので、そこから収集していきました。当然フラットに録ったものがないので、ガチャガチャした素材をつなぎ合わせてみながら、試行錯誤を繰り返して進めていきました。VOCALOIDの本来の手法からすれば、かなり掟破りなものでしたが、従来「無理」、「ダメ」、「向かない」と言われていた素材、ハスキーボイス、だみ声、シャウトのような歌唱素材であっても、ガンバレば何とかなる、というか、むしろ面白さや魅力に繋げられるということが分かってきました。つまり、声の音量、ピッチ、トーンが暴れていても、「ガンバレば、何とかなる」と。フラットなのが都合はいいけれど、それだけやっていたら進歩はない。デメリットとおもわれていたものも、うまく使えば、新しい発見も出てくるんですよね。

--馬場さんは、ずっと歌声ライブラリ開発を担当されてきたんですか?
馬場:いいえ。いわゆるDAISYプロジェクト開発の途中から関わらせてもらっていますが、当時はごく少人数で開発を行っていましたので、Editorの改良点やバグの洗い出し、開発向けや対外向けの出力音サンプル(デモ)づくりなどを中心に、人手が足りない部分を補う“なんでも屋”のような役割でしたが、ライブラリの開発には携わっていませんでした。

--hideさんの話に戻りますが、実際の曲を聴くと、これがVOCALOIDなの?って思うほどリアルに歌ってますよね。

馬場:ほかのライブラリと違って音素が足りないという問題がありました。でも押さえるべきポイントをちゃんと押さえれば、足りないまま鳴らしてもわりとちゃんと聴けるんですよ。流れの中で聴いたとき違和感なく聴こえればOKとして、それよりもhideさんの声のトーンや歌いまわしが再現できているか、音楽的に表現できているかということに重点を置いて作業を進めました。どうしても足りないところは、音声変換して作ったりもしましたが……。
 
--そういえば、以前、植木等さんの歌声を復刻させた「植木ロイド」を実験的に作ってましたよね?そのときの剣持さんへのインタビューで息子さんの声を音声変換することで、作っていったと伺いました。

馬場:その通りです。植木ロイドも僕が担当していましたが、あのときは何でも歌えるフルサイズのライブラリを作ろうということで、hideさんのものと違って圧倒的に音素が足りなかったので、息子さんの声から変換することをしましたね。でも、このときの経験がhideさんのものにつながったことは間違いありません。さっき、あまり根拠もないまま引き継いだといいましたが、「きっとできる!」という予感はしていましたので。


VOCALOIDでは、基本的にピッチをフラットにして音を出すシステムになっている

--ここでVOCALOIDエンジンの根幹的部分について確認したいのですが、hideさんの歌声を使うといっても、VOCALOIDはサンプラーとは違うわけですよね。
馬場:サンプラーは基本的に録った音をそのまま再生しますよね。対してVOCALOIDのほうは、原音のピッチが修正されてフラットになって出てくる点が大きく違います。そのため、すごく特徴的な歌い方のものを録って入れても、VOCALOIDから合成されて出てくる歌声は、それほど特徴のないものになる仕組みなんです。ただピッチはフラットであっても、音色や声色の特徴は残ります。話し声のような声で録音すれば、話声みたいになり、歌声的なものを録れば歌声的な音色になるわけです。ですから、コントロールパラメーターでピッチやダイナミクスの変化を書き入れることで、元の声に限りなく近づけることができるわけです。
 
--まさに逆転の発想ですね。

馬場:hideさんのときは、そんな手法で作っていきました。またこのときは、全ての音素を揃える必要はなく、「子 ギャル」という曲を歌えるだけの音素があれば良かったので、パズルのピースを埋めるように、必要な音素を集めていったわけです。さらに、重要度が高い大きなピースが揃えられれば、隣り合う小さいピースは完全である必要はない。続けて聴くと、なんとなくそういっているように聴こえるんですよ。乱暴な言い方ですが、ロック系のシンガーには、何と歌っているのか分からないことも多々ありますよね。そういうのも自己表現だし、そのひとの魅力に繋がる重要な要素だと思うんです。hideさんの場合も、何度も聴いて歌詞を覚えていけば、本当にそう歌っているように聴こえるはず。そこを目標に作っていったんです!

「SEKAI NO OWARI」のボーカリスト、Fukaseさんの声をベースに作ったVOCALOID Fukase
--こうして試行錯誤した手法が、Fukaseや先日発売された夢眠ネムなどに生かされているわけですね。
馬場:Fukaseのほうが先でしたが、このときはFukaseさんの声のキャラクタを、いかに再現させられるか、ということで、まずは普段通りに歌ってもらう手法をとりました。さらに、普段ここまでやらないだろうという極端なこともお願いしたんですよ。つまり、こんなに弱く歌うことはないというくらい弱く歌ってもらったり、頑張って普段以上に張り上げて歌ってもらったり……。ある意味、本人の枠を超えて本人を演じてもらって、合成の際にスポイルされがちな要素を、あらかじめライブラリに付加しておくことで、本人らしいニュアンスをライブラリに残すことができたんです。

先日発売されたVOCALOID4のライブラリ、「夢眠ネム」と「兎眠りおん」

--そして、今日の本題ともいえる、最新作、「夢眠ネム」、「兎眠りおん」について伺わせてください。
馬場:もともと「兎眠りおん」はでんぱ組.incの夢眠さんの声でVOCALOID3用に作ったライブラリでした。この時のコンセプトとしては、幼くてほわほわっとした声が目標だったと聞いていますが、今回の「夢眠ネム」は、その対極となるもので、ハッキリとした硬めの声にしています。その両方が揃うことで、まさに夢眠ねむさんっぽい歌い方ができるというライブラリになっています。

--ということは、片方を買うのではなく、「夢眠ネム」、「兎眠りおん」の2つをセットで買わなくてはならないということですか?
馬場:いいえ、片方だけ使った場合も、それぞれ特徴的な声で歌わせることが可能です。どちらかというと「兎眠りおん」のほうが、従来のVOCALOIDらしく、ある意味、自然に歌わせられます。「夢眠ネム」なら、ほかのVOCALOIDにはない、独特な歌声が得られますので、単独で使っても十分に楽しんでいただけると思います。でも、上級者になったら、V4のクロスシンセシスの機能を使って、「夢眠ネム」と「兎眠りおん」の間を動かすことで、硬軟揃った、まさに本人っ!という歌声にもぜひチャレンジしてみてほしいですね。


夢眠さんのフラットな歌い方と特徴的な歌い方の両方を収録している 

--確かに「夢眠ネム」は、だいぶ特徴のあるVOCALOIDですよね。これは、やはりレコーディングするところから違いがあるのですか?

馬場:通常のVOCALOIDの収録であれば、フラットな声で収録していくわけです。これだけでも夢眠さんのキャラクタはかなり出てくるのですが、より夢眠さんらしい、言い方だったり、声のトーンが欲しいために、言い方を変えた収録も別途行いました。どちらの場合もそこからとれる音素というのは非常に短いので、違いがどれだけあるのかというと、聴き分けるのは難しいですが、これらの短い音素にも確実にキャラクターが盛り込まれていて、つながり合い、歌声として出てくるときには、声の表情に、より生き生きとしたキャラクターが生まれてくるというわけです。

--なるほど、これは従来のVOCALOIDの収録方法からは大きく外れた手法というか、まったく新しい手法ですね。

馬場:実際、収録して感じたのは、本当に夢眠さんはすごくトレーニングを積まれたプロだな、ということです。一言お願いすれば、ご自身でそれを存分に演じてくれるので、とっても楽しく、収録も非常にスムーズに行えました。その点では、夢眠さんにはとっても感謝しています。改めて中の人あってのVOCALOIDだな、と強く感じましたね。いいレコーディングができたこともあり、歌声ライブラリの開発も3、4か月で終えることができ、かなり短期間で製品化することができました。

--こうなってくると、ユーザーとしては、どう使いこなせばいいのか、難しそうにも思うのですが、何かコツなどがあれば、教えていただけますか?
馬場:とくにVOCALOID4では、ベタうちのままでも自然に歌うというシステムにしてあり、その意味では「夢眠ネム」、「兎眠りおん」ともに、普通にベタ打ちで歌わせても、かなり楽しむことができます。一方で、夢眠さんが普通に歌う時も、かなり硬軟取り混ぜて歌うので、クロスシンセシスを用いて「夢眠ネム」、「兎眠りおん」を半分くらいずつ混ぜた声をデフォルトで利用することで、素の感じの夢眠さんのしゃべっている声に近い音になるので、それを基準に、この辺はとんがっている、この辺は柔らかい声……というように調整することで、雰囲気を出すことができます。さらに、ここにピッチの変化を加えていきます。夢眠さんの特徴的な歌い方として1つの音でもピッチが上がって、下がって、上がって…というよう動きを短い間に繰り返すんです。なので、そういった特徴的な動きを入れ、V字型のものを繰り返すことで、より雰囲気を出していくことができます。


--最後に、今後のVOCALOIDの展開について教えていただけますか?

馬場:長年の取り組みを経て、私たちVOCALOIDチームは多くのことを学んできました。間違いだ、無理だと思われていたことも、視点を変えれば別の可能性を見出せること、アイディアを持ち寄り、時間をかけて取り組むことで、不可能だと思われていた問題の打開策を見出せること。ライブラリ制作においても、声の分析と取捨選択を的確に行うことや、その結果をアイディアに転換して、プランニングや収録作業に積極的に盛り込んで行くことで、声の再現性を高めたり、スポイルされてしまっていた要素を減らすことができると気づいたわけです。しかし現時点では満足できるクオリティに達していませんし、道半ばというか、まだまだ開発途上にあると言わざるを得ません。逆に言うとそれだけ伸びしろを残しているともいえます。より良いものをより多くの方にお届けできるよう、これからも楽しみながら努めて参りますので、今後のVOCALOIDの展開にもぜひご期待ください。

--ありがとうございました。
最後に、その夢眠ねむさんから、DTMステーションの読者のみなさんにむけてメッセージをいただいたので、以下に掲載させていただきます。

初めてボーカロイドの収録をしたのが五年前。「兎眠りおん」は中の人が秘密だったので、今回、「夢眠ネム」と一緒にV4になって公表出来たこと、二人とも堀口悠紀子さんに可愛い姿に描き下ろしていただけたこと、本当に幸せです。
りおんは五年前の私の甘い幼い声、ネムは低めの声にも対応した今の私らしい声。
既にりおんを愛してくださっている方にも、成長した声ともいえるネムを可愛がっていただけたら嬉しいです。
ネム・りおんを素材としてたくさんの名曲が生まれることをいちリスナーとして楽しみにしています。
よろしくお願いします!!

夢眠さん、ありがとうございました!

【関連情報】

夢眠ネム・兎眠りおん製品情報
夢眠ねむさん公式ブログ「夢眠ねむのユメミる世界日記」
【関連記事】
Electronica-Tuneが秀逸!新ボカロ、セカオワのFukaseがスゴイ!
VOCALOID4発表!目玉はグロウルと歌声間をモーフィングするクロスシンセシス 

Commentsこの記事についたコメント

6件のコメント
  • torite

    求む!デーモン閣下のライブラリを!

    2017年3月31日 12:25 PM
  • おぉ

    水木一郎や影山ヒロノブを早くライブラリにしてくれ!その人の歌声を保存しておきたい。

    2017年3月31日 1:03 PM
  • Andy

    デーモン閣下や水木一郎はAHSの社長さんが意欲を見せてましたけど、その後どうなったのかは不明ですね。
    個人的にはZARDの坂井泉水さんが欲しかったり…。

    2017年3月31日 5:11 PM
  • An

    数は出ているのに男性女性とも甲高い声のライブラリばかりで、落ち着いた声 低い声 太い声 渋い声 がないように思うのですが、VOCALOIDでのライブラリ制作は難しいのでしょうか?
    機会がございましたら取材していただきたいです。

    2017年3月31日 6:10 PM
  • 中級DTMer

    Adobe VoCoも凄い技術だそうですね、本人がいるかのような話し方歌い方まで進歩してきているそうで、どうなっていくんでしょうね。
    話がそれてスミマセン、DTMをやっていて最近STEMという言葉をよく目にします、調べるとNIフォーマットのひとつで、各パートをひとつの曲にまとめて、DJがプレイの際パートをわけてミックスできて、バリエーションが広がるそうですが、いまいちよくわかりません、もし機会がありましたら、STEMSフォーマットとは何か、STEMでの曲作り、マスタリングなど特集していただけると嬉しいです、よろしくお願いいたします。

    2017年3月31日 9:22 PM
  • 飴ちゃん

    キャンディーズのライブラリが欲しい
    ラン、スー、ミキの3人にKalafinaの楽曲唄わせてみたい

    2017年4月1日 9:58 PM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です