待望の男性ボカロ誕生、V3版「がくっぽいど」開発秘話

VOCALOID3がリリースされてから9ヶ月。さまざまな歌声ライブラリが揃ってきましたが、足りないと感じるものがありますよね…。まあ、何が足りないかは人それぞれでしょうが、確実にいえるのは男性ボイスが無かったということ。しかし7月13日、ついにインターネットからGACKTさんの声をベースにした、あの「がくっぽいど」がリリースされます。

今回登場するのは、VOCALOID2版の雰囲気をそのまま残すNATIVE、吐息成分が多い優しくささやくような声質のWHISPER、そしてアタックが強くはっきりとした迫力がある声質のPOWERの3種類。その発売を前に製品版を使わせていただいたのとともに、インターネットの村上昇社長(以下敬称略)に開発話を伺ったので、インタビュー形式で紹介してみます。

7月13日に発売されるVOCALOID3版のがくっぽいどの3種類がセットになったCOMPLETE



--男性ボカロとしてはこれが初になりましたね。
村上:そうですね日本語版のVOCALOID3の男性モノはこれが初ですね。ユーザーニーズも高かったので、一番最初に出せてよかったなと思っています。もっとも、一番に出すために慌てて作ったわけではなく、ほぼスケジュール通りという感じです。
今回もいろいろとお話を伺った村上社長
--V2版のがくっぽいどが出てからほぼ3年でしたっけ?
村上:いいえ7月31日に満4年となり、その誕生日にリリースするというのが、区切りとしてはいいのですが、やはり当日にV3を使った作品を投稿できたほうがいいですよね。そのためには余裕を持って1ヶ月前にリリースしようと頑張っていたのですが厳しかった…。結局なんとか2週間前のリリースとなったのです。

--今回、GACKTさんの声を新たにレコーディングしたわけですよね?
村上:NATIVEは元の雰囲気を再現するためにVOCALOID2のときのレコーディング素材を使っています。それに対してWHISPERとPOWERは新たにレコーディングしなおしています。
新たにレコーディングから行った、ささやきごえのWHISPER
--レコーディングはどのくらい時間がかかるものなのですか?
村上:WHISPERで1日、POWERで1日と2日間かけています。

--実際POWERを歌わせてみましたが、明らかに「がくっぽいど」の声だけど、パワフルになったなという印象でした。でも4年もブランクがあると、声質が変わってしまったりしないんでずかね?

村上:声質は微妙には変わりますよ。でも、同じ人なので、同じ雰囲気は出せるということですね。それはMegpoidでもそうでしたから。

VOACLOID2版の雰囲気を残しつつ音のつながりを滑らかにしたNATIVE 

--では各製品について、もう少し具体的に伺いします。NATIVEはVOCALOID2のときのレコーディングデータを使ったとのことですが、V2版をV3にインポートして使うのとは違う内容なのですか?
村上:そこはやはり違います。確かにレコーディングデータは同じですが、波形編集は再度やり直しており、Triphone(トライフォン)を利用し子音の部分でのつながりが滑らかにし、滑舌(かつぜつ)よくなるようにしています。ただV2版の雰囲気ができる限り残るように調整しました。

--WHISPERは、かすれた声でいい感じに仕上がってますよね。
村上:実はWHISPERはレコーディングも大変でしたが、それ以上にデータベース作成のための編集作業がとても大変でした。息の成分が多いためもあり、言葉によって録音した声質の差が非常に大きく出てしまうのです。そこで、ひとつひとつ波形編集で細かく揃えていったので、膨大な作業量となりました。Megpoidの場合も均一化の作業はしましたが、やはり声優さんなので、かなり声質は整うため、今回ほどは大変ではありませんでしたね。
パワフルな芯のある声質のPOWER
--逆にPOWERは簡単だったということですか?
村上:ん~、POWERも大変でしたね(笑)。確かにWHSIPERはあまりにも困難でどう処理するか悩むケースは多かったです。ただ、作業量という意味ではそれほど変わらなかったかもしれませんね。

--いただいた3つのインストーラのファイルサイズを確認したところ、NATIVEが366MBであるのに対し、POWERが769MB、WHISPERが544MBと結構違いがありました。これはどこからくるのでしょうか?
村上:VOCALOID2では2つの音をつなぐDaiphone(ダイフォン)までしか扱えなかったのに対し、VOCALOID3では3つの音をつなぐTriphoneまで扱えるようになったわけですが、NATIVEでもTriphoneをかなり多く採用しています。しかし、POWERのTriphoneの数はNATIVEの5倍くらいあるので、それが結果として容量の違いになってきているということでしょう。WHISPERもTriphoneの組み合わせという意味ではPOWERと同等なのですが、WHSIPERは音域が狭くなっています。やはり男性のささやき声でピッチの高い音を入れるのは現実的に難しい。そのため、その分データも減っているというわけですね。
データベース編集作業はかなりの労力がかかたっと話す村上社長
--そういえばMegpoidはNATIVE、POEWR、WHISPERのほかにADULT、SWEETと計5種類ありましたが、がくっぽいどはなぜ3種類に?

村上:いろいろ考えたのですが、やはり男性ボイスだとどうしてもバリエーションは少なくなってしまいます。まず「かわいい声」というのはないですからね。「シャウト」というのもできればいいのですが、レコーディングで5時間以上シャウトし続けるとういのも現実的ではないし、シャウトの場合でキーになるのは子音というよりも母音。母音だけを取り出して繋ぐといっても難しいですし…。ただ今後トライする価値はありそうですけどね。

【VOCALOID3 がくっぽいど 】公式デモソング Episode.0
神無月P制作の「Episode.0」
--実際、買う人は2つまたは3つをセットで買って、組み合わせて使うケースが多いと思うのですが、上手な使い方というのはあるものですか?
村上:当社ではいくつかの曲をアップしているので、それがひとつの参考になると思います。このうち、POWERを使用した「Episode.0」という曲では、ファルセットの歌声を試聴いただけます。ニコニコ動画バージョンには入っていないのですが、当社の「がくっぽいど」デモ曲ページでぜひ聴いてみてください。実は、このファルセット部分はWHISERにうっすらとPOWERをかぶせていて、POWERで芯を作り出しているのです。またPOEWRにはFormant Shift VSTを使っているのもポイントとなっています。

--曲の途中でライブラリを切り替えていくという方法もありそうですよね。
村上:そうですね。たとえばAメロ、BメロはNATIVEを使い、サビはPOWERを使うなど、いろいろな使い方が考えられます。ぜひ、うまく使い分けた楽曲がいろいろと登場してくれることを楽しみにしています。

--本日はありがとうございました。

※7月8日開催の「THE VOC@LOiD M@STER21」(ボーマス)におけるインターネット社ブースにて予約販売がされるとのこと。ここではTシャツとキーホルダーが当日予約限定でつくそうです。

予約特典のキーホールダー(左)とTシャツ(右)

モバイルバージョンを終了