Singer Song WriterやMegpoid、がくっぽいどなどを開発・販売するインターネット社。そのインターネット社が最近また面白い製品をいくつか投入してきています。具体的には、今までのVOCALOIDとはちょっと違う歌声であり、ファルセット=裏声がとってもキレイな「kokone」(心響-ここね)、さらに、喋るバージョンのMegpoidである「Megpoid Talk」。いずれもパッケージ版が2月14日に発売となるのですが、Megpoid Talkのほうはすでにダウンロード版が発売になっており、kokoneは事前予約で安く購入できる「ダウンロード予約キャンペーン」などが実施されているところです。
インターネットの村上昇社長にお願いしてみたところ、kokone、Megpoid Talkそれぞれの評価版を使うことができました。試してみたところ、kokoneはなぜこんな自然に高い声が出せるのか不思議だったし、Megpoid Talkはなぜ文字を入力するとピアノロール状に言葉が音符になって表記されるのか、どうしてVSQXファイルの生成ができるのかなど、疑問に思うことがいっぱいです。そこで大阪にいる村上社長にSkypeを使ってインタビューしてみました。
ファルセットボイスがキレイな新VOCALOID kokoneが登場。イラストは、あっきー一人さん
実際のインタビューに入る前に、それぞれのソフトをビデオでご覧ください。
まずはインターネット社が制作したkokoneのデモソングを2曲、聴いてみてください。注目は高い声。ある程度の高さの音程になると、明らかに声が裏返るんですよね。その裏返った声が、とってもキレイだし、サンプラーで高音に持ち上げた機械的な音とは明らかに違うんです。
どうですか?kokoneの製品情報ページには、上記の2曲よりアップテンポな曲も公開されていますので、ぜひチェックしてみてください。
続いて今度はMegpoid Talkです。これは、過去のDTMステーションの記事をしゃべらせてみたものです。
今まであった音声合成のソフトとはちょっと違う雰囲気のユーザーインターフェイスですよね。しかも、こうして生成されたノート、ピッチベンド、そして歌詞(!?)の情報をVSQXファイルとして書き出すことができ、それをMegpoidはもちろんのこと、各社から発売されているVOCALOIDに読み込ませて、喋らせることができるんです!
これってちょっと画期的じゃないですかね!?
というわけで、それぞれの種明かしをしてもらおうと、村上社長に聞いてみました(以下、敬称略)。
--まずは、kokoneからですが、この声、いろいろなトリックがありそうですが、どんなコンセプトでいつごろから作っていたんですか?
村上:「クセのない、キレイな声のVOCALOIDを作りたい」という思いで、イメージに近い声の人を探していたんです。録音は昨年の7月頭に行い、その後、データベース=歌声ライブラリの編集作業を半年かけて行い、ようやく完成したところです。ただ、今回は「クセのないキレイな声」という目標値に届かなければ製品化しない、という考えでおりまして、そこをなんとかクリアできたかな、と。
--最初にデモ曲を聴いて不思議だったのは、裏声がいいな、と思った点です。これは、どうなっているんですか?
村上:最初は普通の声と裏声の2データベースで行こうと考え、実際その予定だったのです。MegpoidにPowerやAdult、Whisperなどがあるように……。でも使う立場で考えると、切り替えをユーザーがやらなくちゃならないので面倒だし、切り替えた瞬間に声色が明らかに変わってしまうので不自然になりそう、という思いがありました。一方、VOCALOIDのエンジンはV2からV3で大きく変わり、V3は違う高さの音の声色変化をモーフィングで繋げるようになっているので、「1データベースで行けるのでは」と考え、それを試してみたのです。懸念点としては、普通の声と裏声の変わり度合いをコントロールできないので、すべてVOCALOIDのエンジン任せとなる点。つまり変わり目で自然な声になるのか分からず、50音すべての子音、母音の組み合わせでチェックしていかないとならないのです。いろいろと試しながら、調整しながらの作業をひたすら繰り返し、なんとかいい感じに仕上がってきたわけです。ちなみに、実際に利用する際には、ピッチベンドを使用して音程を上げることで、声質を変えないで、つまりファルセットならない声で発音させるワザもあります。具体的にはF4あたりでを発音させるとファルセットになりますが、A3あたりで発音させた上でピッチベンドでF4に持っていくわけですね。
kokoneはVOCALOID3の歌声ライブラリー、1つのライブラリー内に普通の声とファルセットが共存している
--裏声って、そもそも不安定になりがちですが、レコーディングにおいて、その辺はどうだったのでしょう?
村上:今回お願いしたのは、そのファルセットの歌い方が非常に安定していて上手な方なんです。そのため、普通の歌い方、ファルセットでの歌い方それぞれで収録していきましたね。その中の人、プロの歌手ではありますがkokoneでは非公開としています。
今までのVOCALOIDとはちょっと違う使われ方もされそう……
--これまで、いわゆるボカロ曲というジャンルで使われることが多かったわけですが、kokoneの場合、人のボーカルのバックコーラスに使ったりしてもよさそうですよね。
村上:そう思います。おそらく、これがVOCALOIDであると気づかないんじゃないでしょうか……。やはりここ2年でVOCALOID製品も非常に増えてきたので、新しく作るのは、特徴を出していかなくてはなりません。kokoneの場合、普通に歌わせると個性はあまりないかもしれません。でも、ファルセットの透明さという面ではほかにない特徴が出せたのではないかと思います。
--ちょうど、年末から2月にかけてのタイミングで他社からもいろいろなVOCALOIDが登場してきていますが、ここは各社で合わせたわけなんですか?
村上:それは本当に偶然です。そもそもkokoneの場合、7月から作ってきており、ゴールすら見えずに進めていったのですから。完成したら、たまたま他社さんと同じ時期だったというわけなんです。
--kokoneのデータベース、何人くらいで作っていたんですか?
村上:これまでのVOCALOID製品と同様、データベースの構築は、私一人でやってますよ。VOCALOIDのツールのシステム上、みんなで共同作業をする形になっておらず、一人で作っていくしかないし、実際、社内では私が一番慣れていて、ノウハウも溜まっていますからね(笑)。
新たに登場した喋るMegpoidであるMegpoid Talkは、テキストを入れればすぐに喋ってくれる
--さて、もう一つのMegpoid Talkですが、だいぶ以前から「作っている」というお話はされていましたよね。
村上:Megpoid Talkはテキストを打ち込むと喋るというソフトです。こちらは、2012年の秋ごろに、Megpoidの中の人である中島愛さんの声を収録しているので、ずいぶん時間がかかりました。
まるで曲データのように喋りのイントネーションがピアノロールで表現されている
--ピアノロールでのエディタ画面があったり、VSQXの書き出し機能があるようですが、これはVOCALOIDのエンジンを使っているというわけではないんですよね?
村上:はい、まったく別物です。合成エンジンには株式会社アニモ社が開発した、FineSpeech Ver 3というものを採用しています。ただ、ウチからいろいろな注文をして特注品のようなエンジンを作ってもらいました。たとえばピッチカーブなんてもともと描けなかったわけですしね。このVOCALOID Editorのような画面ではバーとピッチで自由にイントネーションを編集できるので、大阪弁にしたり…といったこともできるわけです。さらにマイクからの抽出ができるのも大きな特徴です。
「旋律抽出」機能により、人の声を元にしてデータを生成することも可能
--マイクからの抽出って、これどうなっているんですか?
村上:パソコンにつないであるマイクから、自分で喋べったり、すでに保存してある話し声のオーディオファイルを読み込ませると、そこからピッチ情報などを取り出して、展開することができるんです。
--ということは、ぼかりす(VocaListener)みたいな機能が搭載されていると考えればいいわけですね。
村上:ぼかりすとは目的も違うので、手法などはまったく違うのですが、考え方としては近いかもしれませんね。
--もう一つのVSQXファイルで書き出しができるというのが、非常に不思議なところなのですが……。
村上:Megpoid Talk自体がVOCALOIDのエンジンを搭載しているわけではありませんが、ここにはピッチ、表音文字、時間の情報がありますから、これをVSQXデータとして書き出せるようにしているわけです。つまり、これを読み込めば、簡単にいわゆる「トークロイド」ができてしまうわけです。
VSQXファイルの書き出し機能も装備しているので、これがあれば簡単にトークロイドができてしまう!
--VOCALOIDに喋らせるのって非常に難しいですが、これで簡単にできてしまうというのは画期的ですね。でも、Megpoid Talkの声と、Megpoid TalkからVSQXファイル経由でMegpoidで鳴らした声では、やはり違うものになるわけですよね?
村上:ニュアンスは近いですが、やはり明瞭さという面ではMegpoid Talkのほうが数段上にはなります。とはいえ、Megpoidに限らず、いろいろなVOCALOIDで喋らせることができるので、多くの人に役立つのではないでしょうか?
フォルマントシフトのVSTプラグインやEQなども搭載されているので、声質をいじることも可能
--ほかにも、編集機能を見てみると、いろいろな設定機能も用意されているようですね。
村上:はい、速さや高さ、抑揚といったものを制御できるのはもちろんのこと、面白いのは、ため息、くしゃみ、あくびなど60種類の非言語音声を入力可能であるという点です。<あくび1>と入れればあくびをするし、<笑い1>で笑ってくれます。メニューから選択することもできるので、なかなか利用価値は高いと思いますよ。
ためいきや、笑い声、くしゃみ……といった声も入力することが可能
--今後、がくっぽいどTalkとかkokone Talkなど、展開していく予定はあるのですか?
村上:まだ具体的には何も決まっていません。でも、ぜひ、いろいろなデータベースを展開していきたいと思っています。
--ありがとうございました。
以上、村上社長とのSkypeインタビューを掲載してみましたが、なかなかいろいろなアイディアがあって、商品化していったんだなと、改めて感じました。
なお、冒頭でも紹介したとおり、パッケージ版の発売はいずれも2月14日で、kokone、Megpoid Talkともに10,800円(税別)です。またダウンロード版のほうが2割安く8,620円となっているのですが、kokoneについては発売前日の2月13日15時までなら、さらに500円安くなる予約キャンペーンが実施されています。
すでにSinger Song WriterやVOCALOID製品などインターネット社製の製品を持っている登録ユーザーであれば、上記よりもさらに安い優待割引も用意されている上、、1月27日までなら超早割キャンペーン、2月13日までなら早割キャンペーンと、まるで飛行機のチケットのような制度が展開されていますので、登録ユーザーは急いでチェックしてみることをお勧めします。
なお、Megpoid Talkに関しては3日間、全機能が利用できる試用版が現在配布されているので、まずはこれを使ってみるのもいいと思いますよ。
【関連情報】
kokone製品情報
Megpoid Talk製品情報