株式会社インターネットが9月16日、約7年ぶりとなるMegpoidの新製品、A.I.VOICE GUMIの販売を開始しました。価格はパッケージ版が16,280円(税込)、ダウンロード版が12,980円(税込)で、既存のMegpoid製品やAbilityやSinger Song Writer Liteなどインターネット社製品をお持ちの方であれば、同社オンラインサポートセンターからの優待販売も行われています。今回発売されたのは、株式会社エーアイが開発するA.I.VOICEをベースとした製品で、テキストを入力すればGUMIの声で流暢に喋ってくれる音声合成ソフトです。
A.I.VOICE GUMIは、通常の音声のほか、喜び、怒り、悲しみという3つの感情表現を持っているのも特徴です。また、エーアイが販売する結月ゆかりや紲星あかり、琴葉茜・葵などのA.I.VOICE製品を持っている人であれば、それらと会話をするような形で利用することができるほか、「声質はGUMIだけど、喋り方は琴葉茜」といった合成を実現するボイスフュージョン機能も利用することが可能となっています。なぜMegpoidの新製品がこのタイミングで登場することになったのか、またなぜA.I.VOICEを採用したのかなど、気になることもいっぱいあったので、インターネットの社長、村上昇さんにオンラインインタビューの形でいろいろ伺ってみました。
すでにご覧になった方も多いと思いますが、インターネットでは、その新しいA.I.VOICE GUMIの喋り声をYouTubeで公開しているので、まずはこちらをご覧ください。
どうですか?確かにあのGUMIが喋ってますよね。しかも、喜んだ声や悲しそうな声、怒った声なども出せるので、GUMIの表現範囲が大きく向上していることを感じられると思います。喋るソフトとしては、だいぶ以前にMegpoid Talkというものが出ていたので、実際に使ったことのある方もいると思いますが、それと比較してもずいぶんと滑らかに、流暢になっていることを感じられたのではないでしょうか?しかも感情表現も付けられるようになっているので、大きく進化していることを感じられたと思います。
使い方は非常に簡単であり、ほかのA.I.VOICEと同様。日本語をそのまま入力すればいいだけ。たとえばWebなどからテキストをコピー&ペーストで入力するだけで、あの喋り声が得られるのです。
デフォルトでは感情表現は0となっていますが、喜び、怒り、悲しみの3つのパラメータのフェーダーを動かして調整することで、先ほどのビデオのようなさまざまな喋り方ができるようになるわけです。
インターネットのA.I.VOICE GUMIの製品紹介ページには、ブラウザ上でGUMIに喋らせる機能が搭載されているので、ぜひ試してみると面白いですよ。その3つの感情パラメーターのほかにも、速度、ピッチ、抑揚という3つのパラメータもあるので、これらを動かすことで、喋り方が変わってくるのをすぐに確認できます。
なお、製品の中には、A.I.VOICEのほかに、A.I.VOICEでは表現できない声として60種類のボイスマテリアル、それにイラストが収録されています。その60種類のボイスマテリアルの中身は以下の通りです。
ファイル名 | 音声 | ファイル名 | 音声 | ファイル名 | 音声 |
11.wav | ためいき1 | 73.wav | むせる3 | 131.wav | マズいことに気づく1 |
12.wav | ためいき2 | 81.wav | 鼻をすする1 | 132.wav | マズいことに気づく2 |
13.wav | ためいき3 | 82.wav | 鼻をすする2 | 133.wav | マズいことに気づく3 |
31.wav | ためいき4 | 91.wav | くしゃみ1 | 141.wav | 吹く1 |
32.wav | ためいき5 | 92.wav | くしゃみ2 | 142.wav | 吹く2 |
33.wav | ためいき6 | 93.wav | くしゃみ3 | 143.wav | 吹く3 |
21.wav | 咳払い1 | 101.wav | 息をのむ1 | 151.wav | はぁー1 |
22.wav | 咳払い2 | 102.wav | 息をのむ2 | 152.wav | はぁー2 |
23.wav | 咳払い3 | 103.wav | 息をのむ3 | 153.wav | はぁー3 |
41.wav | 改まった咳払い1 | 201.wav | 息をのむ4 | 161.wav | 舌打ち1 |
42.wav | 改まった咳払い2 | 202.wav | 息をのむ5 | 162.wav | 舌打ち2 |
43.wav | 改まった咳払い3 | 203.wav | 息をのむ6 | 163.wav | 舌打ち3 |
51.wav | あくび1 | 111.wav | 気づく1 | 171.wav | 慌てる1 |
52.wav | あくび2 | 112.wav | 気づく2 | 172.wav | 慌てる2 |
53.wav | あくび3 | 113.wav | 気づく3 | 181.wav | 含み笑い1 |
61.wav | 伸び1 | 114.wav | 気づく4 | 182.wav | 含み笑い2 |
62.wav | 伸び2 | 115.wav | 気づく5 | 183.wav | 含み笑い3 |
63.wav | 伸び3 | 121.wav | シー1 | 191.wav | 笑い1 |
71.wav | むせる1 | 122.wav | シー2 | 192.wav | 笑い2 |
72.wav | むせる2 | 123.wav | シー3 | 193.wav | 笑い3 |
そんなA.I.VOICE GUMIが誕生した背景などについて、インターネットの社長、村上昇さんにいろいろと伺ってみたのが、以下のインタビュー記事です。
株式会社インターネット 代表取締役 村上昇さんインタビュー
--Megpoid製品、だいぶ久しぶりになりますが、どうしてこのタイミングでの登場となったのですか?
村上:昨年の秋ごろから、そろそろ出したいなと検討していました。喋りも、歌唱もどちらも進めたいと考えていました。ただ、昨今の技術進化などからさまざまなメーカーが参入し、エンジンも複数あるから、どれにしようか……と思って考えていたのです。そうした中、今年1月にエーアイさんから具体的な提案をいただいたんです。技術的な背景から、実際の工程なども含め、細かく話を詰めていくなか、これがよさそう、となったのです。
--トークもソングもとなると、CeVIO AIやSynthesizer V&voicepeakのほうが、スマートな気もしますが……。
村上:もちろん、それぞれ検討したのですが、まずは歌唱の前に喋りから作ろうと考えるようになり、その際、組み合わせについてはいったん考えずにフラットに見ていこうと検討した結果ですね。
--トークとソングを同時ではなく、トークを先にした理由はどこにあったのですか?
村上:もちろん同時がベストではあったのですが、最近のAI歌声合成の声質にやや納得いかない部分を感じていました。どこのエンジンも、最終的にボコーダーを使って合成していますが、その高域部分の音がどうも好きになれない面があったのです。今後、技術的には解決していくはずと思っていますが、現時点ではまだだったので、先に喋りのほうから行こうとなり、いろいろな条件に合致したのがA.I.VOICEだったのです。
--2014年に喋るソフトとしてMegpoidTalkを出していましたが、あれもエーアイとの共同開発だったんですか?
村上:MegpoidTalkは、エンジンだけ借りてきて、あとは自社開発でした。株式会社アニモのFineSpeechというエンジンですね。SDKベースのものだったので、それをウチで開発していきました。ただ、当時はまだ感情表現とかもなかったので、そろそろやらなくちゃ、という思いを持っていたのです。ちなみに歌唱のほうは、2015年11月にVOLCALOID 4用にMegpoid V4を出していました。その後、VOCALOID 5が出た際は、VOCALOID 4用のライブラリがそのまま使えるので、新たにデータベースを作り直す意味を見出せず、見送りとなっていたのです。その後、VOCALOID 6がいつになるかもわからないままで、時間がたってしまった……というのが実情ですね。
--そのA.I.VOICE GUMI、実際の制作はいつごろから行っていったのでしょうか?
村上:1月にエーアイさんから提案をもらって決めた結果を、中島愛さんサイドに伝えた結果、2月はじめに快諾いただき、スケジュール調整をした後、3月からレコーディングを開始しました。これは東京のスタジオで8日間かけて行っていきました。
--その8日間で感情表現もレコーディングしていったわけですよね?
村上:その通りです。初日にまずリファレンスを作りました。つまりノーマルとともに、喜び、怒り、悲しみのそれぞれのリファレンスを録って確定させ、その後はリファレンスを聴きながらレコーディングしていく形にしたのです。ちなみにノーマルはMegpoid Nativeの歌唱を流して、それにできる限り近づける……という手法をとりました。当初のMegpoid V2から数えれば、13年経過しているので、さすがにまったく同じ発声というわけにはいかないものの、限りなく近づけていくことができたので、ニュアンス的にもみなさんに納得いただけるのではないかと思っています。それより、今回のA.I.VOICEでは感情表現が大きいと思っています。とくに怒りや悲しみは、現場で聴いていても、非常によくて、これはいい製品ができるぞ、という確信をもちました。
--ところで、A.I.VOICEはAITalk 5というエンジンを使っていたと思いますが、AITalk 5は従来からのコーパスベースのエンジンの発展形とディープラーニングを使ったDNNエンジンの2つがあったと思いますが、このA.I.VOICE GUMIはどちらを使っているのですか?
村上:コーパスベースのエンジンです。確かに音素のつなぎ目はボコーダーを使ったDNNエンジンのほうがノイズも乗らないし、スムーズではありますが、やっぱり音質的にはコーバスのほうが好きです。これは先ほどの歌声合成での話と同様ですね。なんとなく高域の音質に違和感を感じるんですよ。コーパスのほうはそうした面はなく、いいなと思っています。
--8日間のレコーディングの後の編集作業などはどうしていったのですか?
村上:そこはすべてエーアイさんにお任せで、完成を待っていた形です。それより製品化する上でのパッケージデザインやイラスト制作で慌ただしく動いていました。ご存じの通り、オリジナルのイラストはゆうきまさみさんでした。が、今回は、のう(@nounoknown)さんにお願いしました。ずっとGUMIを描いてくれている方で、評判がよく、かなり以前からカレンダーなどをお願いしていたという経緯もあり、今回お願いした結果、とてもいい感じのものができあがりました。実は、最終的に確定させるまで、のうさんには、本当にいろいろなデザインを出してもらっていて、そこから絞り込み、ブラッシュアップしていきました。VOCALOIDでのイラストはステージ上で歌う際の衣装、という想定ですが、今回はそれにひっぱられずに、もっとカジュアルな感じにしたいと思っていたのです。街で見かけるような服装にしたかった。その結果が、今回のイラストであり、これが完成するまではずいぶんと時間がかかりました。
--ソフトのほうが上がってくるのと同じくらい時間をかけてきたということですね。
村上:はい、イラストのほうがギリギリくらいでしたね。エーアイさんからは7月末に喋った声のサンプルが上がってきてチェックさせてもらい、非常によくできていたので、そのまま進めてもらいました。とくに怒りが非常によかったですね。明らかにMegpoidの声であるけれど、それが怒ってる!ぜひ多くの方に使っていただきたいですね。コーパスベースがいいのは、こうした感情表現が軽く処理でき、すぐに声に反映できることです。ディープラーニング系だと、パラメータを変えて再合成をさせるのにどうしても時間がかかってしまう。そういう面でもコーパスベースでよかったと思っています。その後8月上旬にエディタが整った形でβ版があがってきて、とくに問題もなく、進んでいきました。その結果、9月16日発売にこぎつけた格好です。
--このA.I.VOICE GUMIの次は歌唱ですよね。もう詳細は決まっているのでしょうか?
村上:そうですね。色々考えているのでぜひ期待していてください。
--ありがとうございました。楽しみにお待ちしております。
【関連情報】
A.I.VOICE GUMI製品情報
【価格チェック&購入】
◎Internetオンラインショップ ⇒ A.I.VOICE GUMI
◎Amazon ⇒ A.I.VOICE GUMI
◎DLSite ⇒ A.I.VOICE GUMI