日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。
このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば即喋らせることができるというもの。現在、複数メーカーが音声合成ソフトをリリースしていますが、今日現在、それら競合と比較しても頭ひとつ抜けた性能という印象です。価格は、23,800円というのは、この7人の声がセットとなった価格なのですが、驚異的なのは、これがビジネス用途であっても、基本的に制限なく自由に利用可能であるという点。従来の音声合成ソフトは、これまでAHSが扱ってきたVOICEROIDや、CeVIO AIなどを含め、商用で使うには別ライセンスが必要というビジネススキームになっていましたが、この「VOICEPEAK 商用可能 6ナレーターセット」はそうした制限を撤廃しているのです。まだ発売前のベータ版の段階ではありますが、そのVOICEPEAKを試してみたので、第一報という形で紹介してみましょう。
Synthesizer Vの開発元、Dreamtonicsが開発した新AI音声合成ソフト、VOICEPEAK
まずは、実際どんな使い勝手で、どんな喋り声なのか、まだ開発中というベータ版を試してみたので、ご覧になってみてください。
いかがですか?使い方は従来の音声合成ソフトと同様で、テキストを入力して、声を選択して、再生ボタンを押すだけ。でも、この声のクオリティーには驚かされますよね。もちろん、各メーカー、切磋琢磨し合いながら発展しているので、何カ月か後には、各社これに近いレベルになっている可能性はありますが、現時点では「初登場でトップに躍り出た」と言っていいものだと思います。
このVOICEPEAK、企画段階からDreamtonicsとAHSが共同で行い、仕様やデザインなどをAHSが、AI音声合成のエンジンをDreamtonics開発してきたとのこと。また7人の声の収録やデータベース制作もAHSが担当しています。
先ほどのビデオを見てもわかる通り、男性1、男性2、男性3、女性1、女性2、女性3、女の子の7つの声から選択すれば、まったく違った声に切り替わって喋ってくれます。また画面右側にある4つの感情パラメーターである、「幸せ」、「楽しみ」、「怒り」、「悲しみ」の4つを操作することで、大きく雰囲気は変わってきます。
予め感情パラメータを設定して保存しておくこともできる
ビデオでは触れていませんでしたが、画面右の速さのパラメータを動かすことで、話速が変わります。これを150%にすれば、1.5倍速、逆に50%にすれば、0.5倍のゆっくりスピードで再生する形になります。す。
速度パラメータを動かすことで、話速が変化する
また、その下にあるピッチを動かすことで声のトーンが変化します。デフォルトでは100%ですが、これを大きくしていくと高い声に、小さくしていくと低い声になるのですが、単に音程が変わるだけでなく、抑揚というかイントネーションのかかり具合にも変化があるのも面白いところ。大きい数字にするとテンションが上がった感じに、マイナスの値にしていくと、落ち着いた感じになっていきます。また極端に動かすとちょっと方言的なイントネーションに変化するのもユニークなところです。
ピッチパラメータを動かすことで、ピッチや声のテンションが変化する
一方、画面下に表示されているのはイントネーションの動きです。漢字も入った日本語のテキストを内部のデータベースで自動分析したうえで、カタカナ表記にするとともに、イントネーションを高・低の2段階での動きとして表しているのです。必要に応じて、高・低の動きをエディットできるようになっているため、イントネーションがおかしいと思う場合は、ここを修正することで、ほぼ思った通りのイントネーションに直すことが可能です。
この高・低の2段階で表し、エディット可能にするUIは、VOICEROIDなどを含め、多くの音声合成ソフトが採用している手法で、VOICEPEAKもそれに倣った格好。なぜ日本語がほとんどこの2段階で表現できてしまうのか、とっても不思議な気はしますが、うまくできているんですよね。
高・低の2段階でイントネーションの動きを表すモード
さらに、このVOICEPEAKでは、このイントネーションをより具体的なピッチカーブで表すモードも備えています。画面左下のアイコンをクリックしてモードを切り替えると、高・低の2段階ではなく、もっと細かくピッチの動きが表示され、これをエディットすることも可能になっています。通常は、これをエディットする必要はないと思いますが、どうしても発音の仕方を修正したいような場合には、ここで細かく調整することもできるのです。
ピッチの動きを元にイントネーションを表現するモード
なお、VOICEPEAKにはかなり強力な辞書が搭載されているので、ほとんどどんな文書でも読むことが可能ですが、固有名詞や新語など、VOICEPEAKの辞書にない単語については発音の仕方とともにユーザー辞書として登録することが可能です。使い方はいたって簡単で、登録したい単語と、その読み方をカタカナで登録するだけ。その際、高・低のイントネーション表示がされるので、必要に応じてエディットすればOKです。
ユーザー辞書として、単語とその読み方、イントネーションを登録することも可能
発売が3月11日と、まだ3~4週間先ですが、先週のDTMステーションPlus!の番組のSynthesizer V特集で、AHSの代表である尾形友秀さんにお越しいただいた際、このVOICEPEAKの開発に関して、少しお話を伺うことができたので、ミニインタビューとして紹介しましょう。
株式会社AHS 代表取締役 尾形友秀さんインタビュー
--喋る音声合成ソフトの研究をしているという話は、だいぶ以前からなんとなく聞いていましたが、いつごろから製品化の計画があったのですか?
尾形:そうですね、喋るソフトについては弊社も以前からやっておりますが、Dreamtonics社も数年前から研究をしていたようです。その後一緒に開発を進めていき、当初は今年夏ごろに商品化することを発表しよう…と言っていたのですが、昨年の生放送で声を聞かせたところ、思った以上に企業さんからの反応がよく、急遽、2021年度内の発売をしようということになり、このタイミングでの発表で、3月11日発売としました。
--喋り方の品質の高さも驚きましたが、商用利用可能という部分にも驚きました。
尾形:商用利用を可能にしたい、ということは、ずっと以前から考えていました。やはりユーザーサイドから見れば、非常に大きい問題ですから。同人活動であればOKだけど、法人での使用は別途高価な金額が求められる……というのはなかなか扱いにくい…といった声をいただいてました。また、この2年、コロナ禍になり、オンラインでの資料を作ったり、オンライン授業などで利用したいという方が爆発的に増えまして、特に企業はもちろん、教育に携わる方にも気軽に利用できる製品を本当に出したかったのです。今回当社もゼロから関わって開発してきたので、今回の「VOICEPEAK 商用可能 6ナレーターセット」に関しては、商用利用可能を前提として製品化を進めてきました。
--改めてですが、法人であっても同じ金額で購入できて、利用制限はないのですよね?
尾形:その通りです。ビジネス用途で作るビデオのナレーションに使っていただいてもいいですし、配信などで使っていただいても構いません。
--AHSは、長年VOICEROIDを扱ってきて、その後、CeVIO AIも手掛けるなど、音声合成ソフトをいろいろ扱ってきましたが、今回さらにCeVIO AIからVOICEPEAKに乗り換える形になるのですか?
尾形:CeVIO AIを扱うようになった当初、まだVOICEPEAKの話はまったく具体的になっていなかったのも事実です。ただ、最初の時点から、テクノスピーチさんなどにもお伝えしてており、お互い差別化して進めていきましょうというお話もしてきました。使い勝手や音質も異なるので、うまく切り分けができればと考えています。実際当社としては、今後もCeVIO AIやVOICEROIDを扱っていきますし、各社さんとも良好な関係を続けていきたいと考えています。
--それにしても、VOICEPEAKでの喋りを聴くと、従来の音声合成と比較して、何か大きく進展しているように感じるのですが…。
尾形:人の喋り方と、これまでのコンピュータによる音声合成の違いの一つが喋り方のスピードと、音声の高低です。人は、1つ1つの文字、単語の発音時間を長くしたり、短くしたりを無意識のうちに行っているのです。感情が振れたとき速くなったり、落ち着いた内容だと少しゆっくりになったり……、それが自然な喋り方として感じられるのです。ところが従来の音声合成だと、すべてが一定の速度となるため、そこに不自然さを感じていたのです。VOICEROIDを企画していた当時から、そうしたスピードコントロールをしたい、と考えていましたが、なかなか実現できなかったのも事実です。しかし、今回のVOICEPEAKでは、AIが文章の内容から判断し、スピードそして読み上げの高低をうまくコントロールしているのです。それが、喋りの自然さを実現している一つの要因だと思います。
--なんと!AIが文章の内容を理解して喋っているんですか??ちょっと驚異的です。
尾形:AIが文章の内容を分かっているというのは、少し大げさではありますが、こういう文章がきたときは、こうなるよね、と判断しています。だから内容によって喋り方が変わるし、同じ言葉でも、その前の文章内容が異なると、発音に仕方が変わるんです。
--詳細な技術はよくわからないですが、コンピュータが文章内容を多少なりとも理解しているとなると驚きだし、今後の技術進化の方向性も感じてしまいます。
尾形:そうですね。どこまで理解できるようになるかはわかりませんが、それが今後、感情表現にも関わるようになると思います。VOICEPEAKでは、喜怒哀楽の4つのパラメータが表に出ていますが、実際には内部的に10個以上の感情パラメータがあり、これを組み合わせて表に分かりやすく出ているのです。この辺も、今後さらに進化していく可能性はあると思います。
--ところで、今回の製品では女性3人、男性3人、女の子の7つのボイスが存在していますが、これは今後増えていく可能性はあるのですか?
尾形:もちろんです。この音声データベースは当社で作っているのですが、すでに10個以上作っているので、今後随時追加していく予定です。具体的な話はまた少しずつ発表していくので、お待ちください。
--まずは7人の声からスタートということですが、驚いたのはファイルサイズの小ささです。
尾形:サンプリングのものだと、どうしてもファイルサイズがGB単位になってしまいますが、VOICEPEAKはこのベータ版の段階のWindows版で7人の声が入って210MBとコンパクトです。さらに20人入ったバージョンでも大きくサイズは変わらないので、とにかく小さいですね。
--このVOICEPEAKで喋ってくれるのは日本語のみのようですが、今後はどうなるのでしょうか?
尾形:Synhesizer Vと同じような展開にしていく予定です。つまり英語、中国語を喋れるようにするだけでなく、日本人の声のデータベースを使って英語や中国語を喋ったり、逆に英語圏の人の声を元にしたデータベースで日本語を喋らせる……ということが可能になると思います。
--そういえば、Synthesizer VであったりVOCALOIDのように、各声に名前、キャラクタがあったりせず、シンプルに女性1、男性1のような選択の仕方ですよね。それぞれの元となった人は実在しているんですよね?
尾形:そのとおりです。今回の「VOICEPEAK 商用可能 6ナレーターセット」は、ビジネス用途での利用も考えて、あえてキャラクタ付けはせず、男性1、女性1のような見せ方にしました。もちろん、それぞれモデルになった人もいますが、現時点では、中の人をフィーチャーするといったこともしない予定です。
--なるほど、いろいろな点で、従来の音声合成とは路線を差別化しているわけですね。今後どのような展開になるのか、まずは3月11日の製品発売を楽しみに待っています。
尾形:「VOICEPEAK 商用可能 6ナレーターセット」ですが、4月30日までの期間限定で初回限定優待版というかなりお得な商品も用意しました。ぜひ、こちら使ってみてください。
--ありがとうございました。
【関連情報】
「VOICEPEAK 商用可能 6ナレーターセット」製品情報
【価格チェック&購入】
(ダウンロード版)
◎DL site ⇒ VOICEPEAK 商用可能 6ナレーターセット
◎VECTOR ⇒ VOICEPEAK 商用可能 6ナレーターセット
(パッケージ版)
◎Amazon ⇒ VOICEPEAK 商用可能 6ナレーターセット