自分の歌声を元に簡単にAI歌声データベースの作成も可能。海外からやってきた歌声合成ソフト、ACE Studioがスゴ過ぎる!

VOCALOID、Synthesizer V、CeVIO AI、VoiSonaなどさまざまなAI歌声合成ソフトが競い合いながらここ数年で飛躍的な発展を続けていますが、ここにトンでもない威力を持つ高性能なAI歌声ソフトがやってきました。アメリカ・中国・フランスなど国のメンバーが集まるテクノロジー・ベンチャー企業、TIMEDOMAINが開発するACE Studioという、Windows/Mac用のソフトです。完全に日本語対応したソフトであるとともに、日本語の歌声データベースも多数備えており、生成された歌声は日本人の人間が歌っているものと聴き分けられないレベルのものになっています。

ただ、既存のAI歌声合成ソフトと大きく異なることが3つあります。まずは年額24,000円または月額3,500円というサブスク料金を支払うと、現在44種類ある歌声データベースすべてが利用できるという点。2つ目は歌をレコーディングしたデータをアップロードするとそれをシステムがディープラーニングするとともに、自分オリジナルの歌声データベースを作ることができ、それ以降はその歌声で自在に歌わせることができる、という点。そして3つ目は、自分で作った歌声データベースも含め、用意されている44種類の歌声データベースを自在にミックスしたオリジナルの歌声データベースを生成できる、という点。このミックスというのは声質や歌い方の特徴をAI的にミックスするものであるため、まさに世の中に存在しないバーチャルな人間を作り出して歌わせることができるのです。そんなACE Studioを少し使うとともに、実際にオリジナルの歌声データベースを作って歌わせてみたので、ぜひ紹介していきましょう。また開発元のTIMEDOMAINにメールベースでいろいろとインタビューしてみたので、そちらもぜひご覧ください。

強力なAI歌声合成ソフト、ACE Studio

小岩井ことりさんによる『No.7』の歌声でAIデータベースを作って歌わせてみた

ACE Studioを初めて知ったという方も多いと思うので、まずはその歌声をちょっと聴いてみてください。

これ、すごくないですか?実はこの歌声、まさにACE Studioを初めて使ったその日に、サクっと作ったオリジナルの歌声データベースを使って歌わせたもので、リバーブを含めエフェクトなど一切かけていないもの。種明かしをすれば、声優の小岩ことりさんの歌声を学習させた歌声データベースを使って歌わせたものなのです。

正しくいうと、以前「小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ」や「小岩井ことりさんの歌声を人工知能で完全に実現!? 本人も自分そのものと認めるソフト完成への裏舞台」という記事でも紹介した『No.7』として研究用に公開した歌声をACE Studioサイトにアップロードして作ってみたのです。その詳細は後ほど解説しますが、簡単にそんなことができてしまうんです。

さらに試してみたのは、この小岩井さんによる『No.7』の歌声データベースを、ACE Studioの別の中国語シンガーであるTang Qingyueとミックスした歌声データベースを作ってそのデータベースで同じ曲を歌わせたものです。

いかがですか?ミックスといっても、ミキサーでのミックスではなく、歌声の声質をAI的に合成するとともに、歌い方の特徴をミックスしているのですが、小岩井さんの『No.7』的な特徴を少し持ちつつ、明らかに違う歌声になっているのが分かると思います。こんなことが簡単にできてしまうのがACE Studioなんです。

まずは無料で使えるACE Studio

ご存じの方も少なくないとは思いますが、実はこのACE Studio,最近突然誕生したソフト、というわけではありません。私もその存在を、1年ちょっと前に作曲家の多田彰文さんから聞いて、実際に歌わせたデモも聴いたこともありました、多田さんの話によれば、東京スクールオブミュージックの生徒のみなさんの間で流行っていて、多くの人が使っているとのことでした。

当時はオープンβという位置づけで無料だったこともあり、飛びついていた人も結構いたようです。が、その後、いろいろと機能・性能がブラッシュアップするとともに、前述のオリジナルデータベース作成機能が登場したことで、有料化されるとともに、正式リリースとなったようですね。

そのACE Studio、アーティストプランとアーティストProプランという2つがあり、それぞれ年額でいうと24,000円と32,000円。月額だと3,500円と4,700円となっています。が、いきなりその金額を払わなくても、とりあえず14日間は無料で使えるというのが嬉しいところ。実際私もアーティストプランのほうを月額として選びつつ、14日間無料という形でスタートさせたのです。

手順としては、まずACE Studioのサイトに行って、Windows版かMac版か、いずれかのインストーラをダウンロードして、インストール。起動するとログイン画面が出てくるので、「アカウント作成」をクリックして、アカウント作成を行います。

この際、クレジットカード情報が必要となっていて、14日間使い終わると課金がスタートする形になっています。ただし、14日経過する前に解約すれば、課金されない、というよくあるパターンですね。クレジットカードを持っていない人だとそもそもアカウントを作ることができないので、その点はご注意ください。

使い方は既存の歌声合成ソフトとほぼ同じ

アカウントができたら、改めてログインして起動させるとACE Studioの画面が開きます。

ここからはVOCALOIDやSynthesizer V、CeVIO AI、VoiSona……といった歌声合成ソフトを使ったことがある人なら、まったく違和感なく、マニュアルなど見なくてもすぐに使えると思います。ちなみに、オンラインマニュアルは日本語のかなり充実したものも用意されていますよ。

日本語マニュアルもかなりしっかりできている

ざっと説明すると画面上部がトラック画面となっていて、Singer TrackとAudio Trackを設定することができます。Singer Trackは歌わせるためのトラックで、Audio Trackはカラオケなどを置くトラックですね。また、ほかの歌声合成ソフトでは見かけなかったコードトラックというものもあり、コード指定するだけで、簡単な伴奏が作れるのは便利なところ。DAWを使ってない場合など、役に立ちそうです。

簡単に伴奏を鳴らすことができるコードトラックも装備されている

このSinger Trackには歌わせたいシンガーを設定するのですが、画面左側にズラリと並ぶ公式シンガーのアイコンを選び、Singer Trackへドラッグ&ドロップで持っていけばOKです。

シンガーを選んで、シンガートラックへドラッグ&ドロップ

その後、トラックをクリックするとクリップが作られ、画面下部にピアノロールエディタが現れるので、あとはここにマウスでポチポチと音符を入力するとともに、ひらがなで歌詞を入力していけばいいのです。

ピアノロールに音符と歌詞を打ち込んでいく

またピアノロールエディタの下のほうには呼吸音、ブレス、ファルセット、テンション、ダイナミクス、フォルマントというタブが用意されており、これを使うことで、歌わせ方をコントロールすることもできるようになっています。

なお、ACE Studioは基本的にスタンドアロンで動くソフトですが、DAW用のプラグインとしてACE Bridgeというものが入っており、これを使うことでDAWと同期させたり、DAWのプラグインのようにしてACE Studioを使うことができるようになっているのは、Synthsizer Vなどと基本は同じですね。

VST、AUのブリッジプラグインを使うことでDAWとの同期・連携が可能になる

日本語シンガーだけでなく、英語シンガー、中国語も日本語の歌唱は上手で違和感なし

そのズラリと41種類ならぶ公式シンガー、見てみるとKuro Bosuku(黒昴宿)、Rokka(留音ロッカ)、Akesato(緋惺)、Trine(トリン)…とUTAU音源などとしてみたことのあるキャラクタが並んでいます。こうした音源の歌声をディープラーニングしたシンガーなので、まさに日本語のシンガーとして、非常にキレイに歌わせることが可能になっているんです。

UTAU音源のシンガーがいろいろ揃っている

これらはアイコンの右肩にJAという文字が入っていて、日本語シンガーだとわかりますが、ほかにもZHと書かれた中国語シンガー、ENと書かれた英語シンガーもあり、それらを合計して41種類となっているんです。

中国語シンガーも英語シンガーもまったく違和感なく上手に日本語で歌ってくれる

では、その中国語シンガーや英語シンガーは中国語や英語しか歌えないのかというと、そんなことはないんですね。日本語で歌わせることも可能であり、まったく違和感なくキレイな発音の日本語で歌ってくれます。この辺もとっても良くできているところです。

ボイスミックスで複数のシンガーをミックスして新しいシンガーを生み出す

ここからが従来の歌声合成ソフトにはない、ユニークな機能になっていきます。
トラック上のシンガーアイコンをダブルクリックすると左側に、トラックエディターというものが登場してきます。

トラックエディターが開く

ここに通常は1つのシンガーが表示されているだけなのですが、隣の+をクリックすると、また41種類のシンガー一覧が表示されるので(すでに選んでいるものはグレーアウトされている)、この中から別のシンガーを選ぶのです。

別のシンガーを追加する

すると各シンガーに紫で声質、オレンジでスタイルと書かれた棒グラフが表示されます。デフォルトでは声質とスタイルは連動する形で値の設定ができるようになっていますが、中央にある白い丸印をクリックして連動を解除すると、別々に調整できるので、どんな形でミックスするのか自分で設定することができます。

そうこれによって、世の中には存在しない、新しいバーチャルシンガーが誕生するのです。バーチャルシンガーとはいえ、ロボットボイスになるわけではなく、本当に人間的に歌わせることができるのがスゴイというか、怖いというか……。

複数のシンガーをミックスしてオリジナルのシンガー=歌声データベースを生成できる

しかもミックスできるのは二人のシンガーというわけでなく、3人でも4人でも、複数のシンガーをミックスすることができ、そのバランスも自由に設定できるのです。ミックスといっても音量的なミックスではなく、声質の雰囲気をAI的にミックスしたり、スタイル=歌い方をミックスできるので、非常にユニークです。

これによって、いいシンガーを誕生させることができたら、名前を付けたり、アバターを設定して保存することもできるようになっています。

VOCALOIDやSynthesizer V、CeVIO AI用のデータをインポート

ところで、冒頭で紹介したビデオは、5年前にリリースした小岩井ことりさん歌唱のDTMステーションCreativeリリースの『oyasumi』という曲。詳細は「【コミケ97参戦】小岩井ことりさんと作ったASMR CD。ハイテクで超ローテクなバイノーラル録音の舞台裏」をご覧いただきたいのですが、この曲はSynthesizer Vに歌わせるなど、DTMステーションでも何度か登場させたことがありました。

そのため、手元にデータがあったのですが、今回そのSynthesizer VのデータをACE Studioにインポートする形で歌わせてみました。

「ファイル」メニューから「インポート」を選ぶと…

といっても、ACE StudioにSynthesizer Vのデータをインポートする機能を持っているわけではありません。が、「ファイル」メニューー「インポート」を開いてみると、

オーディオをインポート
MIDIをインポート
Utaformatixファイルをインポート

という3つがあります。先日「無料版も公開中のカワイのスコアメーカーZERO、VST3音源に対応とともにSynthsizer VやVOCALOIDなどとの連携も実現」という記事で紹介したスコアメーカーで歌詞付きのMIDIファイルを、このインポートで機能で読み込むこともできましたが、Utaformatixファイルをサポートしている、という点も気になるところ。

Utaformatixを利用することで、各種歌声合成ソフトのデータを取り込むことが可能

このUtaformatixについても以前『No.7』の記事の中で紹介したことがありましたが、これは歌声合成ソフト間でデータをやりとりするためのWebアプリシステム。オープンソースのシステムとしてGitHub上に存在していて、UtaFormatixサイトにアクセスすることで誰でも利用可能なものです。これを介して、Synthesizer VのデータをUtaformatixデータに変換した上で、ACE Studioに読み込ませたところ、すぐに使うことができました。もし、手元に、VOCALOIDやSynthesizer V、CeVIO AIなどのデータがあるのなら、これを使って変換して使うというのが、ACE Studioの性能をチェックする上では手っ取り早そうですね。

素のボーカルトラックがあればオリジナル歌声データベースを生成できる

そして、ここからが本題です。これまで各種AI歌声合成ソフトにおいて、歌声データベースは基本的に購入することが基本であり、ユーザーは市販されている歌声データベースの中から自分のイメージに近い歌声を選んで使うしか方法はありませんでした。

確かにUTAUでは、オリジナルの歌声データベースを作ることは可能でしたが、これはAI歌声合成ソフトではなく、音素ごとに切り貼りして作るシステムであったため、現在のAI歌声合成ソフトとは少し位置づけが異なります。それに対し、このACE Studioはユーザーが自分でAI歌声データベースを作ることが可能になっているのです。

方法は至って簡単。レコーディングした歌声をアップロードするだけで、ACE Studioのシステムがディープラーニングを行い、歌声データベースを生成してくれるのです。その歌声としては、ほかの音とミックスされていないボーカルだけの音源であり、リバーブなどがかかっていない音であるのが条件。

自分でDAWでレコーディングした楽曲であれば、その素のボーカルトラックをアップロードすればいいのです。この際、ボーカルデータは1分の曲でも5分の曲でもいいのですが、複数集めてトータル30分程度あれば、生成できるとのこと。理想は60分程度で、これをアップしたのち、その2倍程度の時間、つまり30分のデータに対して60分程度、60分のデータなら2時間程度待つと完成します。

この作業はACE Studio自体で行うわけではなく、ACE Studioの「カスタマイズシンガー」というところの項目にある「カスタマイズする」という文字をクリックして開くWebサイト上で行います。

ただし、これについては14日間の無料使用の状態では利用できないようです。これを使うには14日間経過する前でも、課金がスタートする旨の表示がされ、OKすると実際課金されるので、その点はご注意ください。私は、とりあえずアーティストプランの月額課金、3,500円を支払う形で使ってみました。

『No.7』の歌唱データを利用してオリジナル歌声データベースを作ってみた

実際、何をやったのか。それが、冒頭で紹介した『No.7』の歌声データのアップロードです。これはAI歌声合成など研究用途のため、小岩井ことりさんが自ら作詞作曲し、歌った歌声51曲分を公開しているもの。私自身もこのプロジェクトメンバーではありますが、改めて小岩井ことりさんサイド、そして明治大学の専任准教授、森勢将雅先生にも、使用について確認の上、実験的にデータベース生成を行ってみたのです。

No.7のデータを利用して学習させてみた

公開されているデータには本当に素のレコーディングしただけのオリジナル、ノイズ除去処理をおこなったもの、ピッチ補正をおこなったもの、タイミング補正を行ったものなどあるのですが、ここでは、そのすべての処理を行ったデータを利用しました。

また51曲分トータルでは約60分になるのですが、全部アップロードすると、データベース生成に時間がかかるので、ここではNo.25~No.50までの約半分、46分のデータをアップロードして生成させたのが、冒頭の歌声だったのです。

生成完了後、ACE Studioを起動すると、設定しておいたNo.7のアイコンが現れ、もともと用意されている44種類のシンガーと同じように使うことが可能になります。

学習が完了すると、ACE Studio上に『No.7』が現れ、他のシンガー同様に使えるようになった

そして、44種類のシンガーとミックスしたバージョンも簡単に作ることが可能になっているのです(実は記事を書いてきたときは41種類だったのですが、8月10日さらにシンガーが3つ追加されて、現在44種類になっています)。

ここではNo.7の歌唱データの半分をアップロードして作っていましたが、実は同じNo.7の歌唱データのすべてを利用して、さらにいろいろな実験をされている方がいます。それが、このACE Studioの44種類のシンガーの一人でもあり、VTuberとしても活躍しているシンガーの緋惺Akesato@akesato_vtuberさん。その緋惺さんのブログで、詳細なレポートをされているので、ぜひ、そちらも参照してみてください。

Step6☆カスタマイズAIシンガーの作り方

ボイススロットが1つだけのアーティストプランと、5つまで使えるアーティストProプラン

その緋惺さんのブログの解説にもありますが、実は学習=トレーニング結果できるデータベースは1つだけというわけではありません。Rare、Medium-Rare、Midium、Medium-Well、Well-Doneと5つの結果ができ、それぞれで少しずつニュアンスが変わってきます。その中で自分の好きなものを1つ選んで使う、という形になります。

学習結果の異なる5種類のデータベースから選ぶことができる

では、こうした歌声データベースをいくらでも作って自分のライブラリとして貯めていくことができるのか、というとそうではないようです。これがACE Studioの課金にも大きく関係する部分で、下のグレードのアーティストプランだと、オリジナルの歌声データベースを入れておくボイススロットが1つのみ、上位版のアーティストProプランだと5つまで、となっているんですね。

ボイススロットを追加しようとすると、アーティストProプランへの加入を促される

とはいえ、学習=トレーニング自体は何度もやり直すことが可能。つまり、先ほどの例でいえば、No.7のデータを破棄して別の歌声をアップロードして新しい歌声データベースを作ることは可能となっています。

またユーザー同士で、作った歌声データベースを共有する「コラボ席」という機能があるほか、「無期限スロット」というサブスクに依存せず、ずっと使い続けられるものも別途販売されています。

この辺が少しややこしいところですが、少し整理して説明すると、サブスクで得られるスロット(アーティストプランなら1つ、アーティストProプランなら5つ)は、サブスク中は使えますが、サブスクが切れてもデータ自体は残っているので、サブスク復活後にはまた利用できます。ただし、この場合コラボ席で別のユーザーと共有した場合、そのユーザーも使えなくなってしまいますが、もし無期限スロットを購入してそこに登録していた場合は、サブスクが切れている期間も凍結されず、共有メンバーは使える形になります。この辺をよく考えたうえで、プランを選んだり、無期限スロットの購入をするとよさそうです。

以上、ACE Studioについてざっと紹介してみました。表面的なところしか紹介できていないので、また機会があれば、テーマを絞り込んで紹介できればと思っております。また、使ってみた中、いろいろ気になることもいっぱいあったので、ACE Studioを開発するTIMEDOMAINに連絡をしてメールインタビューをしたので、ぜひ、そちらも併せてご覧ください。

なお、そのやり取りの過程でお願いしてみたところ、DTMステーション読者向けにクーポンを発行してもらうことができました。これは初回の課金時に割引を適用されるというもので、以下のとおりです。

ACE Studio割引情報

クーポンコード:dtmstation

クーポンコード利用法(英語)

ぜひ、ACE Studioを利用する方は活用してみてください。

ACE Studioの担当者インタビュー

Q1: ACE Studioの話に入る前に、まず開発したTIMEDOMAINという会社がどんな会社で、どんな背景で設立され、発展してきたのか少し教えてください。

A1: TIMEDOMAINは、アメリカ、中国、フランスなどさまざまな国からメンバーが集まる国際的なチームによるAIスタートアップです。シリアルアントレプレナー、元プロミュージシャン、経験豊富なインターネット実践者、学術的なAI研究者、優秀なギークなど、多様な背景を持つメンバーがいます。我々のチームは約20人で、最高のAI歌唱合成製品を作り出すという共通の情熱によって結ばれています。

Q2: TIMEDOMAINはAI歌声合成もしゃべり声を別の声に変換するボイスチェンジャーも両方やっているそうですが、歌声合成であるACE Studioを開発することになった経緯などを教えてください。

A2: ACE Studioがベータテストフェーズに入った後、ボイスチェンジャー=音声変換の分野で実験を行い、有望な結果を得ました。しかし、AI歌声合成は大きな未開発の可能性があり、私たちがより情熱を持って取り組んでいる分野であることに気付きました。ブレークスルーを続けるためには集中する必要があると感じ、音声変換の研究を一時停止し、ACE Studioの機能とユーザーエクスペリエンスの改良に専念することに決めました。

Q3: ACE Studioは中国語、英語、そして日本語にも対応しています。日本語対応は最初からだったのですか?

A3: はい、日本語対応は初めから計画に含まれていました。私たちの歌声合成の初期の関心はもちろんVOCALOIDと初音ミクにありました。そして日本はVOCALOIDと初音ミクを生み出した発祥の地です。そのため日本の技術と市場に対して常に関心と熱意を持って取り組んできたので、日本語対応は当然のものでした。

Q4: 現在のACE Studioのユーザーの国別の順位、比率はどのくらいなのでしょうか?

A4: 現在、ACE Studioの主要な市場は北米で、有料ユーザーの60%以上を占めています。次に大きな市場は中国で、約30%を占めています。ACE Studioは他の欧州諸国や日本にも少しずつ広がっているところです。

Q5: アーティストプラン、アーティストProプランの違いはProスロットが1つのみなのか5つ使えるのか、のみであるという理解でいいですか?

A5: はい、そのとおりです。しかし、将来的にはACE Studioに新機能が追加されていくにつれて、両方のプランの特典の違いが増えいく可能性もあります。

Q6: 公式シンガーの中にJAというマークが入ったKuro Bousuku、Trine、Akesato、Rokka、Namine Ritsu、Sorashido Lemi、Hiragi YukiというUTAUの音源が入っていますが、ZHの中国語シンガー、ENの英語シンガーもオープンソースなどの音源を使っているのですか?

A6: 現在の日本語ネイティブの歌手はUTAUのボイスバンクを持っていましたが、以下の点を明確にする必要があります。
Sorashido Lemiを除いて、他のAI歌手のトレーニングデータは、オリジナルの歌手またはその公認代表者から提供されたドライのボーカルトラックを使用しました。これは、ドライボーカルトラックを使用したAIモデルの方が表現力が優れているためです。Sorashido Lemiの場合、ほとんど利用可能なドライボーカルトラックがなかったため、マネジメントチームがUTAUサンプルを提供しました。
すべての公式歌手について、オリジナルの歌手またはその公認代表者との間で書面による許可契約を結びました。商業的な理由から、オープンソースのドライボーカルを使用して公式歌手をトレーニングすることはありませんが、ユーザーは合法的に取得したトレーニングデータを使用してCustomVoiceをトレーニングできます。
同じIPであっても、ACE StudioのAIボイスバンクとUTAUボイスバンクは独立しています。したがって、UTAUボイスバンクがオープンソースであるかどうかに関係なく、公式歌手を使用する際にはACE Studioの規則に従う必要があります。

Q7: 中国の歌手や英語の歌手が日本語を違和感なく、非常に上手に歌うことができるのはどうしてですか?

A7: 私たちは多言語の大規模モデル技術を活用し、ニューラルネットワークの転移学習能力を利用し、入念に注釈を付けた多言語データでトレーニングを行っています。これにより、モデルは異なる言語間の共通の特徴を認識できるようになります。その結果、中国語や英語の歌手でも、私たちのモデルを使用して日本語を流暢かつ自然に歌わせることができます。

Q8: 複数のシンガーをボイスミックスできるのはすごいと思いますが、声質とスタイルのミックスの仕方のコツなどあれば教えてください。

A8: ボイスミックスの異なる使用ケースに基づいて、いくつかの提案をさせていただきます。

シナリオ1: 選んだAI歌手に新しい能力を追加する。
例: Kuro Bousukuをポップソングのメインシンガーとして選び、オペラセグメントを追加して表現力を豊かにしたい場合。Kuro Bousukuのスタイルを声質:100%、スタイル:0%、またBarberは声質:0%、スタイル:100%に設定します。これにより、Kuro Bousukuの音色を維持しつつ、Barberのオペラ歌唱能力を持つボイスミックスを作成できます。

シナリオ2: 完全に新しい声を作成する。
このシナリオでは、まずボイスミックスのレシピのベースとして希望する声に近い公式シンガーを選び、次に他の歌手の声質やスタイルをブレンドします。ボイスミックスのシードの数が多い場合、合成結果が劣化する可能性があるため、通常、シードの数は5つ以下に制限することをお勧めします。

さらに、ボイスミックスで非常に役立つ以下の歌手を覚えておいてください

Qi Xuan:子供の歌手で、ボイスミックスの見た目年齢を下げるのに役立ちます。
Li Yuan:中国の民謡女性歌手で、ボイスミックスのオペラや高音域の歌唱能力を向上させます。
Barber:オペラ男性歌手で、ボイスミックスのオペラ歌唱能力を向上させます。
Bianca:西洋のポップ女性歌手で、ボイスミックスの英語歌唱効果を向上させます。

Q9:Proスロットを使って歌声データをアップロードするだけで、シンガーを作れるのには驚きました。生成結果として5つのバージョンができますが、この5つの違いはどういうものなのですか?Rareはトレーニングが少ないもの、Well-doneはかなりトレーニングしたものという理解でいいですか?

A9: その通りです。RareからWell-doneは異なるトレーニングレベルを表しています。ステーキの焼き加減をトレーニングレベルのアナロジーとして使用しており、それぞれのレベルには異なる風味があります。ユーザーは好みに応じて選択できます。一般的に、トレーニングレベルが高いほどモデルはトレーニングデータからより徹底的に学習し、トレーニング素材に近い合成結果をもたらします。しかし、トレーニングが深まると過学習が発生し、合成された歌唱にオートチューンのアーティファクトが発生する可能性があります。過去の経験に基づくと、Mediumは多くの人にとって最適な結果を提供するレベルです。

Q10: トレーニングの順番待ちで半日近く待ちました。この待ち時間は今後解消されそうですか?

A10: CustomVoiceのトレーニング待ち時間は、トレーニングキューにいるユーザー数とアップロードしたトレーニング素材の量に関連しています。トレーニングキューにいるユーザー数は、利用可能なGPUリソースに影響されます。トレーニング需要が高く、GPUリソースが限られている場合、ユーザーはキューで待つ時間が増える可能性があります。しかし、これは比較的最適化が容易であり、私たちはより多くのGPUリソースを確保するために努力しています。

キュー時間以外に、トレーニングプロセス自体の期間は圧縮するのが難しいです。モデルはすべてのトレーニングデータから十分な反復で学習する必要があります。トレーニング素材の量が多いほど、各反復にかかる時間が長くなります。したがって、10分の素材と300分の素材ではトレーニングにかかる時間に大きな差が生じます。通常、効果と時間のバランスを取るために、30〜60分のトレーニング素材を提供することをお勧めします。

Q11: カスタムプロジェクトを作成する際に、音声提供者への情報提供書を届けるなど、同意項目はあるものの、無断でアップロードするケースも出てきそうです。この辺の権利についてはどのようにお考えですか?

A11: 無許可データの使用には反対します。関連する報告があり、確認された場合、無許可データを使用したユーザーに対してアカウントの永久停止を含む措置を講じます。

Q12: 仮に無断でアップロードして作ったシンガーでも、ボイスミックスしてしまうことで、世の中にない声のシンガーが誕生します。このオリジナルの歌声は使っても問題ないのでしょうか?

A12: ボイスミックスはAI歌手の特徴を変更できますが、無許可データの使用は倫理的に問題があり、違法です。したがって、そのような行為には徹底的に反対します。

Q13: 歌声合成ソフトとしては、VOCALOID、Synthesizer V、CeVIO AI、VoiSona……などいろいろな競合がありますが、これらについてどのように見ていますか?

A13: VOCALOID、Synthesizer V、CeVIO AI、VoiSonaはすべて歌唱合成の分野で優れた製品です。これらの製品の努力と成果を深く尊敬しています。ACE StudioがほかのAI歌唱合成製品と競争しているように見えるかもしれませんが、私たちはそうは考えていません。

まず、AI歌唱合成にはまだ成長の余地があり、「すべてのミュージシャンがDAWを使用しているときに、AI歌唱合成を創作ツールとしても使用している日」はまだ遠いです。したがって、異なるAI歌唱合成製品の関係は限られたユーザーベースを巡る競争ではなく、ミュージシャンの間でAI歌唱合成の認知と採用を拡大し、市場を拡大することにあります。AI歌唱合成製品のいかなるブレークスルーも、私たちにとっては未来の広がりを示すものであり、興奮します。

次に、成熟したDAW市場では、Cubase、Logic Pro、FL Studio、Studio Oneなどの多様な製品があり、それぞれの特長があり、異なるミュージシャンの好みに応じています。AI歌唱合成の未来も同様であり、異なる製品が独自の特徴と傾向を持ち、それぞれのユーザーコミュニティで輝くと信じています。ACE Studioに関しては、歌唱合成の質とミュージシャンがソフトウェアを使用する際の利便性に焦点を当てています。

Q14: 最後に日本のDTMステーションの読者へのメッセージなどあれば、お願いします。

A14: DTMステーションの取材を通じてみなさんと繋がることができて大変嬉しく思います。日本のみなさんにとって、ACE Studioはまだ馴染みのない名前かもしれませんが、この記事を通じてACE Studioに興味を持ち、試していただければ幸いです。私たちのAI歌唱合成能力が、みなさんの音楽制作の効率を高め、さらに創造的な作品を生み出すきっかけになることを願っています。ご意見やご提案がありましたら、support@acestudio.aiまでお気軽にご連絡ください。ありがとうございました。

【関連情報】
ACE Studioサイト
ACE Studio無料トライアルダウンロード

Commentsこの記事についたコメント

1件のコメント
  • どら焼き

    趣味でDTMを続けており Synthesizer v を活用しています 作曲ではく、もっぱら市販曲のカバーですが

    Voco Flex も発売日に購入していたのですが、
    Ace Studioの下位プランにもカスタムAIのスロットが1つ追加されたと聞き、アーティストプランを直ぐに契約しました、課金開始後、自分の歌声で30分程のデータを作り学習し、自分の歌声シンガーを作成しました
    結果は、まあ驚きましたね、自分とそっくりというか
    完全に自分の歌声になりますね(笑)
    しかも、その時点で、歌詞付きMIDIデータが作成されるので、後から言語を含む あらゆるエディットが出きるのが素晴らしいです
    Voco Flex が今話題になっていますが、Ace Studioの存在を知っている方は少ない印象です
    また、Voco Flex は10秒程のデータから手軽に
    オリジナルボイスを生成できるけど、学習された声質は、
    条件により似てたり似てなかったりですが
    Ace Studio の場合は学習データの作成に手間が掛かる分、かなりの精度でクローニングされている印象です
    ただ、自分の声以外で、許諾を得られる歌声データを知り合いにお願いして、クリーンな30分程度のデータを作成、提供して頂くにも理解を頂くのと手間を掛けて頂くことが、なかなかのハードルの高さでもありますが
    そこは、自分の熱意を伝えて落とすしかないかなと思っています(笑)
    とはいえ、今後は一般の方が、ご自身の歌声データを作成し有料で許諾、提供するというビジネスも増えて来そうですね
    Ace Studio を含む 歌声ソフト、特にクローン系
    のソフトの今後の更なる進化を考えると
    すごく楽しみです
    とても勉強になる記事をありがとうございました

    2024年8月11日 7:13 AM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です