スタンドアロン版も開発中。サンプリング音源には不可能な演奏をリアルに再現するAI音源、Melismaがヴィオラや合唱にも対応し、さらに進化

昨年12月に発表され、DTM、シンセサイザの世界での革命ではないか、と大きな話題になったMelisma(メリスマ)。これは神楽音楽出版という日本のベンチャーが開発したシステムで、譜面で演奏情報を渡すとリアルに演奏してくれる、というもの。現在はβテスト版として公開されています。ご存じの通り、サンプリング音源も非常に優秀で、ピアノやドラムなどは本物と区別がつかないレベルになっていますが、弦楽器や管楽器となるとそうはいかないのも現実です。

そうした中、昨年、彗星のように登場したMelismaはヴァイオリン、チェロ、オーボエの演奏をAIが生成してくれるというもので、サンプリング音源では絶対不可能な絶妙なニュアンス、アーティキュレーションも再現してくれます。そのMelismaは、登場以来進化を続けており、より表現力豊に成長すると同時に、ヴィオラにも対応したことで、弦楽がほぼオールラウンドでカバーできるようになりました。さらに合唱というこれまでのAI歌声合成にもなかった音源も登場したことで、表現できる幅も大きく広がっているのです。現在はクラウドを介してデータ生成するMelsmaですが、現在スタンドアロン版も開発中で年内のリリースを目指しているとの情報も入ってきました。改めてこのMelismaとはどんなものなのか、これまでどんな進化を遂げてきて、今後どう発展していくのか、開発者である神楽音楽出版の代表、中迫酒菜(@Nakazako)さんにもお話を伺ったので、レポートしてみましょう。

進化を続けているMelisma。現在はスタンドアロン版の開発も進行中

サンプリング音源で不可能だったことがAIで実現

昨年「AIによる楽器サウンド合成システム、Melisma(β)が爆誕。サンプリングでは不可能だったリアルさを実現」という記事で紹介したMelisma。現時点では世界でただ一つの弦楽器、管楽器の演奏を楽譜から生成することができるAIシステムです。

サンプリング音源だと、たとえばタイやスラーでつないだ長い音符などとなると、どうしても限界があったし、ピチカート、トリル、フォール…といったアーティキュレーションでも表現の範囲が限られていました。しかし、このMelismaはそうしたアーティキュレーションを譜面上で指示することにより、思い通りの演奏が可能になっているのです。

そのMelisma、登場から半年の間、何度もアップデートを繰り返し、より強力なものに進化してみているのですが、その最新のデモがあるので、ぜひ以下の2つの音源を聴いてみてください。

いかがですか?かなりすごいことがお分かりいただけると思います。これまでDAWの打ち込みでストリングスの入力を行ってきた方であれば、すぐにお気づきだと思いますが、これを従来のサンプリング音源で作ろうと思っても無理ですよね。従来であれば、演奏家にお願いしてレコーディングしない限り不可能だったことが、ここまでリアルにできるようになっているのです。

Music XMLをアップロードすると、WAVが生成される

改めて、Melismaについて紹介すると、これは、いま話題の生成AIの一つであり、日本生まれの唯一無二のシステム。AIを用いた歌声合成においては、これまでも日本発のものとしてSynthesizer VやCeVIO AI、Voisona、NEUTRINOといったものがありましたが、Melismaは楽器音を生成するシステムとなっています。

使い方はあらかじめ譜面を用意しておき、それをMelismaサイトにアップロードすると、生成されたWAVファイルをダウンロードできるというもの。その譜面は画像データというわけではなく、MusicXMLというフォーマットでアップロードする形になっています。

Melismaは譜面データをMusic XMLでアップロードするとWAVが生成されるシステムになっている

その譜面に単に音符を並べるだけでなく、スラーやタイ、スタッカート、トリル……などなどの記号も入れていくことで、Melismaがそれを解読した上で、その奏法にマッチした形で演奏してくれるのです。

アーティキュレーションを記載した譜面

ちなみに現在、Melismaが対応している項目や奏法は以下のとおりです。これらは、出力されるかどうかは問わず、すべての楽器で指定可能となっています。

・一般的な音符と休符
・任意の蓮符(連符の入れ子は非対応)
・スラー(スラーの入れ子には非対応)
・タイ(タイによる音符の分割は結果に影響しません)
・スタカート・テヌート・アクセントとその組み合わせ
・強弱はpp~ff、およびfp
・松葉(クレッシェンド記号とデクレッシェンド記号)
・拍子とテンポの変更
・arco / pizz. / ord. (pizz.は弦以外も対応)
・音価のないトレモロ(線の数は問いません)
・トリル
(テキスト’trsm2′, ‘trsM2’, ‘trlm2’, ‘trlM2’で指定)
(trsは短い音価、trlは長い音価、m2は短二度, M2は長二度)
(解除には’ord.’を使用)
・ポルタメント
(テキスト’port.’で指定)
(解除には’ord.’を使用)
・フォール(ディスコフォール)
・移弦やポジション移動は自動です
・演奏前に弓を置くノイズは自動で入ります
・ブレスは自動で入ります
・楽譜の途中での楽器の変更が可能
・楽器の変更はスラーやタイの途中でも可能

そしてユニークなのは同じMusicXMLをアップロードしても、オプションで指定することにより生成結果はすべて異なるものにすることができる、という点。人間による演奏であれば毎回異なるのはもちろんですが、それを学習して再現するMelismaも同様であり、従来のプラグインなどの音源とは大きく異なる点です。そのためヴァイオリンの演奏結果を5回生成して重ねれば、まさにヴァイオリンの五重奏が簡単に作れるわけです。もちろん、同じ作業を5回行うのは面倒なので、Melismaに実行させる際、「同時生成回数」の項目で回数を指定することにより、一気に複数回分を生成することが可能となっています。

ユーザー登録すれば、とりあえず無料で試すことも可能

そして、このMelisma、現在βテスト版である、ということもあって、ユーザー登録をすると、無料で最小限の書き出しができるようになっています。どんな音で演奏できるのか、ちょっとだけ試してみたい、自分で使うことができるのか試してみたい、という場合、無料で使うことができるのです。

また支援サイトを通じて支援した場合、支援金額に応じて以下の表の通りの生成が可能になっています。

月間最大書き出し時間 1回あたりの最大書き出し時間 月額
無料プラン 10分 30秒以下(サーバー負荷による) 0円
開発応援30プラン 30分 210秒(3分30秒) 500円
開発応援60プラン 60分 210秒(3分30秒) 1,000円
開発応援150プラン 150分 210秒(3分30秒) 2,000円
開発応援1200プラン 1200分 210秒(3分30秒) 10,000円

今後正式シリーズ時には、大幅な価格改定を行う予定とのことなので、ぜひ今のうちに試してみるのが良さそうではあります。

なお、この半年の進化の中で、に楽器だけでなく、合唱も生成することが可能になりました。そのサンプルがこちらです。

前述のAI歌声合成の各ソフトとは明らかに方向性の異なるものではありますが、ここにもいろいろな可能性がありそうです。

Melismaのスタンドアロン版を開発中

このように、Melismaは譜面作成ソフトで譜面を作成し、Music XMLで書き出した結果をアップロードし、その結果生成されたWAVファイルをダウンロードするという流れであるため、もっと手軽に使えるようにならないのか、という声も結構来ているようです。また、Melismaユーザーは、プロの作曲家も多そうですが、その場合、未発表曲をサーバーにアップロードしなくてはならない、という点に抵抗を感じている人も少なくなさそうです。

そうした声に応えるため、スタンドアロンで動作するソフトも開発中です。DAW上で使えるいわゆるプラグインというわけではなく単体で動くソフトのようですが、こうしたものが出てくると、一気に普及が加速していきそうです。

また、スタンドアロン版ということもあり、Music XMLを使うだけでなく、専用のエディタも開発中。ピアノロールで入力するタイプで、ここに音符情報とともに記号も入れていくことで思い通りの演奏を、より手軽に実現させることが可能になるようです。

まだリリース時期の詳細などは決まっていませんが、開発する中迫さんによると、年内にはリリースしたい、とのことなので、登場まで首を長くして待ちたいところです。

その中迫さんに少しインタビューしてみたので、紹介しましょう。

Melisma開発者、神楽音楽出版の中迫酒菜さんインタビュー

Melisma開発者の中迫酒菜さん

--Melismaのリリース時に記事で取り上げましたが、その後もどんどん進化してきているんですよね?
中迫:はい、リリース時はヴァイオリンとチェロ、オーボエの3つのみでしたが、それにヴィオラが加わったので、全部の弦が揃いました。通常の奏法のほかにピッチカート、トリル、トレモロ、ポルタメント、フォールにも対応しました。これをもって、おそらくポップスのストリングスはほぼ完ぺきにこなせると思っています。

--ちなみに弦としてコントラバスが入ってないですが、これに対してはどうですか?
中迫:実はAIにとってコントラバスってちょっと生成が難しいんです。というのも、AIは情報量が多いほうが学習しやすいという側面があるのですが、コントラバスは音程が非常に低いから実時間に対して情報が少ない。そのため、しっかり学習できないんです。現在のMelsmaのバージョンはV5モデルなんですが、V4まではチェロですらちょっと苦手だったんです。V5はかなり改良を加えてチェロの音質向上が実現できたのです。まあ、情緒豊かなコントラバスはヴァイオリンと比較すれば需要は少ないですし、ポップスでコントラバスを使うことも少ないと思うので、まだしばらくは後回しにしようと思っています。

--V5ということは、いろいろと改良を加えてきたんですね。
中迫:はい、奏法も増やしただけでなく、品質もかなり向上させました。また、生成時間も早くなっていますし、合唱に対応したのも一つの進化点です。Music XMLは歌詞情報も入れることができるので、これを利用して歌わせています。一方、そのMusic XMLには、各譜面ソフトごとに方言があり、当初はSteinbergのDoricoでうまく動作しないという問題がありました。しかし、その後Dorico側が対応してくれたおかげで、現在は動作するようになり、結果としてSibelius、MuseScore、LilyPond、Doricoなどで利用可能です。Finaleは私の周りにあまりユーザーがいなくて、細かな検証ができていませんが、これで問題があったという話は来ていないので、大丈夫だと思います。ちなみに、前回お話し忘れましたがMelsmaで生成される音はゲインステージング済となっています。もちろん一切エフェクトのかかっていない素の音なので、プロにとって使いやすい音源になっていると思います。

Melisma公式イメージキャラクター、魔法の力でどんな楽器も演奏できる魔法使いの女の子「メリスマ・ファブローネ」も誕生

--ヴァイオリン、チェロ、ヴィオラと弦が揃ったわけですが、たとえばヴァイオリンひとつをとった時、これは1人の奏者の演奏を学習し、その演奏を再現しているわけですよね。毎回生成結果が違うとはいえ、その人の癖というか、演奏傾向は近くなるわけですよね?
中迫:その通りです。そのため、2人目の奏者を増やそうという計画をしています。実際、演奏してくれた奏者とも話をしたのですが、3人くらいあるといいよね、と。もしヴァイオリンで3人分くらいあると、3人を3本ずつ生成すると9人編成の音がよりいい感じになるだろう、と。もちろん、その前にフルートなど楽器を増やすことも行っていくので、一気にというわけにはいきませんが、3か月に1音源くらい増やせて行けたら…と思っています。

--そして気になるのがスタンドアロン版についてです。これがどんなものになるのか、少しお話いただけますか?
中迫:現在はMusic XMLをサーバーにアップロードして生成する形ですが、スタンドアロンで手元で動作させられるものを現在開発しています。ここにあるのは、まだプロトタイプのプロトタイプといったレベルのものではありますが、動作するようにはなってきていて、ピアノロール画面で入力するUIを作っているところです。このピアノロール上にアーティキュレーションの情報や歌詞などを入力していく形です。

現在開発中のスタンドアロン版のUI

--生成スピード的にはどうですか?
中迫:現状はリアルタイム生成ではないので、再生ボタンを押すと生成が始まります。この際、GPU搭載のマシンであれば高速に生成できるのですが、CPUベースだとかなり時間がかかってしまい、実時間程度を要してしまいます。なので、製品化する際、GPU必須とすべきなのか悩んでいるところです。

--ここでいうGPUはNVIDIA限定ですか?
中迫:そこも悩ましいところです。NVIDIAに限ったほうが確実に速くなるし、開発もしやすいので個人的には限定にしたいのですが、困る人もいるだろうなと思っています。ただNVIDIAの場合CUDAをユーザーがインストールしなくてはならないという面倒さがある一方、ほかのGPUならWindows標準のDirect MLで動作するというメリットもあります。その辺も含めていろいろ検証中です。

--ちなみにMac版というのはどうですか?
中迫:Mac版も一応出せるのですが、MacのGPUはまたちょっと違うため、まだしっかりした調査ができていません。まずはWindows版を作った上で、その後Macに対応させていく……という流れにはなりそうです。

10月にはスタンドアロン版のβテストを開始したい、と話す中迫さん

--現状のMusic XMLであればWindowsもMacも関係なかったわけですが、スタンドアロン版になると機種の問題はどうしても出てくるわけですね。ちなみにスタンドアロン版でおMusic XMLは読めるのですか?
中迫:はい、スタンドアロン版のソフトの中にMusic XMLのパーサーが入っているのでMusic XMLを読み込むことは可能です。ただし、いま開発中のピアノロールのUIをつかったほうができることは多いんです。どうしても譜面では表現できないものもあるからです。たとえば楽器のモーフィングといったことがUIであれば可能になります。そう、ヴァイオリンの音からだんだんオーボエの音に変化していくとか、歌声がだんだんチェロの音に変わっていく……なんてことが可能になるのです。また将来的にはピッチ補正する機能も搭載しようかなと思っています。鉛筆ツールを使って行う形ですね。こういうのは譜面では表現できないですから。

--スタンドアロン版の登場、とっても楽しみですが、スケジュール的にはどのくらいを考えていますか?
中迫:できれば10月ごろにはβ版をリリースしたいと思っていますが、もう時間がないので、急がなくてはいけませんね。このβ版に関してはβテスターの方を募集した上で、いろいろと使っていただこうと思っています。その際は現在ある音源すべてを使えるようにする予定です。その後、製品化したら、楽器ごとにライブラリーを販売するような形を検討しているところです。

ーーVOCALOIDとかSynthesizer Vなどと同じ形ですかね?
中迫:エディターを別売にするのではなく、ライブラリーを買ったらエディターというか本体が付属する形がいいかな、と考えています。個人的によく思っているのはKONTAKT音源を知人に勧めたら、「KONTAKTを持っていないので…」と言われるケースがよくあるので、ライブラリーを普及させる上での阻害になるんじゃないかと思っているんです。今後はサードパーティー展開もしていきたいと考えています。現在、Melisma用に「凪乃ヒマワリ」という今までの合成音声にはあまり無かったタイプの声質のバーチャルシンガーを作るプロジェクトが進行中で、現在開発を進めています。それとは別に公式からもソロボーカルを出す予定なので、いろいろな形でライブラリがそろってくると思います。

--スタンドアロン版の登場、ますます楽しみですね。
中迫:もうしばらくかかるので、お待ちいただきつつ、現在もMuxic XMLで利用できるMelisma(β)は使えるので、ぜひ多くの方にご利用いただければと思っています。

--ありがとうございました。

【関連情報】
Melisma(β)サイト
Melisma開発応援ページ(FANBOX)