名古屋工業大学開発のフリーの歌声合成システム、Sinsyを使ってみよう

歌声合成ソフトの代表といえば初音ミクを代表とするVOCALOIDでしょう。でも、そのほかにもフリーウェアとして広く使われているUTAU、また以前Digital Audio Laboratoryでも取材させてもらったフリーウェアのAquesToneなどいくつかのものがあります。

そうした中、最近、ニコニコ動画やYouTubeなどでも作品が次々とアップロードされて話題になっているのが、名古屋工業大学の徳田恵一先生の研究室で開発したSinsy(しぃんしぃ:Singing Voice Synthesis System)というシステムです。これも誰でも無料で使えるシステムとなっているので、どんなものなのか試してみました。


私がこのSinsyを初めて知ったのは、昨年夏の音楽情報研究会での研究発表会。その後、AV Watchの記事を書く際に少し使ってみて、その声の質の良さにも驚きました。ただ、それ以降、触っていなかったのですが、先日、徳田先生から「Sinsyオンラインデモページに、童謡が得意なf001に加えて、JPOPバラードが得意なf002j_aを公開しました」というメールをいただいたのです。そこで改めて試してみましたので、実際の使い方を紹介しましょう。

まず。このSinsyはHMMという方式による音声合成システムで、そのプログラムもソースコードも含めて公開されています。とはいえ、われわれ一般ユーザーがそうした学術用のプログラムを直接使うのは難しいところ。そこで、この研究室は一般の人も利用できるようにオンライン上で歌声合成ができるようにデモ用のWebページを公開しているのです。そう、VOCALOIDやUTAUなどは自分のPC上で歌声合成の演算を行うのに対し、Sinsyのデモページはクラウドシステムになっていて、音符と歌詞の情報を送ると、それによって生成されたWAVファイルをダウンロードできるというシステムになっているのです。

Sinsyのデモページ

では、その音符と歌詞データをどうやって作るか。これはMusicXMLという形式を用います。これは楽譜表記のためのオープンなファイルフォーマットで、譜面作成ソフトや譜面生成可能なDAWでもサポートしています。ただ、オープンなフォーマットなだけに方言も多くMusicXMLさえ生成されれば何でもOKというわけにはいかないようです。試しにCubase6で生成したものをSinsyのページでアップロードしたところ、エラー表示がされてうまくいきませんでした。

しかし、このSinsyのページによると、「CadenciiMuseScorefinale NotePadで作成したMusicXMLで動作確認しています」とのこと。CadenciiとMuseScoreはフリーウェア、finale NotePadはFinaleの簡易版で1,050円でダウンロード販売されているものです。試しに、Cadenciiをダウンロードして使ってみたところ、これがなかなか使いやすく便利なのです。そう、これは譜面作成ソフトではなく、VOCALOIDデータであるVSQファイルの編集ソフトであり、VOCALOIDと同様にピアノロール画面で音符入力できるとともに、歌詞の入力もできるというもの。すでにVSQファイルが手元にあるなら、これを直接読み込んでMusicXMLデータを生成することも可能になっているのです。

Candenciiで音符、歌詞情報を入力する。VSQファイルもそのまま読み込める

試しに手元にあったVSQファイルをCadenciiでMusicXMLに変換して、Sinsyのページで歌声のWAVファイルを合成してみました。使い方は簡単。まずボーカルとしてf001、f002のいずれかを選択、必要に応じて音質、ビブラート強度、ピッチシフトを数値で設定して、「送信」ボタンをクリックするだけ。曲は最長5分という制限はありますが、送信ボタンを押して数十秒程度で合成が完了します。画面の下に合成結果が表示されるのでプレイボタンをクリックすれば再生することができます。

MusicXMLをアップロードすると歌声合成が行われる

またwavという表示もありますので、これを使ってwavファイルを手元にダウンロードすることも可能です。ちなみにwavファイルの形式は16bit/48kHzのモノラルです。

VOCALOIDとは明らかに違った雰囲気の歌声なのも面白いところ。「VOCALOIDを買うのも……」とためらっていた人もこれなら、投資は不要です。またすでにVOCALOIDを使っている人も、VSQファイルの資産を利用しつつ、違う歌声が作れるのですから試してみる価値があるのではないでしょうか。

【関連サイト】
Sinsy – HMM based Singing Voice Synthesis System
名古屋工業大学 – 徳田・李研究室

Commentsこの記事についたコメント

4件のコメント
  • 利光直彦

    10年以上ボーカロイドで合唱曲を作っていますが、重唱部分の音に倍音が入りやすく、自然な状態で聞けないことが多く、大きな不満を感じていました。 今回たまたま、ある二重唱曲を聞き、その新鮮な音声と、重唱部分のクリヤさに驚き、これにSinsyが使われていたようで、この驚きは小生に取とり大きな衝撃でした。
    これから勉強してみたいと思っていますが小生、すでに91歳、どこまで入り込めるか心配ですが……。

    2023年1月28日 6:20 PM
    • 藤本 健

      利光さん

      コメントありがとうございます。たぶん、DTMステーションの読者で最高齢なのではないでしょうか?
      何かお手伝いできることがあれば、おっしゃってください。
      ちなみにSinsyはその後、さらに大きく進化して、現在はCeVIO AI、VoiSonaというものになっています。

      2023年1月28日 8:46 PM
  • みんうー

    藤本さん
    コメント失礼します。合成音声に興味がある者です。
    藤本さんのコメントを読みますとSinsyの技術が基礎となっていまのCevio AIやVoiSonaのシステムが構築された,と解釈できるのですがあってますでしょうか。もしそうでしたら私としては大変驚きなことで,興味深い内容になります。

    2023年7月13日 11:11 AM
    • 藤本 健

      みんうーさん

      お返事が遅くなって失礼しました。
      その通りです。ただし、Sinsyの技術がそのままベースとなっているわけではなく、同じメンバーでの開発ではありますが、そこから遥かに進化した別技術によるエンジンになっています。

      2023年7月22日 8:44 PM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です