7月28日から30日の3日間、「ガマの油売り」で有名な茨城県の筑波山麓にあるホテルで、ユニークな学会が開催されています。それは情報処理学会の音楽情報科学研究会(通称:音情研)における第86回研究発表会(夏のシンポジウム)というもの。そう情報処理学会という非常に厳かな学会の中ではありますが、その音情研では「初音ミク」がリスペクトされた存在として鎮座した上で(!?)、さまざまな新しい研究発表が行われているのです。
もちろん音楽情報科学研究会なので、音・音楽にまつわる数多くのテーマの研究がされているわけですが、初日はスペシャルセッション「歌声情報処理最前線!」として、歌声に関する研究発表ばかりが行われ、その初日に参加してきました。まさに世界の最先端を行く技術発表なのですが、そこで作られている技術は驚くほど面白い未来の歌声処理技術ともいえる面白い内容のオンパレード。そのさわりをちょっと紹介してみましょう。
このスペシャルセッション「歌声情報処理最前線!」で発表されたのは全部で9テーマ。1人(1チーム)の持ち時間は各25分で行われ、その発表のタイトルは以下のとおりです。
2. 歌唱曲自動作曲の需要と今後 - 2年間のOrpheus運用を通じて
3. VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案
4. 歌声情報処理: 歌声を対象とした音楽情報処理
5. 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
6. 歌声を見て触る: TANDEM-STRAIGHTと時変モーフィングが提供する基盤
7. 混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法
8. SpeakBySinging: 歌声を話声に変換する話声合成システム
9. Vocal Dynamics Controller: 歌声のF0動特性をノート単位で編集,合成できるインタフェース
ここで発表された学術論文はすでに音情研の「歌声情報処理最前線!」 Webページにて公開されているので、興味のある方は見てみるといいと思います。
この中で、分かりやすく面白いものをいくつかピックアップしてみましょう。
まずは最初の発表であった、Sinsy。これはVOCALOIDと同様に音符と歌詞を入力すると歌声を作り出してくれるという歌声合成の技術。VOCALOIDと違い波形を保持しないため、小さなメモリ容量で動作するというのが特徴です。入力にはCubaseでもフリーウェアのCadenciiでも楽譜データ(MusicXML)を出力できるツールを用いて行い、これをSinsyに受け渡すだけで歌声データが生成されます。この際、どんな声になるかということをユーザーが決められるのも大きな特徴。あらかじめ、サンプルの声データを与えてやると、その声での歌声が作れるのです。すでにSinsyは一般の人でも使えるようにネット上で公開されているので、試してみると面白いですよ。
Vocal Lisntener2は「ぼかりす」の通称でさまざまなところで話題になっているVOCALOIDなどを調教するための技術の新バージョン。従来は人が歌った歌声データを与えるとピッチと音量をVOCALOIDの歌声に対して反映させるため、とても人の歌い方っぽいデータに変換できるというものでした。それに対して「ぼかりす2」では声質まで変化させられるというもので、VOCALOIDユーザーにとっては、ぜひともすぐにでも使いたい技術ですね。
さらに「混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法」という難しそうなタイトルの発表もビックリ。これはCDなどバッキングパートも入った普通の楽曲のボーカルだけを別の人の声での歌に差し替えてしまうという技術。もちろん、あらかじめ別の人ボーカルトラックを生成しておいて差し替えるなんてインチキではありません。すべて演算処理をした結果、その人っぽい歌声に変換してしまうのです。
どの発表内容もデモが面白く、すぐにでも使ってみたい技術がいっぱい。ただ、やはり学会発表ですから、デモの後は技術・理論に入るのですが、難しい数式、関数のオンパレードでさすがに難解。私自身も20年ちょっと前に情報処理学会に属した学科を卒業していたはずなんですが、ちっとも分からずやや場違いなところに来てしまった気も……。とはいえ、楽しかったことも事実。まあ、特殊な例なんだとは思いますが、とてもわくわくする学会であったことは間違いありません。
改めてもう少し詳しい内容をAV WatchのDigital Audio Laboratoryで紹介しようと思っています。