ポケット・ミクやeVY1シールドの心臓部にはヤマハ製のLSI、NSX-1が搭載されています。そしてNSX-1の機能であるeVocaloidで歌声合成を実現しているのですが、音を聴いてみるとPCで鳴らす初音ミクV3やVY1V3などとは声質や表現力などに違いがあることも感じます。でも、eVocaloidがVOCALOIDと何がどう違うかというと、具体的な情報はあまり出ていないようです。
そもそも、なぜeVocaloidと表記方法が微妙に違うのか、歌声の合成方法に違いがあるのか、VOCALOIDの歌声ライブラリをeVocaloidにインポートするといったことは可能なのか……、ちょっと考えただけでも気になることがいっぱいあります。そこで、その辺の詳細を探ろうと、先日、浜松にあるヤマハ本社に伺い、eVocaloidとVOCALOID3の開発者に話を聞いてきました。
ロゴもちょっと異なるeVocaloidとVOCALOID、何がどう違うのか?
お話を伺ったのはヤマハ株式会社 研究開発統括部 第1研究開発部 音声グループのグループマネジャーである久湊裕司(ひさみなとゆうじ)さんと、同技師補の嘉山啓(かやまひらく)さん。一言で紹介すれば久湊さんがVOCALOID3の開発責任者で、嘉山さんがeVocaloidの開発責任者。二人とも剣持秀紀さんとともにVOCALOID1の開発にも携わってきたゴールデンメンバーです。
浜松にあるヤマハ本社に伺い、eVocaloid、VOCALOID3の生みの親に取材してきた
なぜ、eVocaloidと微妙に名前が違うのかというと、それは発音させるための技術が異なるため、誤解を生じさせないように変えているとのこと。LSIに実装させる組み込み型(embedded)のボーカロイドということで、頭に「e」を付けているそうです。
嘉山さんによると、もともとeVocaloidの話が持ち上がったのは、5年も前の2009年7月のこと。ヤマハの半導体事業部から「新しいLSIの企画をはじめており、ここにVOCALOIDを乗っけたいんだけど、技術を考えてほしい」という要望が来たのがスタートでした。
その半導体事業部から来た仕様を見ると、このLSIの中にはそれなりのスピードを持つCPUとメモリは用意されているけれど、PC版のVOCALOIDと比較するとメモリサイズが極端に小さいし、CPUパワーもPCのものほど高くはないので、そのまま移植するのは不可能。そこで、違う方法で歌声合成をする必要がある、と技術検討を始めたのだそうです。
「本家のVOCALOIDでは周波数軸方向での処理を行い、キレイな歌声を実現しています。つまりFFTで分析して周波数特性を見たうえで、音程が変化してもスペクトル包絡を維持することで声質が変わらないようにして、滑らかな歌声を合成しているのです。しかし、この方法ではかなりのCPUパワーを消費するため、そのまま組み込みに使うのは難しかったのです」(久湊さん)
「そこで時間軸方向での処理、つまり波形をペタペタ貼って並べていくという手法を考えました。サンプラーに近い手法ですね。【PSOLA】(Pitch Synchronous Overlap and Add)という伝統的な手法を用いることで、大きく音質を変えることなく、音程を変化させることも可能なはず。これならばメモリが小さくても、CPUのクロックが低くても処理できるだろうという仮説を立てて、実験をしていったところ、なんとか動きそうだ、ということが見えてきました」(嘉山さん)
とはいえ、ボーカロイドらしさを出すというのも重要であり、自由に入力した歌詞で滑らかに歌わせるのが最大の任務。そこでVOCALOIDと同じようにdiphone(2つの音素片を組み合わせたデータ)を用い、すべての音素を網羅していったのです。ただし、ここには大きな問題もありました。それがメモリです。
自由にメモリ、HDDにアクセスできるVOCALOIDでは歌声ライブラリに大きな容量を割り当てることが可能です。たとえばVY1なら300MB程度、初音ミクなら700MB程度あるのに対し、NSX-1で利用できるのはたったの1.7MB。しかも1.7MBすべてが使えるわけではなく、そのメモリでさまざまな処理をする必要があるため、歌声ライブラリ用に使えるのは1.6MB程度に過ぎないのです。ということは単純に考えても0.5%~1%ぽっちしかないわけですが、そんなことが可能なのでしょうか?
ポケット・ミクやeVY1シールドにeVocaloidが搭載されている
「それしかメモリが使えないのなら、それでなんとかするしかありません。周波数方向のデータを持っている本家VOCALOIDに対し、時間軸なので、よりコンパクトに圧縮することは可能です。またサンプリングレートを44.1kHzではなく22.05kHzに落としたり、複数の音程でデータを持たず1つにするなど、ありとあらゆることをして小さいサイズにしました」と嘉山さん。
3ケタも減らすとは、尋常ではない感じがしますが、初音ミクの開発元クリプトン・フューチャー・メディアが開発したeMIKUで1.1MB程度、ヤマハのeVY1で500kB程度にまで絞ることができたとのこと。そこまで圧縮してしまうと、原型を留めない歌声になりそうな気もするのですが、実際にポケット・ミクの出音を聴いたことのある方ならよくわかる通り、明らかに初音ミクの歌声なんですよね。
嘉山さんは、ここまでの実証実験をPC上で行って完成させ、半導体事業部に引き渡したそうです。その後、NSX-1内のCPUで動くようにコンパイルしなおし、半導体事業部側でNSX-1に実装した結果がeVocaloidである、というわけなのです。
ポケット・ミクに搭載されているNSX-1(YMW820)のチップ
ちなみにNSX-1に実装されているのはeVocaloidというエンジン部分であり、eMIKUやeVY1の歌声ライブラリーが書き込まれているわけではありません。これらはNSX-1の外部にあり、起動時にNSX-1のメモリに読み込む形になっているのです。そのため、プログラム次第で歌声ライブラリを変更することは可能ですが、ポケット・ミクやeVY1シールドの場合、ライブラリの変更は想定されていないため、不可能のようですね。
では、eVocaloidとVOCALOID3を機能的に比較すると、どうなっているのでしょうか?取材を元にしてまとめたのが以下の表です。
eVocaloid | VOCALOID3 | |
音声素片 | diphone | diphone+triphone |
サンプリング周波数 | 22.05kHz | 44.1kHz |
量子化ビット数 | 16bit/4bit混在 | 16bit |
同時発音数 | 1音声 | 16音声 |
リアルタイム演奏 | ○ | × |
歌声ライブラリ容量 | 1.6MB以下 | 500MB程度 |
多言語対応 | 5か国語(現状日本語のみ) | 5か国語 |
ピッチカーブモデル | ON/OFF設定可 | 常にON |
FineTune | ○ | × |
さらに対応しているコントロールパラメータはというと、以下のとおりです。
eVocaloid | VOCALOID3 | |
VEL(ベロシティー) | ○ | ○ |
DYN(ダイナミクス) | ○ | ○ |
BRE(ブレシネス) | × | ○ |
BRI(ブライトネス) | × | ○ |
CLE(クリアネス) | × | ○ |
OPE(オープニング) | × | ○ |
GEN(ジェンダーファクター) | × | ○ |
POR(ポルタメントタイミング) | × | ○ |
PIT(ピッチベンド) | ○ | ○ |
PBS(ピッチベンドセンシティビティ) | ○ | ○ |
Noise(ノイズ) | ○ | × |
多少、補足をしておくと、まずeVocaloidの量子化ビット数で16bit/4bit混在となっているうちの4bitのほうですが、これは「し」とか「す」などで使う無声音。これらはホワイトノイズに近いものなので4bitでも大丈夫とのことです。また、ピッチカーブモデルとは、「ド」-「ソ」などと音程が変わる際に滑らかに歌うようにピッチをなだらかに変化させるポルタメントのような効果をもたらすもの。本家VOCALOIDでは常にそれが適用されるのに対し、eVocaloidでは、その機能をオフにできる仕様となっているのです。
またVOCALOID3で採用されているコントロールパラメータのうち、eVocaloidで使えるのはVEL、DYN、PIT、PBSの3つのみで、それ以外はサポートされていません。
eVocaloidのパラメータを含む、NSX-1の仕様は公開されているマニュアルにも記載されている
一方VOCALOID1にあって、VOCALOID2およびVOCALOID3でなくなったパラメータとしてNoise、Resonance、Harmonicsという3つがありますが、この中のNoiseがeVocaloidで復活しているのです。これをうまく活用することで、声質を変化させることができるので、試してみる価値は大きいと思いますよ。
なお、eVocaloidの機能そのものではないので、ここでは割愛しますが、NSX-1にはGM音源機能やXG相当のエフェクト機能が搭載されているのもポイント。とくにこのエフェクトはeVocaloidの歌声にも適用させることができます。リバーブやコーラスをかけるといったことはもちろん、ピッチシフトを利用してハーモニーを生成したり、コンプで歌声にパンチを効かせるなど、いろいろ便利に使えるはずです。
以上、eVocaloidとVOCALOID3の違いについて見てきましたが、いかがだったでしょうか?この違いを理解した上でポケット・ミクやeVY1シールドの機能をフルに発揮させることができるのではないでしょうか?
【関連情報】
Yamaha-WebMusic GitHubPage
YMW820(NSX-1) MIDI仕様書
NSX-1に関するヤマハのプレスリリース
VOCALOID公式サイト
初音ミクV3公式サイト