先日、「カシオの耳コピアプリ、Chordana Viewerがより強力に進化したよ!」や「結構使えるiOSで動く耳コピアプリ、Chordana Viewer」ということで紹介したカシオのiPhone/iPadアプリ、Chordana Viewer(コーダナビューワー)および、無料アプリであるChordana Tap。よくiPhoneやiPadでここまでのことができると感心してしまうのですが、気になるのは、機械はどうやって耳コピを実現しているのか……という点です。
「耳コピとは人間の耳だけでコピーすることであり、機械がやるのなら解析だ」というツッコミは置いておいて、この技術について興味を持っている人は少なくないと思います。先日、Chordana ViewerやChordana Tapを開発しているカシオ計算機株式会社の開発本部 コンシューマ事業部・アプリ企画推進室の南高純一さんにお話しを伺うことができたので、その内容を紹介してみたいと思います(以下、敬称略)。
iPad/iPhoneで実現する高性能な耳コピ・アプリ、Chordana Viewerはどんな技術でできているのか?
DTMって音楽を制作してく技術ですが、反対に完成された音楽を分解・解析していく耳コピ技術も大きな夢だと思います。これまでもDTMステーションでは、さまざまな手法の耳コピのためのアプリケーションを紹介してきたし、音楽情報科学研究会のレポートなどでも、常に「自動採譜」ということはテーマになっています。そうした中、2013年10月にカシオが突然のようにリリースしたChordana Viewer、Chordana Tapは、なかなか衝撃的なアプリだったと思います。
もちろん、これらは夢の自動採譜というレベルのまでのものではなく、iTunesに登録されている音楽を解析して、コード表示させるところまでではありますが、これだけ使い勝手よく、しかもiPhoneやiPadのCPUパワーだけで実現できているというのは驚きでした。
なぜカシオがこんなアプリを開発したのか?いったいどんな処理を行っているのかなどをカシオの南高さんに、いろいろ聞いてみました。
--個人的にはCASIOというと昔のシンセサイザ、CZシリーズの印象が今でも強いし、2年前にXW-G1やXW-P1などが登場して、シンセサイザメーカーとして第一線に戻ってきたのは嬉しく思っていますが、多くの人にとってはカシオというと時計や電卓、電子辞書などのメーカーという印象だと思います。そのカシオが、耳コピ・アプリという独特な世界でアプリを出せてたきっかけはどんなところにあるのですか?
南高:音楽音響信号からピッチを抽出する技術はかなり以前から興味をもっていて、以前からいろいろな研究、開発はしていたのです。ただ、製品化するとなると、やはりハードルも高くなり、具体的なものにはなっていませんでした。しかし、iOSやAndroidなど、昨今のスマホやタブレットの普及と性能向上を見て、これなら何か製品に落とし込めるかもしれない……と考えたことが、ひとつのキッカケになりました。
ピアノだけでなくギターでコードを鳴らせるなど楽しさもいっぱい
--昨年のアプリのリリースと同時にChordana技術と名付けて発表されていましたが、それ以前から耳コピ技術には取り組んでいたということなんですね。
南高:はい、その通りです。実験レベルという範疇ではありますが、もう15年近く前から取り組んでおり、2000年には、「信号処理装置及び信号処理方法、並びに信号処理プログラムを記憶した記憶媒体」という名称で特許出願しました。
特許サイトで検索すると、カシオの南高さんによるものが数多く登場してくる
--失礼しました。まったく知りませんでした。
南高:特許検索サイトなどを使って探していただければ、すぐに見つけられると思いますが、そのほかにも「楽譜作成装置および楽譜作成プログラム」、「演奏評価システムおよび演奏評価プログラム」、「伴奏生成装置および伴奏生成プログラム」、「メロディ分析機」……などなど、さまざまな技術を開発するとともに、特許取得もしているんです。もちろん、これらの技術は、当社の電子楽器で利用されてきたものもありますが、ある意味、現時点における集大成的なものをChordana技術と呼んでいるのです。
特許情報として掲載されていた「信号処理装置及び信号処理方法、並びに信号処理プログラムを記憶した記憶媒体」の原理図
--当然なんでしょうが、Chordana ViewerやChordana Tapは、一つの技術だけでできているわけではないのですね。
南高:特許がすべてというわけではありませんが、信号処理のテクニックや音楽音響の性質、楽器音響の性質など、これまで当社として蓄積してきたノウハウを数多く投入して、アプリ開発しているんです。
--各社アプローチは違いますが、カワイやローランドといった楽器メーカーも耳コピに対する製品を発表しているし、中にはフリーウェアでシステム作りをしている人もいます。そうした中、カシオ製品の特徴はどういうものなのですか?
南高:音声波形に含まれる周波数成分の分布や時間変化から、楽曲に含まれるハーモニーやメロディー、さらにはリズム楽器の各要素を取り出し、それぞれの特徴を考慮しながら解析している点だと思います。また使い勝手としては、複数候補を出すことができ、編集&保存ができることがポイントです。我々としても、できるだけの解析技術を投入して、コードやリズムを割り出しているわけですが、まだ完ぺきというところからはほど遠いのが実情です。また人が聴けば、すぐに分かるのに、アプリ側での結果が異なることもよくあります。解析中に、いくつもの候補を抽出しながら、「一番近いのはこれだろう」と想定して結果表示させているので、2番候補、3番候補に正解があるケースも多くあるのです。そこで候補を見せて、人に完成させてもらう、というのも効率のいい方法だろうと、このようなアプリに仕上げました。さらにコードセットが、基本、ポップス、ジャズセットと選べること、コードアレンジとして代理コードやテンションを考慮したアレンジができることも大きな特徴となっています。
コード候補が出てきて人が正しいものへと編集できるのが大きな特徴
--一言で耳コピといっても、目指す方向もコンセプトも違うというわけですね。
南高:耳コピのソフトは大きく分類すれば、ひとつひとつの音を認識して積み上げていくタイプと、和音やフレーズなど固まりで捉えていくタイプに分類できると思います。でもお互いに共通しているのは、目的として耳コピ対象の音楽と自分が再現する音楽が同じになるかどうか、という点でしょう。それを評価し、判断して完成させていくので、開発にはその一連の作業が必要となってきます。
--Chordana Viewerは、まさにコードを主軸とした解析ソフトなわけですが、ここで定義するコードというのはいったい何なのでしょうか?
南高:特に何か難しい定義をしているわけではありません。コード、テンション、スケール、アボイドなど、和声と旋法の入り混じった音楽の知識体系であると捉えています。
--完全な耳コピ=自動採譜は夢の技術なので、実際の製品にするには、ある程度の割り切りが必要というか、技術達成目標が必要になりますよね?
南高:そのとおりです。そのためChordana Viewerを開発するに当たっては、評価用の曲を決めて適正な正解率を数値目標として、それが実現できるように調整していきました。もっとも正解自体がどこにあるかを定義することも結構難しいことなのです。実際、人が耳コピしても、結果は一様ではありません。コードの切り替わり位置や、テンションの考え方など定義が難しいためです。そこで複数人で評価する形で、正解かどうかを見ていったのです。
無料アプリのChordana Tapにはコード表示はされないが、楽器が弾けない人も演奏する気分を味わえる
--今回の製品はiOS上でのものでしたが、iPhoneやiPadもCPU処理能力が上がったとはいえ、PCの処理能力と比較すれば、まだ低いですよね。もし高速なPCのCPUで処理させると、さらに性能が向上したりするものなのですか?
南高:CPU速度が上がる分、時間軸をより細かく分析したり周波数の精度をより細かく
分析することで、精度・性能が上がる可能性はあります。ただ、アルゴリズムが同じである以上、CPU処理能力だけで劇的に向上するというわけではないですね。
--最後に、Chordana ViewerやChordana Tapを開発する上で苦労された点などあったら教えてください。
南高:ラップやジャズとかは和声部分より自由な音使いが多く苦労しました。なかなか一筋縄ではいかない、という感じですね。一方で、マイナーとsus4の区別が実は難しいことが分かったのは面白かったです。コードとしてはマイナーとsus4はまったく違うものなのに、機械に判断させる場合、マイナーと、sus4での使われる音階がよく似ているために、なかなかわかりにくいんですね。ぜひ、そうした点もチェックしながら、Chordana Viewerを使ってみると面白いかもしれません。なお、今回のバージョンアップで、小節位置の調節機能を追加したのはお客様のご要望に応えたものです。今後もいろいろお客様のご要望にできるかぎり対応させていきたいです。
--ありがとうございました。ぜひ、これからも新しい耳コピ製品の開発期待しております。
【関連記事】
結構使えるiOSで動く耳コピアプリ、Chordana Viewer
楽器が弾けない人もセッションを楽しめるカシオの無料アプリ