19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界

4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO（コエ・フォント・スタジオ）は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。

このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先日、このCoeFont STUDIOを立ち上げた早川さんにオンラインでインタビューすることができたので、CoeFont STUDIOが生まれた背景や、今後のサービス展開などについて、いろいろ伺ってみました。

4月23日、無料で使える音声合成サービス、CoeFont STUDIOがスタートした

自分の声が嫌だったのがCoeFont STUDIOスタートのキッカケ
世界中で広く使われるArialフォントのような存在にしたい
500円で自分の声をフォント化し、提供できるサービスCoeFont CLOUD
1時間の朗読データを6時間のディープラニングでCoeFontに

自分の声が嫌だったのがCoeFont STUDIOスタートのキッカケ

－－CoeFont STUDIOの突然の登場に驚きました。かなり多くの人が使い始めているようですね。
早川：4月23日にサービスをスタートさせたところ、Twitterなどを通じて拡散し、25日には累計ユーザー数が6万人を超えました。登録しなくても30文字だけは誰でも使うことができ、登録すれば無料で無限に使うことができます。Twitterなどで検索すると、いっぱいの方が使ってくれており、二次創作などもたくさん登場しているのは僕自身も驚きました。Live2Dなどを使ってキャラクタを動かしながら、そこにCoeFont STUDIOによる音声を付けた動画も数多く登場しています。改めて日本は面白いなと感じているところです。

CoeFont STUDIOを立ち上げた株式会社Yellston代表取締役社長の早川尚吾さん

－－そもそも早川さんがCoeFont STUDIOを立ち上げたキッカケや経緯を、教えていただけますか？
早川：高校のころからプログラミングなどをやっていましたが、あるときホリエモンの講演会に参加したのです。その中で質問の機会が何度かあったのですが、誰も手を上げないので、僕が何度か質問をしていました。その中で、「今後、面白いと思う技術はありますか？」と聞いたら「ディープラーニング。暇ならやれば？」とおっしゃっていたんです。その後調べてみると、スタンフォード大学の授業をインターネットで受けることができることを知り、勉強を始めたのです。AIの会社でインターンなどもしながら、少しずつディープラーニングの技術を身に着けていきました。

－－ディープラーニング自体は、さまざまな分野で活用できる技術だと思いますが、なぜそれを音声合成に？
早川：僕はもともとゲームが大好きで、友達としゃべりながらゲームをすることが多くあります。それを録画したりしているのですが、録画を見返す際、自分の声がすごく嫌。声をイケボとかカワイイ声にできたら面白いだろうな…と思っていたのです。だから、ディープラニングを応用できればという発想は当時から持っていました。ただ、2017年、2018年ごろの技術だと実用的ではありませんでした。しかし技術が進化し、昨年くらいから使えるような代物になってきたんです。これ、面白いじゃん、昔からの野望が実現できるのでは……とワクワクしながら取り組んだところ、結構使えるものができちゃった、というのが実際のところです。自分の声をリアルタイム変換するボイスチェンッジャーではないけれど、結構いろいろ使えるのではないか、と。自分の声が好きじゃないという人は多いですし、実況とか、解説動画とか、ちょっとした動画に声を付けるのに、自分の声が嫌で躊躇している人は多いと思うのです。かといって、ナレーターにお願いしたら高いですから、こんなサービスが展開できればと考えました。

ブラウザ上でテキストを入力すれば、すぐにしゃべってくれ、スピードや声の高さの調整も可能

世界中で広く使われるArialフォントのような存在にしたい

－－CoeFont STUDIOというネーミングもちょっと気になります。
早川：僕自身、字が汚いんですよ。でもパソコンで書けばキレイだし、フォントを選べば自由にさまざまな書体で書くことができます。それと同じように声をフォントにように扱えたら面白いのでは、という発想で、CoeFontとしたんです。スティーブ・ジョブズの話として、コンピュータ上でさまざまなフォントの文字を扱えるようになった結果、出版物が10倍になった、ということを聞きました。もし手軽に声のフォントが利用できるようになったら、自分の声を使いたくなかった人が制作に利用するようになり、ビデオなどのコンテンツが大きく増えるようになるのかも…と思いました。

－－現在、2つのキャラクタが利用でき、どちらも無料で使えるんですよね。
早川：はい、Allial（アリアル）とMillial（ミリアル）という2つを無料でご利用いただけます。ぜひ、多くの方にどんどん利用していただけたらと思っています。Google FontsやWindowsやMacのフォントでも、最初にArialというのが出てくるじゃないですか。それをもじって、アリアルとしたんです。そのくらい声のフォントとして活用されるものになってほしいな、と。最初にリリースしたArialの声はベータ版であり、あと数日で声の質が5倍になる予定です（※インタビューは5月2日に行っています）。今後もこの2つについては、ずっと無料で使えるようにしていきます。

AllialとMillialの2つのキャラクタを無料で利用できる

500円で自分の声をフォント化し、提供できるサービスCoeFont CLOUD

－－さて、Yellstonは株式会社ということで、今後ビジネスとしての展開を視野に入れているのだと思いますが、どのようなことを考えているのでしょうか？
早川：近いうちにCoeFont CLOUDという有料のサービスを立ち上げる予定です。これは、500円支払うと、自分の声をCoeFontにできるというものです。もちろん自分自身の声でなくても誰かの声でもOKです。こちらから提供する文章、約1時間分を読んで録音してもらい、それをアップロードすると、ディープラーニングを掛けてCoeFont化するのです。すでにいくつかの声優事務所と話しを進めているところです。CoeFont化したものは多くの方々が利用できるように公開できるようにするとともに、それを有償で利用すると、声優さんなどへ利益が行くサービスとしていく予定です。もちろん、各声優さん、声優事務所さんによって条件は異なると思うので、こちらでテンプレートを用意した上で、値段や使用条件など選択してもらい、公開していければと考えています。

－－それは画期的なサービスになる可能性がありますね。
早川：たとえば、結婚式のナレーションにアナウンサーの声を使いたい人などは多くいると思いますが、CoeFont CLOUDを使えば、それを簡単に実現することが可能になります。一方でアナウンサーの立場からすると、いちいち一般人の要望に応じてナレーションを行うのは面倒だし、数が多ければこなすこともできないと思います。でも自分の声をCoeFont化しておけば、誰でも簡単に利用できるようになり、利用してもらえれば、それが自動的に収益につながっていくのであれば、双方にとってメリットになると思うのです。

双子の姉という設定のキャラクタ、アリアル

－－CoeFont化するための朗読データの収録はどのようにするのでしょうか？
早川：やはりプロが商品化していくのであれば、しっかりしたレコーディングシステムとコンデンサマイクを使って収録していくのがベストです。ただ、それだと一般の人に広がらないと思うので、スマホアプリなどを作り、スマホでのレコーディングでCoeFontにすることができるようにしたいと考えています。エアコンの音など、雑音がある環境で録音すると、どうしても音質が落ちてしまいますが、スマホであっても、静かなところでしっかり録音すれば、結構いい音になることは確認できています。

－－利用用途はいろいろとありそうですね。
早川：我々が考えていた以上にいろいろな利用法がありそうで、CoeFont STUDIO公開後、いろいろなお話をいただいています。たとえばデジタル広告に使いたい、ロボット/アンドロイドに搭載してしゃべらせたい、採用広告VTRの中で利用したい、小説の読み上げに使ってオーディオブックにしたい……などなど。また野球選手のヒーローインタビューに利用したいという話もありました（笑）。ホームランを打った後に記者がコメントをもらって読み上げることがあるけれど、それを本人のCoeFontを使えば、よりリアリティーが出るのではないか、と。そうしたニーズにも応じられるように、CoeFontをAPIにして、システムに組み込めるようにするといったことも検討しています。

双子の妹という設定のミリアル

1時間の朗読データを6時間のディープラニングでCoeFontに

－－500円で1時間の朗読、録音を行い、それをアップロードするのはいいとして、それをディープラーニングしてCoeFont化するのには、かなりの時間がかかるのですよね？
早川：だいたい1時間のデータを登録していただいたら、その後6時間程度のディープラニングでCoeFontができちゃいます。これを使ってどんどんCoeFontを増やしていけるといいなと思っています。

－－かなり面白そうで、会社としても発展していきそうですね。ところで、早川さん、いま大学2年生とのことですが、会社と大学、両立はできるのですか？
早川：ラッキーなことに、奇跡的にというか、今はリモート授業が中心となっています。だから僕からするとNetflixを見る感覚で大学の授業を受けられるから、今のところは問題なく行けそうです。ただ、今後対面の授業が中心になると、両立は難しくなるかもしれません。

株式会社Yellstonの案内には早川さんのほか、東工大の井上中順助教の名前もある

－－株式会社Yellstonの会社案内を見ると、早川さんと、東工大の助教が特別技術顧問として入っていますが、メンバー的にはお二人なんですか？
早川：さすがに、そんなことは無理なので、10人程度のメンバーで運営しています。高校時代の友達を中心に、プログラミングでの友人など、そういうコネクションを通じてメンバーを集めています。UIやUXといったところをお願いした人も含めればもっと多くの人数となります。特別技術顧問としてはいっていただいている井上先生は今、教えてもらっている先生というわけではないんです。高校が東工大付属の高校だったのですが、その当時、高校に教えに来てくれていた先生で、その中で仲良くなったんです。会社にしようという話をしたら、一緒にまぜてくれ、という話になり、顧問をお願いしたんですよ(笑)。

－－最後にもう一度、CoeFont STUDIOについてですが、今後またキャラクタが増えていく可能性はありますか？またその場合も無料なのでしょうか？そして、アリアルとミリアルの声は誰の声なのか教えてもらえますか？
早川：現在の2つのキャラクタは今後も無料で使われていくことは間違いないですが、さらに増やすかどうかなどは未定です。また、アリアルとミリアルは、まもなくホームページ上にクレジットが追加されるので、そこで誰の声なのかもわかるようになる予定です。ぜひ、多くの方に使っていただければと思います。

－－ありがとうございました。

【関連情報】
CoeFont STUDIOサイト
 株式会社Yellstonサイト

通りすがりより:

2021年5月8日 9:56 PM

やってることはすごく面白いと思うんだけど、
イラストがとにかくどれもデッサン狂ってる。
素人のオタクが趣味で描いたような絵。
このひどい絵だけはなんとかするべきだと思う。

返信
この箸食べるべからずより:

2021年5月9日 7:47 AM

イラストどーのこーの言ってるヤツ。オマエが描いてやれ。本質的でないだろ。

返信
Toshio Imao より:

2021年5月14日 2:21 PM

先日の、YouTube DTMステーションも拝見しました、声のフォント化は面白いアイデアだと思いました。

しかし、実際の喋りとは全く違います（だから高額を払ってまでプロの喋り手をお願いするのですが … ）さて、はたして実名で声を提供してくれるでしょうか？　身内のプロのアナウンサーは合成ではなく、実アナウンスが命だといっています。ディープラーニングでは限界がありますからね。

今も実在するか不明ですが、与えられた原稿を録音して提供することで要望が生じたら声の提供者にも利益がでるというビジネスモデルでした。これのフォント版に成らなければ良いと思っています。単に声（フォント）が集まっているだけではない魅力的を提供できれば幸いです。

返信