500円で自分の声を深層学習させ、自在に音声合成を可能に。19歳大学生社長が開発したCoeFont CLOUDの破壊力

日々、驚くような革新的な進化をしているAIを絡めた音声合成歌声合成の世界ですが、7月28日、また革命的ともいえる力を持った新たなサービスがスタートしました。19歳の大学生社長がスタートさせたCoeFont CLOUDは自分の声をフォントのように登録するとともに、その登録されたCoeFontを利用すれば、誰でも簡単に、そのCoeFontの声で音声合成ができるというサービスです。

これまで音声合成用に声を登録するには何か月もの時間を要し、数百万円~数千万円がかかるといわれていたものが、15~30分の録音で完了し6~7時間待つだけで自動で完成。その価格も500円~1,500円というのですから、トンでもないことが起きているのは間違いありません。東京工業大学に通う、株式会社Yellstonの代表取締役・早川尚吾@pigiipanku)さんによれば、「スタートして2日で1,000近くのCoeFontが登録された」とのことで、その勢いの凄まじさは、さらに加速しているようです。その早川さんに、CoeFont CLOUDがどんなもので、何を目指しているのかなど、実際にお会いしてインタビューしてみたので、紹介してみましょう。

CoeFont CLOUDのサービスをスタートさせた19歳の大学2年生社長、早川尚吾さん

5月に書いた「19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoe Font STUDIOが目指すこれからの世界」という記事で、CoeFont CLOUDについて、その概要を紹介していましたが、そこから2か月で正式リリースとなりました。

すでに膨大な数のCoeFontが登録されており、それぞれどんな声で喋るのか、誰でも簡単に試すことができるので、実際にその声を聴いた方も多いと思います。たとえばお天気キャスターの森田正光さんのCoeFontやプロ野球解説者の藪恵壹さんのCoeFont、気象予報士の尾崎朋美さんのCoeFontなどが公式のCoeFontとして公開されているほか、何百人にもおよぶ膨大なCoeFontが公開されているので、実際にどんな声で喋るのかサンプルを聴いてみると面白いですよ。

お天気キャスターの森田正光さんをはじめとする著名人も含めたCoeFontが揃っている

そして自分のCoeFontを作ることも簡単にできます。そのCoeFontにはハイエンド、ミドルレンジ、ローエンドの3種類があり、どれを選ぶかによって、その声質やリアルさなどが変わってくるようです。

CoeFont CLOUDでCoeFontを作る際、3つの選択肢がある

私も試しに一番安い500円のローエンドを選んで登録してみました。このローエンドの登録においては、「パリのファッションショーに出るという、大きな目標がある。」といった短い文章を100本を読み上げて録音していく作業が必要となります。録音といっても、パソコンとマイクがあれば誰でも簡単に行え、効率よく録音していけば約15分ほどで完了します。

ローエンドでは、こんな短い文章を100本読んで、録音していく

この際、できるだけキレイに録音するために、オーディオインターフェイスとコンデンサマイクを用意するのがお勧め。画面の指示にしたがって1文ずつ読み上げて録音していき、間違ったら再度その文だけを録音しなおせばOK。難しい言い回しの文などはなかったように思いますが、感じにはフリガナも振ってあるので、その点でも安心ですね。

録音中、録音レベルを示す、こうした波形がリアルタイムに表示される

ローエンドの場合、録音終了後、CoeFontが仕上がるまで6~7時間かかるとのことですが、実際に試してみたところ、4時間ほどで完成。プロフィールなどを入力し、公開設定したものがこちら。

100本録音したのち、4時間ほど待ったら、CoeFontが完成。上記をクリックすると、実際に私のCoeFontのサンプルが聴ける

喋らせてみると、これ、完全に自分の声ですね!ビックリです。確かにローエンドだけあって、一部、カスれている部分もあるようですが、これだけのクオリティーが出るとは本当に驚きです。

さて、このCoeFont CLOUDは、どうやって作っていて、どこを目指しているのか、早川さんにいろいろと話しを聞いてみました。

 

--先日のCoeFont STUDIOのインタビューのときはZoomを使ってのオンラインだったので、はじめまして、ですね。
早川:ちょっと遅れてしまって、ごめんなさい。今日、授業が思ったより長引いてしまって、急いで来ました。普段はオンライン授業がほとんどなのですが、今日はたまたま対面の授業の日だったんです。

大学の授業を終えて、オフィスに出社した、早川さん

--大学生と社長の二束のわらじはなかなか大変そうですね。まずはCoeFont CLOUDの無事リリース、おめでとうございます。CoeFontに登録している人、どんどん増えているようですね。
早川:まだ、すべての状況を把握できているわけではないのですが、一昨日にリリースして(7月30日現在)1,000近くのCoeFontが作られています。文章を読む上で多少のコツはあるのですが、誰でも簡単に登録することができるので、ぜひ多くの方に登録していただきたいですね。

--その読む際のコツとは、どんなことなのでしょうか?
早川:ローエンドだと100文、ハイエンドだと700文を読んでいくのですが、できる限り同じように読み上げ続けることが重要なんです。標準語なら標準語、関西弁なら関西弁のアクセントをキープし、スピードもできるだけ一定に読んでいきます。途中で休憩をはさんだり、場合によっては2日、3日に分けて録音していくことも可能ではありますが、声質を一定にするのが重要です。プロの声優さんだと、その辺のクオリティーコントロールをしっかりできますが、一般の人だと、どうしても日を分けると、変わってしまいます。そこをうまく保てるのかによって、仕上がりも変わってしまいます。

CoeFont CLOUDのトップページ画面

--キレイに録るために、オーディオインターフェイス、コンデンサマイクを用意し、スタジオなどを使うほうがいいですかね?
早川:ノートパソコンの内蔵マイクなどではなく、コンデンサマイクで録音するとキレイに録れますね。なるべく静かなところで録るのがいいのですが、特にスタジオなどを使う必要はなく、普通の部屋で大丈夫です。ファンなどの環境音もシステムでチェックして消していますから、あまりその辺を神経質に考えていただかなくても大丈夫です。

--CoeFontの一覧を見てみると、同じ人がいくつかのキャラクターを演じて登録している例もあるみたいですね。
早川:そうですね。このようなキャラクターを演じる場合、最初から最後までキャラクタになりきって録音していく必要があるのですが、プロの声優さんは、こうした点がすごいですね。激しい口調のキャラクターを演じるような場合、そのテンションで最初から最後まで通すのがポイントです。

CoeFont CLOUDでのビジネス概要を説明してくれる早川さん

--前回の記事で、500円でCoeFontを作る、という話を書いたところ、何人かの読者から「それでは大赤字だ」、「CoeFontを多く作るために莫大な投資をするということなのか?」といった質問も来ていました。
早川:おっしゃるとおり赤字ですね(笑)。録音した声をディープラーニングさせるのですが、この際GPUを使うこともあり、サーバー代が普通の計算よりも高いんですよね。ただ、ここで大きな赤字になってはマズイので、できる限り学習量を減らしつつ、それでも声のクオリティーを下げないようにしたのが、私たちの工夫です。少なくても500円とか1,500円をもらって黒字になるものではないのですが、ほぼトントンになるようにしていますよ。

--ハイエンド、ミドルレンジ、ローエンドと3種類ありますが、これらで何がどう違うのですか?
早川:読んでもらう文章の量が異なるのと、それに伴う学習時間が違うのです。ハイエンドの場合700文を読んでもらい、それなりの時間をかけてディープラーニングさせています。国内にあるさまざまな音声合成において、このハイエンドは国内において現在、最高レベルにあると自負しています。実際、これ以上文章を増やしたり、学習時間をさらに2倍、3倍にしても変わらないことが私たちの研究からも分かっています。

各種設定を終えた後、公開した結果、新着のCoeFontとして表示された

--会社としての事業なので、当然どうやって利益を出していくかが重要なポイントだと思いますが、そのビジネス構造についても教えてください。まずは、CoeFontを喋らせる上で、ポイント(pt)が必要になっていますよね。これはどういう仕組みなんですか?
早川:CoeFontのアイコンの下に5ptとか10ptとあるのが、音声合成した喋らせる1文字あたりの価格です。1ptは0.01円となっているので、5ptであれば、100文字喋らせて5円という計算です。喋らせる=音声作品を作成するためには、あらかじめプランに加入してもらう必要があり、Liteプランだと月額500円(最初の30日間は無料体験できる)で50,000pt、Businessプランだと月額3万円で3,000,000pt、さらにユーザーのユースケースに応じて柔軟に対応できるEnterpriseプランも用意しており、Enterpriseプランであれば原則的に使い放題となります。

--3つのプランの違いは、月間で利用可能なptが違うだけですか?
早川:それ以外にもさまざまな違いがあります。まず、有名声優さんや、アナウンサーのCoeFontを使うにはBusinessプラン以上への加入が前提となります。またLiteプランの場合、作品を公開する場合に“Voiced by https://CoeFont.CLOUD”と記載することが必須なのですが、Businessプラン以上の場合は、その義務がありません。さらに、Enterpriseプランであれば、応答時間を通常の約1/3で使用できるなど高速レスポンスを実現させたり、カスタマーサービスなども行っていきます。

Lite、Business、Enterpriseの3つのプランが用意されている

--いろいろ考えられたビジネスになっているんですね。実際Enterpriseプランなど、参加してくる企業はありそうですか?
早川:事前にいろいろとアプローチしていたこともあり、大手広告代理店や放送局などからも使いたいというお話をいただいており、それに合わせ、しっかりとしたカスタマーサービスができるようコールセンターなどを急いで整えているところです。たとえば放送局の場合、深夜の緊急ニュースなどではディレクターが喋ったりしているのが実情です。本来であればアナウンサーを常時配置しておきたいところですが、コンプライアンスの問題などもあり、そう簡単にはいきません。そこで、アナウンサーのCoeFontを登録しておき、その声で喋らせれば問題も解決するので、使いたいというようなお話をいただいています。海外のニュースを同時通訳するような場合にも効果がありそうです。

プランによって、利用可能な機能が変わってくる

--確かに1,500円でアナウンサーのCoeFontが作れ、いつでもその声でリアルタイムに喋らせることができるなら、放送局としても安くて便利なシステムというわけですね。
早川:放送局内で使うというだけでなく、活用の範囲も大きく広がると思います。これまでもフリーのアナウンサーやナレーターに朗読を依頼する……ということは多くあったようですが、頼むのが大変だし、実際に頼んで、モノが出来上がるまでに時間がかかりすぎるという問題もありました。しかも出来上がってきたものを聴いたらアクセントがおかしかったとか、ちょっと修正したい…となるとリテイクが必要ななり、そこでも時間やコストが発生する。でもCoeFontなら簡単に喋らせることができ、リテイクもし放題です。

--アナウンサーやナレーター、声優さんの仕事がなくならないか、ちょっと心配な面もありますが、使う側からすればとっても便利ですね。
早川:アナウンサーや声優さんも、自分の声が使われれば、それが課金され、収入につながります。もちろん、私たちも企業なので、ここから収益を上げるのですが、たとえば1文字あたり10ptと設定した場合、1000文字使用されると42円の収入が入るようになっています。そして自分の銀行口座を登録していただくことにより、入った収入をすぐに振り込むことが可能になっているので、一度CoeFontを登録さえしていただければ、自動で稼ぐことも可能になるわけです。

公開にするか非公開にするか、また1文字あたりいくらにするかなどの設定ができる

--ここで、ぜひ伺いたいのが商用利用についてです。既存の音声合成システムだと、商用で利用する場合、それなりの金額が発生する場合が多かったと思いますが、そこはどうなっていますか?
早川:個人的には、そこが面白くないと思っていました。ちょっと何か仕事に使うだけでも許諾が必要で10万円とかを支払わなくちゃいけない。それだとなかなか簡単には使えません。CoeFontにおいては、CoeFontを作った人が利用許諾を必要にするか、不要でいいかを設定できるようになっており、不要として公開した場合は、自由に使っていい形になっています。利用許諾が必要とした場合は個別に交渉してもらう形ですね。ただし、CoeFont CLOUDの利用規約としてしばっているのは、差別用語やエロ用語の禁止です。これについては入力されると自動的に弾かれるようにしています。ちなみにLiteプランであっても、APIは利用可能なので、ご自身のWebサイトに組み込んで利用いただくことなども可能になっています。

--確かに、声優さんだったり、アナウンサーだったり、知名度のある人の声が変なところで使用されるのは危険ですから、ある程度のしばりは必要だけど、基本的に自由に使えるというのはユーザーにとっては嬉しいですね。
早川:森田さんとか、藪さんとか、公式マークのついた人は、Businessプラン以上でないと利用申請ができないようになっています。そこがひとつのフィルターにはなっているわけです。

オフィスに飾られたYellstonロゴと早川さん

--アイディア次第でいろいろな活用法がありそうですね。このCoeFont CLOUDのリリースで、ビジネスの立ち上げがスタートしたのだと思いますが、今後もまだ何か計画しているのですか?
早川:まずは、このCoeFont CLOUDをより多く方に使ってもらい、多くのCoeFontができれば…と思っています。そして、やりたいことは、山ほどあるんです。先日、声帯切除予定の癌患者の方が手術前にCoeFontを作成しています。これによって切除後もCoeFontを使うことで、ご自身の声で会話できるようなるのです。このような、声のなかったところに声を届けるというサービスはぜひ推進していきたいですね。ほかにもさまざまな利用例がでてきそうですが、これまでなかった面白いサービスもいろいろ計画中です。私たちの強みは、開発力の速さだと思っています。高校時代からの友達や大学のつながりなど、同年代のメンバーでネットワーク的に開発・研究を進めていて、すでに研究レベルでは実現できた面白いこともいくつかあるんです。ディープラーニングのすごいのは、よくわからないけれど、試してみたらうまくできてしまう、ということもあるんです。アイディア次第でいろいろな展開ができると確信しているので、これからもどんどん攻めていこうと思っています。ぜひ、次の動きを楽しみにしていてください。

--ぜひ、この先の展開、期待しています。ありがとうございました。

【関連情報】
CoeFont CLOUDサイト
CoeFont STUDIOサイト

Commentsこの記事についたコメント

1件のコメント
  • 古川 純一 (ふるかわ じゅんいち)

    この技術は未完成、まだまだ発展させることができますが、発展できることを彼らは気づいていません。

     音声の再生にテキスト文章自体やテキスト文章の前後の文脈などから、喋らしたい音声の喜怒哀楽情報を自動生成するためアニメや映画など迫力のある音声を再現することが困難です。
     私の応用特許(特許申請中)を利用することで、喜怒哀楽情報を付加することで「人が聴いても違和感が少ない特定話者の声の特徴データを乗せた音声合成」になります。
     さらに、日本のアニメを海外で放送する場合に、日本語(母国語)しか喋れない声優さんだとしても、海外の母国語をネイティブに喋ることができるようになります。(世界特許申請予定)

     ご興味があればメールしてください。

    以上、よろしくお願いいたします。
    ——————
    氏名 古川 純一 (ふるかわ じゅんいち)
    役職 代表取締役
    社 名 ジャスト株式会社

    2021年8月30日 2:48 PM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です