タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた

ソフトバンクのロボット、Pepperマツコロイドの声として音声合成エンジンが採用されたり、NTTドコモの音声対話アプリ「しゃべってキャラ」(現在のmy daiz)で採用されるとともに、AHSが発売してきた「VOICEROID」やソースネクストから販売している「かんたん!AITalk」などの音声読み上げソフトを開発してきたのが、2018年にマザーズへの上場を果たした日本の音声合成専門の技術開発会社、株式会社エーアイです。先日「音声合成メーカー自らが個人向けに発売したPCソフト、A.I.VOICEを試してみた」という記事を書いた際、同社にご挨拶で伺ったのですが、お会いした副社長である、廣飯伸一(ひろいしんいち)さんが、私がリクルートで会社員をしていたときの同期・同僚であったことが発覚!

世間は狭いというか、最近こうした偶然のようなことがよくあるのですが、廣飯さんとお会いしたのも20年ぶりくらい。その時は、ご挨拶程度で終わったので、改めて時間をもらい、エーアイがどのように成長してきたのか、なぜ音声合成技術にこだわり、音声合成だけで上場を果たせたのか、また、これまでB to Bのビジネス展開をしてきたのに、なぜこのタイミングでB to Cの製品である「A.I.VOICE」を自ら展開することになったのか……などインタビューの形での二人同窓会をエーアイの会議室で行ってみたので、その内容を紹介してみたいと思います。

キャラクタの声で喋る技術、「AITalk」はどのように生まれたのか、その背景を伺ってみた

--エーアイさんとは、これまで時々やりとりはさせてもらっていましたが、まさか副社長が廣飯さんだったとはまったく知りませんでした!創業メンバーとして関わっていたのですか?
廣飯:エーアイは2003年、当社代表である吉田が株式会社国際電気通信基礎技術研究所(ATR)からスピンアウトする形で設立した会社です。吉田がATRで音声合成技術に出会ったことから、音声合成は将来必ず世の中の役に立つはずだと確信のもと、設立したのですが、当時の音声合成の主な用途は電話の自動応答でした。私自身が入ったのは創業の翌年の2004年。リクルートを辞めた後、上司が設立したIT企業にしばらくいたのですが、その上司がエーアイ設立時に監査役として入っており、その縁もあって入ったんですよ。当時は、吉田ともう1名営業メンバーがいるだけでした……。

お話を伺った、株式会社エーアイの取締役副社長、廣飯伸一さん

--ATRというと、国の研究機関というイメージがありますが、そこからのスピンアウトということは、研究開発に特化した技術企業ということなんですか?
廣飯:ATRは株式会社の形ですが、研究者が集まり、国のお金で研究を行うという性格が濃いため、ここでの成果をビジネス展開するのが難しい。一方、吉田はもともと営業畑であり、研究の成果を世の中に広めていく立場にあったのです。それまで音声合成って機械的な音のものでしたが、人の声で合成できるようになってきたので、これはもっと多くのところで使ってもらえるはずだ、と。そこで、ATRの成果物である「Wizerd Voice」をライセンスしてもらい、販売代理から事業をスタートし、その後、少し独自に手を入れた「AIVoice」というものの販売を始めたのです。当時は主に電話の自動応答用として銀行などにご利用頂いてました。従来の機械的な音ではなく、リアルな声で応答することもあり、各段に広がっていきました。

--なんと、その創業当時に「AIVoice」という名称をつけていたんですね。電話の自動応答以外には使われなかったのですか?
廣飯:電話の自動応答だと、ガイダンス内容がある程度決まっているので、作りやすく、高い品質のものが作れました。売れていくのに伴い、いろいろな用途に使いたいというニーズも当然出てきました。たとえば、道路交通情報、愛・地球博 愛知万博のアンドロイド受付ロボット、タクシーの配車システムなどに使用されました。また、当初から「CustomVoice(特定の人の声で合成)」に力を入れていましたので、タカラトミーの「リカちゃんでんわ」、キャラクター音声での携帯電話の着ボイス、あるいは、夏休みイベントで「NARUTO -ナルト-」の声で合成したり……。ただ、当時の音声合成エンジンだと、汎用的な文章を喋らせようとしても、音のつながりが悪く、変なイントネーションになってしまったり……と問題があり、展開が難しかったのです。当時の音声チューニングツール「AIVoice Changer」は、こんな感じで、母音、子音の音素をひとつづつ選択するもので、非常にマニアックなものでした。

音声チューニングツールの「AIVoice Changer」

そんなことをしていた中、某光学機器メーカーが音声合成の分野に参入してきました。自社開発ではなく、海外で開発されたエンジンでしたが、より汎用的な文章を合成できるものでした。まさに当社の競合となったのですが、用途が限定的な内容だと当社の「AIVoice」が圧倒的に強く、自由文だと競合……という構図になりました。

--そんなころから競合が登場して戦ってきたわけですね。
廣飯:そうなると、競合に勝てる自由文を合成できる音声合成エンジンを開発する必要が出てきます。そのため、ATRでの研究経験のある人に当社に入ってもらい、独自の自由文音声合成エンジンの開発をスタートしたのです。1年ほどで作り上げ、2007年から販売を開始しました。それが「AITalk」というエンジンです。これを搭載した音声読み上げソフトが「声の職人」というもの。現在の「A.I.VOICE」の原型ともいえるもので、テキストを入力すれば、すぐに合成することができるようになっていました。また、イントネーションとして必ずしも一発で完璧なものにならないことが多かったので、イントネーション調整機能を設けたことで、簡単に調整できますよ、としたのが大きなポイントでした。当社は、創業当初からB to Bを主軸にすると決めてはいたのですが、音声合成を世の中に拡げるために、2007年にB to Cの展開にチャレンジしたこともありました。「聴学ポータルサイト」というもので、音で学習ができることを狙ったものでした。たとえば、法律などの勉強で、文字を読むのではなく、音で聞けば頭に入りやすいだろう、という発想のもと、音の教材を誰でも自由に作って使えますよ、と展開したのです。考え方は悪くはなかったと思うのですが、やはり音声合成自体がまだまだ広がっていない中では、時期尚早。結局1年ほどで終了させ、それ以降はB to Bに注力する形になったのです

 

現在のA.I.VOICEの原型ともいえる「声の職人」は2007年には登場していた

--なるほど、A.I.VOICEが初のB to C事業なのかと思ったら、そんな昔にもチャレンジはしていたんですね。その後、やはり電話の自動応答に専念していたのですか?
廣飯:電話の自動応答はベースとなる事業として進めていたのですが、2005年に三鷹市さんから「防災の放送で音声合成を使いたい」という案件がたまたま入ってきたのです。例の競合と当社がコンペとなった結果、三鷹市の担当者に、マニアックな「AIVoice Changer」を気に入ってもらえ、採用されたのです。その経験から「防災行政無線で音声合成が使えそうだ」と考え、約1年かけて関東周辺の市町村に営業で回ったのです。その結果、どこも高評価ではあったけれど、自治体が直接音声合成のシステムを購入するわけではなく、あくまでも防災無線メーカーの機材を買うので、そこに入っていないと導入はできない、と一様に言われました。調べてみると、防災のメーカーって、パナソニック、沖電気、日立、日本無線、富士通ゼネラル……と8社くらいしかない。そこでメーカーを回ってみたところ、最初に日本無線に採用され、次に富士通ゼネラル……と各メーカーさんに採用していただいたのです。最初は「AIVoice」からスタートし、徐々に「AITalk」へシフトしました。そして、それらの機材が毎年の入札で全国各地に導入されていき、防災行政無線用途で「AITalk」が広がっていきました。まさにそのタイミングで2009年消防庁の全国瞬時警報システム(Jアラート)の入札があったのです。当然、競合も出てきたのですが、全国の防災無線で採用されている実績などが買われ、「AITalk」が採用されたのです。こうしたこともあり、電話の自動応答につぐ、2つ目の事業の柱として防災分野が確立しました。創業から7年かかりましたね。

--ミサイル発射のニュースで話題に上がるJアラートの音声はAITalkだったんですね!でも技術的にはその後も進化していくわけですよね。
廣飯:電話の分野では競合にかなりやられ、厳しい戦いをしていましたが、防災の柱ができたことで、少し余裕も出てきました。そうした中、当初から力を入れていた「Custom Voice」を安価に作成するということにこだわり、研究開発を進めていました。当然、音質にもこだわりました。一般的に、音声合成の品質を上げるには、コーパスを充実させていく必要がある。つまりたくさんの音声を収録して、辞書を作って、たくさんの音素を入れていく。競合はそこに力をいれていましたが、ウチは違うアプローチをとっていました。少ない収録で高品質の音声合成を実現すると。当時、特定の方の声で合成しようとした場合、一般的には2000~3000万円はかかる状況でした。ところが、ウチの「Custom Voice」は300~500万円程度で作れるようになってきた。そこで入ってきたのが日本ネスレさんのWebプロモーションの案件でした。「ネスカフェゴールドブレンド」ウェブサイト上にて『大沢たかおがユーザーの入力した文章を朗読する』というコンテンツが公開され、ここに「AITalk」が採用されたのです。実際に大沢さんの声を5、6時間収録したものをもとに合成できるようにしたのですが、それが非常に好評だったのです。

--10年くらい前ですよね。確かにネット上でも話題になりました。
廣飯:これが2010年3月の公開でしたが、みなさん同じようなことをプロモーション用として考えるので、いろいろな仕事が舞い込んできました。森本レオさんの声で喋るauの『レオ声♥恋メール』、つぶやきじろうさんの声で喋る『グロンサン つぶやきひろう地蔵』、ダースベーダーの声で喋るNTTドコモの『Who is my boss?』……。軒並みその手の企画で「AITalk」を採用していただいたので、音声合成が世の中に広く浸透していったと思います。ちょうどそんなタイミングで登場したのがAppleのSiriでした。これに対抗するという意味合いもあり、DoCoMoさんが「しゃべってキャラ」というサービスを展開することに。ここに当社の誰の声でも合成できる技術がハマり、採用されました。これに合わせて、2~3年で著名なキャラクターを250種類位は作りましたよ。膨大な音声辞書となるため、携帯端末側にダウンロードして使うというわけにはいかずサーバーで合成する仕組みを作り上げ、サーバー運用も含め当社が担当することに。こうしたことによって、誰の声でも合成できるという世界が花開いたのです。Yahoo!さんの「音声アシスト」にも採用され、音声対話分野が拡がり、防災に続く大きな柱になっていったのです。この「Custom Voice」がAHSさんのVOICEROIDへと続いていったのです。

AHSから発売された最初のVOICEROID、月読アイ

--VOICEROIDはどういう経緯だったんですか?
廣飯:AHSさんから協力してもらえないか、というお話をいただきました。当時、まだコンシューマー向け製品は広まっておらず、そのために新しく辞書を作るとなるとかなりの費用がかかってしまう。そこで、当時すでにあった「こうたろう君」という男の子と「あんずちゃん」という女の子の辞書をそのまま使って製品化したのが「月読ショウタ君」と「月読アイちゃん」ですね。実は、ここで偶然のミスが発生してしまったのです。辞書データには音素辞書と韻律辞書の2種類があるのですが、ショウタ君の韻律辞書に「あんずちゃん」のものが、アイちゃんの韻律辞書に「こうたろう君」のものが入ってしまったのです。もともとの音声は、お姉さんと弟だったのですが、この入れ替えミスの結果、お兄さんと妹のキャラクターにはまったのです。ある意味、現在の「A.I.VOICE」で実現したボイスフュージョン機能を実は行っていたんですね。一方でソースネクストさんからはほぼ同時期に、機能を絞った「かんたん!AITalk」が販売され、それぞれ違った層に浸透していきました。

ソースネクストから発売された「かんたん!AITalk」

--このVOICEROIDが大ヒットになるという予想はしていたのですか?
廣飯:いいえ、まったくです。当時、「どういう人がこんなソフトを使うのだろう?」とよくわかっていませんでした。ソースネクストさんが「かんたん!AITalk」を発売した初年度は、上半期で同社全体のサードパーティーソフトの売れ筋としてナンバーワンを取ったのです。聞いてみると、高年齢のユーザーが多く、例えばお孫さんとかの動画にナレーションを付けるという用途にハマったようでした。一方、VOICEROIDはユーチューブ、ニコニコ動画などへの動画投稿など、また違った世界で売れていき、同様のソフトを提供したいということでヤマハさんの「ギャラ子Talk」、インターネットさんの「音街ウナTalk」、よしもとさんの「ガイノイドトーク」などにも提供してきました。当社は過去の経験からB to Bに絞ることにしていたので、こうしたコンシューマー向け製品は、基本的にOEMという形で出していたのです。そうこうしているうちに、登場したのがロボットの世界です。

声優の小岩井ことりさんがCVを担当した、ガイノイドトークの鳴花ヒメ・ミコト

--ロボットの世界とはどういうことですか?
廣飯:世の中で大きく話題になったのがソフトバンクさんのPepper君です。ソフトバンクさんが音声合成エンジンを探しているということで「AITalk」を採用頂いたのですが、ソフトバンクさんがPepper君を発表する直前までそれがPepper君であるということは教えてもらえませんでした(笑)。その後、マツコロイドが登場するなど、アンドロイド系の案件が次々とでてきました。最近ですと「漱石アンドロイド」、「渋沢栄一アンドロイド」などがあります。そんな感じで創業した2003年から事業的にも順調に推移していき、2018年には上場というところまでたどり着いた形です。

--本当に音声合成一筋で事業展開して、上場までした会社なんですね。さて、ここでお伺いしたいのがA.I.VOICEについてです。これまでのお話で、コンシューマー向けのビジネスは基本的に手を出さないという方針だったのが、なぜ方向転換したのでしょう?その辺の経緯を教えてください。
廣飯:設立当初の企業理念が「音声技術で拓く21 世紀の文化 ~音声技術の応用開発・サービス化を通して、音声情報の新しい文化を創出し、生活文化の向上に貢献する。~」です。21世紀も20年程経過しましたので、上場を機に、現在は「エーアイは音声技術で社会に新しい価値をつくり続けます」に変えました。音声合成に特化した音声合成のリーディングカンパニーとして、一貫しているのは、「音声合成を世の中に広め、新しい文化、価値を創出し、世の中に貢献する」ということです。実はオリンピックに合わせて増加してくる訪日外国人に向けた外国語の音声合成というプロジェクトも動いていたのですが、このコロナ禍の状況もあって、こちらは大きくスピードダウンしました。回復にはもう少し時間がかかりそうですね。その一方で、テレワーク、巣ごもり需要というのが出てきたのです。具体的には、法人向けでいうと、テレワークにともなってオンライン授業、e ラーニングの教材に音声合成を使う用途が増えてきましたので、ここに力をいれているところです。一方、個人でいうと動画投稿などの用途が広がってきていた状況に巣ごもり需要が重なり、音声合成に対するニーズが明らかに大きくなりました。

現在、エーアイが一般向けに発売するA.I.VOICE

--ただ、そうなると、これまでOEMで出してきた製品と競合するというか、乱立した形になる面もありませんか?
廣飯:以前から、ユーザーさんの声として、「VOICEROID」、「音街ウナTalk」、「ガイノイドトーク」など、当社が開発している音声読み上げソフトのエディターを共通化し、ひとつのエディター上で利用できる様になると便利なのに……。という声をいただいていました。そこで、社内でかなり議論をしまして、開発元である当社が、共通のエディターを提供し、それぞれの販売先からは音声辞書を提供するようになれば、ユーザーの利便性が向上するのではないかという話になり、「A.I.VOICE」が誕生したのです。「琴葉 茜・葵」「伊織 弓鶴」は、当社のキャラクターなので、当社からは、「A.I.VOICE 琴葉 茜・葵」「A.I.VOICE 伊織 弓鶴」を出そうと。エディターの共通化ができて、同じエディター上で使用できるキャラが増えると、それぞれの韻律を入れ替えすることにより、様々な音声を作成できるようになり、より拡がるであろうと……。これが、ボイスフュージョン機能です。我々が目指しているのは、「VOICEROID」ユーザーも、「ガイノイド」ユーザーも、「A.I.VOICE」ユーザーも、さらには、今後、新たにOEM製品が出た場合には、そのユーザーも、同じエディター上で、製品を跨って音声辞書を利用できる世界を実現し、ユーザーの利便性を向上し、音声読み上げソフトの市場を活性化したいということなんです。ちなみに、クラウドファンディングが成立し、現在準備を進めている「足立レイ 読み上げソフト レプリボイス」では、エディターの共通化が実現しました。今後も、このような使い方が増えればいいなと考えています。「VOICEROID」とは、まだ実現できていないのですが、先日発表させていただいた通り、「VOICEROID」と「A.I.VOICE」のユーザー辞書の相互乗り入れはできるようになりました。

--ユーザー的には便利になるとは思いますが、これはOEMやライセンス提供に関する方針変更があったということなのですか?
廣飯:誤解されている方もいるかもしれませんが、「VOICEROID」を始め、当社のエンジンを活用いただけるパートナーへのOEM提供、あるいは当社エンジンを活用いただけるお客さんへライセンス提供するということに関しては、特に方針を変更したわけではありません。OEM製品で提供を希望されるところにはOEMで提供し、キャラクターは持たれているけど、ソフトの販売はお任せしたいという場合には、「A.I.VOICE」として提供し、全体として、たくさんのキャラクター音声を同じエディター上で、韻律を入れ替えしながら使用できる世界を目指してます。これまでもそうなのですが、技術者だけではよい製品を作れませんので、ユーザーの声を聞いて、ユーザーが欲しいものを提供していくというスタンスも変っておりません。どんどん、ご意見、ご要望を頂けるとありがたいです。

--ところで、最近はAIを用いたディープラーニングによって、より人間的な声、喋り方にするという流れがあると思いますが、ここに対してはどのように見ていますか?
廣飯:これまでお話してきた通り、誰の声でも合成できる「Custom Voice」を安価に提供するというのが当社にとって創業当初からのテーマであり、それを実現させてきました。収録した音素をどう接続するとキレイになるかを研究してきた結果、製品にも反映させてきました。「A.I.VOICE」のように感情表現ができるようにするためには、感情ごとに辞書を作る必要があるのですが、これを行うとコスト高になるし、容量も増えてしまいます。でも、それを回避するために収録を減らすと音質に影響が出てしまうのです。そこでうまくディープラーニングを活用しようということで、3年くらい前から名古屋大学の戸田智基教授との共同研究も進めており、着実に成果もでてきているので、ここはさらに推し進めていく考えです。また、今後、音声対話が普及すると思いますので、「対話」に適した音声合成エンジンというテーマも設定し、4月より名古屋工業大学の徳田先生との共同研究も開始しました。ぜひ、これからも音声合成の技術進化を見ていってください。

廣飯さん(左)と株式会社エーアイの写真のみなさん

--今後がますます楽しみですね。ありがとうございました。

【関連情報】
A.I.VOICEサイト
A.I.VOICE 琴葉 茜・葵 製品情報
A.I.VOICE 伊織 弓鶴 製品情報

【体験版ダウンロード】
A.I.VOICE 琴葉 茜・葵 体験版
A.I.VOICE 伊織 弓鶴 体験版

【価格チェック&購入】
◎Amazon ⇒ A.I.VOICE 琴葉 茜・葵 (パッケージ版) , A.I.VOICE 伊織 弓鶴(パッケージ版)
◎Official Shop ⇒ A.I.VOICE 琴葉 茜・葵 (パッケージ版) , A.I.VOICE 伊織 弓鶴(パッケージ版)
◎Amazon ⇒ A.I.VOICE 琴葉 茜・葵 (ダウンロード版) , A.I.VOICE 伊織 弓鶴(ダウンロード版)
◎VECTOR ⇒ A.I.VOICE 琴葉 茜・葵 (ダウンロード版) , A.I.VOICE 伊織 弓鶴(ダウンロード版)
◎DLsite ⇒ A.I.VOICE 琴葉 茜・葵 (ダウンロード版) , A.I.VOICE 伊織 弓鶴(ダウンロード版)