• Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る

株式会社インターネットが9月16日、約7年ぶりとなるMegpoidの新製品、A.I.VOICE GUMIの販売を開始しました。価格はパッケージ版が16,280円(税込)、ダウンロード版が12,980円(税込)で、既存のMegpoid製品やAbilityやSinger Song Writer Liteなどインターネット社製品をお持ちの方であれば、同社オンラインサポートセンターからの優待販売も行われています。今回発売されたのは、株式会社エーアイが開発するA.I.VOICEをベースとした製品で、テキストを入力すればGUMIの声で流暢に喋ってくれる音声合成ソフトです。

A.I.VOICE GUMIは、通常の音声のほか、喜び、怒り、悲しみという3つの感情表現を持っているのも特徴です。また、エーアイが販売する結月ゆかりや紲星あかり、琴葉茜・葵などのA.I.VOICE製品を持っている人であれば、それらと会話をするような形で利用することができるほか、「声質はGUMIだけど、喋り方は琴葉茜」といった合成を実現するボイスフュージョン機能も利用することが可能となっています。なぜMegpoidの新製品がこのタイミングで登場することになったのか、またなぜA.I.VOICEを採用したのかなど、気になることもいっぱいあったので、インターネットの社長、村上昇さんにオンラインインタビューの形でいろいろ伺ってみました。

9月16日A.I.VOICE GUMIがインターネットから発売された


すでにご覧になった方も多いと思いますが、インターネットでは、その新しいA.I.VOICE GUMIの喋り声をYouTubeで公開しているので、まずはこちらをご覧ください。

どうですか?確かにあのGUMIが喋ってますよね。しかも、喜んだ声や悲しそうな声、怒った声なども出せるので、GUMIの表現範囲が大きく向上していることを感じられると思います。喋るソフトとしては、だいぶ以前にMegpoid Talkというものが出ていたので、実際に使ったことのある方もいると思いますが、それと比較してもずいぶんと滑らかに、流暢になっていることを感じられたのではないでしょうか?しかも感情表現も付けられるようになっているので、大きく進化していることを感じられたと思います。

A.I.VOICEで動作する製品となっており琴葉茜・葵や結月ゆかりなどと一緒に使うことも可能

使い方は非常に簡単であり、ほかのA.I.VOICEと同様。日本語をそのまま入力すればいいだけ。たとえばWebなどからテキストをコピー&ペーストで入力するだけで、あの喋り声が得られるのです。

デフォルトでは感情表現は0となっていますが、喜び、怒り、悲しみの3つのパラメータのフェーダーを動かして調整することで、先ほどのビデオのようなさまざまな喋り方ができるようになるわけです。

喜び、怒り、悲しみの3つの感情パラメーターを利用できるのが大きな特徴

インターネットのA.I.VOICE GUMIの製品紹介ページには、ブラウザ上でGUMIに喋らせる機能が搭載されているので、ぜひ試してみると面白いですよ。その3つの感情パラメーターのほかにも、速度、ピッチ、抑揚という3つのパラメータもあるので、これらを動かすことで、喋り方が変わってくるのをすぐに確認できます。

A.I.VOICE GUMIの製品紹介ページ上で実際に喋らせて試すことができる

なお、製品の中には、A.I.VOICEのほかに、A.I.VOICEでは表現できない声として60種類のボイスマテリアル、それにイラストが収録されています。その60種類のボイスマテリアルの中身は以下の通りです。

ファイル名 音声 ファイル名 音声 ファイル名 音声
11.wav ためいき1 73.wav むせる3 131.wav マズいことに気づく1
12.wav ためいき2 81.wav 鼻をすする1 132.wav マズいことに気づく2
13.wav ためいき3 82.wav 鼻をすする2 133.wav マズいことに気づく3
31.wav ためいき4 91.wav くしゃみ1 141.wav 吹く1
32.wav ためいき5 92.wav くしゃみ2 142.wav 吹く2
33.wav ためいき6 93.wav くしゃみ3 143.wav 吹く3
21.wav 咳払い1 101.wav 息をのむ1 151.wav はぁー1
22.wav 咳払い2 102.wav 息をのむ2 152.wav はぁー2
23.wav 咳払い3 103.wav 息をのむ3 153.wav はぁー3
41.wav 改まった咳払い1 201.wav 息をのむ4 161.wav 舌打ち1
42.wav 改まった咳払い2 202.wav 息をのむ5 162.wav 舌打ち2
43.wav 改まった咳払い3 203.wav 息をのむ6 163.wav 舌打ち3
51.wav あくび1 111.wav 気づく1 171.wav 慌てる1
52.wav あくび2 112.wav 気づく2 172.wav 慌てる2
53.wav あくび3 113.wav 気づく3 181.wav 含み笑い1
61.wav 伸び1 114.wav 気づく4 182.wav 含み笑い2
62.wav 伸び2 115.wav 気づく5 183.wav 含み笑い3
63.wav 伸び3 121.wav シー1 191.wav 笑い1
71.wav むせる1 122.wav シー2 192.wav 笑い2
72.wav むせる2 123.wav シー3 193.wav 笑い3

そんなA.I.VOICE GUMIが誕生した背景などについて、インターネットの社長、村上昇さんにいろいろと伺ってみたのが、以下のインタビュー記事です。

株式会社インターネット 代表取締役 村上昇さんインタビュー

--Megpoid製品、だいぶ久しぶりになりますが、どうしてこのタイミングでの登場となったのですか?
村上:昨年の秋ごろから、そろそろ出したいなと検討していました。喋りも、歌唱もどちらも進めたいと考えていました。ただ、昨今の技術進化などからさまざまなメーカーが参入し、エンジンも複数あるから、どれにしようか……と思って考えていたのです。そうした中、今年1月にエーアイさんから具体的な提案をいただいたんです。技術的な背景から、実際の工程なども含め、細かく話を詰めていくなか、これがよさそう、となったのです。

株式会社インターネットの代表取締役、村上昇さんにオンラインミーティングの形でインタビューした

--トークもソングもとなると、CeVIO AIやSynthesizer V&voicepeakのほうが、スマートな気もしますが……。
村上:もちろん、それぞれ検討したのですが、まずは歌唱の前に喋りから作ろうと考えるようになり、その際、組み合わせについてはいったん考えずにフラットに見ていこうと検討した結果ですね。

--トークとソングを同時ではなく、トークを先にした理由はどこにあったのですか?
村上:もちろん同時がベストではあったのですが、最近のAI歌声合成の声質にやや納得いかない部分を感じていました。どこのエンジンも、最終的にボコーダーを使って合成していますが、その高域部分の音がどうも好きになれない面があったのです。今後、技術的には解決していくはずと思っていますが、現時点ではまだだったので、先に喋りのほうから行こうとなり、いろいろな条件に合致したのがA.I.VOICEだったのです。

A.I.VOICE GUMIのインストーラー。A.I.VOICE GUMI本体のほか、イラストやボイスマテリアルも入っている

--2014年に喋るソフトとしてMegpoidTalkを出していましたが、あれもエーアイとの共同開発だったんですか?
村上:MegpoidTalkは、エンジンだけ借りてきて、あとは自社開発でした。株式会社アニモのFineSpeechというエンジンですね。SDKベースのものだったので、それをウチで開発していきました。ただ、当時はまだ感情表現とかもなかったので、そろそろやらなくちゃ、という思いを持っていたのです。ちなみに歌唱のほうは、2015年11月にVOLCALOID 4用にMegpoid V4を出していました。その後、VOCALOID 5が出た際は、VOCALOID 4用のライブラリがそのまま使えるので、新たにデータベースを作り直す意味を見出せず、見送りとなっていたのです。その後、VOCALOID 6がいつになるかもわからないままで、時間がたってしまった……というのが実情ですね。

イントネーションや音の区切りなどを調整することも可能

--そのA.I.VOICE GUMI、実際の制作はいつごろから行っていったのでしょうか?
村上:1月にエーアイさんから提案をもらって決めた結果を、中島愛さんサイドに伝えた結果、2月はじめに快諾いただき、スケジュール調整をした後、3月からレコーディングを開始しました。これは東京のスタジオで8日間かけて行っていきました。

--その8日間で感情表現もレコーディングしていったわけですよね?
村上:その通りです。初日にまずリファレンスを作りました。つまりノーマルとともに、喜び、怒り、悲しみのそれぞれのリファレンスを録って確定させ、その後はリファレンスを聴きながらレコーディングしていく形にしたのです。ちなみにノーマルはMegpoid Nativeの歌唱を流して、それにできる限り近づける……という手法をとりました。当初のMegpoid V2から数えれば、13年経過しているので、さすがにまったく同じ発声というわけにはいかないものの、限りなく近づけていくことができたので、ニュアンス的にもみなさんに納得いただけるのではないかと思っています。それより、今回のA.I.VOICEでは感情表現が大きいと思っています。とくに怒りや悲しみは、現場で聴いていても、非常によくて、これはいい製品ができるぞ、という確信をもちました。

GUMIの声を担当している中島愛さん

--ところで、A.I.VOICEはAITalk 5というエンジンを使っていたと思いますが、AITalk 5は従来からのコーパスベースのエンジンの発展形とディープラーニングを使ったDNNエンジンの2つがあったと思いますが、このA.I.VOICE GUMIはどちらを使っているのですか?
村上:コーパスベースのエンジンです。確かに音素のつなぎ目はボコーダーを使ったDNNエンジンのほうがノイズも乗らないし、スムーズではありますが、やっぱり音質的にはコーバスのほうが好きです。これは先ほどの歌声合成での話と同様ですね。なんとなく高域の音質に違和感を感じるんですよ。コーパスのほうはそうした面はなく、いいなと思っています。

--8日間のレコーディングの後の編集作業などはどうしていったのですか?
村上:そこはすべてエーアイさんにお任せで、完成を待っていた形です。それより製品化する上でのパッケージデザインやイラスト制作で慌ただしく動いていました。ご存じの通り、オリジナルのイラストはゆうきまさみさんでした。が、今回は、のう(@nounoknown)さんにお願いしました。ずっとGUMIを描いてくれている方で、評判がよく、かなり以前からカレンダーなどをお願いしていたという経緯もあり、今回お願いした結果、とてもいい感じのものができあがりました。実は、最終的に確定させるまで、のうさんには、本当にいろいろなデザインを出してもらっていて、そこから絞り込み、ブラッシュアップしていきました。VOCALOIDでのイラストはステージ上で歌う際の衣装、という想定ですが、今回はそれにひっぱられずに、もっとカジュアルな感じにしたいと思っていたのです。街で見かけるような服装にしたかった。その結果が、今回のイラストであり、これが完成するまではずいぶんと時間がかかりました。

のうさんが描いたGUMIのイラスト

--ソフトのほうが上がってくるのと同じくらい時間をかけてきたということですね。
村上:はい、イラストのほうがギリギリくらいでしたね。エーアイさんからは7月末に喋った声のサンプルが上がってきてチェックさせてもらい、非常によくできていたので、そのまま進めてもらいました。とくに怒りが非常によかったですね。明らかにMegpoidの声であるけれど、それが怒ってる!ぜひ多くの方に使っていただきたいですね。コーパスベースがいいのは、こうした感情表現が軽く処理でき、すぐに声に反映できることです。ディープラーニング系だと、パラメータを変えて再合成をさせるのにどうしても時間がかかってしまう。そういう面でもコーパスベースでよかったと思っています。その後8月上旬にエディタが整った形でβ版があがってきて、とくに問題もなく、進んでいきました。その結果、9月16日発売にこぎつけた格好です。

A.I.VOICE GUMIのパッケージ

--このA.I.VOICE GUMIの次は歌唱ですよね。もう詳細は決まっているのでしょうか?
村上:そうですね。色々考えているのでぜひ期待していてください。

--ありがとうございました。楽しみにお待ちしております。

【関連情報】
A.I.VOICE GUMI製品情報

【価格チェック&購入】
◎Internetオンラインショップ ⇒ A.I.VOICE GUMI
◎Amazon ⇒ A.I.VOICE GUMI
◎DLSite ⇒ A.I.VOICE GUMI