Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る

株式会社インターネットが9月16日、約7年ぶりとなるMegpoidの新製品、A.I.VOICE GUMIの販売を開始しました。価格はパッケージ版が16,280円（税込）、ダウンロード版が12,980円（税込）で、既存のMegpoid製品やAbilityやSinger Song Writer Liteなどインターネット社製品をお持ちの方であれば、同社オンラインサポートセンターからの優待販売も行われています。今回発売されたのは、株式会社エーアイが開発するA.I.VOICEをベースとした製品で、テキストを入力すればGUMIの声で流暢に喋ってくれる音声合成ソフトです。

A.I.VOICE GUMIは、通常の音声のほか、喜び、怒り、悲しみという3つの感情表現を持っているのも特徴です。また、エーアイが販売する結月ゆかりや紲星あかり、琴葉茜・葵などのA.I.VOICE製品を持っている人であれば、それらと会話をするような形で利用することができるほか、「声質はGUMIだけど、喋り方は琴葉茜」といった合成を実現するボイスフュージョン機能も利用することが可能となっています。なぜMegpoidの新製品がこのタイミングで登場することになったのか、またなぜA.I.VOICEを採用したのかなど、気になることもいっぱいあったので、インターネットの社長、村上昇さんにオンラインインタビューの形でいろいろ伺ってみました。

9月16日A.I.VOICE GUMIがインターネットから発売された

すでにご覧になった方も多いと思いますが、インターネットでは、その新しいA.I.VOICE GUMIの喋り声をYouTubeで公開しているので、まずはこちらをご覧ください。

どうですか？確かにあのGUMIが喋ってますよね。しかも、喜んだ声や悲しそうな声、怒った声なども出せるので、GUMIの表現範囲が大きく向上していることを感じられると思います。喋るソフトとしては、だいぶ以前にMegpoid Talkというものが出ていたので、実際に使ったことのある方もいると思いますが、それと比較してもずいぶんと滑らかに、流暢になっていることを感じられたのではないでしょうか？しかも感情表現も付けられるようになっているので、大きく進化していることを感じられたと思います。

A.I.VOICEで動作する製品となっており琴葉茜・葵や結月ゆかりなどと一緒に使うことも可能

使い方は非常に簡単であり、ほかのA.I.VOICEと同様。日本語をそのまま入力すればいいだけ。たとえばWebなどからテキストをコピー&ペーストで入力するだけで、あの喋り声が得られるのです。

デフォルトでは感情表現は0となっていますが、喜び、怒り、悲しみの3つのパラメータのフェーダーを動かして調整することで、先ほどのビデオのようなさまざまな喋り方ができるようになるわけです。

喜び、怒り、悲しみの3つの感情パラメーターを利用できるのが大きな特徴

インターネットのA.I.VOICE GUMIの製品紹介ページには、ブラウザ上でGUMIに喋らせる機能が搭載されているので、ぜひ試してみると面白いですよ。その3つの感情パラメーターのほかにも、速度、ピッチ、抑揚という3つのパラメータもあるので、これらを動かすことで、喋り方が変わってくるのをすぐに確認できます。

A.I.VOICE GUMIの製品紹介ページ上で実際に喋らせて試すことができる

なお、製品の中には、A.I.VOICEのほかに、A.I.VOICEでは表現できない声として60種類のボイスマテリアル、それにイラストが収録されています。その60種類のボイスマテリアルの中身は以下の通りです。

ファイル名	音声	ファイル名	音声	ファイル名	音声
11.wav	ためいき１	73.wav	むせる３	131.wav	マズいことに気づく１
12.wav	ためいき２	81.wav	鼻をすする１	132.wav	マズいことに気づく２
13.wav	ためいき３	82.wav	鼻をすする２	133.wav	マズいことに気づく３
31.wav	ためいき４	91.wav	くしゃみ１	141.wav	吹く１
32.wav	ためいき５	92.wav	くしゃみ２	142.wav	吹く２
33.wav	ためいき６	93.wav	くしゃみ３	143.wav	吹く３
21.wav	咳払い１	101.wav	息をのむ１	151.wav	はぁー１
22.wav	咳払い２	102.wav	息をのむ２	152.wav	はぁー２
23.wav	咳払い３	103.wav	息をのむ３	153.wav	はぁー３
41.wav	改まった咳払い１	201.wav	息をのむ４	161.wav	舌打ち１
42.wav	改まった咳払い２	202.wav	息をのむ５	162.wav	舌打ち２
43.wav	改まった咳払い３	203.wav	息をのむ６	163.wav	舌打ち３
51.wav	あくび１	111.wav	気づく１	171.wav	慌てる１
52.wav	あくび２	112.wav	気づく２	172.wav	慌てる２
53.wav	あくび３	113.wav	気づく３	181.wav	含み笑い１
61.wav	伸び１	114.wav	気づく４	182.wav	含み笑い２
62.wav	伸び２	115.wav	気づく５	183.wav	含み笑い３
63.wav	伸び３	121.wav	シー１	191.wav	笑い１
71.wav	むせる１	122.wav	シー２	192.wav	笑い２
72.wav	むせる２	123.wav	シー３	193.wav	笑い３

そんなA.I.VOICE GUMIが誕生した背景などについて、インターネットの社長、村上昇さんにいろいろと伺ってみたのが、以下のインタビュー記事です。

株式会社インターネット　代表取締役　村上昇さんインタビュー

－－Megpoid製品、だいぶ久しぶりになりますが、どうしてこのタイミングでの登場となったのですか？
村上：昨年の秋ごろから、そろそろ出したいなと検討していました。喋りも、歌唱もどちらも進めたいと考えていました。ただ、昨今の技術進化などからさまざまなメーカーが参入し、エンジンも複数あるから、どれにしようか……と思って考えていたのです。そうした中、今年1月にエーアイさんから具体的な提案をいただいたんです。技術的な背景から、実際の工程なども含め、細かく話を詰めていくなか、これがよさそう、となったのです。

株式会社インターネットの代表取締役、村上昇さんにオンラインミーティングの形でインタビューした

－－トークもソングもとなると、CeVIO AIやSynthesizer V＆voicepeakのほうが、スマートな気もしますが……。
村上：もちろん、それぞれ検討したのですが、まずは歌唱の前に喋りから作ろうと考えるようになり、その際、組み合わせについてはいったん考えずにフラットに見ていこうと検討した結果ですね。

－－トークとソングを同時ではなく、トークを先にした理由はどこにあったのですか？
村上：もちろん同時がベストではあったのですが、最近のAI歌声合成の声質にやや納得いかない部分を感じていました。どこのエンジンも、最終的にボコーダーを使って合成していますが、その高域部分の音がどうも好きになれない面があったのです。今後、技術的には解決していくはずと思っていますが、現時点ではまだだったので、先に喋りのほうから行こうとなり、いろいろな条件に合致したのがA.I.VOICEだったのです。

A.I.VOICE GUMIのインストーラー。A.I.VOICE GUMI本体のほか、イラストやボイスマテリアルも入っている

－－2014年に喋るソフトとしてMegpoidTalkを出していましたが、あれもエーアイとの共同開発だったんですか？
村上：MegpoidTalkは、エンジンだけ借りてきて、あとは自社開発でした。株式会社アニモのFineSpeechというエンジンですね。SDKベースのものだったので、それをウチで開発していきました。ただ、当時はまだ感情表現とかもなかったので、そろそろやらなくちゃ、という思いを持っていたのです。ちなみに歌唱のほうは、2015年11月にVOLCALOID 4用にMegpoid V4を出していました。その後、VOCALOID 5が出た際は、VOCALOID 4用のライブラリがそのまま使えるので、新たにデータベースを作り直す意味を見出せず、見送りとなっていたのです。その後、VOCALOID 6がいつになるかもわからないままで、時間がたってしまった……というのが実情ですね。

イントネーションや音の区切りなどを調整することも可能

－－そのA.I.VOICE GUMI、実際の制作はいつごろから行っていったのでしょうか？
村上：1月にエーアイさんから提案をもらって決めた結果を、中島愛さんサイドに伝えた結果、2月はじめに快諾いただき、スケジュール調整をした後、3月からレコーディングを開始しました。これは東京のスタジオで8日間かけて行っていきました。

－－その8日間で感情表現もレコーディングしていったわけですよね？
村上：その通りです。初日にまずリファレンスを作りました。つまりノーマルとともに、喜び、怒り、悲しみのそれぞれのリファレンスを録って確定させ、その後はリファレンスを聴きながらレコーディングしていく形にしたのです。ちなみにノーマルはMegpoid Nativeの歌唱を流して、それにできる限り近づける……という手法をとりました。当初のMegpoid V2から数えれば、13年経過しているので、さすがにまったく同じ発声というわけにはいかないものの、限りなく近づけていくことができたので、ニュアンス的にもみなさんに納得いただけるのではないかと思っています。それより、今回のA.I.VOICEでは感情表現が大きいと思っています。とくに怒りや悲しみは、現場で聴いていても、非常によくて、これはいい製品ができるぞ、という確信をもちました。

GUMIの声を担当している中島愛さん

－－ところで、A.I.VOICEはAITalk 5というエンジンを使っていたと思いますが、AITalk 5は従来からのコーパスベースのエンジンの発展形とディープラーニングを使ったDNNエンジンの2つがあったと思いますが、このA.I.VOICE GUMIはどちらを使っているのですか？
村上：コーパスベースのエンジンです。確かに音素のつなぎ目はボコーダーを使ったDNNエンジンのほうがノイズも乗らないし、スムーズではありますが、やっぱり音質的にはコーバスのほうが好きです。これは先ほどの歌声合成での話と同様ですね。なんとなく高域の音質に違和感を感じるんですよ。コーパスのほうはそうした面はなく、いいなと思っています。

－－8日間のレコーディングの後の編集作業などはどうしていったのですか？
村上：そこはすべてエーアイさんにお任せで、完成を待っていた形です。それより製品化する上でのパッケージデザインやイラスト制作で慌ただしく動いていました。ご存じの通り、オリジナルのイラストはゆうきまさみさんでした。が、今回は、のう（@nounoknown）さんにお願いしました。ずっとGUMIを描いてくれている方で、評判がよく、かなり以前からカレンダーなどをお願いしていたという経緯もあり、今回お願いした結果、とてもいい感じのものができあがりました。実は、最終的に確定させるまで、のうさんには、本当にいろいろなデザインを出してもらっていて、そこから絞り込み、ブラッシュアップしていきました。VOCALOIDでのイラストはステージ上で歌う際の衣装、という想定ですが、今回はそれにひっぱられずに、もっとカジュアルな感じにしたいと思っていたのです。街で見かけるような服装にしたかった。その結果が、今回のイラストであり、これが完成するまではずいぶんと時間がかかりました。

のうさんが描いたGUMIのイラスト

－－ソフトのほうが上がってくるのと同じくらい時間をかけてきたということですね。
村上：はい、イラストのほうがギリギリくらいでしたね。エーアイさんからは7月末に喋った声のサンプルが上がってきてチェックさせてもらい、非常によくできていたので、そのまま進めてもらいました。とくに怒りが非常によかったですね。明らかにMegpoidの声であるけれど、それが怒ってる！ぜひ多くの方に使っていただきたいですね。コーパスベースがいいのは、こうした感情表現が軽く処理でき、すぐに声に反映できることです。ディープラーニング系だと、パラメータを変えて再合成をさせるのにどうしても時間がかかってしまう。そういう面でもコーパスベースでよかったと思っています。その後8月上旬にエディタが整った形でβ版があがってきて、とくに問題もなく、進んでいきました。その結果、9月16日発売にこぎつけた格好です。

A.I.VOICE GUMIのパッケージ