A.I.VOICE 結月ゆかりは、VOICEROIDと何が同じで、何が違うのか？VOCALOMAKETSに聞いてみた

もうご存じの方、そしてすでに購入された方も少なくないと思いますが、10月22日、株式会社エーアイより、音声合成ソフトのA.I.VOICE 結月ゆかりが発売されました。2011年12月、ボカロP 7人で構成されるクリエイターチーム、VOCALOMAKETS（ボカロマケッツ）が企画した歌声合成ソフト、「VOCALOID3 結月ゆかり」が発売されてから、10年。1月に発売されたCeVIO AI版の歌う結月ゆかりに続いて、A.I.VOICE版の喋る結月ゆかりが誕生したわけです。

今回の喋る結月ゆかりは、以前からある喋るソフト、VOICEROID版の結月ゆかりの声や雰囲気をそのまま踏襲するとともに、使い勝手などを大幅に向上させています。また、それに加え、18歳という想定の結月ゆかりの5歳下の別バージョン、雫（しずく）を収録しているのも今回リリースされたA.I.VOICE 結月ゆかりの大きな特徴となっています。実際どのように企画し、どのように開発していったのか、VOCALOMAKETSメンバーである、Bumpyうるしさん、かごめPさん、そして開発を担当した株式会社エーアイの栗田圭奈さんにお話しを伺ってみました。

A.I.VOICE 結月ゆかりを開発したみなさんにインタビュー

－－以前、CeVIO AI版の結月ゆかりをリリースした経緯などについて「CeVIO AI版の結月ゆかりが1月29日発売決定。なぜCeVIO AIなのか、どうやって作ったのか、VOCALOMAKETSに聞いてみた」という記事でお伺いしました。改めて、今度はA.I.VOICEを出した経緯について聞かせてください。
うるし：もともとVOICEROIDの次のバージョンが出たら、それに結月ゆかりを対応したいと考えていました。ところが、AHSさんからVOICEROID 3の出る様子がなかったため、困っていました…。そのまま製品の更新が途絶えてしまうことがあってはマズイので、どうにかならないだろうか…と。そうした中、VOICEROIDの開発元である、エーアイさんから、「A.I.VOICEとして出してみませんか？」というお声がけをいただき、それがよさそうだ、と考えたのです。

10月22日に発売が開始されたA.I.VOICE 結月ゆかり

－－歌うソフトとしてCeVIO AIソングボイスがあるので、喋るソフトもCeVIO AIトークボイスとして出すのが自然な流れなのかな…とも思っていたのですが……。
うるし：CeVIO AIトークボイスも、とても興味は持っています。でも、結月ゆかりにとって、既存の音声の更新が途絶えてしまうことは考えられないので、これは絶対に残しておくべき、最優先のものと考えています。そのバリエーションとしてCeVIO AIトークボイスなどがあるのはとても素晴らしいと思うのですが…。そのため、VOICEROIDと同じエンジンの、A.I.VOICEをまず出そうと考えました。

VOCALOMAKETSのBumpyうるしさん

－－A.I.VOICE 結月ゆかりは、VOICEROID+結月ゆかりEXと何が違うのですか？
栗田：エンジンが違うのが一番大きい違いです。VOICEROID2ではAITalk4というエンジンを搭載していましたが、今回のA.I.VOICEはAITalk5というエンジンになっているんです。このAITalkは日本語解析と音声合成という2つに分かれています。つまり入力されたテキストを元に、それがどんなイントネーションで、どのように区切って発音するかなどを日本語解析機能で行い中間言語的なものに置き換えるのです。その後、音声合成のシステムで各キャラクタでの声へと変換していくのです。この日本語解析の精度がAITalk5になったことで大幅に向上しており、単語も増えているし、ポーズの入る位置やイントネーションもより適切なものへとなっています。

株式会社エーアイの栗田圭奈さん

－－つまり、より正しく日本語を理解していて、ベタ打ち？でもキレイに正確な日本語として話すようになった、と？
栗田：その通りです。システムのことなど、まったく考えず、単純にテキストを入れるだけで話す発音が、かなり向上しています。解析には標準語と関西弁がありますが、基本的には同じですね。このAITalk5のエンジンは、コンシューマ用製品であるA.I.VOICEだけでなく、法人向けのシステムでも使っていますが、法人のお客様からも「何も考えずに打ち込んで喋る言葉が、とてもよくなった」と評価いただいています。

－－AITalk5における合成システムのほうはAITalk4と比較して何か変わったのですか？

栗田：従来通りの波形接続と、DNN（ディープニューラルネットワーク）の2つの合成エンジンが搭載されたハイブリッドになっています。波形接続はもともと収録した音声をラベリングして音素単位に分割した後、これをつなぎ合わせて喋らせるというもの。収録した音声をそのまま使うため、生々しい肉声に近い音となるのが特徴です。そして、収録するデータが増えれば増えるよど、より高品位になっていきます。このAITalk 5においては、ラベリング精度の向上が図られているほか、収録した音声の加工の仕方も変わっており、波形接続自体の質が大きく上がっています。一方のDNNの方式では、日本語解析機能で得られた中間言語的なものと、イントネーションや声色といった喋り方の情報との対応関係を深層学習します。そしてDNNから得られた喋り方の情報をボコーダーを用いて合成する仕組みであり、波形そのものをつなぎ合わせるわけではないのです。そのため、非常に滑らかな喋り声になるのが特徴です。ただ、DNNはつなぎ目は滑らかだけれど、やや人工的になるという面もあります。

AITalk 5のシステム構成

－－ということは、今回の結月ゆかりも、その2つの合成エンジンを使ているわけですか？より人間的な結月ゆかり？
うるし：いえ、DNNを使うと、今までの結月ゆかりと異なる音声になってしまう可能性があったので、ここではやってないんです。いいか、悪いかではなく、それは違う、と。だから、使っているのはコーパスを使った従来と同じ波形接続の方ですね。ただ、将来的にDNN版のゆかりがあっても面白いだろうな、とは思っています。

栗田：今回の結月ゆかりでは、収録音声を大きく増やしているので、その面においても品質向上が図れています。

－－今回のA.I.VOICEの結月ゆかりの声は、昔、VOICEROID用に作ったデータを使っているのですか？それとも新たに収録したのですか？
かごめP：今回新たに収録しなおしました。収録した文章量も増えた結果、収録時間も増えて、標準のほか、怒り、悲しみ、喜びとスタイルがあり、トータル9日ほどかけて収録しました。またVOICEROID 2などと比較して、収録量が非常に増えているので、このことも品質の向上に大きく役立っています
うるし：以前の結月ゆかり収録がどうだったのか、最初に石黒さんに聴いてもらいながら、以前と同じような声になるように調整していきました。声の調子や雰囲気などテスト収録しながら、何回か軌道修正を図りながら行ったんですが、10年ぶり（感情版は4年ぶり）の声の収録なのに、石黒さんの協力もあって完璧に再現できたのではないか、と思いました。このリファレンス収録時、石黒さんは天才だよね！と話しをしていました。

VOCALOMAKETSのかごめPさん

－－その9日間、ずっとチェックしながら収録していたのですか？
かごめP：今年の夏前に収録していたのですが、まさにコロナ禍で、緊急事態宣言などが出ていたこともあり、最初にリファレンスを収録したとき以外は、VOCALOMAKETSメンバーは誰も立ち会っていません。すべてエーアイさんにお任せではありました。その後、完成するまで、途中経過を聴くことができないので、半年近く待っているほかなかったのですが、リファレンスの際にうまく行っていたので、あまり心配はしてませんでしたね。

－－ところで、今回5歳下の、雫がありますが、これはどのように収録していったのですか？
うるし：VOCALOMAKETSメンバー内で話し合った結果、5歳下でやってみよう…ということになりました。そのことを石黒さんに伝えたうえで、何パターンか録ってみて、絞っていきました。13歳ということは、中学生であり、やや反抗期的な難しい時期。収録したパターンの中から、ちょっとムスっとした感じで演じてもらったものがとても素晴らしかったので、このパターンに決めました。実はその一方で、イラストも並行して進めなくちゃならない。文倉十先生には、従来は音声を聴いてもらってからイメージしてもらっていましたが、5歳下という情報だけ伝えて、想像で描いてもらったんです。通常の結月ゆかりは普段着のイメージで、とお願いして作ってもらったのですが、雫もイメージにピッタリのものが上がってきた。石黒さんの雫、文倉先生の雫、そしてVOCALOMAKETSがイメージする雫のすべてが完全一致して出来上がった感じです。

13歳の結月ゆかりである、雫も収録されている

－－実際に製品がリリースされて、結月ゆかり、雫のユーザーの反応はいかがでしたか？
かごめP：メインであるゆかりのほうは、とっても好評でした。これまでVOICEROID+ EXとVOICEROID 2があり、どちらかというと、VOICEROID+ EXのほうがよかった、という声があったのですが、今回のA.I.VOICEはVOICEROID+ EXっぽい…ということをおっしゃる方が多いようですね。サンプリングレート的にはVOICEROID+ EXが22.05kHz、VOICEROID 2が44.1kHzだったのに対し、今回のA.I.VOICEは48kHz。その意味では音質向上はしているはずです。
うるし：雫って、ある意味はオマケじゃないですか。だから、そのままでは注目されないと思っていたのですが、想像していた以上に、みなさんに喜んでいただけてうれしいです。一応、見せ方の演出として、通常版のリリースを発表した後に、通常版の音声を紹介し、その後に、雫が追加バージョンとして入ることを発表する……という形で別々に紹介していきました。こうすることで、雫はオマケではあるけど、別ものだよ、ということをみなさんに認識してもらいたかったのです。でもその思いが伝わったようで、想像していたのを遥かに超える反響で、すぐに雫のイラストや動画もUPされるなど、こちらが驚いてしまいました。本当にうれしいです。

A.I.VOICE 結月ゆかりのパッケージ。左は数量限定生産で、販売後30分で完売となった10周年記念豪華版

－－新しい技術には対応させて新製品は出していくけれど、以前の声を変えてはいけない、というのはジレンマではあるけれど、すごくよく分かる方針だと思います。この先、結月ゆかりがどう進化していくのか、変わらないのかもぜひ注目していきたいと思います。ちなみに、A.I.VOICE 紲星あかりについても、2021年冬ごろの発売予定と発表されていましたが、こちらはどうなりそうですか？
うるし：あかりの方も着々と準備をしているところです。11/12のA.I.VOICE生放送に、VOCALOMAKETSからはかごめPが出演して、A.I.VOICE 紲星あかりの全貌を発表しますので、ぜひご覧ください。

－－ありがとうございます。楽しみにしています。

【A.I.VOICE生放送】
11月12日（金）19:00～
https://youtu.be/75Fd2iOgI_8