AI歌声合成に命を吹き込むSynthesizer V 1.8.0発表。歌姫Maiの歌声データベースはSynthesizer V Studio Proユーザーに無料で公開へ!

先日、もはや人間の歌声なのか、AIの歌声なのかの判別するのは難しくなった……ということで紹介して話題になったSynthesizer Vの新歌声データベース、Mai。そのMaiが、なんとSynthesizer V Studio Proユーザーを対象に無料でダウンロードできる形で公開されることが、本日11月10日、Dreamtonicsから発表されました。このMaiを歌わせるにはSynthesizer V Studio Proの次期バージョン、1.8.0が必要となるのですが、その1.8.0へのバージョンアップも無償で公開され、本日よりそのベータ版も入手可能となっています。

実は、このSynthesizer V Studio Pro 1.8.0にするとともに、各種AI歌声データベースもアップデートすることで、Saki AI、弦巻マキ AI、小春六花 AI、夏色花梨 AI、花隈千冬 AI、京町セイカ AI、ついなちゃん AI……などなど既に発売済のAI歌声データベースも現在バージョンの1.7.1での歌声から大きく進化します。まさに命を吹き込むかのように、より人間的な歌声となり、Maiと同様、人間の歌声なのかAIによる歌声なのか認知できないレベルのものになるのです。実際、どんなものなのか1.8.0のα版を使って試すとともに、どうしてこんなに大きく進化したのか、AHSの代表取締役 CEOであり、Synthesizer Vの開発者でもあるDreamtonicsのKanru Huaさんに話を聞いてみました。

Synthesizer Vの新バージョン1.8.0が発表に。花隈千冬、京町セイカ、ついなちゃんなどの歌声も格段に高品位に進化する

先日の記事「Synthesizer Vに超強力な女性ボーカル、Maiがまもなく登場。もうAIと人間の違いは認知できないレベルに」は私の予想を超えるバズり方をして、いろいろな人に届いたようですが、そのときの記事では明らかにしていなかった事実がいくつかありました。その一つが、Maiは製品として発売されるのではなく、Synthesizer V Studio Proユーザーなら無料で誰でも入手できるようになる、ということ。これは多くの人にとって、嬉しい驚きですよね。

2つ目は、あのMaiの歌声はSynthesier V Studio Pro 1.8.0のα版で動かしていた、ということ。現行の1.7.1というバージョンでは使うことはできず、新エンジンになる1.8.0で初めて動作するものであるという点。

1.8.0にすると、インストール済の歌声DBがアップデート可能となり、これを実行することで各歌声DBが大きく進化する

そして3つ目は、1.8.0のリリースに合わせて、すでにリリース済の各種歌声データベースも順次アップデートされ、これによって、さらに人間的な歌い方になるということです。試しに、1.8.0のα版に、弦巻マキ AIを使って歌わせてみたので、聴いてみてください。

いかがですか？先日のMaiのデモ曲であった「Merry-Go-Round」とはだいぶ違う落ち着いた曲調であり、歌い方も優しい感じになっていますが、息遣いもリアルに感じられる人間っぽい歌声になっているのが分かると思います。

この曲、「oyasumi」は以前、DTMステーションCreativeの作品として、声優の小岩井ことりさんに歌唱してもらう形でリリースした楽曲。それを、いわゆるベタ打ちで私が入力したものです。ピッチやダイナミックスなど、一切いじってない、まったくの素の状態。唯一いじっているのは、有声音と無声音の比率を調整したこと。これによって弦巻マキの通常の元気な歌声よりも、少しささやく感じの声にしています。が、その比率は1曲を通して固定しているから、とってもシンプルな状態です。また歌声に軽くリバーブはかけていますが、それについてはDAW側で行っています。

もちろん、弦巻マキ AIに限らず、ほかのAI歌声データベースが、どんな歌い方をするのかも気になると思います。そこで、4つの歌声データベースに短いフレーズを歌わせてみたので、ぜひこちらも聴いてみてください。

いかがですか？ご覧いただくとわかる通り、花隈千冬 AI、京町セイカ AI、ついなちゃん AI、そしてYumaのそれぞれを歌わせていたわけですが、これまでの各キャラクタの歌声をご存じの方であれば、まさに命が吹き込まれたかのように、よりリアルな歌声になったのが感じられたのではないでしょうか？いずれもベタ打ちであり、何の調整もしていません。
なお、Yumaだけは男性ボーカルであり、女性ボーカルと同じピッチだとちょっと高すぎるので、1オクターブ下げています。もっとも同じピッチでもファルセットになってカワイイ男の子という感じで悪くはないのですが…。

ちなみに、前回の記事のコメントとして、男性ボーカルはないのか…という質問が複数来ていましたが、このYumaのほかにもRyo、Kevinなどあるので、試してみるとどれもいい声ですよ。

それでは、ここから今回のSynthesizer V 1.8.0で何が行われたのか、その技術的部分などを開発者のKanru Huaさんにインタビューしていきます。

Synthesizer Vの開発者、Kanru Hua（カンル・フア）さんインタビュー

Synthesizer Vの開発者であるAHS 代表取締役兼 CTOのKanru Huaさん

－－Maiを無料公開というのには驚きましたが、これはどういう経緯だったのですか？
Kanru：Synthesizer Vは多くの人が無料で体験できるようにSynthesizer V Studio Basicを公開しており、歌声データベースのLite版も無料公開しています。しかし、Synthesizer V Studio Proだけを購入しても、これだけだと何もできません。そこで多くの人に、このAI歌声合成の面白さ、すごさを体験してもらえるように、Maiを無料公開することを決めたのです。

－－今回の1.8.0で、まさに命を吹き込んだかのごとく、より人間的な歌声になっていますが、これは何をしたのですか？
Kanru：バージョン番号的には1.7.1から1.8.0というマイナーバージョンアップとなっていますが、エンジン部分をゼロから完全に作り直しました。最近AIの世界ではStable Diffusion（ステーブル・ディフュージョン）などが大きな話題になっています。ユーザーがテキストでキーワードを指定すると、それに応じた画像を自動生成するものが、このStable Difusionで使われているのが、DPM（Diffusion Probabilistic Model：拡散確率モデル) という技術です。今回、それをSynthesizer Vに取り込んでみたのです。もっとも、DPMはAIの最先端技術であり、そのまま簡単に取り込むことができる、というわけではありません。問題は大きく2つありました。それはスピードと安定性です。私もDiffusion系の研究はずっとしてきたのですが、どうしても歌声の生成に時間がかかってしまうのです。この技術で人の顔を描くとしたら、最初はノイズ的なものを作り、その中にある鼻っぽいもの、目っぽいものを残して、再度作り直すというのを1000回近く繰り返すとリアルな顔になってくるという手法です。画像においてはある程度の時間がかかっても許容されますが、歌声においてはリアルタイムに歌わせる必要があり、スピード処理は必須です。そこで、内容は秘密ですが、とある工夫をすることで劇的に速く処理することを実現させました。これによって、従来のスピードと変わらないままにDPM的なものを取り込むことができました。

－－安定性の問題とはどういうことですか？
Kanru：Synthesizer VのAI歌声データベースは、エンジンのバージョンアップ時に、合わせて歌声を学習しなおして、新しいデータベースに差し替えています。これによって、どんどん自然な歌声に進化してきていました。自然性を最重要としてきたからです。でも、そもそも人間の歌声って、そこまで正確なものではなく、ピッチが合ってないことのほうが多いくらいです。研究開発にあたり、日本語圏、英語圏、中国語圏とそれぞれで多くのユーザーに参加してもらって、調査を行いました。その結果、ユーザーによっては若干の発音ミスがあったり、ピッチがズレていても、多様性があったほうがいい、という人もいます。一方で、Melodyneを掛けたような安定した歌声がいいという人もいます。実はAIの研究分野において自然度のほかに、多様性と安定性という2つの重要な基準もあるんです。1.7.0の開発ではAIリテイク機能で多様性を実現させましたが、安定性においてはやや劣る面もありました。発音ミスが多くなって、本来「か」と発音すべきところが「が」になるといった問題もあり、どう改善しようかと考えていました。その結果、いいアイディアが見つかり、1.8.0では安定性も向上させることができるとともに、多様性も上げることができたのです。また、そうした言葉でうまく表現できない部分はAIリテイク機能で実現するという形にもしました。一方、1.6.0リリースのタイミングでボーカルスタイル機能を搭載し、パワフルな声、ささやき声などスタイル変更で、簡単に歌声のニュアンスを変えることを可能にしていましたが、1.8.0では、そのスタイルの適用がより効果的に進化しています。

ユーザー調査の結果も考慮しつつ、今回の歌声の品質向上を実現させている

－－そのAIリテイク機能も少し変化してますよね。
Kanru：AIリテイク機能には表現力というパラメーターがあります。これは以前にもありましたが、今回バーの効果を改善させています。1.7.xでは表現力を小さくするとフラットな音になっていましたが、今回は安定化するようになっています。逆に大きくすることで、多様性が増すわけです。これを利用することで、ボーカルのダブリングなどにも有用です。もちろん、これまでもスクリプトを使ってタイミングをズラして……という方法がありましたが、このAIリテイクを使うことで、ピッチや声色も変化させられるので、とてもいいダブリング効果を出すことができるのです。

AIリテイク機能における表現力の位置づけを今回少し変更している

－－そうした自然度、安定性、多様性のそれぞれをうまくコントロールできるようになった結果、より人間的な歌声になった、ということですね。
Kanru：はい、それを実現させるにはSynthesizer V Studio Proのバージョンをアップさせるだけでなく、歌声データベースもそれに合わせ、新しく学習しなおしたものにアップデートする必要があります。1.8.0のリリース時にすべての歌声データベースがアップデートできないかもしれませんが、順次作業しているので、少しお待ちいただければと思います。

－－そのほか、1.8.0で強化された点などはありますか？
Kanru：今回、MIDI入力機能を作り、外部からリアルタイムレコーディングの形で音符入力できるようにしました。もっともリアルタイムに歌わせることはできないので、入力時は「ポン」というシンセ音が鳴る形ですが、その後改めて再生すれば歌う形になります。クォンタイズ機能も用意しているので、入力の効率化という面では役立つのではないかと思います。

MIDI入力も装備し、クリックを聴きながらMIDIキーボードからリアルタイムレコーディングが可能になった

－－その1.8.0、すぐにでも試してみたいという方も多いと思いますが、いつごろのリリースになりそうですか？
Kanru：現在、最終の詰めを行っているところなので、あと数週間以内にはリリースできるようにします。が、ベータ版（アップデート候補バージョン、先行開発バージョン）である1.8.0b1は用意できたので、本日公開しました。このバージョンを利用いただくことで、1.8.0で搭載される新機能、新性能をいち早く試用いただくことができます。またMaiを含めた歌声データベースもベータ版としてご利用いただくことが可能となっています。ただし、あくまでも開発途中のものであり、環境によってはうまく動作しなかったり、予期せぬ不具合が発生する可能性はあるので、その点は予めご了承ください。

－－メジャーバージョンアップといっていい機能・性能アップを、高頻度で行いつつ、すべて無料でのアップデートになっていることには、毎回驚かされますが、ここから先の展開も楽しみにしています。ありがとうございました。

【DTMステーションPlus！】

このSynthesizer V 1.8.0に関する番組を11月22日放送予定で行います。ぜひ、こちらも併せてご覧ください。