まるで人のように歌うAI歌声合成の世界がさらに進化。Synthesizer VがAI対応し、従来型とハイブリッドで利用可能に。Sakiユーザーには期間限定無料配布

歌声合成の世界において2020年はまさに激変の年。Synthesizer VのWebブラウザ版からスタートし、NEUTRINOの誕生、Synthesizer Vの大幅バージョンアップ、CeVIO AIの発表……と続いてきましたが、10月30日、AHSからSynthezier V AIなるAI対応となった新世代のSyntheziver Vが発表され、従来型とのハイブリッドでの活用が可能となります。従来のSynthesizer V Studio Proのユーザーは無償バージョンアップの対象であり、AI歌声データベースとの組み合わせで、まるで人のように歌わせることが可能となります。

そのAI歌声データベースの第1弾はSaki AIで、Synthesizer V Studio ProのAI対応バージョンと同時に来年初頭にリリースされる予定です。これは従来の歌声データベースのSakiとは別製品ながら、期間限定でSakiユーザーには無償配布が予定されています。さらに無料版のSynthesizer V Studio BasicもAI対応するとともに、無料版のSaki AI ライトも登場の予定で、これらを組み合わせることで完全に無料でAI歌声合成を実現することも可能となります。実際、どんな歌声になるのか、また従来版と組み合わせることにどんな意味があるのか、さらには有償版と無償版で何が違うのかなど情報を整理しつつ、紹介してみましょう。

Synthesizer VがAI対応するとともに、各種歌声データベースがリリースされる予定

まずは、このSynthesizer V AIでどんな歌い方になるのか、以下のデモをご覧ください。

これがSaki AIによる歌声ですが、かなりリアルな歌声になっているのが実感できると思います。実は、10月30日現在、まだα版の前の段階であり、私自身もテストできているわけではないのですが、製品版リリースまでには、さらに精度も向上されるとのこと。

昨年7月のSynthesizer Vの新バージョンリリース時に、すでにエンジン部分がAI対応していることは発表されており、リアルな歌声が出せるようになっていましたが、次のバージョンアップで、AI対応した歌声データベースが扱えるようになり、これを利用することで、ほぼ人の歌声と区別できないレベルまでリアルになるとのことです。

そのAI対応の歌声データベースの第1弾がSaki AI。当然のことながら中の人は、Sakiと同じ人ではありますが、通常版の歌声データベースとAI版の歌声データベースでは開発手法に違いがあるため、まったく新たに作ったものだそうです。

そのSaki AIは、これまでのSakiとは別製品となり、今後も併売され、両方を併用することが推奨されているのですが、それはどうしてなのでしょうか？発売元であるAHSの代表、尾形友秀さんに伺ってみました。

「Saki AIは、ディープラーニングを施した歌声データベースであるため、これを使うことで、まるで人間が歌っているかのように歌わせることが可能になります。ただ、AIの学習はどうしてもすべての曲のジャンルや、音の動きをカバーできるわけではないため、まったく異なる曲調の歌を歌わせたり、明らかに音域が異なるものを歌わせようとすると、突然音痴になったり、そもそも発音できない音素が生じたりするのです。それに対し、従来のSakiは、歌声合成であることが分かる声質ではあるものの、どんなジャンル、どんな音域でもそれなりに歌わせることが可能です。その両者をうまく補完しながら利用することで、幅広い応用が可能になるのです」とのこと。

ためしに、以前、DTMステーションPlus!の番組内で、多田さんがSakiに歌わせた曲をSaki AIにも歌わせて比較してみました。これを聴いてみると、それぞれの声質の違いや、両方がある意味も見えてきます。

従来のSynthesizer VのSakiで歌わせたもの
同じフレーズをSynthesizer V AIでSaki AIに歌わせたもの
このSaki AIの歌声は、現在のプロトタイプ版で歌わせたものなので、今後ニュアンスなどがさらに向上するものとは思いますが、これはかなり期待ができそうです。

こうしたAIを用いた歌声合成は、NEUTRINOなど、いくつかが登場してきていますが、歌い方については基本的にすべてソフト側にお任せであり、調整ができません。それに対し、Synthesizer V AIでは、これまでと同様、音符の位置をズラすのは当然として、音素のタイミングを調整したり、強弱やピッチベンドの調整、ビブラートの設定、ジェンダーの調整などもできるようになっているので、使い方自体はまったく変わりません。ただし、AIの場合は無理に変な音を出そうとすると破綻してしまうことがある、ということのようです。

Synthesizer Vの使い方、ユーザーインターフェイスは基本的にほとんど変わらない予定

ここでちょっと気になるのが、誰でも無料で入手可能なフリーウェア版のSynthesizer Vのエディターソフト、Synthesizer V Studio BasicもAI対応するとともに、無料版のSaki AIのライト版もリリースされるので、結果として誰でも無料でAI歌声合成が可能になるということ。それなら、わざわざ製品を購入しなくてもいいのでは……!?と思ってしまいますが、その点、どうなっているのでしょうか？

「従来のSakiも無料のSaki ライト版というものを配布していましたが、これは1ピッチのみしか使えないという制限がありましたが、Saki AI ライト版はピッチとは別にAI系における制限もかけています。いかに人間っぽくリアルに歌わせるか、ディープラーニングのためのパイプを複数用意しているのですが、ライト版においては、そのパイプを1本外しているのです。そのため同じフレーズをSaki AIで歌わせたものとSaki AI ライト版で歌わせたものでは、少し雰囲気が違ってくるのです」と尾形さん。

その2つを比較したのが以下のサンプルです。

Saki AIで歌わせたデモ
Saki AI ライト版で歌わせたデモ

Saki AIライト版でも十分人間っぽい歌声であり、これまでの歌声合成によるものとは、明らかに違うのですが、製品版のSaki AIの歌声と比較すると確かにグレードが落ちるのを感じられます。やはりできる限りリアルに、ということであれば製品版を入手する価値は大きくありそうです。

「AI機能を使ってよりリアルに歌わせるためには、そこそこのCPUパワーを使う必要があり、インテルのCore-i5(第4世代)以上もしくはRyzenなどのCPUの利用を推奨しています。ただ、Saki ライト版のほうは、パイプを1つ外しただけにCPU処理も軽くなっていますね。製品版ではLow/High Qualityという設定がつきまして、CPUパワーが足りない場合はLowを選択することで、多少クオリティは落ちるもののリアルタイムで編集することが可能となっています」と尾形さんは解説してくれました。

ちなみに、AI対応の歌声データベースは、今後もタイトルがどんどん増えていく予定で、現時点では小春立花が対応することが発表されています。また正式発表は今後とのことですが、音声合成ソフト、VOICEROID 2でお馴染みで、門脇舞以さんがCVをつとめる、「ついなちゃん」もSynthesizer V AI化すべくクラウドファンディングが近日中に開始されるのだとか。そのほかにも、まだ未発表だけれど、AIでの制作を開始している歌声データベースがほかにもあるとのことなので、いろいろ期待したいところです。

ついなちゃんもSynthesizer V AIに対応した歌声データベースのクラウドファンディングがスタートする予定

「まだAI対応するかどうかについては現時点未定ではあるのですが、これまで台湾のAnimenさんから発売していたSynthesizer Vの男性歌声データベース、GENBUが日本でも発売されます。これは日本語で歌わせることが可能なものなので、ぜひ、こちらも期待していただければ」と尾形さん。

台湾生まれの男性歌声データベース、GENBUも間もなくリリース

この、まさに開発中、発展途上のSynthesizer V AIについて、最新状況や、その歌声をチェックできるよう、次回11月10日に放送するDTMステーションPlus!で特集する予定です。ぜひ、こちらもご期待ください。

AHSからはCeVIO AI東北きりたんソングボイスも登場

話が混乱しそうですが、先週10月22日、AHSからSynthesizer V AIと同様にAI歌声合成ができるCeVIO AIの東北きりたんソングボイスも今冬に発売されることが発表されています。

Synthesizer VとCeVIO AIは、完全なる競合ソフト。しかも東北きりたんに関しては、すでにNEUTRINOでリリースもされているのに、これはどういうこと？と不思議にも感じるところではあります。

AHSからはCeVIO AIの東北きりたんソングボイスも発売される予定

少し整理すると、Synthesizer Vの開発はDreamtonic株式会社が行っているもので、CeVIO AIは株式会社テクノスピーチを中心としたCeVIOプロジェクトが行っているもの。その上でAHSは双方を取り扱うとともに、歌声データベースの企画や開発を行っているということなのです。

CeVIO AIのエディター画面

また、東北きりたんに関しては、国立研究開発法人科学技術振興機構（JST）の戦略的創造研究推進事業（さきがけ）の研究課題として公開された歌唱データベースであり、それをNEUTRINOが利用していたという経緯があります。これについての詳細は「AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること」に書いているので、そちらも参照してみてください。

今回のCeVIO AI 東北きりたんも同じ歌唱データベースを元にCeVIO AI用にディープラーニングしたもの。そのため、大元は同じデータベースを用いてはいるものの、NEUTRINOとは違う手法でデュープラーニングをしているため、歌い方、歌声も異なってくるようです。この辺についても、また詳細が分かったら記事にしていきたいと思っています。なお、AHSが発売している実況動画作成ソフトウェアのRecotte StudioもVOICEROIDに加え、CeVIO AIにも対応するとのこと。また小春六花も当初しゃべりに関してはVOICEROIDで制作する予定だったものが、歌声がSynthesizer VによるAIになったことからバランスをとるためにCeVIO AIトークで作ることに変更になっています。とはいえ、AHSとしては、今後もVOICEROIDは重要なソフトとして継続していく予定であり、すでに制作中のものもあるとのこと。まさに多角化を進めているようです。

DTMステーションPlus!　Synthesizer V AI特集のお知らせ
日時：11月10日　20:30～22:30
11月10日のネット生放送、DTMステーションPlus!第163回において「ついにAIにも対応！Synthesizer V AI」と題して、Synthesizer V AIについて特集します。ゲストには、AHSの代表である尾形友秀さんをお招きし、さらに詳細をお届けする予定です。

【YouTubeLive】