Synthesizer Vの歌声合成は次の次元へ。調声は不要、AIリテイク機能で好みの歌い方を選べる時代に

2022.07.212023.07.05

この記事は約9分で読めます。

この記事にはアフィリエイトなどPRが含まれています

各種歌声合成ソフトが競い合う中で、機能・性能の面で他より一歩か二歩、先に進んでいるDreamtonicsのSynthesizer V(シンセサイザー・ヴィ）。そのSynthesizer Vが7月21日にアップデートを図り、1.7.0になるとともに、AIリテイクなる新機能を搭載しました。これは、歌声合成の世界において革命といっても過言ではない機能であり、これまでのコンピュータによる歌声合成の概念を根本から覆すもの。

歌わせてみて、イマイチと感じた部分をリテイクすることで、声のピッチの動き、声色の異なるテイクを生成し、それに差し替えることができるというもの。まさに人間のボーカルリストに何度か歌い直してもらうのと同じように、リテイクするごとに少しずつ異なるニュアンスで歌声が生成されるのです。そして、後から一番気に入った歌い方を選ぶことが可能になったというわけなのです。実際、どんな機能なのかを試すとともに、Synthesizer Vの開発者であり、先日株式会社AHSの代表取締役にも就任したKanru Hua（カンル・フア）さんにも話を伺いました。

AIリテイク機能が搭載されたSynthesizer V Studio Pro 1.7.0

Kanru Huaさん、AHSの新代表取締役に
High Dynamics Voice Modelで実現させたAIリテイク機能
もう人の手による調声は不要に!? ボタン一つで異なる歌い方を実現
Synthesizer V 1.7.0へは無償でアップデート可能

Kanru Huaさん、AHSの新代表取締役に

Synthesizer Vの新機能の本題に入る前に、Kanru Huaさんの人事について。これまでKanruさんについてはSynthesizer Vの開発者として、またDreamtonics株式会社の代表取締役としてDTMステーションでも何度も紹介してきました。昨年も「なぜ中国の天才青年は日本で起業し、AI歌声合成ソフトをヒットさせたのか？Synthesizer Vの開発者、Kanru Huaさんインタビュー」というインタビュー記事でも、取り上げていますが、Kanruさんは上海出身で現在24歳。そのKanruさんが、株式会社AHSの代表取締役兼 CTOに就任するという発表会が開かれ、かなりの衝撃を受けました。

6月30日、Kanru HuaさんがAHSの代表取締役兼 CTOに就任することが発表された

ご存じの通りAHSは、VOCALOID、VOICEROIDを手掛けてきた日本のソフトハウスであり、過去にはエントリーユーザー向けのDAW、Music Makerなども扱ってきた会社。その代表でCEOであった尾形友秀さんが取締役会長という形で一歩引き、Kanruさんを代表に招くという、驚きの人事発表を行ったのです。その様子は、6月30日のAHS生放送でも配信されているので、そちらもご覧いただければと思います。

High Dynamics Voice Modelで実現させたAIリテイク機能

この人事の背景などについては、また改めてお二人のインタビュー記事を掲載する予定ですが、上記のAHS生放送にもある通り、人事発表と合わせて、今回の新技術である

High Dynamics Voice Model

についても、発表があり、「これは何なんだろう？」と気になっていました。この時は具体的な内容まではわからず、その翌日にHigh Dynamics Voice Modelに関する紹介ビデオも公表されたのですが、ここでもいま一つ、ピンときませんでした。が、それが実装されたβ版を使わせてもらうとともに、Kanruさんに話を聞いて、ようやくこれが歌声合成における革命であることが分かりました。

以下が、そのAIリテイクの様子を捉えたビデオです。

だいたいの雰囲気が、理解いただけたでしょうか？　そう、このAIリテイク機能は、High Dynamics Voice Modelという技術をSynthesizer Vの機能として実装させたものであり、歌声を新たに作り直すというものなのです。

「歌声合成は、ここ数年で大きく進化してきましたが、やはり人間の歌声の魅力にはかなわない面があります。その大きな理由の一つは、同じ人が歌っても毎回、微妙に異なっており、場合によっては大きく違った歌い方をすることにあります。シンガーが予想外な歌い方をするほど、聴き手は喜んだり、興奮したりもします。しかし、これまでの歌声合成は同じ設定をすれば、必ず同じ歌い方になり、その結果、どうしても単調になり、つまらなくなるという問題があったのです。確かにワンフレーズだけを取り出すと、人の歌声と判別がつかなくなるところまでは来たけれど、全体を通して歌わせると、どうしても機械っぽさがでてしまう。その問題を、今回のHigh Dynamic Voice Modelという技術で解決しようと考えたのです」とKanruさんは開発の背景を語ってくれました。

Synthesizer Vの開発者であるKanru Huaさん

AI歌声合成によって、人間と区別がつかないほどのレベルに近づいてきたと思っていましたが、Kanruさんに言わせると、まだまだ問題がある、とのこと。

「これまで、人の歌声を学習させた上で、歌わせていましたが、その学習において“平均化”ということを行っていたことで、大きく2つの問題がおきていました。たとえば、同じ人が『た～』と歌っても、毎回、微妙に異なります。『ったー』という感じだったり『だぁ！』という強い発音だったり…。でもこれを平均化してしまうと、そのバリエーションというかランダム性がなくなってしまうのと同時に、発音がボヤけてしまう問題があったのです。この平均化については従来からのHMMなどの歌声合成手法でも、ニューラルネットワークを使った場合でも同じでした」（Kanruさん）

平均化による問題点などを説明してくれた

そこで、AIリテイク機能により、同じ『た～』でも、リテイクすることで、違うニュアンスで歌うようにした、というわけなのです。

画面右側のタブに新たにAIリテイクのアイコンが追加された

もう人の手による調声は不要に!? ボタン一つで異なる歌い方を実現

従来の歌声合成ソフトだと、イマイチ納得いかない歌い方をしている部分はピッチや音量などのカーブを手で修正する調声とか調教といったことをしていました。これによって、多少よくはなるにせよ、手間はかかるし、なかなかキレイにはいかないし、ましてや人間の歌い方とは程遠いものでしかありませんでした。が、今回のAIリテイクを使うことにより、ボタン一つで違う歌い方のテイクがとれるようになったのです。

リテイクしたいノートを選び、「テイクを生成」ボタンを押せば、押した回数分、リテイクが生成される

使い方としては、リテイクしたい部分を選択した上で、「テイクを生成」ボタンを押すだけで、いくつでもリテイクを作っていくことができるのですが、このAIリテイクは、ピッチのリテイクと、声色のリテイクの2種類があるのも面白いところ。

ピッチのリテイクを5回分生成させてみた。テイク3を選ぶと、選んでいるノートの下にテイク3の表記現れる

まずピッチのリテイクをすると、明らかにピッチの波形が変わるのを確認できます。ボタンをポンポン押していけば、いくつでもすぐにリテイクを作ることが可能です。各テイクごとに「表現力」というパラメーターがありますが、これをゼロにするとピッチの動きが単調になり、強くしていくとビブラート感が強くなるので、そこは自分で調整することが可能です。ただ、単調といっても、ロボットボイス的なものになるのでは、あくまでも自然な人の歌声である、という点も重要なポイントです。

表現力のパラメーターを変えることにより、ビブラート感が変化する

それぞれ歌わせてみて気に入ったものがあれば、それを選べば、そのピッチの動きになるのです。さらに、声色のほうでも、リテイクを作っていくことができます。これはピッチでの変化ほど大きくはないですが、高域のファルセット（裏声）にひっくり返る当たりで、行うとテイクによってファルセットだったり、通常ボイスだったりするのも面白いところです。

声色のリテイクを行うとピッチの動きはそのままに声色が微妙に変わる。高いピッチの場合、ファルセットになるかどうかの違いが出るケースも

これはピッチのリテイクとは別となっていますが、事前にピッチをどのテイクを使うか決めてから、声色のリテイクを作成すると、そのピッチの動きのまま声の雰囲気を変えることが可能になっています。

AIリテイク機能はSynthesizer V Studio Pro 1.7.0から搭載されている

Synthesizer V 1.7.0へは無償でアップデート可能

このAIリテイク機能が搭載されたSynthesizer V 1.7.0は本日リリースされており、既存のSynthesizer V Studio Proを持っている人は最新版に無料でアップデートすることで、誰でも使うことが可能です。

この際、歌声データベースのほうも最新版にアップデートする必要があるので、併せてアップデートを行ってください。もちろん、この歌声データベースのアップデートもすべて無料でできますよ。

Dreamtonicsは以下のアナウンスを出しており、各歌声データベースがアップデートされています。

HDVM搭載に伴い、次の歌声データベースをアップデートしました。
本アップデートにより、人間のようなダイナミクスな歌い方が可能になり、音質も向上しています。 pic.twitter.com/wy4ePheKeS

— Dreamtonics 公式 (@dreamtonics_jp) July 21, 2022

とりあえず、今回、このAIリテイク機能について速報として紹介しましたが、近いうちに、このAIリテイク機能は、どのように使うのがいいのか、DAWで使う場合にはどうするのが効率的なのかなども紹介していく予定なので、ご期待ください。

三宅元貴より:

2022年7月21日 8:58 PM

ここで質問する事が適切かどうかわかりませんが、よろしければ教えて下さい。
AIリテイクでテイクを生成した時にあらわれるハートマークは何ですか？

返信
- 藤本健より:
  
  2022年7月23日 11:47 AM
  
  三宅さん
  
  私もよくわからなかったので、Kanruさんに連絡して聞いてみました。
  もしかして、ハートマークをONにすると、その後、その歌い方をする確率があがる…というような仕掛けがあるのでは…と。
  が、Kanruさんからのお返事は
  
  マークは単なる管理しやすいため、「これがいいかも？」と思ったテイクにいいねをつける機能です。期待ほどすごいやつではなくてすみません
  
  とのことでした！
  
  返信
Jimi より:

2022年7月22日 11:23 PM

まだ、張り上げた声（シャウトみたいなのではなく）の表現ができないので、ロック以上になるとまだ全然なんですよね。
Superflyとか椎名林檎とか、それこそAdoとか、唸りとか、シャウトとかは仕方ないとしても
80％～90％みたいな張り上げ系の表現なんとかお願いします。

返信
DTMってるより:

2022年7月23日 6:01 PM

アップデートで新機能アツいですね
それよりもショートカットキーを割り当てる画面が小さくて、ショートカットキー名自体も入りきらないくらい小さいし…

その表示を大きくしてくれるアップデートの方をしてほしいなぁとかと思います
シンセサイザーＶは基本的な操作や表示、また機能を充実してほしい

返信
The Springfield より:

2022年7月24日 1:50 PM

今回の記事で完全に購入したくなりました。
毎回いち早く素晴らしいソフトの情報を上げて頂き、とても参考になります。
ボーカロイドはすでに持っているのですが、Synthesizer Vの購入は初めてです。いろいろ調べましたがスターターパックがお得な感じがしました。
８月にあるAHSの感謝祭では、もっとお得に購入が出来るのでしょうか？もし昨年の情報でも結構ですが、教えて頂ければ幸いです。

返信
- 藤本健より:
  
  2022年7月25日 1:32 PM
  
  The Springfieldさん
  
  AHS、8月にセールやるんですか？
  全然情報を得ていないため知りませんでした。
  いま検索してみると昨年はダウンロード製品に関して30％オフのセールをやってますね、
  https://twitter.com/ahsoft/status/1421095746216992774
  今年もやるのかどうかわからないですが…。
  
  返信