もはや仮歌は自分の歌でOK？AIでボーカルを自在に差し替えるSoundID VoiceAI。声を楽器に差し替えることも

毎日のように、新たな生成AIのシステムが発表され、1年前には想像もつかなかったような時代に入ってきていますが、また非常にユニークで画期的なシステムが登場してきました。ヨーロッパのラトビアのメーカー、Sonarworksが開発したSoundID VoiceAI、というもので、ボーカルトラックをまったく別のシンガーが歌ったものに差し替えるというソフトです。つまり歌詞やメロディーはそのままに、違う歌声に差し替えることができる、というわけです。それに近いことはSynthesizer Vの「オーディオ・ノート変換」機能を利用することで実現していましたが、SoundID VoiceAIではプラグインエフェクトとして声を変換できるため、より手軽に扱えるほか、非常に多くのシンガーが利用できるというのがメリットとなっています。

さらにSoundID VoiceAIがすごいのは変換ターゲットが必ずしも人間のボーカルだけではない、という点です。たとえば「パバッパパー」と歌ったものに対し、トランペットを指定すると、本物のトランペットに音に変換され、「ガーガガガガッガ」と歌ったものに対しディストーションギターを指定すると、かなり迫力あるギターサウンドに置き換わるのです。このSoundID VoiceAIはすでに海外では発売されていたので、何かでそのデモを御覧になった方もいると思いますが、このたび正式に国内でも発売されることになり、より手軽に利用できるようになったのです。実際どんなソフトなのか試してみたので、紹介してみましょう。

※2024.9.27追記
本日、9月27日VoiceAIの新バージョンV2が発売されました。プリセットのボイス数が増えるとともに、サブスクだけでなく、永続版が追加されています。

歌声をAIの歌声に差し替えるSoundID VoiceAIが国内販売スタート

革命的なソフトをキャリブレーションシステムで有名なSonarworksが開発
ボーカルをレコーディングし、SoundID VoiceAIをインサート
リアルタイム処理ではなく、クラウドを通じて事前に変換
変換前にピッチシフトやピッチ補正など下処理するのがお勧め
歌声を楽器に変換することも可能
料金体系は処理量に応じた従量課金で、3つのコースから選択

革命的なソフトをキャリブレーションシステムで有名なSonarworksが開発

諸々の説明はともかく、まずは以下のビデオをご覧になってみてください。

かなり驚異的なことになっていますよね。お分かりいただけたと思いますが、レコーディングしたボーカルをさまざまなシンガーの歌声に差し替えたり、楽器の音にしてしまうことが可能なのです。
※2024.9.27追記
下記が新バージョンであるV2に関してまとめたビデオです。

でも、このSoundID VoiceAIを開発したのがSonarworksだと聞いて、あれ？と思った方も少なくないと思います。そうSonarworksはモニター環境を整えるためのキャリブレーションシステムで知られるメーカー。7年前の日本上陸時に「スピーカーでもヘッドホンでもOK。理想的なモニター環境を自動構築してくれる魔法のプラグイン、Sonarworksがスゴイ！」という記事でも紹介したことがありましたし、一昨年はAV Watchの連載記事のほうではありますが「ヘッドフォンからAtmosまで、理想音場に補正するSoundID Reference」という記事で取り上げたこともありました。

SoundID VoiceAIは、キャリブレーションシステムで有名なSonarworksが開発

そんなモニター環境のキャリブレーションにフォーカスしたメーカーなので、「どうしてSonarworksが？」という思いが、正直なところではありますが、上記のAV Watch記事でも触れていた通り、膨大な音データを集めて深層学習させていく中、生成AI技術を身に着けていったのかもしれません。

ボーカルをレコーディングし、SoundID VoiceAIをインサート

では、このSoundID VoiceAIはどのように使うのか、実際にDAW上で試していきましょう。前述の通りSoundID VoiceAIはプラグイン形式のソフトウェアで、WindowsであればVST 3もしくはAAX、MacであればAudioUnitかVST 3、AAXで動くものです。

ここではCubaseを使って試しますが、Cubaseに限らずStudio One、FL Studio、Ability、Ableton Live、Logic、Pro Tools……と、ほとんどどんなDAWでも使うことができそうです。

まずDAWでボーカルをレコーディングする

まずは、モノラルのオーディオトラックを作成し、ここにボーカルをレコーディングしていきます。手元のマイクで自分でレコーディングする、というのがもっとも手軽でいいと思います。

このレコーディングができたら、ここにインサーションの形でSoundID VoiceAIを挿します。普通にディストーションをかけるとか、コーラスをかけるのと同じようにプラグインを挿すだけです。

ボーカルトラックに、VoiceAIをインサーションする

するとSoundID VoiceAIが起動し、デフォルトではJasmineという女性の写真が表示されます。その下にElton、Flona、Frederick、Rebecca、Mathew……と人の一覧が表示されていますが、現在SoundID VoiceAIにはJasmineを含め計23人の声が選択できるようになっています。試しに選んでみると「This is my voice」とそれぞれの声で歌ってくれるので、この中から変換した声を選択します。

リアルタイム処理ではなく、クラウドを通じて事前に変換

普通のエフェクトであれば、このままDAWの再生ボタンを選べばいいのですが、SoundID VoiceAIの場合、リアルタイム処理ではないので、ちょっと下準備が必要となります。まず、顔写真の下に「Capture」というボタンがあるので、これをクリックした上で、DAW側でトラックの再生を行います。

Captureボタンを押して、一度VoiceAIにボーカルトラックを聴かせる

変換した箇所が再生できたらストップすると、SoundID VoiceAI側には再生した箇所の時間が表示されます。続いて、その右側に「Start processing」というボタンがアクティブになっているので、これをクリックします。

その後、Start processingボタンを押して、差し替えを実行

クラウドでの処理となっているからか、だいたい録音と実時間の倍程度の処理時間がかかりますが、これによって完成。その右側に緑で「AI voice Enabled」と表示されます。

画面右側に緑のAI Voice Enabledボタンが現れたら準備環境

すべて準備が整ったので、DAW側で再生を行うと、自分で歌った歌が、選択した人の歌声に変換されるのです。試してみると、確かにまったく違う声、そして非常にリアルな声になります。

この23人、どれも英語のシンガーであるため、日本語の歌を入れると、かなり違和感があるのでは……と予想していましたが、意外とキレイに変換されます。国内代理店のメディア・インテグレーションによると、今後日本語のシンガーのライブラリーも増やしていきたいとのことなので、その辺が実現すると、さらにいい感じになっていきそうです。

そして英語の歌詞でのボーカルを入れた場合は、もはや人間であって、これがAIであることを判別できないレベルの歌声になります。ぜひ、この辺も試してみていただけると面白いと思います。

変換前にピッチシフトやピッチ補正など下処理するのがお勧め

この23人の一覧には「Female,Adult,Warm,Clear,Head voice」などと歌声の特徴が記載されているとともに「Best Input Pitch　Ab4」のように一番いい感じの声になる音程が記載されています。つまり、先ほど変換した声のピッチを目的の歌声のピッチに近づけておくことで、よりクオリティーの高い声になるわけです。

各シンガーごとに最適な音程が記載されている

たとえば男性の声で歌って、女性の声に変換するといった場合には予めDAW側でピッチシフトを行っておくといいわけですね。また単純にキーだけでなく、レコーディングした歌声のピッチの変化、音長も、このSoundID VoiceAIでの変換にそのまま引き継がれていくので、それなりに丁寧に上手に歌っておく必要はあります。

それでも、やはりボーカリストではないから、上手に歌うのは難しいという人も多いはず。そんな場合は変換前に、Melodyneのようなピッチ補正ソフトや、DAW搭載のピッチ補正機能などを用いてあらかじめ補正を行っておいてから、SoundID VoiceAIを使うことで、さらにいい感じに歌ってくれます。

必要に応じて、事前にピッチ補正などをしておくのがお勧め

さらにはSynthesizer VやCeVIO AI、VoiSonaのようなAI歌声合成ソフトに歌わせたものを、このSoundID VoiceAIというのもよさそうです。

歌声を楽器に変換することも可能

このSoundID VoiceAIがすごいのは、ほかのシンガーの歌声に変換するというだけに留まりません。Creativeというタブをクリックすると、さまざまな楽器の一覧が表示され、それらの楽器音に変換することも可能なのです。

21種類の楽器音も用意されている

エレキベース、スラップベース、ディストーションギター、サックス、トランペット、トロンボーン……など計21種類。リストにしてみると、以下のものとなっています。

Talkbox	Jaw Harp	Electric bass
Slap bass	Distorted guitar	Saxphone
Trumpet	Trombone	Strings 1
Strings 2	Conga percssion	Electric Drums 1
Electric Drums 2	Glitch Drums	Acoustic Drums 1
Acoustic Drums 2	Acoustic Drums 3	Brushed Drums
Vintage Drums	Talking bass	Glitchy deep bass

つまり「ブーンブン、ボーンボン」と歌ったものをエレキベースに変えたり、「ドドチ、ドドチパン…」と口ドラムを録音して、本物のドラムに差し替えてしまうことも可能なのです。楽器の演奏はできないけど、口で楽器の真似をするのは好き、という人にとっては、革命的なソフトといってもいいと思います。

トランペットの音に差し替わった

なお、この楽器への変換にもコツはあるようです。それは、できるだけ、トロンペットならトランペットっぽく、ドラムならドラムっぽく歌っておくということ。それを「ラララー」なんて普通に歌うと、目的の楽器とはまったく違うものになってしまうので、「期待外れだった…」なんてことになりそうです。その点は理解した上で、恥ずかしがらずに口真似しつつ、それっぽくなるように練習をすることが必要ですね。

料金体系は処理量に応じた従量課金で、3つのコースから選択

SoundID VoiceAIは、こんな画期的なシステムですが、気になるのはその料金です。これはAIを使ったシステムで、クラウドで処理を行うということもあって、買い切りというわけではないようです。

先ほどの変換時の「start processing」というボタンの隣に数字がありましたが、これが処理にかかる費用です。もっとも150と書かれていたら150円というわけではなく、SoundID VoiceAI専用の通貨というかポイントともいえるトークン。変換時間1秒に対して10トークンが必要となります。1分の歌声を変換するなら600トークンというわけですね。

SoundID VoiceAIの右上には残りのトークン数が表示されており、「start processing」ボタンを押すたびに、使用トークンが減っていくというわけなのです。

Start processingの横に消費するトークン数が表示。上にトークン残高が表示されている

価格には72,000トークン＝120分の変換が可能なSmallパックが税込3,800円、180,000トークン＝300分の変換が可能なMediumパックが税込7,500円、360,000トークン＝600分の変換が可能なLargeパックが税込13,000円となっており、最先端ソフトなのに、予想外に手頃な値段です。そして、必要な費用はこれだけであって、プラグイン自体は無料。しかも試用版は無料で入手でき、しかもここには9,000トークン＝15分の処理が可能な権利も含まれているのです。ただし、パックを購入しないと7日間で期限が切れるという制限はあるものの、それ以外はすべて普通に使えるのでSoundID VoiceAIがどんなものなのかを試すには十分だと思います。

また、この試用版を使う際、クレジットカードの登録などもないし、そもそもサブスクではなく、使い切りのポイント制なので、その点でも安心。まずは一度試してみてはいかがでしょうか？

【価格チェック&購入】
◎MIオンラインストア　⇒　SoundID VoiceAI Smallパック（約120分）
◎MIオンラインストア　⇒　SoundID VoiceAI Mediumパック（約300分）
◎MIオンラインストア　⇒　SoundID VoiceAI Largeパック（約600分）
◎MIオンラインストア　⇒　SoundID VoiceAI 永続ライセンス版　[2024.9.27追加]