AIで自分のしゃべり声をリアルタイムに別人の声に変換させる無料のサービス、CoeFontボイスチェンジャーの威力

すでにご存じの方、使っているという方も少なくないと思いますが、自分のしゃべる声をAIでリアルタイムにまったく違う人の声に変換するシステム、CoeFont ボイスチェンジャーが大きな話題になっています。これは株式会社CoeFontが提供しているAIによるボイスチェンジャーで、マイクに向かってしゃべれば、非常にリアルな声で別の人に声に置き換わるというもので、男性の声を入力しても、まったく違和感なく、リアルな女性の声にすることが可能です。あの、ひろゆきさんの声を含め、現在10人の声に変換が可能で、それを無料で使えてしまうというのが大きなポイント。

今後は人気キャラクターや著名人を含む1万種類以上の声への変換も可能になるとのことで、まさにボイスチェンジャーの世界における革命となりそうです。現時点ではWindowsのみで利用可能ですが、近い将来、Macにも対応するとのこと。またGPU搭載のパソコンであれば、よりレイテンシーを縮めることができますが、CPUのみでも非常にリアルな声で使えるのが大きな特徴となっています。実際どんなもので、どのように使うのか、そしてなぜこんなことが実現できたのか、将来どんな形で進化させていくのかなど、開発者であるCoeFontのVP of Researchである西邑勇人さんに話を伺ってみました。

マイクで自分の声を入力するとさまざまなキャラクタの声にリアルタイム変換できるCoeFont ボイスチェンジャー

マイク入力した声をそのまま別人の声に変換するCoeFont ボイスチェンジャー

まずはCoeFont ボイスチェンジャーとはどんなもので、どんな声に変換できるのか、私がマイクにしゃべる形でリアルタイム変換しているところをそのまま録音してみたので聴いてみてみてください。左チャンネルが私の声、右チャンネルがCoeFont ボイスチェンジャーで変換した声です。

聴いてみると分かるとおり、私の声と変換した声には1秒程度のタイムラグがあります。設定を調整することで、このタイムラグはもう少し詰めることが可能です。また、ここではインテルの第12世代のCore i9-12900Hを使ってテストしていますが、GPU搭載マシンであれば0.2秒程度のタイムラグにまでレイテンシーを詰めることが可能なようです。

またAI音声の切り替え時に少し時間がかかるとともに、若干音が途切れることがありますが、それ以外はとても安定して変換しているのがわかると思います。また、元の声質にほとんど影響されることなく、キレイに声が置き換わることもよく分かると思います。

アプリをダウンロードすれば無料で利用できる

では、このCoeFont ボイスチェンジャーについて簡単に紹介してみましょう。CoeFontについては以前「19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界」、「500円で自分の声を深層学習させ、自在に音声合成を可能に。19歳大学生社長が開発したCoeFont CLOUDの破壊力」といった記事で紹介したことがありましたが、そのCoeFontが開発した新しいサービスがこのCoeFont ボイスチェンジャーです。

CoeFont ボイスチェンジャーのアプリはCoeFontサイトから無料でダウンロードできる

これを使うには、まずCoeFontのサイトから誰でも無償でダウンロードできるソフト、CoeFont ボイスチェンジャーをインストールしておく必要があります。また起動時にログインが必要となっており、あらかじめCoeFontサイトで自分のアカウントを作成しておく必要があります。このアカウントはFree、Basic、Standardと3つのプランがありますが、FreeプランとBasicプランで、CoeFont ボイスチェンジャーを使うことができるようになっています。

FreeプランとBasicプランで、CoeFontボイスチェンジャーの利用が可能

また、前述のとおり現在はWindows版のソフトのみが提供されており、Mac版登場まではもうしばらく待つ必要があるようです。

CoeFont ボイスチェンジャーアプリの起動画面

ソフトが起動し、ログインできたら、右上の歯車アイコンを使って、サウンドデバイスの設定を行います。上が入力デバイスとなっているので、マイクを接続しているデバイスを設定、下が音の出力先のデバイスです。

Settings画面で、まずはサウンドデバイスの入出力の設定を行う

その下のConversion qualityを調整することで、変換した音質を変えられます。右側のHigh qualityにすると声質はよくなる一方で、変換にかかる時間=レイテンシーが大きくなり、入力音と出力音のタイムラグが大きくなります。反対に左のLow latencyに設定すると音質は落ちるけれど、レイテンシーが小さくなる形です。

Activeにしてキャラクタを選べば、すぐに利用可能

以上の設定が終わったら画面下の緑でOFFと書かれたところをクリックしてActiveにした上で、変換したい声のキャラクタを選択。あとはマイクに向かってしゃべるだけです。

また最初のインストール時はAlli(アリアル)とMilli(ミリアル)とAvi(アベルーニ)の3つのキャラクターのAI音声のみが入っている状態なので、それ以外を使いたい場合はキャラクタの右にあるダウンロードボタンをクリックするとダウンロードして使えるようになります。

11月20日時点、13キャラクタの利用が可能。このうちCanelのみ月額300円のBasicプランへの加入が必要

11月20日時点では13のキャラクタがあり、このうち12種類が無料で使える形です。唯一、トム・クルーズの吹き替えや「鬼滅の刃」「ONE PIECE」に出演する森川智之さんによるキャラクタ、Canel(カネル)だけは月額300円のBasicプランへの登録が必要となっています。

では、実際このCoeFont ボイスチェンジャーはどんなソフトで、どんな技術でできているのかなど、開発者である西邑勇人さんに話を伺ってみました。

 

CoeFont ボイスチェンジャー開発者、西邑勇人さんにインタビュー

--CoeFont ボイスチェンジャー、使ってみて本当に簡単にまったく違う声に変えることができましたが、改めてこのソフトの特徴を教えてください。
西邑:これまでもこうしたボイスチェンジャーはオープンソースなどでいくつかが存在していました。しかし、それらはGPUを必須としていて、一般のユーザーには使いづらい面がありました。そこで当社ではGPU不要でCPUのみでも動作するソフトとしました。2つめの特徴はライブラリが非常に豊富である、という点です。現時点使えるものはまだ13種類ですが、今後CoeFontとして許可が取れたものを使えるようにしていくので、膨大な種類の声に変換していくことが可能になります。そして男性から女性へ、女性から男性へといった場合も含め、まったく違う声にすることを違和感なくできるというのも特徴となっています。

CoeFontボイスチェンジャーの開発者である西邑勇人さん

--今回自分で試してみて1秒程度のレイテンシーがありましたが、これはもう少し小さくすることはできないものですか?
西邑:今回の開発において、声質の精度を最重視すると同時に軽さを実現することに重きを置いたこともあり、リアルタイム性については正直なところ、ある程度妥協したというのが事実です。GPUが必須だと多くの方に使っていただくのが難しくなる中、精度を保ちながらCPUだけで処理するのは簡単ではありませんでした。このレイテンシーはデバイスに依存する形になっており高速なマシンほど低遅延にすることは可能です。またレイテンシーは3段階で設定することができ、低遅延にするとある程度、精度は犠牲にはなるトレードオフの関係にはありますが、ある程度までタイムラグを少なくすることは可能です。もしGPUを搭載したマシンをお使いであればレイテンシーを0.2秒程度まで縮めることが可能となっています。

Conversion Qualityの設定でレイテンシーを3段階で調整可能

--将来、もしCPUがもっともっと高速になったら、ほぼリアルタイムに変化することは可能になるのでしょうか?
西邑:このCoeFont ボイスチェンジャーではAIを用いて変換しているのですが、入力される音声波形を一定のウィンドウ幅に区切って、逐次的にモデルに投入して変換していくという流れになっています。このウィンドウ幅をある程度持たせることで、より正確な声質変換が可能になり、そこには100msecとか200msec程度の時間を持たせる必要があり、現在の技術の方向性としては、原理的に0msecにするのはほとんど不可能だと思われます。とあるリアルタイム性に特化した研究でも25msecのウィンドウ幅があり、どうしても遅延は生じてしまうと思います。

--現在13のキャラクタが利用できるようになっていますが、今後、膨大な種類の声に変換可能になるというのは、これがCoeFontをそのまま利用できる、という意味なのですか?
西邑:技術が少し異なるため、既存のAI音声をそのまま使えるというわけではありません。ただ既存のAI音声を元に学習しなおすことで変換は可能なため、許可が取れているものから徐々に変換し搭載しているというところです。ライブラリに関しては声優さんや著名な方のボイスを増やしてきたいと思っており、声優さんの事務所と提携の交渉を行っているところです。キャラクタのIPなども含め、フラットフォーム上で権利を守りながら進めていきたいと考えています。現在、森川智之さんによるキャラクタであるCanelのみ有償のサービスとなっていますが、今後はそうしたものも増やしていきたいですね。まずはフリーで使えるものを中心に順次増やしていく予定で、あと半年でさらに10種類くらい増やせれば、と考えています。

--このCoeFont ボイスチェンジャー、実際どういう利用の仕方がされているのでしょうか?
西邑:ダウンロード時に簡単なアンケートをとっているのですが、ボイスチャットで利用したい、という回答が一番多くありました。実際、Discordのボイスチャットで利用したいという声は多くあります。ただDiscordなどで使う場合、VoiceMeeterなどのような仮想オーディオインターフェイスを使ってルーティングする必要があり、使い方が複雑になってしまうのも事実です。今後そうした仮想ドライバなども実装していければと考えているところです。そのほかVTuberなどを含めた動画制作やライブ配信、ゲーム実況・オンライン対戦などさまざまな使い方をされているようです。

VoceMeeterなどの仮想ドライバを利用することで、Discordなどで利用することが可能になる

--そのほか、今後の展開についてお話いただけることがあれば、お願いします。
西邑:まずは、その仮想ドライバを含め、みなさんがより使いやすくなるよう開発を進めるほか、CPUに特化したモデルの開発も進めています。また、ライブラリを増やしていきたいですね。その中で、各所と交渉を進めながら、有料のコンテンツなども増やしていければと思っています。一方、現在はほぼ日本国内でのサービス展開となっていますが、言語的には英語も得意だったりするので、海外展開などもできればと考えているところです。ただ、まずは無料で使うことができるので、多くの方々にこのCoeFont ボイスチェンジャーを体験していただければと思っています。

ーーありがとうございました。

 【関連情報】

CoeFontボイスチェンジャー情報

Commentsこの記事についたコメント

2件のコメント
  • 匿名

    自分の声に声優の技術が乗るとどんな感じだろう。
    そしてもし、ゲームでそんな変換やキャラクターに吹き込むことが出来るのなら没入感もあるんじゃないだろうか。
    ボイスチェンジャーは昔からよく見かけますが、こういうのはあまり見かけないかも知れない…。

    2023年12月1日 11:25 PM
  • 才能

    こういった若い才能はどんどん企業がバックアップして成長させていってほしい
    日本は著作権とか利権にとてもうるさいし、今流行りのAIもそうだし、若い衆の声や新しいもの、新しい技術には閉鎖的ですぐにだめにする、規制する国だから後進国だなんて言われてるんだ

    2023年12月2日 3:16 PM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です