自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場!

音声信号処理により、自分の声をまったく別の人の声に変換するというSFのような技術が登場してきました。東京・世田谷区にあるクリムゾンテクノロジーが開発した「リアチェンvoice」というのがそれ。リアル&リアルタイムに音声を変換する、ということから名付けられているそうですが、すでに8月から販売も開始されているという現実となっている技術なのです。

奈良先端科学技術大学院大学の戸田智基客員教授(名古屋大学教授)戸田智基教授の研究グループとクリムゾンテクノロジーによる共同開発で、製品は標準版プロ版の2種類。実際、どのくらい使えるものになっているのかを見てきましたので、紹介してみたいと思います。

リアルタイムにしゃべる声をキャラクターの声に変換するリアチェンvoice


最近、ゆるキャラの着ぐるみが各地で活躍しています。ただ、ゆるキャラをしゃべらせるとなると、なかなか無理も生じてきます。アニメなどの映像では声優さんが声を出しているけれど、着ぐるみとなると、なかなかそうもいかないからです。

リアルでリアルタイムに声を変換するという意味でネーミングされているとのこと 
キャラクタの声は、特定の声優さんに頼ることになり、着ぐるみなど、活躍の場が広がれば広がるほど、その声優さんに負荷がかかってくるという問題があります。それをなんとか軽減できないか……という声が上がっていたので、それを当社の音声合成の技術で応えられないだろうか…と開発に取り組んできました」と話すのはクリムゾンテクノロジーの代表取締役の飛河和生さん。


クリムゾンテクノロジーの皆さん。手前が社長の飛河さん、奥が左から尾崎さん、高橋さん、金森さん

飛河さんは、以前「古くて新しいMIDI規格、AMEIが語るMIDI検定の背景」という記事でインタビューしたこともありましたが、AMEIのMIDI規格委員会・委員長も務めている方。本業であるクリムゾンテクノロジーは、さまざまな音楽・楽器アプリケーションを開発したり、音楽配信でのアグリゲーションビジネスを行うなど、幅広い展開をしている会社です。
そのクリムゾンテクノロジーで、研究開発を進めてきた結果、どのスタッフがしゃべっても、元のキャラクタと近い声質になるような技術として、「リアチェンvoice」を生み出したのだそうです。
でもリアルタイムに声質が変化するシステム自体は、これまでもいろいろあるし、テレビなどでも匿名の人の声を変換して使っていたりしますよね?それらとは違うものなのでしょうか?

これまであったシステムはピッチシフトで声の高さを変えたり、決まった値でフォルマント変換を行うことで声質を変換させるものでした。それに対し、リアチェンvoiceはターゲットとなる声優さんの声にマッチするように、それぞれの人の声を変換するようなシステムにしています。その際、変換によるレイテンシーは100msec以下に抑えているため、ストレスなく使うことが可能です」と話すのは開発を担当した高橋賢一さん。

詳細はともかく、高橋さんにデモをしてもらったので、まずはそちらをご覧ください。

どうですか?最初の声は男の子系女性ボイスのRisa、2番目がイケメンボイスのTakuya、3番目はキャラクタ系男性ボイスのRyotaとのこと。明らかに従来のボイスチェンジャーなどとは異なる次元のものであるのは分かりますよね。さて、これはどのような仕組みになっているのでしょうか?

当社が開発したMetamorphoneという技術を使っているのですが、ここでは予めキャラクターの声をデータベースに登録しておく一方、現場で実際に声を出すスタッフの声も登録し、そのマッチングを図れるように音声学習を行うのです。そしてその変換モデルデータを生成しておくことで、簡単に、そしてリアルタイムに声質変換を実現しているのです」と高橋さん。

つまり、誰がしゃべっても、目的とするキャラクターの声になるというわけではなく、予め登録しておいた人の声を変換できるというわけなんですね。3人のスタッフがいれば、3人とも事前に声を収録して、変換モデルデータを作っておく必要があるわけです。

ここで紹介しておきたいのが、リアチェンvoiceにはプロ版と標準版の2種類があること。

キャラクター自体を自由に設定可能なプロ版
プロ版というのは、大規模イベント施設をターゲットとしたもので、現在活躍中のキャラクターの声優さんの声を収録し、その声が出せるようにするシステムです。もう一つの標準版は自治体やイベント提供会社、またコールセンターなどを対象にしたもので、予め用意されたキャラクタの声を出せるようにしたシステムとなっています。たとえば、ゆるキャラの着ぐるみの声を出すとか、電話サポートや電話セールスなどで男性が受け答えしていても女性がしゃべっているように演出することで、会話をスムーズにする……といった効果を狙えるのでは…と想定しております」と話すのは営業担当の金森均さん。

予め3種類の決まったキャラクターの声が用意されている標準版

ちなみに標準版で使えるのが先ほどのビデオでデモしていたTakuya、Risa、Ryotaの3ボイスですが、今後このボイスライブラリは拡充していくとのことでした。

いずれにせよ、現時点ではビジネス向けの製品であり、個人向けのシステムというわけではないそうです。ここで気になるのは、声の収録にどのくらいの時間がかかるのか…という点です。


リアチェンvoiceの導入までの流れ 

高橋さんに聞いてみたところ、スタッフ1人分の収録にかかるのは約2時間。まずはキャラクターのしゃべり方を真似しながら練習を行い、あとは台本を読んでいくのだとか。ただ現在、収録方法については新たな手法を開発中で、今後より効率よく作業できるようにしていく、とのことでした。

また、この収録や変換モデルデータの生成はクリムゾンテクノロジー側で行い、ユーザーに開放はされていないようです。声を完全に変えられるということで、悪いことに使おうと考える人もいそうですが、どこの企業が使っていて、誰の声を活用しているのか…といった情報は記録されるわけですから、下手な使い方はできないとは思いますよ。

なお、声質は変わるし、ピッチチェンジは上下1オクターブの幅で設定できるけれど、ピッチの動き自体は保持されるとのことです。つまり、歌って音痴に変換されてしまうことはないし、ピッチをいじらないか、上下1オクターブで設定していれば、モニターしながら歌うことも容易なわけですね。


Windows版のリアチェンvoiceコンバータの画面

ところでユーザー側のシステムには、比較的シンプルです。ここには収録用のシステムなどはなく、「リアチェンvoiceコンバータ」という音声変換ソフトと、Metamorphone変換モデルデータという変換のためのデータベースがインストールされるだけ。レイテンシーを小さくし、音質を向上させる目的からオーディオインターフェイスを用いて、ASIOドライバを使う形になっています。


リアチェンvoiceの仕様 

なお、現時点ではWindowsでの動作のみで、サンプリング周波数は44.1kHz/48kHz、サンプリング分解能は16bit。とはいえ、すでにiOS版はほぼ完成しているようなので、まさに着ぐるみの中に持ち込んで使うことができそうですよね。

以上、リアルタイム・キャラクター・ボイスチェンジャー「リアチェンvoice」について紹介してみましたが、いかがだったでしょうか?もっと詳細を知りたい、実際に変換しているところを見てみたい…という方は、11月6日の16時から楽器フェアのAMEIのステージでセミナーを行うとのことですので、ぜひ参加してみてはいかがですか?

【関連情報】
リアチェンvoiceプレスリリース
クリムゾンテクノロジーWebサイト 

【セミナー情報】
楽器フェア リアチェンvoice技術発表セミナー

モバイルバージョンを終了