自分の声をキャラクターの声にリアルタイム変換するSFのような技術、リアチェンvoiceが楽器フェアに登場！

2016.11.022021.09.12

この記事は約6分で読めます。

この記事にはアフィリエイトなどPRが含まれています

音声信号処理により、自分の声をまったく別の人の声に変換するというSFのような技術が登場してきました。東京・世田谷区にあるクリムゾンテクノロジーが開発した「リアチェンvoice」というのがそれ。リアル＆リアルタイムに音声を変換する、ということから名付けられているそうですが、すでに8月から販売も開始されているという現実となっている技術なのです。

奈良先端科学技術大学院大学の戸田智基客員教授(名古屋大学教授)の戸田智基教授の研究グループとクリムゾンテクノロジーによる共同開発で、製品は標準版とプロ版の2種類。実際、どのくらい使えるものになっているのかを見てきましたので、紹介してみたいと思います。

リアルタイムにしゃべる声をキャラクターの声に変換するリアチェンvoice

最近、ゆるキャラの着ぐるみが各地で活躍しています。ただ、ゆるキャラをしゃべらせるとなると、なかなか無理も生じてきます。アニメなどの映像では声優さんが声を出しているけれど、着ぐるみとなると、なかなかそうもいかないからです。

リアルでリアルタイムに声を変換するという意味でネーミングされているとのこと
「キャラクタの声は、特定の声優さんに頼ることになり、着ぐるみなど、活躍の場が広がれば広がるほど、その声優さんに負荷がかかってくるという問題があります。それをなんとか軽減できないか……という声が上がっていたので、それを当社の音声合成の技術で応えられないだろうか…と開発に取り組んできました」と話すのはクリムゾンテクノロジーの代表取締役の飛河和生さん。

クリムゾンテクノロジーの皆さん。手前が社長の飛河さん、奥が左から尾崎さん、高橋さん、金森さん

飛河さんは、以前「古くて新しいMIDI規格、AMEIが語るMIDI検定の背景」という記事でインタビューしたこともありましたが、AMEIのMIDI規格委員会・委員長も務めている方。本業であるクリムゾンテクノロジーは、さまざまな音楽・楽器アプリケーションを開発したり、音楽配信でのアグリゲーションビジネスを行うなど、幅広い展開をしている会社です。
そのクリムゾンテクノロジーで、研究開発を進めてきた結果、どのスタッフがしゃべっても、元のキャラクタと近い声質になるような技術として、「リアチェンvoice」を生み出したのだそうです。
でもリアルタイムに声質が変化するシステム自体は、これまでもいろいろあるし、テレビなどでも匿名の人の声を変換して使っていたりしますよね？それらとは違うものなのでしょうか？

「これまであったシステムはピッチシフトで声の高さを変えたり、決まった値でフォルマント変換を行うことで声質を変換させるものでした。それに対し、リアチェンvoiceはターゲットとなる声優さんの声にマッチするように、それぞれの人の声を変換するようなシステムにしています。その際、変換によるレイテンシーは100msec以下に抑えているため、ストレスなく使うことが可能です」と話すのは開発を担当した高橋賢一さん。

詳細はともかく、高橋さんにデモをしてもらったので、まずはそちらをご覧ください。

どうですか？最初の声は男の子系女性ボイスのRisa、2番目がイケメンボイスのTakuya、3番目はキャラクタ系男性ボイスのRyotaとのこと。明らかに従来のボイスチェンジャーなどとは異なる次元のものであるのは分かりますよね。さて、これはどのような仕組みになっているのでしょうか？

「当社が開発したMetamorphoneという技術を使っているのですが、ここでは予めキャラクターの声をデータベースに登録しておく一方、現場で実際に声を出すスタッフの声も登録し、そのマッチングを図れるように音声学習を行うのです。そしてその変換モデルデータを生成しておくことで、簡単に、そしてリアルタイムに声質変換を実現しているのです」と高橋さん。

つまり、誰がしゃべっても、目的とするキャラクターの声になるというわけではなく、予め登録しておいた人の声を変換できるというわけなんですね。3人のスタッフがいれば、3人とも事前に声を収録して、変換モデルデータを作っておく必要があるわけです。

ここで紹介しておきたいのが、リアチェンvoiceにはプロ版と標準版の2種類があること。

キャラクター自体を自由に設定可能なプロ版
「プロ版というのは、大規模イベント施設をターゲットとしたもので、現在活躍中のキャラクターの声優さんの声を収録し、その声が出せるようにするシステムです。もう一つの標準版は自治体やイベント提供会社、またコールセンターなどを対象にしたもので、予め用意されたキャラクタの声を出せるようにしたシステムとなっています。たとえば、ゆるキャラの着ぐるみの声を出すとか、電話サポートや電話セールスなどで男性が受け答えしていても女性がしゃべっているように演出することで、会話をスムーズにする……といった効果を狙えるのでは…と想定しております」と話すのは営業担当の金森均さん。

予め3種類の決まったキャラクターの声が用意されている標準版
ちなみに標準版で使えるのが先ほどのビデオでデモしていたTakuya、Risa、Ryotaの3ボイスですが、今後このボイスライブラリは拡充していくとのことでした。

いずれにせよ、現時点ではビジネス向けの製品であり、個人向けのシステムというわけではないそうです。ここで気になるのは、声の収録にどのくらいの時間がかかるのか…という点です。

リアチェンvoiceの導入までの流れ

高橋さんに聞いてみたところ、スタッフ1人分の収録にかかるのは約2時間。まずはキャラクターのしゃべり方を真似しながら練習を行い、あとは台本を読んでいくのだとか。ただ現在、収録方法については新たな手法を開発中で、今後より効率よく作業できるようにしていく、とのことでした。

また、この収録や変換モデルデータの生成はクリムゾンテクノロジー側で行い、ユーザーに開放はされていないようです。声を完全に変えられるということで、悪いことに使おうと考える人もいそうですが、どこの企業が使っていて、誰の声を活用しているのか…といった情報は記録されるわけですから、下手な使い方はできないとは思いますよ。

なお、声質は変わるし、ピッチチェンジは上下1オクターブの幅で設定できるけれど、ピッチの動き自体は保持されるとのことです。つまり、歌って音痴に変換されてしまうことはないし、ピッチをいじらないか、上下1オクターブで設定していれば、モニターしながら歌うことも容易なわけですね。

Windows版のリアチェンvoiceコンバータの画面

ところでユーザー側のシステムには、比較的シンプルです。ここには収録用のシステムなどはなく、「リアチェンvoiceコンバータ」という音声変換ソフトと、Metamorphone変換モデルデータという変換のためのデータベースがインストールされるだけ。レイテンシーを小さくし、音質を向上させる目的からオーディオインターフェイスを用いて、ASIOドライバを使う形になっています。

リアチェンvoiceの仕様

なお、現時点ではWindowsでの動作のみで、サンプリング周波数は44.1kHz/48kHz、サンプリング分解能は16bit。とはいえ、すでにiOS版はほぼ完成しているようなので、まさに着ぐるみの中に持ち込んで使うことができそうですよね。

以上、リアルタイム・キャラクター・ボイスチェンジャー「リアチェンvoice」について紹介してみましたが、いかがだったでしょうか？もっと詳細を知りたい、実際に変換しているところを見てみたい…という方は、11月6日の16時から楽器フェアのAMEIのステージでセミナーを行うとのことですので、ぜひ参加してみてはいかがですか？

【関連情報】
リアチェンvoiceプレスリリース
クリムゾンテクノロジーWebサイト

【セミナー情報】
楽器フェア　リアチェンvoice技術発表セミナー

kankan より:

2016年11月2日 4:15 PM

お～っ、今までの製品が谷底に沈むくらい、格段にレベル高い。
これ、仮歌でいけたらいいな。

返信
てとより:

2016年11月2日 4:40 PM

これはこれで凄いのかもしれませんが、
流行りのディープラーニング技術を使えばもっと自然なのが作れそうな気もしますね。
絵画ではすでにゴッホ風の絵などに簡単に変換できるようになりましたし。

返信
ななしさんより:

2016年11月2日 5:39 PM

> どこの企業が使っていて、誰の声を活用しているのか…といった情報は記録されるわけですから、下手な使い方はできないとは思いますよ。
ランダムなノイズというか認証コード的な信号を含ませたりしたりとか
Panasonic？が照明にデータ信号を混ぜている？のと同じですが

返信
名無しより:

2016年11月3日 1:22 PM

楽しそうw

返信
？より:

2016年11月3日 8:31 PM

え？これ、ほとんどかわってないきが・・　ピッチがちがうだけで。
気のせいかしら・・
棒ダイアモンドなんちゃらよりひどいんですが・・

返信
？より:

2016年11月3日 8:38 PM

Voice Changer Software Diamond 8.0
これもひどいが、これと対してかわらなくない？？

返信
キミRyu より:

2016年11月4日 9:45 AM

要するに変換ではなく音声の解析の方に注目したって事？
何にせよ楽しい技術だね

返信
ねむねむ☆ より:

2016年11月4日 10:54 AM

「凄い」の一言しかない。
これで初音ミクの声で人が歌える！
あれ？ボーカロイド誕生の意義が（笑）
問題点は下ネタ、エロ方面の許容範囲でしょうね。
法人でもバレなきゃいいというところもありますし、やがて別の企業や個人が似たものを開発して一般にまで下りてきた時に。
そして、許容する声優が現れて解禁されるが、許容できない声優のもあって、
やっぱり皆バレなきゃいい精神で、YouTube等の転載動画のような状況が一般化してしまいそうですね。
ねとらじ黎明期の頃から人気声優に声が似ている方がより声を似せて下ネタを言う放送などがありましたから、有名税のような扱いで落ち着いてしまいそうです。

返信
べろさんより:

2016年11月4日 11:30 AM

地味にすごい技術の進歩だけど、声優さんの仕事を一部食っちゃうのかな。最初テーマパークの声優さんの地味な仕事の置き換えに見えるけど、将来有名な声優さんの声がこの技術に置き換わって永遠にその声を維持していくことになるんだろうなと考えると、すごいだけに怖いような…

返信
憂慮する少年より:

2016年11月5日 12:27 AM

誘拐犯がこれを使って電話をかけてくるのかな。

返信
はいより:

2016年11月6日 3:27 AM

これってNAMAROIDとかゆかりねっとと何が違うのかしら？

返信
とおりしゅがりより:

2016年12月12日 9:11 PM

>>11
NAMAROIDとかゆかりねっとは、音声認識で文章をテキスト化したあと、既存のソフトに読ませてるだけ。
このリアチェンVoiceはちょっと凝ったボイスチェンジャーって感じ。声の波形その物を弄ってる。

返信
ゲーテより:

2017年3月14日 1:34 PM

>>9
アニメのキャラの繊細な気持ち等、ごくわずかなイントネーションで上手く表現されるようにするにはやはり声優本人の力じゃないといけないかもしれませんよ。
コンピューターといえど言ってしまえば偽物ですし、近づける事さえ出来ますが
本当にキャラの感情等繊細に扱うには「感情」のある人間が一番良いのかもしれません。
気持ちを考えながら声を出せる訳ですし、
何もかも代替品で補っても何か乏しくなって見えたり寂しさが見えてきて声優と比べると全然違うなって思うこともあるかもしれません。声優さんでなければより良いものが仕上がらない！とか。
そこを大切に思っている方等がいらっしゃれば声優の仕事もなくなることはあまりないかもしれませんよ。

返信