自分の歌声をアーティストの声質にリアルタイム変換! 録画・録音機能も搭載した無料のiOSアプリ、mimivo誕生

VTuberやゲーム実況などの世界で、自分の声をリアルタイムに別の声に変換してくれるボイスチェンジャー、いわゆるボイチェンが流行っている中、一昨年、声優さんの声などにリアルタイム変換するアプリ、Voidolが登場して大きな話題になりました。これはクリムゾンテクノロジーが開発した技術、リアチェンボイスをエンジンとして組み込んだアプリだったわけですが、そのクリムゾンテクノロジーがまた面白いiPhoneアプリを開発し、8月31日に無料でリリースしました（アプリ内課金あり）。

今回登場したmimivo（ミミボ）は、自分の歌をアーティストの声質にリアルタイムで近づけることができるというもの。たとえば荒井由実、宇多田ヒカル、小田和正、Offical髭男dism、Suplerfly、星野源、松田聖子、山口百恵……といった声で歌えてしまうという、これまでにないユニークなものです。でも、ホントにそんなことが実現できるのか、どこまでの実現性があるのか、実際試してみたのでレポートしてみましょう。

クリムゾンテクノロジーから自分の歌声をアーティストの歌声に変換するアプリ、mimivoがリリースされた

まず、アプリの詳細や、技術背景などについて話をする前に、以下の動画をご覧ください。約2分半のビデオですが、注目は1分経過したあたりからです。

どうですか？これはちょっと驚きですよね。そう、小田和正の「言葉にできない」をクリムゾンテクノロジーの担当者である田中俊輔さんが歌っているもの。以前、「結月ゆかりも新キャラとして登場! 自分の声をリアルタイムに別キャラに変えられるVoidolのプラグイン版が誕生」というVoidolの記事のときも歌ってもらいましたが、その時の比ではないほどの性能を感じます。まさに小田和正に成り切っているように思いますが、いかがでしょうか？

このビデオの前半にもmimivoの使い方の説明がありましたが、改めてこのアプリがどんなものなのかを紹介しましょう。

前述の通り、このアプリ本体は無料でダウンロードできるiPhone用のものです。将来的にはAndroid版なども検討しているようですが、当面はiPhone用（iPadでも動作はします）となっています。

このアプリを使って歌うと自分の歌声をリアルタイムに各アーティストの声質に近づけることができるのですが、イメージとしてはエフェクトアプリというよりも、カラオケアプリに歌声変換機能が搭載されたもの、と考えたほうが分かりやすそうです。というのも、この歌声変換を行うには、まず楽曲をアプリ内課金の形で購入し、それを再生すると同時に、マイク入力からの歌声変換が始まる仕掛けになっているからです。

リリースされた8月19日時点、約50曲がラインナップされており、今後増えていく予定

8月19日時点で、ラインナップとして用意されている曲リストは記事最後に掲載した約50曲ほどで、各曲も370円。今後徐々にコンテンツは増やしていくとのこと。1曲購入すれば、もちろん何度でも何時間でも歌うことが可能です。とはいえ、いきなり370円支払うのは抵抗があるという人も多いのではないでしょうか？ホントに、さっきの小田和正風な歌声が実現できるのか、試してみたい……と。

現時点では各曲ともに370円となっている

もちろん、その点は大丈夫。全曲とも試聴というか試歌が可能になっており、各曲とも45秒という制限はあるものの、何度でも試すことが可能となっています。その上で気に入った曲があればそれを購入すればOKということですね。

45秒ではあるが、各楽曲をお試しで使うことが可能

画面や操作はまさにカラオケアプリそのもの。カラオケの伴奏が流れ、画面には歌詞が表示され、それに合わせてマイクに向かって歌うという形になっています。リバーブ機能も用意されていて、アリーナ、大ホール、小ホール、ルームから選択が可能になっているあたりも凝ってますね。また、自分のキーに合わせられるようキー変更＝トランスポーズが半音ごと-7～0～+7という範囲で調整できるようになっているのも、まさにカラオケそのものという感じです。

リバーブも搭載されており、4つのモードを選択できる。もちろんリバーブオフの選択も可能

では、お試し版と370円で購入したもの、時間制限だけなのかというと、もう一つ大きな違いがあります。購入した曲のほうは、単に歌うだけでなく、歌った結果をレコーディングすると同時に、iPhoneのカメラ機能を用いて歌っている自分を動画撮影することも可能になっているのです。その結果はMP4データとして生成されるので、それをそのままYouTubeなどにUPしてもOK。一般ウケしそうな、面白いアプリですよね。

録画された楽曲データはMP4としてiPhone内に保存され、それを外部に書き出すことも可能

と、ここまで読んだ方、とくにDTMユーザーであれば、いろいろと気になることがいっぱいあるのではないでしょうか？その疑問にお答えすべく、1つ1つ疑問点を解消していきましょう。

まずは、どのアーティスト風になるのか、という点ですが、これは楽曲によって決まる形です。星野源の「恋」を歌えば星野源風になるし、松田聖子の「赤いスイートピー」を歌えば松田聖子風になります。アーティストを変更して「言葉にできない」を星野源風な歌声で……というわけにはいきません。

各楽曲を歌っているアーティストの声質になる仕組みになっている

そして、もっと気になるのは男性が松田聖子になれるか、女性が星野源になれるか、という点。これは可能ではあるけれど、かなり練習や試行錯誤が必要そうです。冒頭にあげたVoidolでは、まさに男性が女性キャラクタに成り切ることを目指して使うケースなどがありますが、そこでも上手に男女反転するためには、喋り方の工夫が必要となるように、mimivoも同様です。

またVoidolの場合はピッチチェンジャー機能があるので、男性が女性になる場合は音程を上げ、女性が男性になる場合は音程を下げる形で使いますが、mimivoの場合はあえてピッチチェンジャー機能は搭載しなかったとのこと。やはりピッチチェンジャーやオクターバーば入るとどうしても声質が悪くなってしまうのとともに、処理に時間がかかってレイテンシーが出てしまいます。カラオケに載せて歌うものだから、極力レイテンシーを抑えるためにもピッチチェンジャー・オクターバー機能は無くしているようです。

パソコン版で喋り声をキャラクタの声にリアルタム変換できるVoidol

それに関連して気になるのはレイテンシー、つまり自分の歌声とアーティスト風に変換された歌声の時間差がどのくらいあるのか……という点です。使ってみるとやはり音の遅れは認識できるレベルであります。クリムゾンテクノロジーの代表取締役である飛河和生さんに伺ったところ「iOSのシステムでの遅延などもあり、リアルタイム変換すると約40msec、つまりショートディレイが入ったような形で音がズレてしまいます」とのこと。ここは現時点でのiPhone/iOSの性能ということにも関連するようで、この辺が限界。これを克服するためにも、やはり練習は必要ということなのでしょう。

mimivoを開発するクリムゾンテクノロジー株式会社の代表取締役、飛河和生さん

ところがこのレイテンシーをゼロにしてしまう便利なワザがmimivoには搭載されているのが大きなポイント。それがモニターの設定機能です。画面左下のモニター設定ボタンを押すと3つのレベルメーターが出てきます一番上が自分の歌声をモニターするか、アーティストの歌声をモニターするかのレベルメーターで、これを自分の歌声にしてしまうと、まったく音の遅れなくモニタしてカラオケを歌うことができます。真ん中は声の音量、一番下はカラオケの音量を調整するものとなっています。

モニターする歌声を自分の歌声にすればレイテンシーはない

もちろん、このままではただの普通のカラオケになってしまって、意味がないわけですが、これを録画すると、自分の声は消えて変換されたアーティストの歌声になる仕組みになっています。そしてこのときは遅延補正がかかっているので、レイテンシーなくカラオケとピッタリのタイミングでアーティストの歌声になった作品が完成するというわけですね。

次の疑問として、アーティストの歌い方の癖を反映できるのか、という点です。最近のAI歌声合成ソフト、つまりSyntheizer V　AIやCeVIO AI、NEUTRINOなどは、まるで本人という歌わせ方ができるわけですが、mimivoはどうなのか？これにはそうした機能はなく、歌ったユーザー本人の歌い方の癖が反映される形です。あくまでも変換されるのは声質だけなんですね。だから、下手な人が歌ったら、下手な星野源、下手な荒井由実になるということですね(苦笑)。

さて、Voidolを使ったことのある方なら、「変換元の歌声の設定はどうなっているの？」と思う方もいるのではないでしょうか？これが自分の歌声にマッチしていないと、なかなかアーティストの歌声に成り切るのが難しいのも事実。言葉を喋るのと歌うのでは違いもあるので、一概には言えない部分もあるのですが、mimivoにはそうした設定はありません。変換元は男女関係ない同じになっています。その背景には、歌だから誰でも同じピッチで歌うということもあるようです。

一般のカラオケと同様、キーを変更できるが、歌声変換機能にピッチチェンジャー機能はない

とはいえ、より本物のアーティストに成り切るには、変換元を自分の声質に適合させるのがベスト。ここについてクリムゾンテクノロジーの担当者は「個人ユーザーの方でもマイボーカルモデルが作れるように準備を進めています」と話します。自分の歌声を元にAIが機械学習をしてモデルを作る形になるため、手元のiPhoneで簡単にモデル作成……というわけにはいかないようで、カスタム制作という形にはなりそうですが、面白い未来がやってきそうではありますね。

一方で、DTMユーザー、音楽制作を手掛けるプロ・アマ問わず多くの方は、きっと同じことを考えていますよね。「アーティストの声になれるなら、その声を自分の音楽作品に使ってみたい」と。つまり、mimivoのカラオケ機能を無視して、星野源風歌声生成マシン、松田聖子風声生成マシンとして利用したい、と。

使ってみるとわかりますが、それはできないようですね。まず歌声変換はカラオケの再生ボタンを押してからでないと機能しないように制限がかけられています。まあ、実際に再生さえはじまってしまえば、イントロのところでも、アウトロのところでも、歌えば変換されるので、カラオケの音を無視して全く別の歌を歌うことが不可能ではありません。ところがカラオケの音を消すことができないんですね。先ほど、レベル調整の画面を見せましたが、カラオケの音量を最小にしてもカラオケは残っていて無音にはならないのです。

したがって、録画した結果にもカラオケが残ってしまい、まったく別の歌を歌ってその声だけを録音するということができないのです。とはいえ、カラオケの原音を取り出すことはできるので、波形編集ソフトで原音との差分を取り出せば、抜き出すことが不可能ではないかもしれませんが、これはルール違反な使い方になってしまいそうです。

もう一つ気になるのが権利上の問題。まず録音した結果をYouTubeなどにUPしてもOKとなっていますが、mimivoにある楽曲はJASRAC登録された楽曲であり、YouTubeも包括契約をしているから、問題はないようです。ただし、JASRAC包括契約をしていないTwitterなどにそのまま動画でUPするのはNGとなるので、その辺は注意してください。

mimivoのサービス概要

一方で、アーティスト側の権利を侵害するのでは……という点も気になったので、この点についても飛河さんに伺ってみました。「mimivoは、ユーザー様が歌うことを楽しんでもらうために、AI声質変換を行い、歌唱アシスト機能を提供するアプリです。AIが機械学習にて生成するフィルターのパラメーターを用い、歌うのはあくまでもユーザー様ご本人となります。ただ、当社としてはmimivoを通して、将来、声質の印税のようなものが実現できないか、実験的にスタートしたいと考えております。このアプリがある程度進んだ段階で、アーティスト様にも売り上げの一部を還元したいと考えております。また、現在は学習にCDの音声を利用していますが、機械学習に実際のボーカルトラックを利用許諾いただける場合やボーカルモデルにアーティストの名称を使用していろいろな曲をユーザ様が自由に歌うことが可能になった場合、ボーカルトラックを保有される権利者様にも還元できるような仕組みを考えております」とのこと。使う側も変な使い方をしないよう注意する必要はありそうですよね。

以上、mimivoについて簡単にレポートしてみましたが、いかがでしょうか？まさに最先端技術をiPhoneアプリに実装させたという実験的なアプリ。まずは無料で試すことができるので、どんなものなのか、試してみてはいかがでしょうか？

【ダウンロード】
◎App Store　⇒　mimivo