最新AIでついにラップも実現、まだまだ進化するSynthesizer Vの技術背景と目指す方向

すでに使っている方も多いと思いますが、2023年6月21日にSynthesizer Vの最新バージョン1.9.0が正式にリリースされています。これまでのSynthesizer V Studio Proのユーザーであれば、誰でも無料でバージョンアップできるようになっているのがスゴイところですが、この1.9.0ではついにラップに対応するという、音声合成・歌声合成の世界の中で初の試みが実現されています。これまでラップを音声合成ソフトや歌声合成ソフトで、無理やり実現させようと打ち込みを頑張ってみた経験のある方も少なくないと思います。でも、なかなか思うようにいかなかったのが現実ではないでしょうか？

そのラップを今回のSynthesizer V 1.9.0ではついに現実のものにしたのです。現時点においては英語のラップと中国語のラップへの対応で、日本語にはまだ対応できていないようですが、現在準備中なので期待したいところです。さらに1.9.0では広東語対応や簡易ピッチモードの使い方の改善など、さまざまな強化が図られていて、メジャーバージョンアップといっても過言ではない機能強化になっています。そこで、Synthesizer Vの開発者であり、Dreamtonicsの代表取締役、AHSの代表取締役でもあるKanru Hua(カンル・フア)さんに、どうやってラップを実現させたのか、広東語に対応させた意図はどこにあるのか、などいろいろ話を伺ってみました。

Synthesizer Vは1.9.0でラップにも対応。どのように実現させたのか開発者にインタビューしてみた

カンルさんに関しては、これまでも「なぜ中国の天才青年は日本で起業し、AI歌声合成ソフトをヒットさせたのか？Synthesizer Vの開発者、Kanru Huaさんインタビュー」、「AI歌声合成に命を吹き込むSynthesizer V 1.8.0発表。歌姫Maiの歌声データベースはSynthesizer V Studio Proユーザーに無料で公開へ!」という記事など、何度もインタビューさせてもらってきましたが、まさに天才エンジニア。

いまも最先端の研究を行いながら、Synthesizer Vの開発を行っているわけですが、今回またスゴイ発明といってもいいことを実現してくれたようです。

ニッチともいえる広東語に対応させた背景
Synthesizer VとVOICEPEAKの間に位置づけられるラップ
ユーザーフィードバックを元に簡易ピッチモードの位置づけを変更

ニッチともいえる広東語に対応させた背景

－－1.9β1で、ラップを実現したという情報を聞いたときには驚きましたが、またメジャーバージョンアップと言って間違いない機能強化をしましたね。
カンル：Synthesizer V 1.8.1からリリースサイクルを少し変えて、先にβ1、β2という先行リリース版を出して多くの方にチェックいただいた上で、正式版をリリースする形にしました。今回の1.9.0は新機能がいろいろあり、ラップ対応だけでなく、広東語対応、簡易ピッチモードの変更などいろいろ機能強化すると同時に、発音においても改善を行っています。とくに日本語の歌声データベースで英語を歌わせたり、反対に英語や中国語の歌声データベースで日本語を歌わせた際、よりネイティブな感じになっています。多言語での対応ということに力を入れています。

日本語、英語、中国語に加え、広東語での歌唱にも対応

－－これまで日本語、英語、中国語の3言語だったのが、今回、1.9.0で広東語対応したということですが、それはカンルさんが広東語が得意だから、ということなんですか？
カンル：私は広東語は分からないですよ。確かに小学校のときに友達がいたことから、少し聞き取れるようになったけど、もうすっかり忘れてしましました（笑）。今回、ある意味ニッチともいえる広東語に対応させたのはSynthesizer Vの今後に向けての実験という意味を持っているんです。今後もっといろいろな言語に対応していくための実験ということですね。広東語は中国語＝北京語と一番似ている言語という意味で扱いやすかったから選びました。ただ、発音は北京語とはかなり違いますね。

広東語対応として追加された音素

－－その実験という意味では何か成果があったのですか？
カンル：そうですね。多国語対応させる上で、どこが難しいのか、何に注意すればいいのかが分かった、というのが大きな成果でした。実は開発段階においては、われわれ開発者だけで品質の判断をしていました。デモでいろいろと歌わせてみて、チーム内では「まさに広東語だ！まるで香港の映画みたいだ！」と歓喜していたんです。ところが実際に広東語ネイティブの人たちに聴いてもらい、そのフィードバックをもらった結果、「やっぱり変だ！」と言われたんです。その原因は音源の問題というよりも、歌詞とメロディーの韻が合わない、との指摘を受けたんです。その後ネイティブの人たちに相談し、β1、β2でクオリティーアップを図りながら、正式版を出した、という経緯があります。やはり開発段階でネイティブの人と相談しながら実現しないといけないな、と強く実感しました。

－－ディープラーニングが、ここ数年で急速に進化してきているし、Synthesizer Vもそれによって進化した面があると思いますが、ここが進化すれば、そうした問題は解決できるのでしょうか？また学習するサンプルを増やせばいい、というものではないんですか？
カンル：数の問題ではないんです。またどれくらいの人達が喋っているのかというのも別の話です。実際ひとつをうまく作っていかないと効果が出ないんです。それぞれの言語の人たちの音楽の文化があり、それを理解しないと作れないため、単に深層学習すればいいわけではないんです。今回の広東語対応で、そうしたことを勉強できたのは大きな一歩でしたね。

Synthesizer VとVOICEPEAKの間に位置づけられるラップ

－－今回の最大のトピックスであるラップについて教えてください。これまでみんなラップをSynthesizer VだったりVOLCAOIDで歌わせようとしたり、音声合成ソフトで歌わせようとしたけれど、なかなかうまく行きませんでしたが、それができるようになったわけですよね。
カンル：まずは英語と中国語の二か国語での対応ではありますが、そのうちの英語のデータベースであるRitchyのデモを聴いてみてください。

－－もう無敵ですね…。どうしてこんなことができるようになったんでしょうか？
カンル：ラップに関しては、だいぶ以前から実現させたいと考えていました。やっぱりラップは楽しいですからね。とくに歌詞がメインになる歌い方なので。ラップって、これまでの歌声合成と比較するとTTS（Text to Speach＝音声合成）っぽいじゃないですか。Dreamtonicsは、これまで歌声合成のみだったのが昨年、TTSであるVOICEPEAKをリリースしたことで、両方を実現できるようになりました。感覚的にも分かると思いますが、ラップって、歌声合成とTTSの間に位置づけられるものなんですよね。そう考えていった中、一番難しかったのがUIです。音楽であれば楽譜だったりピアノロールという入力手段があったし、TTSなら文字を文章として入力するだけでいいわけです。それに対し、ラップはどうなるんだろう……、と。そこでラッパーの方々に相談したり、ヒアリングしてみたんですよ。彼らが独自の楽譜のようなものを持っていないのか、と。そうしたら、みんなそれぞれ自分のやり方であって、ルールブックが存在しないんです。

Syntheseizer V 1.9.0ではピッチモードにラップというモードが追加されている

－－なるほど、確かにラップ用の譜面とかないですもんね。
カンル：ある人は頭のなかに1,000個とか2,000個のフレーズがあって、それを気分で選んで歌う人だったり……。そこで、とりあえずラップの曲をたくさん聴いてみて、生のラップのボーカルを聴いてみて、パターンを探してみたんです。そうしたら言語によってもかなり違いがあって…。もともと言語が持つイントネーションがありますが、英語なんかだともともとのイントネーションを無視するケースが多いですが、逆に中国語では元のイントネーションを保持していたり…。でも人によって、そこにいろいろ違いがあったりと、一筋縄ではいかないんです。そこでラップ用に音の高さと上がり/下がりの2つの軸で表現するラップイントネーションというパラメータを作ってみたのです。これでピッチの動きを表すことができるようになりました。一方、ラップではリズムも非常に重要です。

ラップイントネーションというパラメータが追加され、各ノートごとにピッチの高さやその動きを調整できる

－－確かに、リズムがすべてなような気もしますね。
カンル：実は当初、違う手法を考えていたんです。そもそもユーザーがリズムを考えるのではなく歌詞を入力すれば、それっぽくなるようにリズムを作れるようにしたんです。が、このように全部自動化してしまうと、思っていたのと違ったリズムになってしまったりで、なかなかうまく行きませんでした。そこで、まずユーザーがリズムを決めて、それに合わせて文字を打ち込むようにしたらいいだろう、と現在の手法に変更したんです。ただ、そのリズムをマウスでポチポチ入力していくのは結構大変です。もちろん、それが好きな人は、マウス入力でもいいのですが、MIDIキーボードを使って、タップ入力するようにしてみたんです。これなら鍵盤が不得意な人でも関係なく、タイミングに合わせて叩けばいい。その後、そのリズムに合わせて文字を入力していくんです。

－－このラップ、既存の歌声データベースでも使うことができるんですか？
カンル：ラップを歌わせるためには、ノートプロパティにおいて各ノートのピッチモードをラップにする必要があります。現時点、このピッチモードをラップにできるのは、ラップ対応させたRitchy（英語）とD-Lin（中国語）のみですが、既存の歌声データベースも最新版にアップデートさせることで、ラップ対応できるようになります。ただし、やはりラップを学習させた、ラップ専用の歌声データベースのほうが、よりラップらしい発音にはなりますね。RitchyやD-Linは2、3か月前に、英語のラッパーの人と中国語のラッパーの人それぞれの収録を行いそれを学習させています。ネットのデータとかは使ってないですよ。すべてオリジナルのデータを学習させた結果実現させています。

－－このRitchyとD-Lin、無料で使えるようですが、どうなっているんでしょうか？
カンル：RitchyはHipHopアーティストであるMbanja Richy(B-bandj)とのコラボレーションによって誕生したデータベースで、7月4日に発売を開始しました。が、そうした製品版とは別に、「機能限定版歌声データベース」として無料でダウンロード可能となっています。無料という意味では、これまであったライト版にも近い考え方ですが、ライト版が音質を落としてあるのに対し、この機能限定版は音質面では製品版といっしょです。ただし、日本語で歌わせるというような多言語利用に制限をかけていたり、ボーカルスタイルを用意していなかったり、また出力の長さが制限されているなど、機能を限定しているんです。でも、十分ラップの面白さは体験できるようにしてあります。

ラップに対応したデータベースとしてRitchyとD-Linの機能限定版が無料で使えるようになっている

－－やはり日本語のラップができるようになってほしいところですが、その予定はどうでしょうか？
カンル：鋭意開発中です（笑）。期待して待っていてください！言語のイントネーションと表現のイントネーションの違いがあるので、簡単というわけにはいかないんです。

ユーザーフィードバックを元に簡易ピッチモードの位置づけを変更

－－もう一つ、今回の1.9.0では簡易ピッチモードについて仕様を変更した、という話でしたが…。
カンル：これまで簡易ピッチモードというものを用意していましたが、それを今回なくしました。が実際には機能は残してあるのですが、使い方を変えマニュアルを選択すると、簡易ピッチモードではなくなるようにしたのです。いままで簡易ピッチモードにするとプロジェクトすべてが簡易ピッチモードになってしまったのに対し、今回ノートごとに設定できるようにしました。つまり基本的に簡易ピッチモードがいいけれど、このノートだけ修正したい、ということができるようになったのです。具体的にはノートプロパティのピッチモードにマニュアルというものがあり、これをオンにすることで簡易ピッチもオードではなくなるのです。ぱっと見目立たないですが、マニュアルにすると、ノートの右上に小さな三角マークがつく形になり、これによって、マニュアルであることが分かり、ここを自由に設定できるのです。またマニュアルから歌唱に変更すると、それをキープしながら逆変換になるわけです。こうした部分も、βテストでのユーザーのみなさんからのフィードバックを元に実現しています。

各ノートごとにピッチモードをマニュアルに設定して、細かく設定することが可能になった

－－その他の改善点はありますか？
カンル：今回、発音の改善もおこなっています。日本語の歌声データベースで英語を歌わせたり、中国語のデータベースで日本語を歌わせるといったときの発音がよりネイティブな感じになりました。そのためたとえば英語データベースであるKevinや中国語データベースであるQing Suに日本語で歌わせる場合、違和感ない自然なネイティブな発音になります。この辺はぜひ試してみてください。