AI歌声合成をボーカルに起用した世界初のCDをリリース。歌声合成技術が人間を超える日は来るのか!?

4月28日に東京流通センターで行われるM3＝音系・メディアミックス同人即売会において、DTMステーションCreativeレーベルの第3弾CDをリリースします。今回リリースするアルバム「Sing truly」は、国立大学法人名古屋工業大学の国際音声言語技術研究所と、その名工大発のベンチャー企業・株式会社テクノスピーチが共同で開発したAI歌声合成システムを使って作り出したボーカルを用いた作品。おそらく世界初となるAI歌声合成をボーカルに起用したCDです。

まだ最先端の技術であり、即、誰でもが利用できるシステムにはなっていませんが、近い将来、ここまでのことがDTMで実現できるようになることを実感できる楽曲となっています。言われなければ、これがコンピュータが作り出した歌声だとは気づかないほどのレベルまで来ており、歌声合成技術が音楽の世界を大きく変えるのでは……なんて空想しているところです。実際どのように作成したのかなど、制作の舞台裏について紹介したいと思います。

世界初のAI歌声合成をボーカルに採用したCD「Sing truly」をDTMステーションCreativeレーベルからリリース

何はともあれ、そのAI歌声合成を用いた楽曲「いつかかならず」をワンコーラスぶん、YouTubeにUPしてみたので、まずは、その歌声を聴いてみてください。

いかがですか？かなりリアルでしょ？これを聴いて「あ！例のヤツだよね？」と思われた方も多いと思います。そう昨年末の「歌声合成技術に革命！ディープラーニングで人間さながらに歌うAI歌声合成システムを名工大とテクノスピーチが開発」という記事で書いたシステムそのものを使わせていただいたのです。

第1弾ではシンガーの小寺可南子さんを起用した「Sweet my Heart」を第2弾では声優の小岩井ことりさんとコラボする形で「Harmony of birds」をリリースしたDTMステーションCreativeですが、第3弾をどうするか……と考えたときに、1番に思い浮かんだのが、AI歌声合成を利用するということでした。そこで1月に名古屋工業大学・教授の徳田恵一先生にメールで打診したところ、「卒論シーズンで忙しく、なかなか時間がとれそうにない」というお返事をいただき、半分諦め気味でいました。

しかし、今回無理だとしても、この技術がどうなっているのかも興味があるし、将来どうすればAI歌声合成を使えるようになるのか気になるので、3月初旬に名古屋工業大学に行って、徳田先生とテクノスピーチ社長の大浦圭一郎さんにお会いしてきたのです。そこで伺った技術的詳細や今後の動向については、改めて記事にする予定ですが、一言でいえば、商品化まではまだまだ時間がかかりそうだけれど、技術的にはほぼできていて、音符情報と歌詞データを渡せば、歌声を合成することは可能だ、とのこと。

3月初旬に名古屋工業大学へ行ってきた

ただし、UIはまったくできていないので、テクノスピーチの技術者がコンピュータに歌のメロディーと歌詞の情報を与えることで合成ができること。また合成にはかなりの演算処理が必要となり、高速演算が可能なコンピュータでも5分の歌を合成するのに10時間近くがかかるというお話でした。また、実際にAI歌声合成をするためには、元となる人の歌声データをディープラーニングさせたニューラルネットワークが必要となるのですが、そのニューラルネットワークを新たに作成するとなると、かなりの労力とコストもかかってしまうので、急いで作るというのはあまり現実的ではないという説明も受けました。

もっとも、つい先日大浦さんからいただいた情報によると、この10時間近くかかるという処理速度を約600倍に高速化することに成功したとのことで、実時間合成のメドも経ってきたのだとか…。6月の「音学シンポジウム2019」（http://www.sigmus.jp/?page_id=4179）で大浦さんが発表するとのことなので、ここには注目ですね！

テクノスピーチ社長の大浦圭一郎さん（左）と名古屋工業大学・教授の徳田恵一先生（右）

ただ、幸いにして名工大とテクノスピーチが昨年末に技術発表するにあたり、日本語、英語、中国語のそれぞれの歌をうたうためのニューラルネットワークを作成しており、それらを使うことは不可能ではない、という話もいただきました。そのうちの日本語は、6年前にCeVIOのキャラクタである「さとうささら」の歌声を作成する際に、レコーディングした素材をディープラーニングさせたもの、また英語もCeVIOのキャラクタである「IA」を同様に学習させたものとのことで、これを利用すれば1日、2日で合成はできるだろうとのことだったのです。

今回のジャケット用に作成した「さとうささら」のイラスト（絵：髙栁兆伸）

ぜひ、その「さとうささら」と「IA」を使わせてほしい、とお願いした結果、やや無理やりながら快諾(?)をいただき、今回のCD制作へと足を進めることができたのです。

とはいえ、M3に出すCDを制作するとなると、2か月もありません。CDプレスには3～4週間かかるので、実質的に残された時間は1か月。しかし、この時点では用意できている曲もなければ、アイディアもゼロ。決まっているのは、DTMステーションCreativeの共同プロデューサーである作曲家の多田彰文さんと作る、ということだけ。名古屋から戻った夜に、さっそく多田さんとSkypeミーティングを開き、名古屋でのやりとりを元にした要件を伝えたのです。

歌詞とメロディーはmusicXMLで渡す
「さとうささら」と「IA」を使った作品を作る
昨年末発表のデモ曲の音程・音域からズレるとうまく発音できない可能性がある
時間的な余裕はなく、何度もやり直しはできない
まずは上手く行くかのテストのために短いフレーズを送りたい

年度末の超多忙時期で、まったく時間が取れないと話していた多田さんですが、そのSkypeミーティングの1時間後に、なんとサビ部分16小節分が送られてきたのです。それをさっそく、その夜にテクノスピーチの大浦さんに送ったのです。プロのスピード感、スゴイですよね。

作曲家の多田彰文さんとSkypeミーティングの1時間後にはサビのメロディーと歌詞が完成！

それから待つこと2日間。「まったく使いものにならない歌声だったら諦めるしかないかな……」なんて考えながら過ごしていたのですが、大浦さんから届いた32bit/48kHzのWAVファイルを聴いてビックリ！もう、人が歌ったのか……と思うほど、リアルな歌声が届いたんです。すぐに多田さんにも聴いてもらい、「これなら行ける！」と。

手元に届いた32bit/48kHzのボーカルデータ

面白かったのは、この合成された歌声、必ずしも「すごく上手」ではない、という点。6年前のレコーディング結果を元にディープラーニングしていたわけですが、その歌い方そのものを再現した、いかにも16歳の女の子の歌。機械的な下手さではなく、まさに人が微妙にピッチを外した感じが出ていて、リアルなんですよね。一般的なレコーディングでもボーカルにピッチ補正を掛けるのはごく一般的に行われていますので、そんな処理を施せば、かなり使えるボーカルになるだろう、と。

AI歌声合成の実作業は大浦さんが行ってくれた

一方で、「さとうささら」はCeVIOプロジェクト（テクノスピーチ、ブイシンク、ソニー・ミュージックレーベルズSACRA MUSIC、フロンティアワークス、アップフィールドの各社が集まったプロジェクト）、「IA」は1st PLACE株式会社のキャラクタ、歌声であり、まだ商品化されていないAI歌声合成のシステムとはいえ、勝手に使うわけにもいきません。そこで、音楽制作を進めるのと並行して、各社に許諾をお願いし、快くOKをいただいた次第です。

さて、それから1週間。仕事の合間を縫って、多田さんが作ってくれたフルコーラス版が上がってきました。今回は、メインボーカルである「さとうささら」に加え、英語でコーラスを歌う「IA」もセットで、ボーカルパートの完成。どんなことになるか、期待と不安を感じつつ、再度、大浦さんに合成を依頼したのです。

今回のジャケット用に作成した「IA」のイラスト（絵：髙栁兆伸）

待つこと1週間、ようやく大浦さんから歌声合成データが2本、メールでWAVファイルで送られてきました。大浦さんによると、テクノスピーチ側でも試行錯誤してくれたようで、キレイに歌わせてくれていました。ただ学習回数が十分ではなかったため，長い音符をきれいには歌えなかったとのこと。そこで「artificial intelligence」という歌詞を「artificial intelligence AI」に変更しておいた、というものが届いたのです。

全音符＝4拍分の長さがあったため「IA」に歌えなかった部分の歌詞を大浦さん側で改変し、コーラスパートを作成

聴いてみたところ、「さとうささら」のメインボーカルも「IA」のコーラスもほぼ完ぺき。これに多田さんの作成したオケを軽くラフミックスして聴いてみたところ、完成に近いものとなったのです。そこから先は、細かな詰めの作業。ラフミックスはCubaseで作業しましたが、オケのマルチデータは多田さんがPro Toolsでレコーディングしていたので、続きの作業はPro Tools上で展開。前述の「さとうささら」のピッチのズレなどはMelodyneを用いて調整して完成したのが、冒頭の楽曲だったのです。

多田さんがレコーディングしたPro Toolsのセッションファイルをベースに中村太樹がミックス

ただ、多田さんから1点要望として挙がってきたのが、歌詞の冒頭の「交差点、青空見上げ…♪」部分の「青空」の「あ」の発音が悪いということ。確かに聴いてみると、微妙に音が曇っています。エフェクトやEQで処理できるわけではないし、Melodyneでもうまく補正ができないので、ここだけ、再合成してもうらおうと、改めて大浦さんにお願いしたいのです。

とはいえ、歌詞とメロディーを渡すと、何の調整項目もなく合成データが生成されるので、同じ譜面で合成してもらっても結果が同じになる可能性が大。とはいえ、大浦さんに聞いてみると、まったく同じデータを渡せば同じ結果になるけれど、歌詞の一部を抜き出した短いデータで合成すれば、違う結果になる可能性もあるとのこと。試しに再合成してもらった結果、満足のいく歌声になったので、そちらに差し替えたのです。

ちなみに、サビ部分に関しては、プロトタイプ的に最初に合成した16小節のほうが勢いがあっていい、との多田さんの主張から、これを採用することに決定。このようにして、曲が完成していったのです。

Melodyneを使って「さとうささら」の歌声を少し調整

このように「さとうささら」はMelodyneを使って、少し補正を行ったわけですが、補正する前の歌声がどうだったか気になる人も多いと思います。そこで、今回のアルバム「Sing truly」では、歌声素材をじっくり評価できるように、ほかではあまりないDTMステーションCreativeならではのトラック構成にしてみました。具体的には以下の通り、6トラック分となっています。

「Ｓｉｎｇ　ｔｒｕｌｙ」は全6トラックを収録

トラック1の冒頭を切り出したのが、先ほどのYouTubeだったわけですが、トラック2はMelodyne処理を一切かけていない「さとうささら」を利用しています。トラック3はトラック1から「さとうささら」のボーカルを抜き、「IA」のコーラスが入ったカラオケバージョン、トラック4は「IA」のコーラスも抜いたインストゥルメンタルバージョンです。ここにおいて「IA」に関しては、非常に上手に歌ってくれているので、あえてMelodyne処理はかけておらず、テクノスピーチからあがってきた合成結果をそのまま用いています。ただし、「IA」は最大3声重なっており、その重ね合わせはミックス処理として行っていますよ。

ミックスダウンした音をSoundForge Pro 12でチェックし、DeeMMaxで微妙に音圧UP

そしてトラック5は、「さとうささら」の歌声だけを取り出したものというか、テクノスピーチから送られてきたAI歌声合成データそのもの。正確にいうと、前述のとおりモノラルの32bit/48kHzで届いていたので、それをCDフォーマットであるステレオ16bit/44.1kHzに変換していますが、エフェクトなどは一切かけていない生素材です。

同様にトラック6は「IA」の歌声の生素材でEQもコンプもリバーブも何もかけていません。ただし、3声コーラスに重ねる処理だけは施しているので、ちょうどトラック1からコーラス部を抜いてきた感じで聴くことができます。

最終的にStudio One Pro 4で曲を並べDDPで出力してプレスへ

これらのデータをリッピングした上で、みなさんのDAW上でリミックスしてみても面白いと思いますよ。MelodyneやVariAudio、Auto-Tuneなどを使ってボーカルをエディットしてみると、AI歌声合成による音の品質がどれだけのものなのかもハッキリと分かると思います。もっとも、そうしたエディットは、あくまでもCDを購入した方が、ご自身の研究目的、趣味の範囲での利用に留めていただきたく、それをネットにUPするなどは厳禁とさせてくださいね。

ところで、AI歌声合成の話題という意味では、元・女子高生AI「りんな」がエイベックスからメジャー・デビューが4月1日に発表されたので、私個人的には先を越されてしまった…という悔しさがないわけではありませんが、「りんな」は音楽配信でのデビューなので、CDリリースという意味ではDTMステーションCreativeが先を行けたかな、と(笑)。ちなみに「りんな」の技術的なルーツも名工大にあるようですよ。

繰り返しになりますが、今回のアルバム「Sing truly」は4月28日のM3でリリースとなり、以下のDTMステーションCreativeのブースで頒布を行います。

日時：2019年4月28日(日)　11:00～15:30
場所：東京流通センター[第一展示場 R-05a,b]
頒布作品：「Sing truly」（価格：2,000円）
※会場への入場には入場券代わりとなるカタログの購入が必要となります。
詳細はM3のサイトをご覧ください。カタログは3月31日より前売りも行われます。

M3については、「実はCDが売れてないのはメジャーだけ!? 万単位の人が押し寄せ、CDを買い漁る、音系・メディアミックス同人即売会[M3]」、「1万人超がCDを買い急ぐ、音系・同人展示即売会M3の威力」などの記事で紹介したことがありましたが、ぜひ1度は来てみる価値があるイベントなので、ご都合の合う方はぜひいらしてください。もちろん、スケジュールが合わない、遠方でなかなか東京に行くのは難しいという方には、DTMステーションCreativeオンラインショップで、予約販売を受け付けますので、ご利用いただければと思います（発送は4月29日以降になります）。

【CD販売】
DTMステーションCreativeオンラインショップ

Kanoe より:

2019年4月16日 6:16 PM

すごすぎる…
このソフトの製品版すごく楽しみですが、同時に今回のCDもすごく楽しみ…

これ、仮歌とかにも代用できそうです…

返信
西園寺成弼より:

2019年4月16日 8:48 PM

最近の「りんな」もそうでしたが、先週のDTMステーションPlusで、拝聴したかぎりでは、ピッタリの音程より、フラフラ、ピッチを正規のものから外す、という事をすると、いわゆる「リアルさ」になるのかな？、という気がしました。ただ、現在のCeVIOにて、そこまでマニアックにピッチを触るのは至難の業ですので、そういうソフトが販売されるまで待ちたいと思います(微笑)

返信
Ramza より:

2019年4月16日 10:14 PM

同技術にはとても期待しておりますので、こうした形で技術開発の進捗状況が確認できるというのはとても嬉しいです。2020年には製品化されたNewささらをお迎えできたら光栄です。

返信
８ビットマンより:

2019年4月17日 4:40 AM

個人的な好みですが、これ以上精度をあげないでほしいぐらいです、下手さ加減、うまさ加減が絶妙です。

返信
pluteus junoh より:

2019年4月17日 6:56 PM

前回の記事でも気にはなっていましたが、やはりPCスペックの問題がでますよね・・・そりゃ。
仮に民生レベルでリリースとなっても、core i9クラスの液冷ハイエンドゲームPCくらいのスペックは最低限必要になりそうですな。
なればいっそ自動マスタリング・サーヴィスのようにCloud方式にして月額いくら（？）でスパコン使わせてもらう、っていうスタイルの方が現実味がありますでしょうかね。

返信
【IT技術革新】世界初、AI歌声合成がボーカルのCDが4月28日リリース | 最新ニュースまとめより:

2019年4月18日 10:12 AM

[…] （DTMステーションの当該記事リンク　https://www.dtmstation.com/archives/24688.html　） […]

返信
【IT技術革新】世界初、AI歌声合成がボーカルのCDが4月28日リリース | 今、話題のNEWS ２ちゃんねるサイトより:

2019年4月20日 3:44 PM

[…] （DTMステーションの当該記事リンク　https://www.dtmstation.com/archives/24688.html　） […]

返信
これこそ世界に誇るべき日本の先端技術。AIによる歌声合成はここまで来た！ | AI-SCHOLAR より:

2019年7月8日 10:32 AM

[…] AI歌声合成をボーカルに起用した世界初のCDをリリース。歌声合成技術が人間を超える日は来るのか!? […]

返信