小岩井ことりさんの歌声を人工知能で完全に実現!? 本人も自分そのものと認めるソフト完成への裏舞台

2021.07.072021.07.31

この記事は約12分で読めます。

この記事にはアフィリエイトなどPRが含まれています

声優・小岩井ことり（@koiwai_kotori）さんの歌声を元にしたAI歌声合成音源、No.7が、本日7月7日午後7時、NEUTRINOの開発者であるSHACHI(@SHACHI_NEUTRINO)さんの手によって、公開されました。777に合わせて誕生したのNo.7を一足早く試させてもらったのですが、歌わせてみて衝撃が走りました。これ、小岩井ことりさんの歌声、そのものだ！、と。小岩井さんの歌声をディープラーニングさせることによって、本人のコピーがここに誕生してしまったのではないか、と感じるものなのです。

NEUTRINOの歌声ライブラリはこれまでも東北きりたん、東北イタコ、東北ずん子の3姉妹、めろう、ナクモ（唯一の男性ボーカル）とありましたが、今回のNo.7はこれらとは明らかに傾向の異なるもの。力強いロック調のメリハリのある歌声で、いわゆるアニメキャラ的なカワイイ歌声とは対極に位置するものなのです。実際、どんな歌声なのか紹介するとともに、その操作手順なども簡単に解説します。そして、その張本人である小岩井ことりさん、そしてこのプロジェクトを率いた明治大学の専任准教授、森勢将雅(@m_morise)先生と対談を行ったので、その内容もじっくり紹介していきたいと思います。

No.7が7月7日夜7時に公開。それに合わせ、森勢将雅先生（左)、小岩井ことりさん（右)にお話しを伺った

経緯の詳細は、以前の記事「小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ」に譲りますが、「No.7」は、科学技術振興機構戦略的創造研究推進事業（さきがけ）という日本の国家研究プロジェクトによって研究・作成している歌唱データベースから派生的に生まれたもの。その研究に貢献しようと、協力したのが小岩井ことりさんでした。今後、多くの人のAI歌声合成が簡単に作れるようにと、そのデータベース作成に必要となる楽曲50曲を小岩井さんが作詞・作曲して提供するとともに、その50曲を実際自ら歌った歌声もデータベース用に提供したことから、このNo.7が誕生したのです。

NUTRINOの新キャラクター、No.7

No.7は誰でもフリーで入手可能なライブラリであり、歌声合成するためのソフトNEUTRINOもフリーウェアとして公開されていることから、誰でも無料で入手して歌声合成することが可能です。実際に、歌わせてみたのが以下のものです。ぜひその実力を聴いてみてください。

これ、完全なベタ打ちで、何一つ調整も行わず、音符と歌詞を入力しただけの歌声。スゴくないですか？この「Shine On」という曲は、前述の50曲とはまったく別に、かなり以前に小岩井さんが作ったものなのですが、一昨日、その曲のオケと歌詞のテキスト、それにメロディーラインをMIDIデータ化したものを小岩井さんからもらったので、それを元に私が入力して、No.7に歌わせてみたのです。

NEUTRINOに歌わせる方法は、いくつかあるのですが、今回試したのはSynthesizer V Studio Proを利用するというもの。ボーカルパートのMIDIファイルをSynthesizer Vに読み込ませ、そこに表示された音符にひらがなで歌詞を入力していきます。

Synthesizer V Pro Studioで音符と歌詞を入力

メインボーカル、コーラスと2パートあったので、それぞれ別に行い、エクスポート機能を用いてUSTファイル（UTAUのファイル形式）で書き出します。これをUtaFormatixというWebアプリを使い、MUSIC XML形式に変換したのです。この際、拡張子xmlで書き出されますが、NUTRINOが読み込みやすいように、拡張子だけmusicxmlに変換することでデータ側の準備完了。

WebアプリであるUtaFormatixでUSTファイルをMusicXMLに変換

一方で、ここではWindowsのCPUを使って合成したので、Windows版のNEUTRINOをダウンロードし、ファイル展開した上で、modelフォルダ内にNo.7のライブラリをSEVENフォルダごと収納します。そして、準備したmusicxmlファイルをscoreフォルダ内に入れるとともに、run.batをテキストエディタを使ってちょっと編集します。具体的には6行目を

set BASENAME=shine_on_vocal

と先ほど生成したmusicxmlのファイル名を指定し、13行目を

set ModelDir=SEVEN

と変更することで準備完了。これでrun.batを実行し、しばらく待つとoutputフォルダにwavファイルが生成されるのです。

NEUTRINOのRUN.BATを実行

同様の操作をコーラスパートでも行った上で、生成された2つのファイルをDAWに読み込み、オケと合わせることで、先ほどの楽曲になるというわけです。

ベタ打ちで、これですからもう少し調整していくことで、さらに表現力も上がりそうです。今後、No.7を多くの人が使うことになると思いますが、どんな作品が生まれてくるのか楽しみなところですね。

さて、777の公開というSHACHIさんの話を受けて、急遽7月5日に小岩井さん、森勢先生との対談を行ってみました。小岩井さん本人によるNo.7の評価や、AI歌声合成でポイントとなることなど、興味深い話もいっぱいだったので、ぜひご覧になってみてください。

－－ことりさん、森勢先生、No.7の無事リリース、おめでとうございます。プロジェクトのスタートが昨年3月でしたから、ようやく……という感じもあります。
森勢：NEUTRINO開発のSHACHIさんが、7月7日午後7時公開というのに合わせて進めてくれたので、無事に完成という感じです。ようやくここまで、来れたという思いですね。
小岩井：こうしてお披露目できるところまできて、とっても嬉しいです。

－－SHACHIさんがTwitterで、No.7の歌声をいきなり公開したので、ちょっと驚きましたが、私が聴いた限り、ことりさんの歌声そのものだと感じました。本人としては、どうだったんでしょう？
小岩井：本人が聴いても、本人じゃん！って（笑）。仮歌ならば、十分これで行けますね！これから私は仮歌は歌わず、No.7に歌わせると熱い決意を固めました！
森勢：表現は小岩井さんの歌声そのものだと感じました。実は、SHACHIさんから、我々プロジェクトメンバーには別の楽曲を歌わせたデモ曲をもらっていたんですよね（※注、著作権などの問題上、公開はできないのですが）。そのときは、まだ51曲すべてを学習させたものではなかったので、完成版ではありませんでしたが、一部でボコーダーチックな音になっていたところが気になりました。

－－ちょっと低い声を出したところとかですかね？
森勢：そうですね。少し機械っぽいというか、芯がないというか。完成版でこの辺がもう少し改善できるといいなと思っています。また「が」や「サ行」の音がところどころ壊れていたので、この辺ももう少し改善できればな、と。一方で、実は最終的に51曲のすべての歌詞を拾っても収録できていない音素が一部あるんですよね。

－－私が小岩井さん制作・レコーディングの進捗をチェックする進行係を務めていましたが、40曲程度終えた時点で、足りない音素を先生にピックアップしてもらい、残りの歌詞にすべて入れ込んだはずでしたが……。
森勢：実際、日本語としてはすべて網羅してはいるのですが、たとえば「KWA（くぁ）」とか「GWA（ぐぁ、ぐゎ）」、また「でぇ」、「てゃ」といった辺りが足りてないんです。もっとも対応する日本語の単語を割り当てるのが難しく、私が辞書を調べた限りそんな言葉は出てきませんでした。でも、実際にそう発音するケースがあるんですよね。
小岩井：だったら、それらを歌詞に盛り込んだ曲を追加で作るってどうですかね？まあ、言葉としてはなさそうな気もするから、呪文のような歌詞で歌うとか……。私もできる限りの歌詞作りをし、歌いましたが、足りないものがあるなら、ぜひ穴埋めはしていきたいです！

－－今回はNEUTRINOのNo.7の公開ですが、のちには、AI歌声合成の研究者向けにデータベースとして公開し、ことりさんの声をディープラーニングさせるだけでなく、ほかの人がことりさん作詞作曲の曲を歌ってレコーディングし、別の合成モデルを作っていくことになるわけですから、穴埋めするメリットはありそうですよね。
森勢：そうですね。今のままでも十分使えるものになっていますし、これまであった、東北きりたんなどのデータベースと比較すると、ひらがなの網羅度は圧倒的に上なんですよ。具体的にはきりたん歌唱データベースより37多い。それはとっても立派な数字です。ですから、もし追加を作るとしたら、オプションとしての扱いでいいかもしれませんね。

－－その肝心のデータベース、いつごろ公開になるのですか？
森勢：そこをどうするかを決めかねているんです。もし音素ラベルまでつけた上で公開するとなると、年内ギリギリになってしまうかな…と。もし、ラベル付けは後での公開として、歌声とMIDIの譜面、歌詞カードまでであれば、あと1か月程度で行けるのでは、と。実は、すでに何件か早く公開してほしいという声が私のところにも届いておりまして……。小岩井さんがそれでよければ……
小岩井：おぉ！私はまったく問題ないので、ぜひ早めに公開しちゃってください！

－－まあ、公開とはいえ、一般ユーザーが聴くためのものではなく、研究者・開発者が利用するためのものではありますが、せっかくなら早い公開がよさそうですよね。改めて、この楽曲の歌詞、曲は規約の範囲で自由に使っていいんですよね？
小岩井：はい、最低限の利用規約はあるのですが、ぜひ多くの人に活用していただきたいですね。私の歌声は聴かず、MIDIの譜面と歌詞だけで歌ってもらってもいいし、私の歌声を聴いて参考にしていただいてもいいですし。
森勢：そのように自由に研究者が使える楽曲が登場したというのは、非常に嬉しいことです。今回はロック調ということで小岩井さんには歌っていただきましたが、同じ曲を使いながら、まったく違う曲調で歌ってもらって、それをディープラーニングさせていくのも面白いだろうと思っています。

－－NEUTRINOのほかCeVIO AI、Synthesizer Vなど、AI歌声合成のツール、ライブラリが増えてきて、いろいろと聴き比べていますが、今回のNo.7、群を抜いて人間っぽいと感じるのですが、どうですか？
小岩井：あくまでも私の感想ではあるのですが……。AI歌声合成ソフトに、より人間っぽく歌わせるのって、曖昧な歌い方をさせたほうが、それっぽくなるように感じています。声優にキャラクタ的な歌い方をさせると、どうしてもメリハリをハッキリさせた歌い方になり、それが機械っぽくなっちゃうように思うのです。単語の頭に強いアタックがあって、それに次の言葉をつないでいくような、いわゆるシンガーの伸びやかな歌い方がマッチするというか…。滑舌よく歌うより、崩した歌ったほうが人間っぽく反映される気がするんですよね。
森勢：私も東北きりたんと、東北イタコの歌声が、曲によっては区別がつかないこともあるくらいですが、確かにそういう点はありそうです。ただ統計的な手法はその人の平均的な歌い方になりやすいので、歌い方が曖昧でバラツキが大きいと思った通りにはなりません。なので、その表現の仕方、崩れ方が一定じゃないと、思った通りにはならないかもしれませんが…。

－－VOCALOIDのレコーディングでは、滑舌をハッキリさせ、子音と母音の区切りがしっかりしているのがいいと言われていたように思いますが、AI歌声合成では、それとは正反対ということなんですかね？ところで、今後公開するデータベースは、ことりさんが歌ったそのままの歌声にノイズ除去処理だけを施したもの（オリジナル）に加え、ピッチだけを補正したもの、タイミングだけを補正したもの、ピッチとタイミングの両方を補正したものという4つがありました。今回、No.7でSHACHIさんがディープラーニングさせたものはどれなんですか？
森勢：No.7ではピッチとタイミングの両方のデータをSHACHIさんにお渡ししました。特に初期のNEUTRINOでは、思った通りのピッチで歌わせることができず、出力されたものをユーザーが補正する使い方をしていたほか、あえて入力させるパラメータをいじって、出力を目的のものにする……といった使い方をする方もいたようです。どうなるかは試してみないとわからないという意味で、苦労するケースも多かったように見受けられますが、No.7は小岩井さん側が予めキレイに補正してくれていたので、ベタ打ちでキレイに歌わせることができますね。

－－とはいえ、ことりさんのMelodyneの使い方も絶妙でしたよね。単純に決まった音程＝周波数にするわけではなく、うまい使い方をしてましたよね。
小岩井：Melodyneを使ってる方ならよくご存じだと思いますが、歌声って、1つの音程でも周波数的にはかなりダイナミックに上下に振れてるし、そこが人間っぽい部分でもあるんです。それを無理やり固定周波数にもっていくと機械っぽくなっちゃうので、その振れ幅はキープしつつ、前後のつながりもなるべく保ちつつ、聴いた感じで正しいピッチになるように調整しました。それが結果的にいい方向に行ったのでは……と思っています。

－－そういう意味では、ベタ打ちで誰が入力しても、ことりさんそのものの歌い方にできるのがNo.7のすごいところですよね。
森勢：私の研究においては、従来のような一つ一つのパラメーターをいじる機能に加え、歌唱表現を指示すれば、そうした歌い方になるようなエディタを作っていく予定です。残念ながら、コロナ禍の影響で、特に実用化を目指したエディタ開発の計画がボロボロに崩れてしまっていて、公開できるエディタが完成するにはまだ時間がかかりそうですが、基礎研究レベルではだいぶ自然な感じでコントロールできるようになってきています。

－－今回の研究成果、学会で発表されることになったんですよね。
森勢：はい、8月にオンラインで行われる「第20回情報科学技術フォーラム」において
「レアなモーラを含む日本語歌唱データベースの構築と基礎評価」というタイトルで、私、小岩井さん、藤本さんの3人の連名で発表する予定です。具体的には8月25日の午前に行うので、興味のある方はぜひご覧になってください。もっとも情報処理学会の正会員で6,000円、一般日会員だと、12,000円の聴講参加費（3日の全発表を聴講でき、電子版講演論文集のダウンロード付きとなっている）がかかってしまいますが。
小岩井：オンラインなのが残念ですが、今度現地で参加できる学会があるときは、ぜひぜひ参加してみたいですね。

－－本日は、お忙しい中、ありがとうございました。ぜひNEUTRINOのNo.7をいろいろ活用しつつ、その後のデータベース公開など、これからの展開も楽しみにしています。

※2021.7.31追記

本日、No.7サイトからリンクする形で、「研究者向け音声合成検証用No.7歌唱データベース」が公開されました。今日現在の公開データには、音素ラベル付けはされていません。音素ラベルを設定したデータについては後日改めて追加されて、公開される予定です。

DC より:

2021年7月24日 10:29 PM

この記事を見て、しばらくしてからダウンロードして使っています。

ボーカロイドは、これまでまったく触ったことがなかったのですが、このサイトの「ベタ打ち」のデモを聞いて、すぐに試してみたくなった次第です。

そんなわけで「調声」についても全く分からないまま、ダウンロードから約１週間でとりあえず音源を仕上げてみましたが、NEUTRINO（AI音源）の再現力の高さに、正直驚いています。

こんな素晴らしいものを公開してくださっているプロジェクトのみなさん、忙しい中時間をかけて声を影響してくださった小岩井さん、そして記事を執筆してくださった藤本さん。関係者のみなさんに心から感謝します。

ますますDTMが楽しくなりそうです。

返信