小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ

NEUTRINO、CeVIO AI、Synthesizer V……と、まるで人間のように歌う、AI歌声合成の世界が賑わっていますが、今年この世界がさらに大きく変わる可能性が出てきました。一般ユーザーが自分の声を収録し、それを元にAI歌声合成をするための統一した楽曲の規格を作り、公開されることになったのです。その仕組みづくりに貢献したのが、声優であり、マルチクリエイターでもある小岩井ことり（@koiwai_kotori）さん。AI歌声合成のために、小岩井さんが作詞・作曲するとともに、自ら歌唱したデータ、計50曲が公開されることとなり、それをテンプレートにして歌えば、それぞれのAI歌声合成ができる世界が実現できることになりそうなのです。

そのプロトタイプとなる小岩井さんの歌唱データベースが公開に向けて、準備を進めているところですが、正式公開前に、実際に歌わせることができるソフトであるNEUTRINO版が無料でリリースされることになりました。そのNUETRINO版、No.7というキャラクタ名が付けられ、完成し次第、公開される予定です。完成まではまだ少し時間はかかるようですが、東北きりたんや東北イタコと同様、誰でも無料でダウンロードし、自由に使うことが可能です。一方で、歌唱データベース自体も研究用として公開されるため、研究者・開発者がこれを入手してディープラーニングさせることで、No.7とは別のキャラクタに仕立てたAI歌声合成システムを作ることも可能となっています。実際、AI歌声合成の世界で何が起こっているのか、この舞台裏について紹介してみましょう。

小岩井ことりさんが作詞・作曲・歌唱したデータを元にAI歌声合成ソフトNEUTRINOの新キャラクタ、No.7登場へ

ことの発端は、1年前の「AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること」という記事に遡ります。2020年2月22日に、SHACHI(@SHACHI_NEUTRINO)さんが開発したNEUTRINOというAI歌声合成ソフトがフリーウェアで公開されるとともに、東北きりたんの歌声で、まるで人間のように歌うことに驚き、何が起こっているのか、明治大学の森勢将雅（もりせまさのり）先生(@m_morise)に話を聞きに行ったのが、その記事でした。

実はその森勢先生へインタビューに行った、その足で、まったく別件の用事があって、小岩井ことりさんと打ち合わせをしたのですが、森勢先生の話をしたところ、小岩井さんが「私もやりたい！」と。「いやいや、あなたは鳴花ヒメ・ミコトとしてVOCALOIDにもなってるじゃないか」と話したのですが、「だって、私、まったく違う歌声で歌えるもん！」と、AI歌声合成に並々ならぬ興味を示してきたのです。

1年前、明治大学の森勢先生の研究室で小岩井ことりさんを紹介した際の写真

確かに、森勢先生もインタビューにおいて、「さきがけ」という国の予算での研究で、第2弾の歌唱データベースを作る、という話をされていたので、もしかしたら面白いことになるのでは……と後日、明治大学の森勢先生に連絡をしてみたところ、興味を示されたので、二人をご紹介した結果、思わぬ方向に…。
AIきりたんのデータベースを作った際は、JASRAC登録されている既存楽曲を歌っていたこともあり、そのまま公開するには著作権の問題が生じるという懸念点があった旨を森勢先生が伝えると、小岩井さんがあろうことか「だったら、私が作詞・作曲すれば問題ないですよね！」と爆弾発言。
森勢先生も「もし、それが実現できたら、研究成果を発表する上ではとてもスムーズになるし、その曲を公開してみんなが利用できるようになれば、まさにAI歌声合成を作るためのシステムを標準化することが可能になり、非常に大きな意義がありそうです」と応戦。よく分からない盛り上がりのうちに、「やろう！」ということが決まってしまったのです。

小岩井さんのスタジオで歌声を収録

時はコロナ禍。普通の人であれば、自宅待機で時間を持て余せているので、制作作業にはピッタリのタイミングといえるのですが、小岩井さんだけはちょっと事情が異なりました。自分のスタジオがあり、強力なネット環境を持ち、コンピュータ関連の知識も豊富な小岩井さんだったから、テレビ局やラジオ局に行かなくてもリモートで出演できるタレントとして注目が集まり、引っ張りだこ状態となり、歌唱データベース制作どころではなくなってしまいました。

森勢先生によると、ディープラーニングさせて、スムーズに、音質も安定して歌えるようになるには60分程度の歌唱データが必要とのこと。また、歌詞に登場する各音素の出現頻度を調整し、「あ、い、う、え、お」といった母音から「きゃ」とか「ちゅ」などさまざまな発音が一通り網羅されないといけないので、それに合った歌詞作りが必要であり、ある程度の音域もカバーできる楽曲にして欲しい、楽曲のスピードもゆっくりな曲からテンポの速く曲までバリエーションが欲しい……など要望もいろいろ。50曲程度は作詞・作曲し、歌唱、レコーディングしていく必要性があり、どう考えても簡単ではなさそうです。

この超々多忙な状況で、このプロジェクトはうまく行かないのではないか……と、私は冷や冷やしながら見ていたのですが、当初、小岩井さんが「3か月あれば、50曲くらいできますよ！」と言っていたスケジュールは、到底不可能に……。とはいえ、少しずつ進めては、森勢先生側で確認。ある程度、作業が進んだ段階で、先生は歌詞データを元に、すべての音素が揃っているか、表にして出現率をチェック。それを元に足りない音素を入れるよう、指示を出し、小岩井さんもそれに合わせて追加の歌詞を作るという、なかなか大変な作業でした。

30曲程度進んだタイミングで森勢先生が文字の出現数をチェックし、足りない文字をあぶり出し…

当初は「年末年始には時間を作って…」とのことだったけれど、そこも多くが仕事で埋まる過酷な厳しい日程。とはいえ、声優の仕事と仕事の合間や夜中にスタジオに詰めてレコーディングするなどして、ギリギリ最終リミットであった1月末に納品となったのでした。

超過密スケジュールの中、合間を縫ってレコーディング

その時点で小岩井さんが納品したのは

メロディーデータ（MIDIファイル）
歌詞入り譜面データ（MusicXMLファイル）
歌唱データ【オリジナル】（32bitFloat/96kHz WAVファイル）
歌唱データ【ノイズ除去版】（32bitFloat/96kHz WAVファイル）

の4点セット50曲分。でも、それだけで満足しないのが小岩井さん。当初から、森勢先生に「私自身、歌が決して上手いとは言えないんです。なのである程度修正したものを納品したいです。その方が合成音声としての歌唱クォリティもアップすると思うんです」と小岩井さんは伝えていたのです。とはいえ、その修正作業まで行うとなると、かなりの時間を要すことになり、森勢先生のプロジェクトのスケジュールに間に合いそうにありません。

そこで1月末の時点ではオリジナルの歌唱データと、iZotope RXなどを使ったノイズ除去作業をしたWAVファイルを納品して一区切りとはなったのですが、小岩井さんとしては、これでは気が済みません。そこでその後、追加作業としてMelodyneを使ったピッチ補正、タイミング補正も行っていくことになったのです。

森勢先生も何度かスタジオに行ってレコーディング状況をチェック

もっとも、自然な歌声で歌わせることを目的としたAI歌声合成システムにディープラーニングさせる上で、予めピッチやタイミング修正することが正しいのかは気になるところ。実は、この点については最初のテストレコーディングの時点から、NEUTRINOの開発者であるSHACHIさんにも協力いただきながら進めていきました。

調整したデータをチェックしたSHACHIさんからは「ビブラートはもう少しあってもモデル的には大丈夫だと思います。またダイナミクス、パワーはもう少しあってもよさそうです。BPMが速い曲や速い音符も同じ調子で歌えますか……」などなど意見をいただき、それを元に追加の編集作業を進めていったのです。

レコーディング後、Melodyneを使ってピッチ補正やタイミング補正なども行っている

もちろん、これだけのプロジェクトなので、さすがの小岩井さんも、すべて一人で作業するというわけにはいきません。基本的な方向性は決めつつ、スタッフさん数名に協力をしてもらいながらレコーディング作業やノイズ除去作業を行い、追加工程となったMelodyneでの調整作業も行っていったのです。そのスタッフさんたちも普段は、小岩井さんのお仕事をサポートしている人達だから、常に大忙し。そしてようやく先日、追加作業分も納品となったのです。

これによって、追加されたのは、

歌唱データ【ピッチ補正版】（32bitFloat/96kHz WAVファイル）
歌唱データ【タイミング補正版】（32bitFloat/96kHz WAVファイル）
歌唱データ【ピッチ・タイミング補正版】（32bitFloat/96kHz WAVファイル）

一方で、このデータはすでにSHACHIさんサイドにも渡っており、正式なデータベース公開とは別にNEUTRINO用にラベル付けが行われ、ディープラーニングの作業が行われている段階で、こちらが先行して公開されることになりそうです。

小岩井さん作詞のテキストをプリントし、レコーディングにのぞむ

そのNEUTRINO版は森勢先生がネーミングしたNo.7というキャラクタ名で公開される予定となりました。このキャラクタ、AIきりたんのプロジェクトで森勢先生ともお付き合いのあるSSS合同会社のCEO小田恭央さんに相談した結果、人気絵師さんである、猫屋敷ぷしお（@neko_pushio）さんに描いてもらったとのこと。そのキャラクタが冒頭のものなのです。もっとも、このNo.7の名前もデザインも、あくまでもNEUTRINO用のキャラクタということであり、今後ほかの歌声合成ソフトとして登場する際は、それぞれの開発者が自由にキャラクタをつけていい形になっています。