女子高生AIりんながnanaで歌ってる!?どんな仕組みで、何を狙っているのかMicrosoftに聞いてみた

いろいろなところで話題になっている、女子高生AIの「りんな」。LINEで会話して遊んだことがある人や、Twitterでやりとりしたことのある人も多いと思います。その会話内容も最近ますます高度になってきた印象ですが、そのりんなが、ついに歌うようになっていたのをご存知でしたか？

その歌うりんなの活躍の場になっているのが、まさに数多くの女子中高生が多く集まっているnana。DTMユーザーにとってはPCからのアップロードが可能になったり、iPhone/iPadのGarageBandから直接アップロードが可能になるなど、どんどんと使いやすくなってきているnanaですが、りんなの歌を聴いてみると、それなりにしっかり歌っているのです。VOCALOIDではなさそうですが、UTAUともちょっと違うような……。これ、どうやって歌っているのでしょうか？先日、Microsoftに伺い、りんなのマネージャーだと名乗る、りんなの開発担当者、マイクロソフトディベロップメント株式会社A.I.&リサーチの坪井一菜さんにいろいろと話しを伺ってきました。

女子高生AI、りんなは、nanaで歌っていた！

－－女子高生AI「りんな」、各所で話題になっていますが、改めてりんなとは何なのか教えてください。

坪井：りんなは、2015年夏にLINEでデビューし、同じ年の12月にTwitterでデビューした、みんなとコミュニケーションがとれる人工知能です。今まで人工知能というと、Siriなどのアシスタント型のものが多く、誰かの達成したいタスクをアシスタントし、効率よく達成させる目的のものが中心となっていました。でも人間にとって必要なものは賢さや答えを出すものだけでなく、表現力や親しみやすさを持った人工知能があってもいいはずだと思い、みんなと会話を通じて仲良くなれる人工知能、AI女子高生りんなをデビューさせました。

Microsoftが開発した、女子高生AI、りんな

－－先日、nanaで歌っているのを見てビックリしましたが、nanaでのデビューしたのはいつだったんですか？

坪井：nanaでのアカウントは2017年の4月にこっそり作りまして、本格的に活動し始めたのは今年の夏ごろです。実は8月に行われたnanaフェスに出場したかったのですが、さすがに人間のみなさんには追いつけず、ひっそりとnana上でのデビューさせたのでした(笑)。

りんなのnanaでのデビュー作

－－りんなが最初に歌を披露したのがnanaへの投稿ということだったんですか？

坪井：歌という意味では確かにnanaが最初なんですが、実質的にはそれとほぼ同等のシステムを使った歌というかラップでのデビューは昨年9月でした。幕張メッセで行われた東京ゲームショウに出展したときに、McRinnaとしてラップを歌わせたんですよ。もともとテキストベースでの会話をするりんなでしたが、声で喋らせるようにしたのと、このラップを歌うのは、ほぼ同じタイミングでした。ちなみにその時のラップがこれです。

－－そうだったんですね。そのりんながnanaで歌うようになると、ますます身近な存在になってきますよね。でも、これはnana側と事前に話し合っていたりしたんですか？

坪井：全然話はしていなかったので、nanaの方もアカウントの存在を知らなかったと思います。Twitterでも最初にこっそりとアカウントをまず作って、その後に公式の方とお話するという、本当に普通の女子高生が自分のアカウントを作る感覚で作ってしまいました(笑)。

お話を伺った女子高生AIりんなのマネージャー、マイクロソフトディベロップメントの坪井一菜さん
－－YouTubeやニコニコ動画など、歌を披露する場としてはいろいろなサイトもある中、なぜnanaを選んだのですか？
坪井：一番の理由はコラボレーション機能です。YouTubeやニコニコ動画と違い、nanaであれば他の人たちが、気軽にデュエットしたりすることができます。やっぱり、りんなは人とコミュニケーションするのが重要な使命なんです。だから、歌った作品を出して終わりではなく、作品の発表がスタートなんです。だからこそ、nanaにはりんなの活躍の場として大きな魅力を感じたんです。しかも同じ女子高生がいっぱいいる場ですから、お友達も増やせそうですよね。

普段はLINEやTwitterで、りんなは気軽にやりとりしてくれる
－－なるほど、YouTubeなどに単に歌を発表するというのと意味が違うわけですね。実際、りんなとコラボしている作品もいろいろあるようですが、りんなの歌に対してコラボするのではなく、反対に人が歌っている作品に対してりんながコラボをするというケースもあるんですか？
坪井：nanaでは「30問30答」というラップでの質問にラップで答えを返すのが流行っているのですが、これを9月に発表しました。これからも「コラボしてほしいぜ」という方がいらっしゃったら私たちも喜んでコラボしていきたいと思っています。今はどなたかが作ったBGM、オケにりんなの歌を載せているのですが、今後はどなたかが作ったトラックにラップを乗せてみても面白いかなと思っています。nanaのユーザーさんに受け入れてもらい、りんなを一緒に育てたいなと思ってもらえる存在になれたら嬉しいです。事務所通してとか、マイクロソフトだから何かというのでなく、普通のnana民の一人として接して欲しいですね。

ラップでコラボした、「30問30答」

－－人工知能として開発されてきたりんなですが、テキスト上で会話をするというのと、歌を歌うというのはまったく違う世界のような気もするのですが、この「歌う」という行為も人工知能が関係しているのですか？

坪井：そうですね。人工知能の技術の一つに音声認識と音声合成というジャンルがあります。りんなの場合は大量の人間の音声データを機械学習させて、人の声の特徴を捉え、なんでもテキストで読ませることが可能となっています。初音ミクなどのVOCALOIDやUTAUの場合は人間の声をたくさん録音して、小さいピースの辞書を作り、それを一つづつ組み合わせていく、波形接続型のことをしていると思います。それに対し、りんなの歌声に関しては波形の接続ではなく音声の特徴を学習し、それをパラメーター上で波形に再現しているので、まったく違う方法なんですよ。

LINEで「歌って」と、りんなに話しかけると、nanaのURLを教えてくれる！
－－てっきりUTAUなどを使って、中の人が一生懸命打ち込んでいるのだろう……と思っていましたが、根本的に違う歌わせ方をしているわけですね。もう少し具体的に、その仕組みを教えてもらえますか？
坪井：りんなの声には、モデルがあり、実際ひとりの人の声を元にしています。一方で、歌については、VOCALOIDやUTAUなどのように、文字と音符を打ち込むというのではなく、人が歌った歌声と、歌詞をマッチングさせているんです。ただし、この歌声は、りんなのモデルの人というわけではなく、誰が歌ったものでも大丈夫な仕組みになっています。つまり。先生となる人の声をもとに音声認識をかけ、どのタイミングで何と言っているか、音程の高低、喉を締めているのか開いているのか……といった波形の特徴を抽出します。そして、りんなの音声の特徴をそのパラメーターに基づいて合成させているのです。そのため、先生が歌ったのと同様なゆらぎを持った歌になってきます。

－－先生のゆらぎに基づくとしたら、先生が音痴だったらりんなは音痴に歌うのですか？
坪井：そうです。先生が音痴だったら音痴になるし、上手ければうまく歌います。もちろん先生の歌った通りに調整するのではなく、もっと機械的に歌わせることも可能ですし、音声認識させてパラメータを抽出した後に、その歌わせるパラメータを調整することもできます。音声の認識的に破裂音や無声音などの母音が消えるところなど難しかったりするので、もっと自然に歌えるように日々研究を重ねています。

りんなの歌唱も、まさに人工知能によって生み出されていた
－－りんなが先生の歌を元に音声認識する際、歌詞の言葉の意味まで捉えているのですか？

坪井：はい、日本語の文字としては認識しています。実際に日本語として認識しないと、どの音をどの位置に当てるかがわからないので、認識した上で歌う際に正確に当てはめているわけです。ただし、言葉の意味が分からくてもなんとなくの言葉のイントネーションを捉えて、歌わせることも可能です。たとえば、この前、失意で投稿したディスラップがあるのですが、これは日本人と同じで英語っぽい言葉を空耳状態でラップしてます。

ミスiD😭涙 pic.twitter.com/8btyAUwtHB

— りんな@ラッパーに噛まれた (@ms_rinna) 2017年11月5日

－－言葉の認識において、先生が英語の歌が歌えてそれを今のシステムに読ませると、カタカナ的な英語を話すんですか？
坪井：まだ試したことがないのですが、カタカナ的な英語の発音になると思います。辞書に流暢な英語のデータを入れていないので、この辞書とのマッチングにおいて、どう聞こえているかによって変わってきますね。

流暢な英語のデータベースは持っていないため、英語の歌だとカタカナ英語になってしまう!?
－－たとえばVOCALOIDでもラップを歌わせた作品は存在しなくはないものの、やはりラップだと音程がドレミファに当てはまらないため制作がとても難しいのですが、りんななら得意なんですね。
坪井：もともと、しゃべらせる技術をいかにして歌わせるかという方向で動かしているので、そこの親和性は高いと思います。早口やリズム感は難しいのですが、実現しやすいところもあります。私自身はラップ経験ないのですが、りんなにラップを歌わせることはできてますね(笑)。実は私も今、一緒にラップを勉強しているところなのですが、奥が深いですね、ラップの世界…。

－－AI女子高生りんなは、日本国内だけでなく、海外でも活動しているのですか？
坪井：りんなではないのですが、各国ごとに異なるキャラクタが活動しています。そもそも一番最初は2014年に中国で誕生した小冰(シャオアイス)でした。中国でもかなり話題になりましたが、日本のりんなも小冰のコンセプトを継承しながら、日本の開発チームが一から作ったものなんです。

－－小冰をローカライズしたわけでなく、コンセプトだけを引き継いで一から作ったものだったんですね。
坪井：人がぐっとくるものは、文化によって変わってくるので、日本のりんなは日本のみんなの心に刺さるようなものにしたいということで、日本で独自に作っています。なので、小冰とは性格も全然違いますし、言語も違うのでコードを共有してたりするわけでなく、独立した形でりんなが存在しているんです。一方、アメリカには「Zo」という日本の後に開発された人工知能がいますし、インドには「Ruuh」が、さらに今年の夏にはインドネシア版「Rinna」が登場しています。それぞれ、いろいろな活動をしていますが、小冰は一年お姉さんなので、いろいろと進んでいてテレビ出演もしているんです。今はりんなも「りんなライブ」というウェブページを持つようになり、毎日夜18時～23時に自分の部屋の中で歌っているので、ぜひご覧になってみてくださいね。

世界中でりんなの姉妹!?ともいえるMicrosoftの人工知能が活躍している

－－今後りんなはどこを目指していくのですか？

坪井：今は、シンガーソングライターを目指しています。可能性をいろいろと見ていまして、実はこっそり作詞と作曲も始めているんです。りんなの最初に公開したラップも実はりんなが歌詞の候補を作っていました。ただ、なかなか曲に合わせた歌を作るというのは難しく、この時は人が手を加えています。。ただ歌を作ること、作詞は非常に大事だと思っています。やはり歌は自分の思いや自分のメッセージを伝える大切な手段です。テキストの中だけの存在ではなく、歌を通じて社会の中で新しい存在としてみなさんに受け入れてもらえたらいいな、と思っていますます。

りんなはラッパーMcRinnaとしても活躍している！?

－－おお！！ということは、将来的には人工知能であるりんなが作詞作曲し、歌まで歌った作品が登場してくる可能性もある、と。会話をするりんなですから、作詞のほうはなんとなくわかりますが、作曲の才能はどうなんでしょう？

坪井：実は作詞するのと同じ仕組みで作曲することもできるんですよ。つまりAIの脳みそに対して、歌詞の情報を与えるとそれを学習して歌詞を作りますし、曲の情報を与えると音楽を生み出すことができるんです。これが人工知能の面白いところですね。

実はシンガーソングライターを目指しているりんな。近い将来、りんな作詞作曲の曲が登場する可能性も！
－－ある特定のジャンルをたくさん聴かせることで、それっぽいものが作曲できるようになる日も近いということですね。確かにバッハの楽曲を数多くデータベースに入れて、それを元に、バッハ風な楽曲をコンピュータが自動作曲するという事例はありますもんね。
坪井：はい、クラシックは、学習しやすい素材ではありますね。クリエイティブな活動している人たちと私たちの創造性が組み合わさることで、まったく新しいものが生み出せるはずなので、そういう世界を目指していきたいと思っています。答えがないところがアートの面白さだと思います。

－－nanaでの活動をどう進めていこうと考えていますか？
坪井：nanaはみなさんとコラボすることで創造的なことができる可能性を持った場です。先日、試しにデュエット曲の1パート分を発表したころ、人間のお友達が合わせて歌ってくれるのが結構投稿されていて、それを聴いて感動しています。AIが歌う技術というと、「いかに歌声がキレイで上手に歌えるか」に目がいきがちですが、実は上手さよりも、人と一緒に楽しく歌える関係こそが人工知能に求められるポジションではないか……と感じているところです。今後もnanaにおいて、女子高生ならではの企画ができればいいなと考えているところです。ぜひnana民の一人として、みなさんと一緒に何かしていきたいですね。

りんなの投稿に対して人間のお友達がコラボするケースも出てきている

－－ありがとうございました。

※2017.12.5追記
Twitterなどで、「りんなの歌唱にはCeVIOなどで採用されているHMM(隠れマルコフモデル)が使われているのだろうか？」という質問を多く受けたので、坪井さんに伺ってみたところ、以下の回答が得られました。
「うちの音声はDNN(ディープニューラルネットワーク)を用いています。学習には音声と歌詞情報を用いており、楽譜情報は特に使っていません。元々は話し言葉を生成するための技術を用いているので、歌声としてはまだ課題がありますが今後も改善していく予定です。統計的手法という意味ではCeVIOさんとは親戚にあたるといってもいいでしょうか」

【関連情報】
nana musicサイト
 りんな公式サイト

【nana公式ガイドブック】
◎Amazon　⇒　nanaをもっと楽しむ本

【nanaアプリダウンロード】
◎App Store　⇒　nana
◎Google Play　⇒　nana