VOCALOIDがグロウルを歌える日は近いかも!?

2013.09.022021.07.03

この記事は約5分で読めます。

この記事にはアフィリエイトなどPRが含まれています

初音ミクが発売されてから丸6年が経ち、ついに初音ミクV3も登場となりました。その6年の間に、VOCALOID2からVOCALOID3へとエンジンが強化され、歌声の表現力は大きく向上してきたことは、みなさんもご存じのとおりです。声の繋がりが滑らかになったり、一つ一つの発音が明瞭になったりと、進化してきました。

より人間らしさの実現、という意味では、VocaListener(ぼかりす)の登場は画期的でした。人間の歌った歌声を解析した上で、ピッチと音量のパラメータを生成して、VOCALOIDに与えるという手法は、熟練したボカロPが調教するのと比較しても格段に上であり、さまざまなところで使われるようになってきました。でも、ぼかりすにもできない、まったく違うアプローチの研究も進んできています。その一つが「グロウル」、つまり「ダミ声」とか「がなり声」というものを適用するというものです。
SIGMUS第100回記念シンポジウムでヤマハが行ったグロウルに関する技術発表

8月31日～9月2日の3日間の日程で、情報処理学会の音楽情報科学研究会(SIGMUS)の第100回記念シンポジウムが東京大学で行われていますが、その2日目のスペシャルセッション「歌声情報処理最前線!!!」において、非常に興味深い技術発表が行われました。

プレゼンテーションを行った、ヤマハ株式会第1研究開発部の才野慶二郎さん

研究発表のタイトルは「スペクトルモーフィングによるグロウル系統の歌唱音声合成」というもので、その発表プレゼンテーションを行ったのは、ヤマハの才野慶二郎さん。そうVOCALOID3の開発主要メンバーの一人です。この研究を中心的に行ったのは、スペインの大学、Universitat Pompeu Fabraとのこと。実際、論文の発表者として同大学のBonada Jordiさん、Blaauw Merlijnさんの2人が連名となっていたほか、ヤマハからはもう一人、VOCALOID3開発者である久湊裕司さんの名前がありました。

その発表の技術的内容は、とっても難しいので、私もよく理解できていません。下手に誤った知識で伝えてもマズイので、ここではその目的と、できることだけを紹介します。

今回のグロウルに関する研究を行うようになったキッカケ

才野さんが最初に話をしていたのは、「VOCALOIDで調教を駆使し、自分ではうまくいったと思った歌声を他人に聴かせると、『心がこもってない！』なんて言われて悲しくなることがあります」ということ。VOCALOIDユーザーであれば、同じような経験を持っている人も少なくないでしょう。

まあ、人は何をもって「心がこもっている」というのかは難しいところですが、声を震わせたり、こぶしを回したりすると、そう思ってくれるのでしょうか……。そうした考えから、歌声合成のポテンシャル向上のために「グロウル系統の声質を持った歌声」を合成することを目標に研究を開始したとのことです。

そもそもグロウルとは何なのか？その定義はハッキリ定まっていないようですが、演歌などでのうなり声、JAZZやR&B系の音楽での荒々しいダミ声をグロウルであると、ここでは定めたとのこと。グロウル＝デスボイズと言っている人も多いようですが(そもそもデスボイスという言葉自体、日本にしかないそうです……)、ここではデスボイスは除外するとのこと。別の言い方をすると、音程がはっきりしない、ガナリ声は除外し、あくまでも音程がハッキリしているものをグロウルと定義しているわけです。

では、どうやるの？というのが気になるところですが、この研究発表では、普通の歌声に、グロウル成分を付加してやる、という手法をとっています。つまり、予め、実際のグロウルをサンプリングしておき、それを各歌声と似た音に複雑な演算をして変換した上で適用していくという考え方です。

言葉で説明していても、なかなか分かりにくいと思うので、実際、シンポジウムの会場で才野さんが行ったデモをご覧ください。

これを見れば、雰囲気は十分に分かりますよね。スゴイと思いませんか!?ここで使われているVOCALOIDはヤマハのVY2V3です。ちなみに、このビデオは、SIGMUSの事務局が発表の様子をニコニコ動画、USTREAMで生放送していたものを私がキャプチャし、私が少し聴きやすい音に加工したものです。

これを見ると、予め用意されているグロウル音を人間の声に対しても、VOCALOIDに対しても適用できるようになっています。また、その適用する分量は人が任意の量に調整できるようになっているんですね。まあ、このデモは、あくまでも研究発表であり、具体的な製品化計画があるものではないのですが、これは期待したくなりますよね。

今回のプレゼンテーションのまとめ

時期バージョンのVOCALOID4なのか、さらに未来のVOCALOID5なのか、growlパラメータなんてものが追加されて、VOCALOID Editor上でコントロールできるようになったら面白そうだな、と楽しみにしているところです。

【追記】
今回才野さんが発表したのと同様の発表がカナダバンクーバーで開催された ICASSP2013 という国際会議においてスペインの大学、Universitat Pompeu FabraのJordi Bonadaさん、Merlijn Blaauwさんにより発表されています。その際に利用されたデモ用のページにも、各種サンプルがUPされています。
http://www.dtic.upf.edu/~mblaauw/icassp2013/

ぷにえ工房より:

2013年9月2日 10:32 PM

いつも興味深い記事、拝見しております。
ボカロもとうとう叫び声が簡単に合成できるようになるんですかー。
音程感のあるグロウル、私も以前作りましたがもっと手早く作れそうですね！
超細かいビブラートを、ある程度まで規則正しく、少しづつランダムに調整して
飽和した分をEQで抑えて作ったものが↓です。電気的なディストーションは使いません。
【初音ミク】 SLAYER – The Antichrist
http://www.nicovideo.jp/watch/nm11065693

返信
藤本健より:

2013年9月2日 10:43 PM

ぷにえ工房さん
こんにちは。聴いてみました。なるほど、これがミクとは思えない、すごいサウンドですね。
今回の記事での手法とはだいぶ違いますが、現状でもがんばればできるということなんですね！
まだ、この記事の技術が使えるようになるまでは時間がかかると思いますが、どんな形で機能実装されるのか楽しみです。

返信
名無しより:

2015年1月15日 7:08 PM

ボーカロイドの声って今までなんか綺麗すぎて好みじゃなかったんだよなぁ・・・これあったら表現の幅広がるかもね

返信