ボカロに有力対抗馬登場!? 新歌声合成ソフトCeVIOの衝撃!

現時点では実質的に「歌声合成ソフト=VOCALOID」という状況ですが、正確にはVOCALOID以外にもフリーウェアのUTAUがあったり、FL STUDIOで歌わせることができるなど、いくつかの選択肢はありました。しかしこの6月、VOCALOIDの有力な対抗馬といえるソフトが誕生します。それが、CeVIO Creative Studioというもの(CeVIOはVOICEのアルファベットの順番を入れ替えたもので、チェビオと読む)。すでに喋る機能を搭載したフリー版、CeVIO Creative Studio Freeは4月26日にリリースされているので、使ったという方もいると思います。

私もリリース当日に公開されたITmediaの松尾公也さんの記事でCeVIOの存在を知って即ダウンロードして使ってみたのですが、非常にきれいな喋りには驚きました。喋るソフトという意味ではVOICEROIDの対抗馬ですよね。しかし、このフリー版に間もなくVOCALOIDのような歌う機能も搭載され、さらに9月にはより機能強化した製品版がリリースされるというのです。しかし、このCeVIOとは一体、何モノなのでしょうか?とくにまだ公開されていない歌う機能を中心に、CeVIOプロジェクトチームに話を伺ってきました。
6月にリリースが予定されているソング機能搭載のCeVIO Creative Studio Free
※以下の画像も含め開発途中のものなのでリリースされる際にはデザイン、機能などが変わる可能性もあります 


このCeVIOの開発に関わっているプロジェクトチームのメンバーは、株式会社テクノスピーチ株式会社ブイシンク株式会社フロンティアワークスの3社+数社。その技術の中枢を握るテクノスピーチは名古屋工業大学大学院・教授の徳田恵一先生と特任助教の大浦圭一郎先生らが作る大学発ベンチャー企業。そう、以前にも紹介したクラウド型の歌声合成ソフトSinsyの開発元でもあるのです。

お話を伺った名古屋工業大学大学院・教授の徳田恵一先生(左)と特任助教の大浦圭一郎先生(右)

そのテクノスピーチの技術にUIをつけて実際に使えるアプリケーションソフトにしているのがブイシンク。その開発の中心メンバーが今回話を伺った一人、加藤義弘さんです。そしてフロンティアワークスはキャラクタのマネジメントやデザイン、性格付けといったエンターテインメント部分を担当しているとのこと。今回は同社の中田翔さん、岩崎卓さんにお話を伺っています(以下、敬称略)。

名古屋工業大学大学院特任助教の大浦圭一郎先生
--CeVIO Creative Studio Free、使ってみましたが、すごいですね。こんなものが無料で配布されているのも驚きですが、今後、これが歌うようになるという話は本当なのですか?
加藤:はい、6月中をメドに歌う機能を搭載する予定で、これも無償で公開したいと考えています。5月にはどんな歌声になるかを公開する予定ですので、ぜひキレイな歌声を聴いていただければと思っています。もっとも先日のニコニコ超会議の会場でちょっとだけ披露しており、それがニコニコ動画の映像の中でも出ているんですよ。

ニコニコ超会議でのプレゼンテーション。9分10秒あたりからソングのデモも披露されている
--このビデオを見る限り、確かにとてもキレイな歌声ですよね。この歌声合成エンジンを作ったのがテクノスピーチなんですね。

徳田:その通りです。名古屋工業大学では、「人間のように対話する知的機械の実現」というのをテーマにさまざまな研究を行ってきました。音声合成や音声認識、画像認識、言語・対話といったテーマであり、その中に喋るための音声合成、歌声合成といったものがあります。一般的に音声合成や歌声合成というのは、サンプリングした波形をつなぎ合わせて行うのですが、我々はそれとは異なるHMM(隠れマルコフモデル)音声合成という手法をとっています。

HMMでは人間の声の発声法をシミュレーションすることで喋ったり歌ったりする

--Sinsyで使っている手法ですよね?そのHMMを簡単に教えていただけますか?
徳田:HMM音声合成は人間が声を発声する過程をシミュレーションする方式であり、口や喉の形、また声の高さや大きさといったパラメータを元に声を生成するのです。そのため、サンプリングデータは不要であり、従来の波形合成型と比較してデータサイズが極めて小さいというのも特徴です。

加藤:現在の喋る機能のみのCeVIO Creative Studio FREEのインストーラのサイズが25MB程度。インストールしても100MBにもならないですから、とてもコンパクトですよ。

株式会社ブイシンクの加藤義弘さん

--VOCALOIDやUTAUなどは、サンプリングで歌声を作るので、声を提供した人、いわゆる「中の人」が存在しますよね。HMMはシミュレーションで発声するということは、「中の人」は存在しない完全に人工的な架空の声ということになるのですか?
徳田:中の人」は存在しますよ。実際に録音した喋り声、歌声を元にして、HMMでデータを作り出しています。そのデータがサンプリングデータそのものではなく、パラメータになっているということです。

中田:ただし、現在リリースしているCeVIO Creative Studio Freeのキャラクタである、「さとうささら」の「中の人」が誰であるかは公開していませんし、その予定はありません。

6月リリースのフリー版にはピアノロール機能が搭載されており、ある程度のエディット機能も装備される

--6月にリリースされるソフトに、歌声合成機能が搭載されるとのことですが、それはどのような使い方になっているのですか?
徳田:ピアノロールを用いたもので、ここに音符と歌詞を入力することで発音するようになっています。現在公開されているものには、喋るためのトークトラックが実装されていますが、それに加えて歌を歌うためのソングトラックを実装する形になっています。

加藤:フリー版にソングトラックを何トラック実装するかは、現在検討中ですが、少なくとも2トラック以上は実装したいと考えています。また、トークトラック、ソングトラックに加えて、BGMや効果音を再生するBGトラックも装備する予定です。これによって、BGMを鳴らしながら、そこで2声以上で歌ったり、喋りを入れたりすることが可能で、そのミックス結果をWAVでエクスポート可能となっています。

現行版にも搭載されているトークトラックに加えソングトラックが2つ以上搭載される予定

--そこまでの機能を無料で出してしまっていいのですか?これではまったく儲からないような……。
岩崎:まずは多くの方に知っていただきたいという目的で無料で公開したいと考えています。VOCALOIDの世界に喧嘩を売ろうというつもりは毛頭なく、初音ミク、VOCALOIDが作り上げてきたCGM、UGCの世界をいっしょに盛り上げられたらと考えているのです。もちろん、我々もビジネスとしてやっていくので、無料版だけで終わるわけではなく、9月には有料版を出す予定で、ここにはいろいろな差別化も図っていきます。その一つがキャラクタです。6月に出すバージョンでは、キャラクタは「さとうささら」のみですが、有料版ではさらに女性キャラクタと男性キャラクタを追加する予定でいます。

株式会社フロンティアワークスの岩崎卓さん 

中田:ただし、追加されるキャラクタは、トークトラック用であって、ソングトラックは「さとうささら」のみです。

株式会社フロンティアワークスの中田翔さん

--ということは、歌わせることが目的だとしたら、6月リリースのフリー版で十分ということなのですか?

徳田:いいえ、フリー版はピアノロールと歌詞入力によるベタ打ちのみですが、有料版ではいろいろとパラメータを動かせるようにしています。エディット方法などは現在検討中ですが、具体的パラメータとしてはビブラートの振幅やビブラートの周波数、ピッチの変動、出力ゲインなどを検討しているほか、発音のタイミング調整などを入れたいと考えています。

6月リリースのものにMIDIインポート機能なども搭載される模様

--現在あるトーク機能では「元気」、「怒」、「哀」といったパラメータがあって、その調整によって、感情表現ができるようになっていて、すごいと感じましたが、ソングトラックでも同じパラメータ調整ができるのですか?
大浦:これら感情パラメータはトークトラックのみのものであり、ソングトラックにはありません。技術的に不可能なわけではないのですが、それを実現するためには、シャウトする声のデータを作るなど、難しい面もあり、今後の課題ですね。

--ユーザーとしては、キャラクタが増えていくのか、というのも気になるところです。
中田:もちろん、それは増やしていきたいと考えています。声のデータをVOCALOIDではライブラリという呼び方をしていますが、CeVIOではボイスと呼んでおり、これを増やしていく予定です。こちらは有料での販売を考えており、こうしたボイスを制作・販売するサードパーティーの参加も呼び掛けているところです。

--そのボイスをユーザーが作れるのかというのも大変気になるところです。UTAUは、それを比較的簡単に作れるというので人気になっているわけですが、その辺はどうなのでしょうか?
大浦:ボイスデータ作成のためのツールは、サードパーティーには提供していく予定ですが、一般に公開する予定はありません。そのため、実質的にユーザーがボイスを作るのは無理ということになりますね。

--ちなみに、そのボイスデータを作るための基本的な手法やどうなっているのですか?またそれには、どのくらいのパワーがかかるものなのでしょうか?VOCALOIDのライブラリ作成においては、レコーディングに数日、その後の編集に数か月かかっているようですが……。
徳田:ソング用のデータであれば、基本的には「歌」、「音符データ」、「歌詞」があれば、あとは自動計算によって生成することができます。ただし、人が歌ったものは、譜面通りというわけではなく、タイミングやピッチの揺れなど、非常に複雑になっています。それにマッチした音符データを作成するのは、非常に細かな作業であり、パワーがかかります。とはいえ、慣れ・経験の問題でもあるので、今後はどんどん効率化が図られ短時間でできるようになると思います。

中田:さとうささら」に関していえば、数か月以上をかけていますから、VOCALOIDと変わらなかったかもしれません。とはいえ、これが1つ目ですので、今後はもっとスムーズに作れるようになるはずと期待しています。

時間軸は秒での表示に加え、もちろん小節単位での 管理もできるようになる

--最後に気になるのは9月発売予定の製品の価格についてです。先ほどのお話だとトーク用として3キャラクタ、ソング用に1キャラクタで、フリー版にはないパラメータ調整機能などが装備されるとのことでしたが、それがいくらで登場するのでしょうか?
中田:これについては、まだ検討中であり、流通側との調整をしているところです。ただし実売価格が2万円を大幅に切る値段になるよう努力しているところです。

--ありがとうございました。まずは6月のフリー版、そして9月の製品版の登場、期待しています。
【関連リンク】
CeVIOトップページ
CeVIO Creative Studio Freeダウンロード
【関連記事】
名古屋工業大学開発のフリーの歌声合成システム、Sinsyを使ってみよう

モバイルバージョンを終了