AI歌唱ソフト「VoiSona」の誕生1周年に合わせ初の英語ボイスライブラリ「Chis-A [tʃíːseɪ] を発売開始

2月9日に発表されていたので、すでにご存じの方も多いと思いますが、テクノスピーチの歌声合成ソフト「VoiSona」初の英語ボイスライブラリとして「Chis-A [tʃíːseɪ]」が誕生し、本日2月24日から発売が開始されました。この2月24日は、昨年「CeVIO Pro(仮)」というタイトルでVoiSonaのα版がリリースされてちょうど1周年となるタイミング。もちろん、当初から無料でリリースされている日本語ボイスライブラリである「知声」(ちせい)は現在も無料のまま使えるわけですが、今回、その英語版アペンドライブラリとして「Chis-A [tʃíːseɪ]」が登場し、こちらは月額880円/年額6,600円(税込み)のサブスクの形となっています。

この価格体系はすでにリリースされているボイスライブラリ「さとうささら」「機流音」「AiSuu」などと同じで、ここで合成された歌声の波形データは個人/法人、商用/非商用を問わず、原則、無料で利用することが可能となっているという点でも同様です。また、リリース記念として本日2月24日から2月28日までに申し込むと1か月間「Chis-A [tʃíːseɪ]」を無料で利用できるキャンペーンも実施されています。実際、本製品を試してみたので、これがどんなものかを紹介するとともに、開発背景などについてオンラインでインタビューできたので、その内容を紹介してみたいと思います。

2月24日、VoiSona初の英語ボイスライブラリ「Chis-A [tʃíːseɪ]」がリリースされた。日本語ボイスライブラリの知声は従来通り無料

VoiSonaについては、これまでもDTMステーションで「CeVIO Pro(仮)改めVoiSonaのβ版無料公開がスタート。VSTiに加えAudio Unitsにも対応し、M1にもネイティブ対応」、「AI歌唱ソフト、VoiSona の新ボイスライブラリとして、ゴールデンボンバー鬼龍院翔CVの『機流音』 、SILENT SIRENすぅCVの『AiSuu』がリリース。AI歌声合成の世界に新しい波」といった記事でたびたび取り上げてきたのでご存じの方が多いとは思いますが、初めて知ったという人も少なくないと思うので、まずは簡単に紹介しておきましょう。
VoiSonaは、国立大学法人名古屋工業大学から生まれた大学発ベンチャーである、株式会社テクノスピーチが開発したAI歌声合成ソフトです。ヤマハのVOCALOID、DreamtonicsのSynthesizer Vなどと切磋琢磨しながら競争している、まさに最先端分野のソフトであり、同じくCeVIOプロジェクトのCeVIO AIとは姉妹ソフトであるという関係でもあります。

英語ボイスライブラリ「Chis-A [tʃíːseɪ]」を使うことで英語の歌詞を入力し、歌わせることができる

ご存じの方も多いと思いますが、CeVIO AIのエンジン部分はテクノスピーチの開発であり、歌声合成の性能としてはVoiSonaとは同等のものです。ただし、CeVIO AIが買い切り型のソフトとなっているのに対し、VoiSonaはエディタおよび日本語ボイスライブラリの知声は完全無料、それ以外のボイスライブラリはサブスクという形になっており、前述の通り、ここで合成された歌声の波形データは個人/法人、商用/非商用を問わず、原則、無料で利用することが可能となっている、という点で違いがあります。
また現時点において、さとうささらはCeVIO AI、VoiSonaの双方のプラットフォームで動作する形になっていますが、それ以外のボイスライブラリは、それぞれ別々になっています。

英語ボイスライブラリである「Chis-A [tʃíːseɪ]」のイラスト

そんな中、VoiSona誕生1周年に登場したのがVoiSona初の英語ボイスライブラリである「Chis-A [tʃíːseɪ]」である、というわけです。まずは、デモ曲がいくつか発表されているので、こちらを聴いてみてください。

「アルタミラ(English cover)|ねじ式 feat. 知声」

「心花(English cover)|ちいたな feat. 知声」

「アトモスフィアに命題を(English cover)|宮野弦士 feat. 知声」

「Golden Afternoon | CircusP feat. Chis-A」

 

これまで、多くの作品が発表されてきた日本語版である知声の歌声と、ほぼ同じ雰囲気の歌声ながら、滑らかな英語の歌声になっていることが分かると思います。

英語ボイスライブラリの「Chis-A [tʃíːseɪ]」は、日本語ボイスライブラリの知声とは別のものとなっている

使い方的には、これまでの日本語ボイスライブラリと変わりません。エディタ上で音符を入力していき、そこに歌詞を入力するわけですが、その歌詞がカタカナ、ひらがなではなく、英語になる形です。
この際、基本は1つのノートに1つの音節となります。ただし、1つの単語が複数の音節を持つ場合には、ハイフン「-」で区切っていきます。たとえば「Hello」は2つの音節から構成されるので2つの音符にそれぞれ「He」、「-llo」のように入力し、「Interesting」を分けるなら「In」、「-ter、「-est」、「-ing」といった具合。また、これまでの日本語ボイスライブラリを選んだ上で、音符を入力すると、デフォルトでは「ド」、「レ」、「ミ」…とカタカナ表記で音階名が歌詞として入力されていきますが、英語ボイスライブラリである「Chis-A [tʃíːseɪ]」の場合は「Do」、「Re」、「Mi」……というように、ここも英語になるんですね。

ドレミファソラシドと入力すると自動的に英語でDo、Re、Mi、Fa…と入力される

試しに「Chis-A [tʃíːseɪ]」を選んでいる状態で、ひらがなやカタカナで歌詞を入力してみたところ、入力はできるものの発音記号部分が赤で「xx」とエラー表示されてしまい、再生しても歌わせることができませんでした。逆に、日本語ボイスライブラリである知声やさとうささらに英語入力の歌詞を歌わせると、これは歌ってくれるのですが、ベタベタなジャパニーズ・イングリッシュという感じになりますね。

「Chis-A [tʃíːseɪ]」にひらがな、カタカナを入力しても、エラーとなって、歌わせることができない

「知声」と「Chis-A [tʃíːseɪ]」の声質、雰囲気は基本的に同じなので、うまく組み合わせていくことで表現力は大きく上がっていきそうです。英語入力は、音節の区切り方で、ニュアンスも変わってきそうなので、いろいろコツというか英語力が必要になってきそうな面はありますが、ぜひうまく活用してみてください。

その「Chis-A [tʃíːseɪ]」に関して、テクノスピーチの代表取締役である大浦圭一郎さん、エンタメ事業部プロデューサーである塚田恵佑さんにお話を伺ってみました。

 

テクノスピーチ、大浦さん、塚田さんインタビュー

--今回の「Chis-A [tʃíːseɪ]」、これは知声の声を技術的に英語変換したボイスライブラリなのですか?
大浦:いいえ、そうではありません。もともと、この知声の演者さんはバイリンガルの方で、日本語の歌と英語の歌、それぞれ収録していたのです。それをディープラーニングさせた結果をボイスライブラリとして出しているわけですが、先に日本語の歌を学習したものを知声として出し、今回英語の歌を学習したものをリリースしたというわけなのです。日本語で学習したものを無理やり英語化することもできますが、今回は英語の歌を収録したものがあったので、それを使っています。

テクノスピーチ、代表取締役の大浦圭一郎さん

--もともと英語の歌も収録していて、英語版を出すことは最初から想定されていたわけですね。実際に歌わせてみても、知声とほぼ同じ雰囲気ですし、聴き取りやすい英語である印象です。
大浦:そのとおりだと思います。日英バイリンガルの方が歌う英語であるため、日本人にとっては聴き取りやすい英語だと思います。演者さんにもよるのですが、日本語での歌と英語での歌では、かなり雰囲気が変わる方もいらっしゃいます。英語で歌うと声のトーンがすごく低くなる人だったり、日本語になるとすごく優しい感じになる外国人の方だったり……。その点、この知声の演者さんは日本語と英語での感じは非常に近く、結果的に「知声」と「Chis-A [tʃíːseɪ]」では、ほぼ違和感のなく近い感じになっています。

--今回、デモ曲がいくつか公開されていますが、曲によって英語の雰囲気も違う印象です。たとえばCircusPさんの曲は、より英語っぽい雰囲気に感じました。
塚田:やはり打ち込む人によってボーカルの雰囲気は変わってきますが、CircusPさんはアメリカのクリエイターさんなので、英語ネイティブのボーカルがこの曲を歌ったらどうなるか、というイメージを描きやすいのだと思います。そのため、英語ネイティブらしい雰囲気のボーカルに仕上がっているのではないでしょうか。

テクノスピーチのエンタメ事業部プロデューサー、塚田恵佑さん

--よりカッコイイ英語にするためのコツなどあるものなのでしょうか?
塚田:今回3曲、既存の知声公式デモソングを英語カバーしているのですが、いずれも英詞をうまく乗せる為、日本語版とはメロディを微妙に変えている箇所があったりします。まずは、英詞とメロディをマッチさせた、英語曲らしい譜面を「Chis-A [tʃíːseɪ]」に渡してあげることが一番かと思います。ちなみに宮野弦士さんの「アトモスフィアに命題を」という曲は、日本語の歌詞では「ア(ト)モスフィア」とトの部分にフレーズの最高音がきますが、英語でatmosphereと発音する場合(a)tmosphereと頭にアクセントが来ます。大事なサビの歌い出しなので、この違いをどうしようかという話になったのですが、ここは日本語版との対応関係を優先し、”Atomo-Sephere”という造語を作り、日本語版と同様のサビの歌い出しになるようにしました。ここの造語部分は、単語として辞書には存在しないので、音符ごとに音素を手入力する形で作っていますが、そういう表現も可能です。また、イントネーションを調整するとより英語歌唱らしくなると思います。

選択ツールで音素の表示をダブルクリックで直接編集ができる。音符を選択して右クリック→プロパティでも編集が可能

--イントネーションの調整はどうするといいのでしょうか?
塚田:基本的には普通に歌詞を入力することで、AIが提案してくれる発音(音素)のままで行けるはずですが、やはり発音させてみると、「なんとなく違うな…」という部分も出てくることがあります。その場合は先の話の通り、音素を直接手入力で編集することができます。たとえば「don’t」の最後のtの音素を削ってみたり、母音をAIが提案してくれるものと異なる母音に置き換えてみたり、手作業で音素を編集することで違った歌唱ニュアンスを得ることができます。また、TMG編集画面で母音・子音の発声タイミングを微調整してあげると、出力が良くなることがあります。特にテンポが速くなるほど、母音が十分な長さを確保できず聴き取りにくくなる場合がありますが、次にくる子音の長さをやや縮めてあげることで、聴き取りやすくなったりします。逆に子音が立たない場合は、子音の長さを調整したり、VOL編集画面で子音部分を少しついてあげたりすると良いかと思います。

VoiSonaのTMG編集画面で、子音「t」の長さを縮めているところ

--今後、VoiSonaのボイスライブラリはさらに追加されていくのでしょうか?
大浦:はい、これからもボイスライブラリはどんどん出していく予定ですし、実際、制作が進行中のものもいくつかあります。さとうささらのようにCeVIOからクロスプラットフォームされるボイスライブラリも、新規のVoiSona純正ボイスライブラリも登場予定ですので、ぜひ楽しみにして頂ければと思います。

--ぜひ、今後の展開も期待しております。ありがとうございました。

 

DTMステーションPlus!のお知らせ

次回のDTMステーションPlus!は、今回インタビューした大浦さん、塚田さんをゲストにお招きしてVoiSona 「Chis-A [tʃíːseɪ]」特集をお送りします。実際の歌声を紹介するとともに、歌わせ方のコツなども実践していきます。

第214回 DTMステーションPlus!
特集:VoiSona初の英語ボイスライブラリ 「Chis-A [tʃíːseɪ]」
【日時】2月28日 20:00~22:00
【YouTube Live】https://youtube.com/live/fhq8azRxsqE
【ニコ生】https://live.nicovideo.jp/watch/lv340355981

【関連情報】

VoiSona製品情報

 

Commentsこの記事についたコメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です