SMEが展開するブラウザ上の音楽制作サービス、Soundmain Studioに歌声合成機能を搭載。声は知声だった!

2022.09.302023.03.01

この記事は約6分で読めます。

この記事にはアフィリエイトなどPRが含まれています

ソニー・ミュージックエンタテインメント（以下SME）が、Web上で展開しているユニークなプロジェクト、Soundmain（サウンドメイン）。先日も「ソニー開発のディープラーニングによる世界最高の音源分離技術を利用できる、音楽制作サービス、Soundmain」という記事で紹介しましたが、これはソニーが研究・開発する最新の音楽関連テクノロジーをいち早く機能として実装し、クリエイターが利用できるようにするプラットフォームです。

その中の中心的サービスが、Soundmain Studioというもの。これはブラウザ上で使えるDAWなのですが、9月26日、そのSoundmain Studioに歌声合成という機能が搭載されました。これはAIを用いた最新の歌声合成技術を採用した新機能で、音階と歌詞を入力すれば、すぐにリアルな声で歌声合成ができるというもの。実際、試してみたところ、非常に簡単に使える一方、実はこの歌声が最新のAI技術で人間の歌い方をリアルに再現するテクノスピーチ社のソフトウェアブランド「VoiSona」に標準搭載されている中性的な声が魅力のシンガー、知声（読み：ちせい、英語表記：Chis-A）であることも判明しました。VoiSonaと何が違うのかなども含め、紹介してみたいと思います。

先日の記事でも紹介したとおり、Soundmainはさまざまな最新技術を利用できるようにしたプロジェクトであり、将来的にはブロックチェーン技術と権利処理のノウハウを組み合わせたサービスや、音楽制作サービスにAIを用いた機能の実装が予定されているなど、これからも進化を続けていくユニークなプロジェクトとなっています。

そのAIを用いた新機能として、今回、歌声合成の機能が利用できるようになったわけです。実際にちょっとだけ歌わせてみたので、以下のビデオをご覧ください。

上手に歌っているのが分かると思います。

歌声合成の使い方はいたって簡単で、Soundmainのトラックを選択した上で、「AI Vocal」というボタンをクリックすると画面下に、ピアノロール画面が現れます。ここで、「AI Vocalを作る」という文字をクリックすると、音を入力できるようになります。

そこで、まずは入力していく音の長さを設定します。デフォルトでは1/4＝4分音符になっていますが、必要に応じて1/8、1/16、1/32に設定することで、ピアノロールのグリッドが変化します。

その後、鉛筆ツールに持ち替えた上でピアノロール上に音を置いていくのです。鉛筆ツールではありますが、ピアノロール上で描く……というよりは、ポチポチと置いていく感じです。間違ったら消しゴムツールや音を選択して「Delete key」で消すこともできるし、音を選択した上で、そのままドラッグして別の場所に移動させることもできます。

音の長さを変えたい場合は、ノートの端をドラッグすることで伸ばすことも可能となっています。

一方で歌詞は？というと、ピアノロールの上部分に「ラ・ラ・ラ・ラ」と表示されているのが分かるでしょう。ひらがなおよびカタカナの文字を入力できるようになっています。ここをダブルクリックすれば一文字入力でき、歌詞をまとめて入力したい場合は、歌詞入力欄上で右クリックし、「歌詞連続挿入」を選択すると、複数の文字を入力することが可能です。

基本的な使い方はたったこれだけ。あとは再生ボタンを押すだけで、非常にリアルな歌声で歌ってくれるし、エディットも簡単。これならまったく初めての方、VOCALOIDやCeVIO AI、Synthesizer Vをはじめとする歌声合成ソフトを使ったことがないという人でも、戸惑うことなく使っていくことができると思います。

この画面を見ると、分かる人ならすぐに気づくと思いますが、ここに搭載されたのは、知声ですね。先ほどのビデオを見ても、知声の歌声であることが分かると思います。

では、これはSoundmain StudioにVoiSonaが搭載されたのかというと、そうではないようです。これはVoiSonaのエディタ画面と比較しても、だいぶ異なることから分かると思います。一言でいうと、VoiSonaの機能から基本機能を切り出した簡易エディタが搭載された、というように考えるのがよさそうです。

主な違いとしては、VoiSonaではタイミングの調整やボリュームの調整、ピッチの調整、ビブラートの調整…といったことができますが、Soundmainの歌声合成にそうした機能はなく、ノート入力のみとなっています。

また現時点において使える歌声は知声のみであり、さとうささらなど、ほかの歌声は選択できないようでした。この辺については、今後のSoundmainのバージョンアップなどによって対応する可能性もあるので、その辺には期待したいところ。また、VoiSonaやCeVIO AIなどで作ったファイルを読み込んだり、書き出したり…といった機能もないので、この辺もいつか対応してくれるいいな、と思うところです。

ところで、まだSoundmainを使ったことがない方が、この歌声合成を使うためにはどうしたらいいのでしょうか？そのためには、まずSoundmainにサインアップして、新規会員登録するとともに、有料プランに入ることが必要となります。Soundmainには、Trial、Basic、Standardの3つのプランがあり、主な違いは以下のとおりです。

無料のTrialだとSoundmain Studioを使うことができないため、最低でもBasicに入る必要があります。その上で、歌声合成を使おうとすると、以下のような表示が出てきます。

ここから利用する期間を選ぶ必要があるのです。たとえばBasicプランの場合、1か月で500ポイント所有となるので、1日利用するだけであれば、そこから100ポイント引かれる形なので追加料金がかかるわけではありません。

これまで歌声合成は使ったことがなかったという人も、ブラウザ上ですべて合成できるので、これを機会に試してみるのもいいのではないでしょうか？もちろん、Soundmain Studioでは、歌声合成すると同時に、ループ素材などを使ってバックトラックを作成することもできるし、マイクを接続してレコーディングしていくこともでき、これらと歌声合成を組み合わせて処理ができ、作った歌声にエフェクトをかけていくことも可能です。

これらすべてがブラウザ上でできるのですから、ブラウザDTMの世界の進化を実感させられます。Soundmainは、今後もどんどん新しい機能を搭載しながら進化していくということなので、新しい動きがあれば、また紹介していこうと思います。