ソニー開発のディープラーニングによる世界最高の音源分離技術を利用できる、音楽制作サービス、Soundmain

ソニー・ミュージックエンタテインメント（以下SME）によるSoundmain（サウンドメイン）というプロジェクトをご存知でしょうか？　ソニーが研究・開発する最新の音楽関連テクノロジーをいち早く機能として実装し、クリエイターが利用できるようにするプラットフォームとなっており、将来的にはブロックチェーン技術と権利処理のノウハウを組み合わせたサービスや、後述の音楽制作サービスにAIを用いた機能の実装が予定されるなど、これからも進化を続けていくユニークなプロジェクトとなっています。そして、その中にSoundmain Studioというサービスがあり、これはブラウザ上で使える音楽制作ツール、つまりインストールすることなく使えるDAWとなっています。

そのSoundmain Studioにおいて、現在の目玉となる機能が、ソニーが開発した世界最高峰という音源分離技術。簡単にいうと、これは2mixの音源をボーカル、ドラム、べース、その他の4種類のステムデータに分解することができる、というもの。この機能を使うことで、楽曲を分解してリミックスに活用できるのはもちろん、ループ素材用に抜き出したり、既存楽曲の耳コピに活用したりなど、使い方はアイディア次第でいろいろ。もっともこれに近い機能を持った製品は、ここ2、3年で海外メーカーからも複数登場してきてはいます。が、ブラウザで使えるDAWに標準搭載されているとなると、類似したものは見当たりません。では実際、どのように使うのか、どんな音になるのかを試してみるとともに、この音源分離技術を開発したソニーグループ株式会社の光藤祐基さんにインタビューしたので、その技術の内容に迫っていきます。

ソニーの最新技術を搭載したブラウザ上で使うDAW「Soundmain Studio」

３つのサービスから構成されるSoundmain
Soundmainに用意された3つのプラン
Soundmain Studioの目玉機能、音源分離とは

３つのサービスから構成されるSoundmain

Soundmain Studioは、Soundmainの1サービスであり、アプリなどをインストールせずにブラウザ上で使えるDAW的なもの。マルチトラックのエディタに音源素材を並べていくことで作曲/編曲、ミックスといったことが行えるというのが基本機能であり、制作データや音源素材をサービス内のクラウドストレージ上に保存することができるようになっています。そのためWindowsでもMacでもブラウザからSoundmain Studioを開くことにより、いつでもどこでも楽曲制作を行えるツールとなっています。実際どんなものなのか、公式のYouTube動画があるので、これをご覧ください。

- YouTube

YouTube でお気に入りの動画や音楽を楽しみ、オリジナルのコンテンツをアップロードして友だちや家族、世界中の人たちと共有しましょう。

こちらの動画は、2022年2月17日にアップロードされたものなので、現在追加されている最新機能は確認できませんが、どんなものなのか雰囲気は伝わると思います。Soundmain Studioには録音機能、EQ、コンプ、リバーブといった各種エフェクト、その他DAWに搭載されているような基本機能が装備されており、同じくSoundmainのコンテンツの1つSoundmain Storeにも直接アクセス可能。

Soundmain StudioにはDAWの基本機能が搭載されている

そもそもSoundmainとは、どういったサービスなのか、一度整理しておきましょう。Soundmainは、音楽クリエイターを最新の情報技術で支援する目的で運営されており、主に以下の3つのサービスを展開しています。

●Soundmain Store
●Soundmain Studio
●Soundmain Blog

この中で、Soundmain Blogは、結構面白いネタを取り扱っているので、SNSで見かけて読んだという人は結構いるのではないでしょうか？ここには、音楽クリエイターの仕事術・著作権・デジタルテクノロジーなどをテーマにインタビューやコラムが掲載されており、日々の音楽制作に活かせる内容が盛りだくさん。

Soundmain Blogには、面白い記事が多数掲載されている

Soundmain Storeは、簡単にいうとサンプル販売サービスで、音楽制作の幅を広げるサウンドパックが多数用意されています。どれも高品質なサンプルやループが揃っており、Soundmain Studio以外でも利用できるWAVデータをダウンロードすることが可能。

サンプル販売サービスSoundmain Store

Soundmainに用意された3つのプラン

そしてSoundmainの中核を担うのが、ブラウザ上で使うDAWともいえるSoundmain Studio。日々進化を続けており、現在その目玉機能として搭載されているのが、前述の通り音源分離です。

Soundmainの中核Soundmain Studio

ただ、Soundmain Studio、そして音源分離機能を使うためにはSoundmainの有料プランへの加入が必須となっています。その料金プランについて解説しておくと、Soundmainには、Trial、Basic、Standardの3つのプランが用意されています。

主な違いは以下の通り。

TrialだとSoundmain Studioは利用できず、Basicプランに入ることで、Soundmain Studioの利用が可能になります。Basicプランでは500ポイント、Standardプランでは1800ポイントが毎月もらえ、このポイントを利用してSoundmain Storeでサンプルやループをダウンロードするのに使ったり、音源分離（1回につき200ポイント）を行うことが可能になっています。ただし、音源分離機能を使うにはStandardプランへの加入が必須となっているので、ここは要注意です。そのほか、Soundmain Studioの最大トラック数、プロジェクト数、クラウドストレージ容量に差が設けられているようですね。

Soundmain Studioの目玉機能、音源分離とは

では、Soundmain Studioで、音源分離をどうやって行っていくのか見ていきましょう。と、その前に先に音源分離機能を使った結果を試聴できるようにしたので、ご確認ください。

kenfujimoto · Soundmain Ongen Bunri

いかがでしょうか？ボーカル、ドラム、べース、その他の4トラックに分かれていますよね。ユーザーはこれをリミックスに活用、ループ素材用に抜き出したり、既存楽曲の耳コピに使用したりできるわけです。

さて音源分離機能を使うのは、とても簡単なので実演していきます。まずは、Soundmain Studioで新しいプロジェクトを作成します。ここの画面は、メインのページとなっており、トラックを作って録音をしたり、サンプルをドラッグ＆ドロップしてビートを作っていくことができます。

まず新しいプロジェクトを作成する

続いて、右下にある音符マークをクリックすると、右サイドに画面が表示されるので、ここに音源分離を行いたいファイルをアップロードします。次に音源分離を行いたいファイルを選んで、音源分離をクリック。ちなみにここにアップロードしたファイルは、クラウドに保存されるので、Soundmainにログインすれば、どのPCからもアクセスすることができます。

音源分離を行いたいファイルをアップロード

すると、音源分離のポップアップメニューが表示されます。Vocals/Otherの2トラックか、Vocals/Drums/Bass/Otherの4トラックに分離するか2種類から選ぶことが可能。いずれも、使用ポイントは200POINTSとなっており、音源分離ボタンを押すと、処理がスタートします。

音源分離は2種類から選択可能

ここでは、4トラックを選択してみました。曲の長さや通信環境によって処理が終わる時間は変わると思いますが、今回は6分ほどで完了しました。これら分離した後の音源は、そのままSoundmain Studio上で編集することが可能で、もちろんダウンロードもできるので、この後の編集を自分のDAWで行うこともできます。

ダウンロードをして自分のDAWで編集することもできる

このような手順で音源分離できるのですが、いかがだったでしょうか？今後もさまざまな最先端技術が搭載されていく非常にユニークなプラットフォームであるSoundmain。どんな機能、どんな技術が搭載されるのかを楽しみにしつつ、DTMステーションでは、今後も注目して取り上げていく予定です。

音声分離技術の開発者、光藤祐基さんインタビュー
－－音源分離の研究開発はどういった経緯でスタートしたのでしょうか？
光藤：今後の音楽コンテンツの方向性としてハイレゾ化が進むと同時に空間オーディオ化が進むと考える中、古い音源を空間で聴けるようにするにはどうしたらいいか…と考えました。この際、2mixを分解して、空間に配置することで、古い音源を新しい空間で聴けるのではないかと思い始めたのがキッカケです。ハイレゾは帯域の拡張であり、時間の解像度を上げるのに対し、音源分離は空間の解像度を上げると考えています。実際に動き始めたのは、2011年ごろでした。しかし最初の時点では、これがホントに実現できると思っていませんでした。最先端の技術に触れていたのですが、当時の技術では、完全に分離させることは不可能と思われていたからです。その後2013年に第3次AIブームが起き、この技術が画像や音声認識の分野に広がったことで、これをきっかけに音源分離の開発が進んでいきました。ただ、当時は我々しかAI技術を音源分離に使う人がいなかったので、さまざまな苦労がありました。

音源分離技術を開発したソニーグループ株式会社の光藤祐基さん
－－実際にプロトタイプはいつごろできたのでしょうか？
光藤：2015年に学会発表を行い、同じ年に国際コンペのSiSEC(Signal Separation Evaluation Campaign)のMUSICタスクに参加しました。これは、まさに音源分離の技術力を競い合うもので、そこで出してみたところ我々しかディープラーニングを使っていなかったということもあり、ぶっちぎりでベストスコアを獲得しました。ここからこの分野で行けると感じましたね。
－－SiSECでは、その後も発表を続けていったのですか？
光藤：同じようなコンペが1年半ごとにあるのですが、すべて参加をしています。2016年には、ディープラーニングを使ったチームが他にも1チーム現れ、さらに2018年には、ほぼすべてのチームがディープラーニングを使っていたのですが、いずれもエントリーの中でベストスコアをとることができました。その後は、我々の3期連続ベストスコアという功績が認められ、オーガナイザーとしてMusic Demixing Challengeというイベントを主催する側になりました。
－－そのSiSECでの成果もあると思いますが、世界中でAIを使った音源分離が出てきましたよね。実際iZotopeのMusic RebalanceやSteinbergのSpectraLayersにあるUnmixなんかでも音源分離はできると思います。これらdeezerが開発したSpleeterエンジンが使われているようですが（https://github.com/deezer/spleeter）、これらに比べて光藤さんが開発したものは何が違うのでしょうか？
光藤：良し悪しについての言及は控えますが、お話したように我々が世界で先駆けてディープラーニングを使った音源分離技術に取り組み、コンペティションでも高い評価をいただいてきた実績もあるので、ノウハウや技術力の高さについては自負しております。
－－その音源分離技術、これまでどんなところで使われてきたのでしょうか？
光藤：技術的にメドがたった2018年ごろから、いろいろなところで使ってきました。ソニーグループ内では、ソニー・ピクチャーズエンタテインメントからクラシック映画を4KUHDで出すという企画があり、「アラビアのロレンス」と「ガンジー」という作品の制作に音源分離技術を活用しました。映像を高画質化するとともに、マルチトラックではない当時の音源からセリフと効果音を個別に抽出、サウンドミキシングエンジニアがDolby Atmos形式に再配置することで、リマスター版として米国で発売しました。また、昨年には、「R.シュトラウスのイノック・アーデン」という作品でもこの技術を使っています。これは、カナダ出身の天才ピアニスト、グレン・グールドによるピアノをバックに朗読するという、1961年10月に録音された作品から、グールドのピアノ音源だけを取り出し、新たに俳優で歌手の石丸幹二さんの日本語での朗読を重ね合わせた作品で、グールドと石丸さんとの時を超えた共演を実現しています。

－－なるほど、そんな作品作りにこの技術が使われていたのですね。では、他社が行っているような音源分離を活用したアプリケーションの提供というのは、今回のSoundmainが初なのでしょうか？
光藤：ボーカル、ベース、ドラム、その他に分けるという意味では初ですが、これまでにも、いくつかのアプリケーションを出しています。たとえばLINE MUSICのカラオケ機能では、音源分離技術を使って楽曲からボーカルだけを分離して、カラオケにするという機能を実装しています。また以下のビデオで紹介されている、Xperia 1 IIに搭載されたインテジェントウィンドフィルターという機能は、スマートフォンでの録音時に、発生した風切り音を除去するというものです。
https://www.youtube.com/watch?v=tR_MHXpyIwA
－－Soundmain Studioでは、そのボーカル、ベース、ドラム、その他の4つに分解するという機能で固定されていますが、もっと詳細に分解することは可能なのでしょうか？
光藤：Soundmain Studioでは、使いやすいように4つに絞っています。これは長年SiSECのMUSICタスクで取り組んできた音源分離の基本でもあり、Soundmainのチームでの判断であります。ただし、私たちの音源分離技術としては、4つにしか分けられないというわけではなく、基本的には人間の耳で聴き分けられるものは分離することが可能です。逆にいうと、聴き分けにくい音、たとえばコーラスを分離するとか、複数のストリングスサウンドをバラバラにするということは難しいですね。今後、どう発展させていくかはSoundmainチームとも話しながらアップデートしていきたいと思っています。
－－ありがとうございました。