初音ミクの歌声を支える加算合成エンジンM9の秘密——クリプトンがADC Japanで明かした基幹技術と今後の展開【ADC Japan 2026レポート③】

ADC Japan 2026について、DTMステーションでは、いろいろレポートしていますが、そのADC Japanで大きく盛り上がったのは、6月3日にクリプトン・フューチャー・メディア株式会社のSONICWIREチームに所属する岩崎純一さんと山根壮一さんが行った「初音ミクを支える基幹技術と今後の展開」と題したセッションでした。来年でデビュー20周年を迎える初音ミクが、どのような技術的進化を経て現在の姿に至ったのか、そしてその心臓部であるM9合成エンジンの内部がどのような仕組みで動いているのかを、開発者自らが詳細に解説。さらにそのエンジンをSDK化して外部展開する「NTSDK（TBD）」計画も明らかになりました。

また同日のスポンサートークセッションでは、ADC Japan 2026を実現させた立役者の一人でもある株式会社COCOTONEの塩澤達矢さんが、JUCEの同人誌を書いたことがきっかけとなって10年にわたるJUCEコミュニティ活動へと発展し、ADC Japan 2026開催につながった軌跡を語ってくれました。今回はこの2本のセッションについて紹介してみましょう。

ADC Japanでプレゼンされた「初音ミクを支える基幹技術と今後の展開」

VOCALOIDとNT、2つのラインで進化する初音ミク
C++とJUCEで動くPiapro Studioの内部構造
リアルタイム歌声合成の3つの技術的課題
加算合成を選んだ理由——原音再現性の高さが決め手
64分の1への圧縮——3次スプライン補間で解決
Breathinessで息感を、VocalMorphingで声質を自在に操る
M9エンジンをSDK化——「NTSDK（TBD）」で外部展開へ
JUCEの同人誌を書いたらADCを日本に連れてきた話——株式会社COCOTONE 塩澤達矢さん

VOCALOIDとNT、2つのラインで進化する初音ミク

まずセッションの前半、岩崎さんからピアプロキャラクターズとPiapro Studioの概要についての説明がありました。

ピアプロキャラクターズとは、『初音ミク』『鏡音リン』『鏡音レン』『巡音ルカ』『MEIKO』『KAITO』の総称です。いずれもクリプトン・フューチャー・メディア株式会社が企画・開発した「歌声合成ソフトウェア」（別称：バーチャルシンガー・ソフトウェア）にして、キャラクターとしても人気のバーチャルシンガー。「ピアプロ」は「創作の連鎖＝ピアプロダクション（Peer Production）」から生まれた造語で、創作を連鎖させる存在であってほしいという願いが込められているとのことでした。

左からクリプトン・フューチャー・メディア、SONICWIREチームの岩崎純一さん、山根壮一さん、そして質問などに対応した情報システムチームの黒田毅さん

初音ミクのソフトウェアとしての歴史は、2007年のVOCALOID 2（v2）から始まります。その後2013年にv3、2016年にv4、そして2026年4月にv6が登場。一方、2020年にはVOCALOIDとは異なる産総研（AIST）の技術を活用した初の自社製エンジン「NT（New Type）」が誕生し、2025年には完全自社製エンジンを搭載した「NT ver2」へとアップデートされました。現在は「VOCALOIDシリーズ」と「NTシリーズ」の2軸で開発が進んでいます。

初音ミクのこれまでを示すタイムライン。VOCALOIDシリーズ（上）とNTシリーズ（下）の2軸で展開していることがわかる

この2つのシリーズには明確なコンセプトの違いがあります。スライドによれば、VOCALOIDは「キャラクター性と人間らしさのより良いバランスの追求」、NTは「楽器としての音声、キャラクターらしさの追求」と位置づけられています。NTはクラシカルな歌声合成方式やシンセサイザー的な側面を持ち、完全自社製のため実験的な開発がしやすいという特性があるとのことでした。なお、NTシリーズについてはDTMステーションの記事「Piapro Studio NT2とVOCALOID 6のデータ相互互換が11月19日に実現。鏡音リン・レンNTリリースを機に加速するNTプロジェクト」でも詳しく紹介されています。

NTシリーズの立ち位置。VOCALOIDとNTはコンセプトが異なる存在として開発されている

C++とJUCEで動くPiapro Studioの内部構造

Piapro Studioは、クリプトンの歌唱データベースに対応したボーカルエディターです。C++とJUCEで実装されたGUI部と独立したエンジン部に分かれて駆動する構造で、開発コード名は「vdaw（VOCALOID DAW）」。2013年のリリース以来、13年にわたって進化を続けています。

Piapro Studioとはどんなソフトウェアかをまとめたスライド。C++とJUCEで実装されている

Piapro Studioのバージョン変遷も紹介されました。2013年の初期版ではMFC、wxWidgetsによるGUI実装で、PortAudio、rubberbandに依存する設計。プラグイン形式はVSTi（＋StudioOne Artist）で、VOCALOID3 APIを内部からコールする形式でした（2016年のCEDECにて詳細な技術解説を実施済み）。2016年のV4X版ではGUIと再生系の実装がJUCE 4.1へと移行。2017年にV4C版が登場し、プロトタイプ版Standalone版もリリースされています。VOCALOID3/VOCALOID4 APIの両方を内部的にコールする構成でした。

Piapro Studio (2013)の技術詳細。MFCとwxWidgetsによるGUI実装が特徴

そして2020年のPiapro Studio NT（NT = New Type）では産総研の技術を用いた新エンジンを採用し、初めてStandalone版に完全対応。2025年のNT ver2では完全自社製の合成方式・データベースとなり、研究開発の人員を大幅に増強して実現に至ったとのことでした。このNT ver2における「開発時のエンジン名」が、セッション後半の主役となるM9です。

Piapro Studio NT ver2（2025）のスライド。完全自社製の合成方式・データベースとなり、開発時のエンジン名はM9とされている

現在のPiapro Studioの基本設計は、UIレイヤーの「PPSGUI」、コアレイヤーの「PPSEngine」、そして合成エンジンの「M9Engine」、マルチエフェクターの「PPSEFX」（VSTとしてロード）、推定用ライブラリの「HPE（Humaniz Parameter Estimator）」から構成されています。HPEは内部でonnxruntimeに依存しており、F0カーブや子音長、VoiceColorの推定を担っています。

Piapro Studioの基本設計図。UIレイヤーとコア＆DSPレイヤーに分かれた明快な構造が示されている

データの処理フローは5ステップで構成されています。Step 1でHPEによるF0/子音長/VoiceColorの推定を経てスコアデータをM9エンジンに渡す「Preparation & Feature Extraction」、Step 2でNote Connectorが音素を接続する「Note Connection」、Step 3でM9EffectorとWaveform Synthesisによる「Synthesis」、Step 4でPPSEngineへの波形データ受け渡しと「Post-Processing Transfer」、Step 5でPPSEFXによるポストプロセスを経てオーディオ出力する「Playback & Output」となっています。

データの流れを示すフロー図。5つのステップで処理が進む

リアルタイム歌声合成の3つの技術的課題

ここからセッションは山根壮一さんにバトンタッチ。M9合成エンジンの内部技術について詳しい解説が行われました。

M9エンジン開発にあたっての技術的課題は「計算コスト vs 音質」「軽量モデルの手法比較」「加算合成を採用した理由」の3つ。

まず現代の歌声合成でよく使われるニューラルボコーダーは自然な音声品質と豊かな歌唱表現力を持つ一方で、リアルタイム処理が困難でパラメータ制御がしにくいというデメリットがあります。対して従来型の軽量パラメトリック合成モデルは、低遅延・リアルタイム処理が可能でパラメータ制御が容易ですが、音質・倍音表現に制限があり歌唱表現力が低下する課題があります。「リアルタイム性を保持しながら音質を最大化する」ことが、M9エンジン開発の核心的な課題でした。

計算コストと音質のトレードオフを整理したスライド。ニューラルボコーダーと軽量モデルの特性が比較されている

加算合成を選んだ理由——原音再現性の高さが決め手

軽量モデルの手法として検討されたのが「減算合成（Subtractive Synthesis）」と「加算合成（Additive Synthesis）」の2方式です。

減算合成はソースフィルタモデルに代表される手法で、ノイズ源にフィルタを適用して波形を成形します。計算量は比較的少なく制御もしやすいですが、声道の複雑な共鳴を正確に再現しにくいという課題があります。

減算合成（ソースフィルタモデル）の仕組みを示したスライド

一方、加算合成は山根さんが社内で「正弦波モデル」と称している手法で、基本周波数（F0）の整数倍の正弦波（調波成分：倍音列）を重ね合わせ、さらに無声子音や息漏れなどの広帯域雑音成分（非調波成分）を加えることで音声を合成します。

加算合成（正弦波モデル）の仕組みを示したスライド。調波成分と非調波成分の2種類から声が構成される

加算合成の最大のメリットは、音質面において原音再現性が高いこと。また調波成分の周波数方向の振幅列をスペクトル包絡とみなして操作できるため、音声加工の自由度が高い点も魅力です。クリプトンでは分析再合成を行った際の音質において、加算合成方式の方が高いと評価しているとのことでした。

一方デメリットも存在します。倍音の数だけデータ量が増大するため、例えば1つの波形から60本の倍音を分析した場合、単純に元の波形の60倍の容量になります。これをそのまま音声データベースにすると数GBになってしまうとのことです。

加算合成を採用した理由をまとめたスライド。原音再現性の高さがメリット、データ量増大がデメリット

64分の1への圧縮——3次スプライン補間で解決

このデータ容量問題の解決に採用されたのが「3次スプライン補間による時間軸方向のデータ量削減」と「位相情報の削減」です。

倍音の時間軸方向のパラメータは正弦波の振幅列であるため、補間処理によって間のデータが欠けてもそれほど大きく音質が劣化しないことが実験で確認されたとのこと。この手法により、データ量を64分の1にまで圧縮することに成功。音声データベースの容量を数百MBレベルに抑えられています。

パラメータ圧縮の手法を示したスライド。3次スプライン補間による時間軸方向の圧縮が鍵となっている

また、計算負荷への別アプローチとして、Piapro Studio上での合成処理の見せ方にも工夫があります。隣り合ったノート同士の無音区間を検知して有音区間を細かく分けてフレーズ化し、一括処理を最小化することで見かけ上の合成速度を速く見せる仕組み。さらに再生バー付近のフレーズを優先的に合成することで、表示・再生までの待機時間を短縮しているとのことでした。

Breathinessで息感を、VocalMorphingで声質を自在に操る

続いて、M9エンジンが持つパラメータ制御と楽器的特性についての解説がありました。

発音単位での制御として、子音長・語尾長などでの発音制御、発音の頭・語尾の音素切り替えによる音色制御（例：アタック感の強い音素へ変更するE.V.E.C.機能）、そしてポルタメント・アタックなどの音素接続部分の制御が可能です。

可制御性と楽器的特性を説明するスライド。E.V.E.C.機能など細かい発音制御が可能

スペクトル操作による内部エフェクターとして、「Breathiness」と「VocalMorphing」の2種類が紹介されました。

Breathinessは、調波成分と非調波成分の割合を変化させることで息っぽさを制御するエフェクター。実際の音声サンプルで、エフェクトなしの状態と比較しながらその違いが紹介されました。

VocalMorphingは音色の異なる音声を混ぜることで声質を制御するエフェクター。はつねミクNTにはオリジナル、ダーク、ウィスパーの3種類の音声データベースが収録されており、例えばオリジナルとダークの中間的な音質を生成することが可能です。

内部エフェクターについて説明するスライド。BreathinessとVocalMorphingが紹介された

そして自社内で蓄積した歌唱データを用いた「歌い方モデル」もPiapro Studio NTには搭載されています。HPEによる深層学習モデルがノート列の情報をもとに、F0やビブラート、子音長などのアーティキュレーションを自動生成する仕組みです。実際のデモでは、歌い方モデル適用前の平坦なピッチの音声と、適用後でノートの頭にポルタメントが付くなど表情豊かになった音声の違いが比較されました。

M9エンジンをSDK化——「NTSDK（TBD）」で外部展開へ

セッションの最後、再び岩崎さんが登壇し、NTシリーズの今後の展開について発表がありました。

M9合成エンジンを分離したSDK「NTSDK（TBD）」の開発が進められているとのことです。完全自社製エンジンへの移行により自由な実装が可能となり、Piapro Studio以外のプロダクトでもNTの技術を活用できるようにすることが目的とのこと。

「NTSDK（TBD）」を紹介するスライド。M9合成エンジンを分離したSDKとしてPiapro Studio以外でも活用可能にする

NTSDKの構造は、基礎層となる「M9Core」（C API、dynamic/static lib、wasm対応）の上に「NTAPI」（より高レベルなAPI）が乗り、さらにその上にModules（Song…実験的MLベースの技術）、Tools（ユーティリティ、分析・編集、エージェント向け設定）、Samples（CLI、GUI、Plugin、Web）が配置される多層構造です。

NTSDKの拡張可能な構造を示すスライド。M9CoreとNTAPIの2層構造がベースとなっている

SDK化による今後の展開として4つの方向性が示されました。①研究利用促進：M9エンジンを用いたアカデミックな研究分野への活用と連携を強化、②他アプリへの搭載：Piapro Studioに限定せず、サードパーティ製アプリへのM9搭載を推進、③マルチプラットフォーム：WebサーバサイドやEmscriptenを用いたWASM、Unity向けマネージドコードなど展開先を拡大、④継続的な施策拡大：SDKの機能拡充に伴い、音楽制作ワークフローにおける多角的な施策、の4点です。

SDK化による今後の展開を示したスライド。研究利用促進・他アプリへの搭載・マルチプラットフォーム・継続的な施策拡大の4方向

なお、NTSDKについてはB2B/B2Cどちらの提供形態にするかも含め、現時点ではまだ検討段階とのこと。また、提供するのは推論（合成）のみで、学習プロセスのサポートは現時点では予定されていないとのことでした。

会場からは「WASMビルドした場合の処理負荷は？」「SDKにM9エンジンとデータベースが別提供になる可能性は？」「学習まで含めたSDKになる予定はあるか？」など、活発な質問が飛び交い、開発者コミュニティからの高い関心が感じられるセッションとなりました。

JUCEの同人誌を書いたらADCを日本に連れてきた話——株式会社COCOTONE 塩澤達矢さん

同日のスポンサートークセッションでは、株式会社COCOTONEの塩澤達矢さんが「オーディオプログラミングコミュニティの始め方」と題した講演を行いました。副題は「JUCEの同人誌を書いたらADCを日本に連れてきた件」。10年にわたるJUCEコミュニティ活動の軌跡が語られました。

株式会社COCOTONEの塩澤達矢さん。JUCEとC++で生活するCEOとして自己紹介した

株式会社COCOTONEは2022年10月に設立。オーディオプラグイン開発受託、オーディオアプリ開発受託、JUCEコンサルティングを事業として展開しています。塩澤さん自身は自動車メーカーの知的財産部でキャリアをスタートし、ゲームメーカー、ミドルウェア企業を経て33歳で個人事業主となり、現在は会社代表として活動しています。楽器メーカーでの勤務経験はゼロ。「JUCEのコミュニティ活動から発展してオーディオプログラミングを事業として行っている」というユニークな経歴の持ち主です。

JUCE JAPANという同人誌の誕生

すべての始まりは2015年。塩澤さんは趣味のプログラミングの延長でJUCEに触れ、「これを使えば本格的なプラグインが作れる」と期待を持った一方で、日本語資料の少なさに課題を感じていました。当時はUnityやUnreal Engineなどのゲームエンジンが日本の開発者コミュニティに根付いてきた時代。それを参考に、自ら日本語資料を作ることを思い立ちます。

学生時代に同人活動の経験があった塩澤さんは、技術同人誌という形を選択。「失敗しない」やり方として同人誌製作を選んだとのこと。そして第1回技術書典（2016年6月25日、秋葉原通運会館）の開催を知り、「先に締め切りを決めてしまえば完成するだろう」という締め切り駆動で企画がスタートしました。

ここでひとつの問題が生じます。デザインにこだわり、まるでJUCEのオフィシャルブックのような仕上がりを目指していた塩澤さんは、制作途中でJUCEのロゴや商標の使用許諾が必要だと気づきます。自動車メーカーの知的財産部出身という職歴が活きた瞬間でした。

WIPOのグローバルブランドデータベースで調査したところ、Raw Material Software Limited（RMSL）がJUCEの文字商標の商標権者であることが判明。JUCEファウンダーのJulian Storerが設立した同社は、当時ROLI Ltd.の傘下にありました。そこで塩澤さんはROLI Ltd.に直接メールを送るという行動に出ます。

返信してきたのはJB（Jean-Baptiste）という役職の人物。デベロッパーとのコミュニケーションを担当するJBと何度かやり取りし、「ロゴのデザインルールを遵守すること」「非公式ガイドである旨の注釈を記載すること」「販売後に報告すること」という条件で許諾を取得。なんとイベント2週間前のことでした。

技術書典でのデビューは成功を収め、塩澤さんはJBに販売冊数や立ち読み人数、Amazon Kindle版の販売告知を報告。お礼としてUKから大量のJUCEステッカーとJUCE Tシャツが届いたというエピソードも披露されました。

ROLI Ltd.へ訪問した際の塩澤さん。販売結果の報告がきっかけで関係が深まった

ミートアップからADC Japanへ

2018年にはロンドンで開催されたADC 2018に参加し、ROLI Ltd.のオフィスを訪問。「JUCE JAPANがオフィスの壁に貼られていた」というエピソードも語られました。

その後も塩澤さんのコミュニティ活動は続きます。JUCEもくもく会（少人数・小規模）や、JUCE 8 ハンズオン＆ミートアップ（WebViewハンズオン、ライセンスのディスカッション、ネットワーキングなど）を主催。2022年に株式会社COCOTONEを設立してからはスポンサーシップ活動も開始しました。

イベント主催のスライド。JUCEもくもく会やJUCE 8 ハンズオン＆ミートアップなどを主催してきた

転機となったのは2022年11月のLinkedInメッセージ。PACEのAndrewから「日本でJUCEを使っている人たちを応援したい」というメッセージが届き、2023年3月2日にウルフギャングパック PIZZA BAR 赤坂アークヒルズ店で「JUCE Meetup 2023 with Pizza」を開催。小規模ながら初の本格的な日本版JUCEミートアップとなりました。

2025年4月17日には「JUCE Meetup Tokyo Spring 2025」を秋葉原UDXで開催（会場はDreamtonics社が確保）。招待枠60名、一般枠20名の計80名規模のイベントで、JUCEチームが来日してJUCEのロードマップも発表。この場でADC Japan 2026の開催が告知されました。

2025年4月17日、JUCE Meetup Tokyo Spring 2025を開催。そこでADC Japan 2026の告知が行われた

そして今回のADC Japan 2026では、株式会社COCOTONEがスポンサー企業として参加。運営にも関与するかたちで実現に至ったと語りました。

コミュニティ活動を10年続けるということ

トークの後半では、10年間のコミュニティ活動から得た教訓が語られました。楽しい面として、JUCEチームへの貢献を通じた個人的な充足感、JUCE公式からの応援メッセージ、「JUCEの継続と発展＝当社の事業成長」という経営的な視点での利益が挙げられました。

一方、切ない面も正直に語られました。期待した結果が得られることは保証されていないこと、人の興味は移ろいやすくJUCEに興味を持ってくれた人が離脱するのを何度も目にしてきたこと、そして2020年4月にPACE社がJUCEのオーナーになるなど、応援先の状況が変化することもあること——これらを「受け入れ続けることがコミュニティ活動を続けることの大事な気づきだった」と振り返りました。

コミュニティ活動のここが切ない、と題したスライド。リターンは保証されていないという現実も率直に語られた

塩澤さんはある有名なTED動画（ダンスムーブメントの動画）を引き合いに出しながら、こんな言葉でセッションを締めくくりました。「発起人になる必要はない。隣の人とつながって、誰かの活動に最初に加わり、場を空け続けて、できる範囲で支援を続ける。誰かの二人目になってくれさえすれば、また誰かは踊ってくれます。だから踊り続けましょう」。

ADC JAPANを日本に連れてくるという夢を実現した塩澤さんのメッセージは、技術コミュニティの作り方についての、実践的かつ温かい指針でした。

【関連情報】
ADC Japan 2026サイト