Banner B0
640x200伸縮サイズ
Banner B1
640x200伸縮サイズ
Banner A0(728x90)伸縮サイズ

FL STUDIOのスピーチシンセサイザに日本語を歌わせてみた!

VOCALOIDを筆頭に、フリーウェアで数多くのライブラリが揃うUTAU、名古屋工業大学が開発したSinsyなど、音声合成によって歌ってくれるソフトウェアはいろいろ出てきています。そうした中、先日からちょっと試してみたいと思っていたものがあります。それが、FL STUDIOに搭載されているSpeech Synthsizerというもの。

 

というのも昨年「ボカロユーザーの使用率が高い!? FL STUDIO」という記事を書いた際にもちょっと触れたとおり、あのOtomaniaさん(あのネギを振るIevan Polkkaを作成した、初音ミクブームの火付け役ともいえる方)が、VOCALOID以前にSpeech Synthsizerで歌わせて遊んでいたという話を聞いていたので、気になっていたからです。


FL STUDIOのSpeech Synthsizerで日本語を歌わせることに挑戦!


Banner B2
640x200(320x100)
伸縮サイズ
Banner B3
640x200(320x100)
伸縮サイズ
Banner A1(728x90)
伸縮サイズ

そのSpeech Synthsizer、私自身もだいぶ以前から何度か触ったことはあったので、もちろん知ってはいました。これは、TTSText to Speechというタイプのシステムであり、文字を入力すると言葉をしゃべってくれるというもの。そのため、VOCALOIDというよりもVOICEROIDに近いシステムですね。


英語を入力すると音声に変換してくれるSpeech Synthseizer 

 

しかもVOICEROIDと違って日本語対応ではなく、完全に英語のシステムだから、ひらがなを受け付けてくれず、英語入力なんです。また10年近く前からある古いシステムだけに、声はVOCALOIDやVOICEROIDのように、滑らかな人間の声ではなく、かなり機械的、ロボット的な音声。そのため、わざとこうした歌声の楽曲を作るのに利用するというのも面白そうに思います。一応、声質は男性、女性、ロボット、子供、虫?……といろいろな種類が用意されています。


Speech Synthsizerではいろいろな声を選択できる

Synthsizerという名が付いていることからも想像できるとおり、単なるTTSではなく、ちょっとシンセサイザ的な機構も持っており、歌わせることが可能になっているのがポイント。VOCALOIDやUTAUなどの使い方からすると、かなり原始的な操作手順ではありますが、まずは以下のビデオを見てみてください。

簡単に解説すると、まずは英語をしゃべらせています。文章としてのイントネーションは、ちょっと変ですが、単語で見るとキレイな発音ですよね。これをいくつかの声質でしゃべらせていますが、ここでは「Child」というものを選択してみました。

 

今回の目的は英語ではなく、日本語で歌わせるということ。ここでは「春の小川」を歌わせようと思い、冒頭の2小節をローマ字で「harunoogawawa」とベタ打ちしてみました。が、どう考えても変。そこで1文字1文字区切って「ha ru no o ga wa wa」としたものの、これでも、まともに聴こえません。

 

実はそこからホントにいろいろと試行錯誤をした結果、少し見えてきました。この入力文字を理解するのは日本人ではなく、英語圏の人(コンピュータ)。だから例えば「」を「i」と入力しても、「アイ」と読んでしまうので「e」と入力すると「イー」と読んでくれる。また「」を「a」とだけ入れると「アッ」という感じで非常に短いので「ah」と入力するなど……。ただ「」をどう入力すればいいか分からないなど(「n」だと「エヌ」と読み、「nn」だと「エヌエヌ」となってしまう)、50音すべてが解明できたわけではないのですが……。

 

さらに「Style」の設定を、「Normal」から「Sing」にすると、しゃべる感じから歌う感じになり、イントネーションが少し消えてくれます。またパラメータを見ると、RatePitchというのがあるので、これをいじるとテンポやピッチが変わってくれます。

 

ただ、これだけだと、ずっと一定の音程となってしまいます。そこで調べてみると単語の後ろにカッコ書きで数字を指定すると、音程が付いてくれることが判明。(1)なら半音上がり(-2)なら1音下がるといった具合です。そこで、これを振り、

hah(4) ah(7) ru(9) no(7) oh(4) gah(7) wah(12) wah(12)

と入力した結果、そこそこ歌ってくれました。


変換するとオーディオデータになりサンプラーに読み込まれる

実は、Speech Synthsizerで入力を終え、「Accept」ボタンを押すと、すぐにこれがオーディオデータに変換されます。FL STUDIO上では生成されたオーディオはサンプラーとして扱われるため、自在にフィルターで加工したり、エンベロープをいじるなどシンセサイザとして遊ぶことができます。ただ、ここではとくにいじらないまま作業を進めますが、やろうと思えば、シンセとしていくらでも音をいじれるし、調教もかなりできそうではありますね。

 

さて、ここでピアノロールを開くと、入力した文字が順番に鍵盤に割り振られており、順に鳴らすことで歌っています。そう音程で並んでいるわけではないのがミソ。しかし、よく見ると、発音のタイミングが音符のタイミングとズレています。


ピアノロールで文字の順番に並んでいるがタイミングがズレている

 

そこで、改めて1音ずつ入力しなおすと、今度はテンポピッタリで歌ってくれるようになりました。ただ「」=「gae」など頭が「g」だと発音が遅れるようなので、ちょっと突っ込み気味に音符を置くと多少まともになるなど、やはり試行錯誤ではありましたが。


タイミングを合わせた形で入力し直した

 

このようにして、なんとか冒頭8小節分を作った結果が以下のビデオです。明らかに外人が日本語を歌ってるという感じなのが面白いところですが、いかがでしょうか?

今更ながらFL STUDIOにハマってしまった感じですが、また何か面白いネタがあったら、紹介してみようと思っています。

【関連記事】

FL STUDIOのデモ版の気前がよすぎる!

ボカロユーザーの使用率が高い!? FL STUDIO

【関連サイト】

 

Commentsこの記事についたコメント

2件のコメント
  • 神音豊達

    AV Watchの連載楽しく読ませていただいております。
    【藤本健のDigital Audio Laboratory】第495回フォステクスのDSD対応ヘッドフォンアンプを試す -AV Watch
    読ませていただきました。
    ようやくMytek Digital Stereo192 DSD-DACが今井商事からも販売されたようでhttp://www.imaico.co.jp/mytek/
    機会があれば、連載等でのレビュー候補にご検討いただけないかと思っております。
    物自体は2010年年末に個人輸入を検討しておりましたが、
    いつまでたっても出荷されない状況が続いており店からの連絡もなく気がついたら今井商事さんで日本での取り扱い開始でした。
    ただ、米国では$1435で販売されさらにディスカウントも別途あるようなのでさすがに今井商事さんの標準価格はボッタクリに思いましたが・・・。

    2012年2月22日 8:12 PM
  • 藤本健

    MyDigital Stereo 192 DSD-DAC、私も気になっていたのですが、日本の代理店が決まったんですね。しかし、その価格はちょっとひどいですね…。
    それこそ、FLを扱っているフックアップさん辺りが、妥当な価格で扱ってくれるといいんですけどね…。
    気にはなるけど、現状、レビューするというのは、難しそうですね。

    2012年2月22日 10:30 PM

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です