高品質音声合成エンジンを搭載したお手軽ナレーション作成ツール5人組セット、かんたん!AITalk5が70%オフの4,980円

これまでDTMステーションでも何度もとりあげてきた、音声合成専門の上場企業、株式会社エーアイ。同社が開発する最新の音声合成エンジンがAITalk5というもので、従来からのコーパスベース音声合成方式と、最新の深層学習技術を活用したDNN音声合成方式の2つを兼ね備えたハイブリッドな音声合成エンジンとなっています。

その新エンジンAITalk5を搭載したことで、より滑らかに、より人間らしく喋る音声合成ソフト、「かんたん!AITalk5 5話者パック ダウンロード版」(以下、かんたん!AITalk5)をソースネクストが3月25日より発売開始しました。これは5人の話者をセットとし、キャラクタを切り替えることで、5人の声を切り替えて使うことができるもので、16,500円と手ごろな価格を実現したもの。しかも、発売記念としてDTMステーション読者限定で、約70%オフ=11,520円引きのクーポンコードが提供されているので、4月2日までの間、4,980円で購入が可能となっています。実際どんなソフトなのか試してみたので、紹介してみましょう。

テキストを入れれば、すぐに5人の話者の声で喋らせることができる「かんたん!AITalk5」

「かんたん!AITalk5」という商品名を見て、「あれ?先日DTMステーションで取り上げなかったっけ?」と思う方や、「この前、購入したぞ!」という方もいるかもしれませんが、先日記事で紹介したのは「かんたん!AITalk3」というものでした。これも、かなり人間っぽいリアルな声で喋ってくれるソフトではありましたが、今回取り上げるのは、その進化系である「かんたん!AITalk5」です。

「かんたん!AITalk3」がAITalk3というエンジンを使っていたのに対し、「かんたん!AITalk5」はその名の通り、AITalk5というエンジンを使った製品になっているのです。難しい話はともかく、とりあえず使って、喋らせてみたので、以下のビデオをご覧ください。

いかがですか?かなり滑らかにリアルな感じで喋りますよね。エンジンが2世代バージョンアップしたことで、これだけリアルに喋ることができるようになっているのです。AITalk5エンジンについては、以前、株式会社エーアイが直接販売するA.I.VOICEを紹介していましたが、これは従来からのコーパスベース音声合成方式と、最新の深層学習技術を活用したDNN音声合成方式の2つを兼ね備えたハイブリッドな音声合成エンジンとなっています。

このかんたんAITalk5の場合、コーパスエンジンを使った音声合成とのことですが、2世代新しいエンジンになったこともあり、より人間っぽい喋り方になっているのです。またより多くの言葉を知っているからこそ、先ほどのビデオのほうに漢字も入った普通の日本語をそのまま自然に読ませることができるのです。前バージョンの「かんたん!AITalk3」でも35万語の辞書を持っていたそうですが、今回の「かんたん!AITalk5」では61万語も登録されているとのことで、ほとんどの言葉を間違えずにそのまま喋れるんですね。

※2022.3.30修正
初出時、「かんたん!AITalk5」はDNN音声合成を使っていると記載しましたが、正しくはコーパスベースのものとのことです。お詫びして訂正いたします。

膨大な辞書を持っているが、固有名詞などをユーザーが自由に追加することができる

もちろん、それだけ多くの単語が登録されているにしても、固有名詞や新しい言葉などを知らないのも事実で、それについてはユーザーが登録することが可能になっています。

登録した文字の読みやイントネーションとともに、品詞を設定することで、正しく喋らせることが可能になる

それが名詞なのか、固有名詞なのか、人名なのかといった品詞を設定するとともに、必要に応じてイントネーションを指定すれば、あとは普通に利用することができるのです。

またビデオにもあった通り、ここで使える話者は女性3人、男性1人、子供1人と構成の以下の5人。

のぞみ
爽やかで若々しい声が特徴です。
かほ
明瞭性に長けているのが特徴です。
せいじ
誠実なトーンが特徴です。
あんず
優しく一生懸命さが伝わる話し方が特徴です。
ななこ
おちついた声が特徴です。ニュースの読み上げや音声ガイダンスの用途に 適しています

いわゆるアニメ声ではなく、ごく普通の喋り方だからこそ、用途も広く、ビデオなどのナレーションに使ってもまったく違和感なく使えそうです。また

・音量(音の大きさ)
・話速(喋る速度)
・高さ(声のピッチ)
・抑揚(イントネーションの強さ)

の4つのパラメーターがあるので、これを使うことで、用途に応じた喋り方が可能になるし、抑揚を強めにすることで、より感情の入った喋り方になるのも面白いところです。

抑揚パラメータを動かすことで、喋り声がより感情豊かな感じになる

話者を設定し、こうしたパラメータを設定をした上で、喋る時間がどれくらいになるかのチェックは早めにしたいところ。とくにビデオのナレーションを入れる際など、尺が決まっている場合、時間がどうなるかは重要なポイントです。これまでは、喋らせてみて初めて何秒かかるかを測ってみて分かったのですが、この「かんたん!AITalk5」では、「再生時間」というボタンを押せば、1/1000秒単位で事前に表示してくれるようになっているのも便利なところです。

読み上げるテキストをWAVファイルとして書き出し可能

もちろん、このソフトから直接再生できるだけでなく、オーディオデータとして書き出すことも可能です。この際WAVで書き出すことができるのですが、出来上がったものをSOUND FORGE Pro 15でチェックしてみたところ、22.05kHz/16bitというフォーマットになっているようでした。

SOUND FORGE Pro 15で確認したところ、WAVは22.05kHz/16bitだった

このように、誰でも簡単にナレーションを生成できる「かんたん!AITalk5」、通常価格は15,000+消費税=16,500円ですが、以下のクーポンコードを使うことで、税込みで4,980円と激安で購入することが可能です。

クーポンコード:dtm-2203-4
価格:16,500円 → 4,980円

期間:3月25日~4月2日

音楽制作とは直接あまり関係ないとは思いますが、ビデオ制作用など、幅広く活用できるので、ひとつ持っておいて損のないソフトだと思います。

【関連情報】
かんたん!AITalk5製品情報

【価格チェック&購入】
◎ソースネクスト ⇒ かんたん!AITalk5