音楽とは直接関係ないけれど、コンピュータを使って合成する音ということから、これまでDTMステーションでいろいろとリサーチしてきている音声合成の世界。さまざまなメーカー、さまざまな研究機関がいろいろなアプローチをしてきているわけですが、元となる声のモデルに声優の声を使っているケースが多いことから、どうしても萌え系、アニメ声のシステムが多く、そこに抵抗感を持っている人も少なくないようです。また、それに合わせてアニメっぽいキャラクタを採用していることも多いため、興味はあるけれど、そこがちょっと……という人もいるようです。
そうした中、ソースネクストが販売する「かんたん!AITalk3」は、とっても普通、そしてとっても人間っぽく喋ってくれる人気の音声合成ソフト。爽やかで若々しい声の女性、誠実なトーンが特徴の男性、優しく一生懸命さが伝わる話し方が特徴の女性など、5話者が選択できるパック(16,500円)、それに関西風話者2人を加えた7話者がセットになったパック(22,000円)の2種類があり、DTMユーザーであるかどうかに関係なく、誰でも持っておいて損のないソフトではあるので、紹介してみましょう。
テキストを入力すれば、すぐに音声合成できる、かんたん!AITalk3
国内で音声合成を手掛ける企業はいろいろとありますが、間違いなくその中枢にいる1社が株式会社エーアイです。先日「タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた」という記事で、私の元同僚でもある副社長へのインタビューをしたこともありましたが、音声合成専業で展開して、上場まで果たしてしまった珍しい会社。まさに日本の音声合成の礎を築いてきた企業といって間違いないと思います。
今回取り上げるかんたん!AITalk3は、その株式会社エーアイが開発するソフト。実際どんなことができるソフトなのかご存じない方もいると思うので、ちょっと試してみたところをビデオに撮ってみたので、ご覧になってみてください。
いかがですか?本当に記事をコピーして、かんたん!AITalk3へペーストしただけで、こんなに自然な感じでしゃべってくれるんですね。漢字かな交じりの文章をそのまま自然に喋ってしまうのですから、日本語の音声合成の世界はすごいですよね。話者を切り替えれば、別の声で喋らせることも可能。まさに「かんたん!」な操作で音声合成を行うことができるのです。
4つのパラメーターで喋り方を調整することができる
画面右側を見てみると
・話速(喋る速度)
・高さ(声のピッチ)
・抑揚(イントネーションの強さ)
と4つのパラメーターがあり、これらを調整することで、喋り方をいろいろ調整することも可能になっています。
■標準語話者
のぞみ 爽やかで若々しい声が特徴です。 |
かほ 明瞭性に長けているのが特徴です。 |
||
せいじ 誠実なトーンが特徴です。 |
あんず 優しく一生懸命さが伝わる話し方が特徴です。 |
||
ななこ おちついた声が特徴です。ニュースの読み上げや音声ガイダンスの用途に 適しています |
また7話者パックのほうには、関西弁で喋る話者が男女2名おり、同じ文章を読ませてもだいぶ雰囲気が違うのも面白いところです。
■関西風話者
みやび ゆったりとした優しい話し方が特徴の女性話者です。 |
やまと 明朗快活で、若々しい話し方が特徴の男性話者です。 |
この画面や操作を見て、お気づきになった方もいると思いますが、かんたん!AITalk3の見た目や使い方は、株式会社AHSがこれまで販売してきたVOICEOIDとそっくり。それもそのはず、どちらも株式会社エーアイが作っているソフトであり、この2つは姉妹ソフトなんですね。
ただし機能面においてはVOICEROIDと比較すると、やや簡略化されているようです。前述のように全体のスピードを変えたり、ピッチを変えることはできるのですが、喋り方においてイントネーションがおかしい場合、それを直接修正するといったことはできません。
ただし、明らかにイントネーションが変なものや、漢字が正しく読めない単語などは、単語登録が可能であり、ここでイントネーションを指定することができるので、どうしてもうまく喋れない言葉や文章はここで登録しておけば上手に喋ってくれますよ。
単語登録機能を用いて読み方やイントネーションなども調整できる
そのほか、文章を読ませていて「ここはちょっと間を空けたい」ということがありますが、その場合、5種類の記号でポーズを設定することが可能になっています。具体的には「#」、「@」、「■」、「●」、「▲」の記号で、それぞれにポーズ長を割り当てることができるので、これらを用いて喋らせていくのも手です。
また、先ほどは、テキストのコピー&ペーストで喋らせましたが、Microsoft OfficeのWord文書(.docx)を読み込ませることも可能になっています。もちろん、ここで有効なのはテキストデータだけで、スタイルなどの情報は無視されますが、すでに手元にある文書を読ませたい場合には重宝しそうですね。
Wordのdocxファイルをドラッグ&ドロップで喋らせることも可能
もちろん、かんたん!AITalk3は、こうやって直接喋らせるだけでなく、この喋る声をWAVファイルで書き出すことも可能。具体的には16bit/22.05kHzのモノラルのWAVファイルなので、そのまま再生してもいいし、DAWに読み込んで使うことも、ビデオ編集ソフトなどに取り込んで使うことも可能です。
作成した音声は16bit/22.05kHzのWAVファイルとして書き出すことができる。画面はSoundForge Pro 15で開いたもの
このWAV出力はできませんが、かんたん!AITalk3で、どんな声でしゃべらせられるかのデモは、かんたん!AITalk3の製品ページ内でブラウザ上で試すことが可能になっています。ブラウザ上での動作なので、16bit/22.05kHzほどのクオリティーにはなってないように思いますが、標準語の5話者、関西弁の2話者それぞれチェックすることができるので、面白いですよ。ただし、ここでは最大300文字しか喋らせることができないという制限はあります。
ソースネクストのかんたん!AITalk3の製品情報ページ上で、喋らせるデモが可能
この、かんたん!AITalk3が、すごいのは1キャラクタごとに1製品として販売されているVOICEROIDと異なり、標準語の5話者がまとまっているから、用途に応じて、声を簡単に切り替えることができるという点。7話者パックのほうは、標準語の5話者の切り替えができるソフトと、関西弁の2話者の切り替えができるソフトの2つに分かれており、統合はされていないのですが、いずれにせよ、この価格で入手できてしまうのですから、ちょっと異常といえると思います。
試しに検索してみると分かると思いますが、かんたん!AITalk3の流通を手掛けているのは、ソースネクスト以外にも何社かあり、たとえばAmazonからも購入可能です。そのAmazonも多少値引きはしていますが、5話者パック16,500円が10%引きの14,850円ですからね…。今回のクーポンの威力がどれくらいのものか実感できると思います。
そのクーポンコードは以下の通り。
クーポンコード(7話者パック):dtm1031_2
このクーポンコードの使い方ですが、ソースネクストのかんたん!AITalk3の製品情報ページから、5話者パックもしくは7話者バックをカートに入れると、商品確認&情報入力のページに遷移するので、ここでクーポンを入力してください。これによって、5話者パックが1,980円、7話者パックが2,990円に変わるはずです。
クーポンコードを入力することで割引が適用される
ただし、このクーポンコードが使えるのは10月31日までなので、ご注意ください。
※2021.10.16追記
かんたん!AITalk3は個人利用限定の製品で、業務利用、商用利用はNGとなっています。ただ、個人がYouTubeに広告をいれてUPする場合や、ニコニコ動画のクリエイター奨励プログラムなどに参加する場合もOKとのこと。詳細はこちら「通常のライセンスで利用してよい許諾範囲の具体的なユースケース」よりご確認ください。
【関連情報】
かんたん!AITalk3製品情報
【価格チェック&購入】
◎ソースネクスト ⇒ かんたん!AITalk3 5話者パック
◎ソースネクスト ⇒ かんたん!AITalk3 7話者パック