AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載

昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか?」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。

文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハードウェア不要で簡単に行えるようになっています。また現時点ではベータ版という扱いではありますが要約機能が実装された、というのも重要なポイント。録音した内容全体を要約するだけでなく、話者ごとに要点をまとめたり、決定事項や共有事項もまとめてくれるなど、まさに全自動で議事録を作ることが可能になっているのです。この半年でどのような進化があり、どうして実現できたのか、また今後、AutoMemoはどう進化していくのかなど、ソースネクストで話を伺ってきました。
※1回の検証による。環境音が約40dbの会議室で、話者と端末との距離が50cmで5名(うち2名はリモート参加のためスピーカーからの距離)の会話を録音してテキスト化。(ソースネクスト調べ/2023年8月)。文字起こしの精度は話し方や環境により大きく変わります。

ソースネクストのAutoMemoの最新状況について開発担当者にお話しを伺ってみた

AIが文字起こしをしてくれるAutoMemo

DTMの話とは少しズレますが、AutoMemoはソースネクストが販売するAIボイスレコーダーで、2020年12月に初代のAutoMemoがリリースされ、2022年1月に2代目となるAutoMemo Sが、さらに2023年9月に3代目のAutoMemo Rが発売されてきました。

左から初代AutoMemo、AutoMemo S、AutoMemo R

いずれも非常にコンパクトなボイスレコーダーであり、その最新版のAutoMemo Rは68gと軽量で、常にカバンに入れて持ち歩いていますが、内蔵バッテリーを入れてこの質量ですから、まったく気にならないサイズ感です。

スイッチひとつで、キレイな音で録音できるのですが、その結果はWi-Fiを経由してクラウドに自動でアップロードされるとともに、AIが文字起こししてくれるというのが、従来のICレコーダーとまったく異なる点。しかも、かなり正確に文字起こししてくれるとともに、話者認識もしてくれるというのがスゴイところです。

実はこのAutoMemo、別にハードウェアを買わなくても無料で入手できるスマホアプリでも同等のことが可能となっているのもスゴイところ。いずれにせよクラウドにアクセスして文字起こし結果を見るためにはAutoMemoのアカウントを作成する必要があるのですが、無料のお試しプランであっても月に1時間まで文字起こしが可能、というのもスゴイところ。これならまったくリスクなく、AutoMemoの威力を確認することができるはずです。

しかも普段は文字起こし結果を見るブラウザ版のAutoMemoにも録音機能が搭載され、オンライン会議を録音できるようになったり、AIによる要約機能なども搭載されています。実際どのようなものなのか、AutoMemoの開発担当である若宮亜里沙さんと企画担当である濱雅妃さんとのお二人に、いろいろと伺ってみました。

ハード不要で、リモート会議の文字起こしが可能に

--私自身、これまで取材をする際、ICレコーダーを使うことはほとんどなく、会話内容をその場でパソコンにメモしていたのですが、AutoMemoを使い始めてからは、便利すぎて手放せなくなりました。
濱:記者の方や編集の方などでご愛用いただいている方は多く、みなさん同様のことをおっしゃっているようです。メモを取らなくて済むので、取材がスムーズになった、といった声もよく聞かれます。

ソースネクストの濱雅妃さん(左)と若宮亜里沙さん(右)

--そのAutoMemo、昨年10月にインタビューしてからさらに進化をしているようですが、実際どんな点が変わったのかなど教えてください。
濱:はい、いろいろと開発を続けており、機能的にも性能的にも進化させています。昨年8月にWebアプリであるAutoMemoをリリースしていましたが、今年1月15日にそのWebアプリに録音機能を搭載しました。これによりZoomやTeamsなどのオンライン会議もハードウェアなしに録音できるようになり、AutoMemoの利用用途が大きく広がりました。
若宮:使い方は簡単で、画面右下にあるマイクのアイコンをクリックし、「録音を始めます」というダイアログが現れるので、そのまま赤い録音ボタンをクリックすればスタートします。この際、マイクの設定で現在接続されているマイクを確認いただくとともに、右にある「PC内の音を録音(リモート会議など)」にチェックが入れていただければ、相手の声も録音できるようになります。

--これまでZoomを使った取材などでは、わざわざAutoMemo Rを使って録音していましたが、この機能を使えば、より簡単に高音質で録音できる、というわけですね。
若宮:AutoMemo Rなどを使う場合は、スピーカーを使ってZoomの音を出す必要がありますが、リモート会議の場合、ヘッドホンをして行うケースも多いと思います。今回の機能では、ヘッドホンをしていても問題なく録音できるし、間にスピーカーを挟まない分、より高音質に録音でき、認識率も向上するというメリットもあります。一方で、リモート会議搭載の録音機能を使うのと違って、手元で簡単に録音できるため、相手に威圧感を与えずに記録できるというメリットもあります。

AutoMemoの開発担当である若宮亜里沙さん

--最近はリモート会議が増えているので、とっても便利ですね。人によってはこれで十分と感じる人もいると思いますが、そうなるとAutoMemo Rなどのハードウェアが売れなくなってしまうのではないですか?
濱:われわれとしてもハードウェアを売ることが目的なわけではなく、より多くの方にAutoMemoを使っていただくことが重要と考えているので、このWebアプリでの録音機能も、録音できるシチュエーションが増えた、という位置づけです。実際、iPhoneやAndroidなどのスマホで使えるAutoMemoアプリも無料で出しており、このアプリが非常に多く使われているのも事実です。ハードを持っているかたもアプリを使っていたりするので、一概には言えないのですが、AutoMemoの全ユーザーの中の2割程度がハードを持っている、という感じでしょうか?すでに昨年9月にAutoMemoの累計アカウント数が10万を超えており、さらも多くの方が登録いただいている中、今回のWebアプリの録音機能が多くの方に便利にご利用いただければ、と考えています。

ベータ版として要約機能を実装

--一方で、先日、要約機能というのも搭載されたんですよね?
若宮:はい、3月にベータ版という位置づけで要約機能を搭載しました。これを使うことで、文字起こしした内容全体の要約をするとともに話者ごとの要約もできるようにしています。さらに、決定事項や共有事項といった、会議における重要なところを自動でまとめるようにしているので、議事録づくりなどがかなり効率よくできるようになりました。

--かなり完成度高くできているようですが、現在ベータ版としている理由はなぜなのですか?
若宮:現時点においては、多くの方に使っていただきながらフィードバックをいただき、精度を高めているところです。この要約機能は、無料のお試しプランの方は一律で月に1回利用できるようにしており、サブスクの方は毎月5回まで利用できる形にしており、多くの方にご利用いただいています。まだ、正式リリースの日程が決まっているわけではありませんが、よりよいものにした上で、数か月以内に本リリースできればと考えています。その際にはToDoも追加する予定で開発を進めています。一方、料金体系などは現在検討しているところですが、通常の文字起こしのサブスクとは別に、要約プランのようなものが用意できないか、考えているところです。

--編集・ライターなどの仕事では要約は不要かもしれませんが、議事録を作る人にとっては強力な助っ人となりそうですね。
濱:おっしゃるとおり、人によって、要約機能が必要な人と、あまり使わない人が出てくると思うので、新しい料金体系を考えているところです。ただ、従来の月30時間までの文字起こしという部分においては、変更せずに続ける予定です。
若宮:ようやくある程度のメドが立ってきたところですが、1時間近い会議の内容を要約するという部分では当初かなり苦戦しました。いろいろチューニングしていく中、大きな力になったのは優秀な人が作った議事録を学習させることにありました。ソースネクストの社員の中にも、すごく上手な議事録を書く人がいて、その結果などをある程度体系化していったのです。このような議事録を作り出すプロンプトをAIに考えさせ、それを比較して評価する……といったことを繰り返し、モデル数を増やしていった結果、かなり精度の高い要約ができるようになっていったのです。

競合企業のサービスを圧倒するAutoMemoの実力

--AIを使った文字起こしや要約、競合もあると思いますが、AutoMemoの優位性についてはいかがですか?
若宮:確かに、ベンチャー企業を中心にいくつかの競合サービスがありますが、文字起こしの精度的には、それらと比較してもかなり高いものだと自負しております。要約機能の搭載という面では現時点まだベータ版であり他社に比較して遅れた面があるのは事実です。しかしソースネクストなりの答えが出てきたので、ここにおいても自信を持っているところです。
濱:一方で、これらの競合はあくまでもソフトウェアで行っているもので、ハードウェアと連携して行っているところはほとんどありません。日本のICレコーダーの大手メーカーも、こうした分野には進出していません。中国メーカーの中に端末を出しているところが一つありますが、AutoMemoが機能、性能面で圧倒していると認識しています。この辺は、ポケトークで培ってきたノウハウが大きく役立っており、大きな優位性になっていると思います。

AutoMemoの企画担当者、濱雅妃さん

--確かに、AutoMemo Rで録音するだけで自動的にWi-Fiにアップロードされて、勝手に文字起こしされている便利さは、ほかに変えられませんね。
若宮:ユーザーインタービューでも、その連携の便利さをおっしゃっていただくことが多くあります。これは実際に使っていただかないと実感しにくいところではありますが、結果としてサブスクに登録してくださっているヘビーユーザーの多くの方がハードウェアを持っている、という数字ともつながってくるようです。

Open AIのエンジンを使いつつ、さらに精度の向上を図る

--ところで前回、インタビューした際は、AutoMemoの文字起こしエンジンを何度か変更しており、より高精度なものに乗り換えてきたというお話をされていましたが、その後エンジンの変更などはあったのでしょうか?
若宮:以前お話した通り、Open AIのエンジンを当社でチューニングして使っておりますが、精度的には非常に優れているので、その後も改善は続けておりますが、変更はしておらず、現在のところ変更する予定もありません。ただ、小さなノイズなどによって起こるハルシネーションというAIによる幻聴のようなものがあり、これが文字起こしをする上で問題になっていました。これについても対策を進めてきた結果、おそらく近日中には大きな改善ができる見込みとなってきました。このハルシネーションがなければ、ユーザーのみなさまの満足度も大きく向上すると考えております。この改善において、何かを犠牲にしなくてはいけないのでは……と憂慮しておりましたが、何も犠牲にすることなく改善できそうなので、ぜひご期待いただければと思います。

--そのほか改善する予定などはありますか?
濱:最近ユーザーインタビューを行っており、ユーザーのみなさまからのご意見を吸い上げているところです。文字起こしの精度における不満はほぼないのですが、精度というより使い方においていくつかのご要望もいただいています。たとえば文字起こしされた結果の編集画面において、誤字を一括返還したいとか、人名などの固有名詞を辞書登録したい、といったものです。これらについても対応可能かも含め検討を始めているところです。
--一方、以前のお話でAIに文字起こしさせる前にノイズ処理などを行っているということでしたが、それによって小さな音声がうまく聴こえなくなってしまうケースがあります。文字起こし結果を見ていて、うまくできていないところの音声を聴いても結局分からないくなるのですが、ノイズ処理前の原音を聴く方法はありますか?
若宮:クラウドに保存されている音声は、処理した結果のみで原音ではありませんが、レコーダー側には原音で残っているので、そちらを聴いていただければと思います。AutoMemo Rの場合65時間分の音声データが残されており、それを超えると古いものから消されてしまいますが、新しいものであれば、原音を聴くことが可能です。

--なるほど、そうなっていたのですね。いつもクラウド側の音声だけで確認していたので、今後はうまく文字起こしできなかった部分についてはハードウェア側で聞いてみることにします。もう一つ個人的な要望としてあるのは、ほかのレコーダーで録った音も文字起こししたいという点ですが、ここはいかがですか?
若宮:まさに同様の要望を多くの方からいただいており、4月中に対応させる予定で、開発を進めています。ここではWAVやAIFF、MP3など一般的なオーディオファイルのアップロードができるようにするのはもちろんのこと、MP4やMOVなどの動画にもさせます。
濱:これについてもAutoMemoの入り口を増やす、という考えの一つです。対面でのリアルな会話であればハードウェアをご利用いただき、リモート会議であればWebアプリに実装した録音機能を、そしてこの音声データ対応ではほかのレコーダーで録ったものも使えるようになるほか、過去のアーカイブにおいても文字起こしが可能になるわけです。ぜひ、多くの方にAutoMemoを活用いただければと思っております。

--これからが楽しみです。さらに存分にAutoMemoを活用していきたいと思っています。ありがとうございました。

【関連情報】
AutoMemo製品情報
【価格チェック&購入】
◎ソースネクスト ⇒ AutoMemo R