機械学習を用いたデータ分析ツールを提供するグルーヴノーツ（福岡市）は、動画・音声ファイルをアップロードすると、自動で音声情報をテキスト化するベータ（試作）版をリリースした。総務省がテレビ番組の字幕放送を推進していることに加え、議事録やインタビュー音声のテープ起こしニーズに対応するため開発した。今後、改良を経て正式版を公開する。

インタビューや議事録のテープ起こしは、今も労力がかかる手作業が主流。最首英裕社長は、｢取締役会の内容は、社員にも知らせられないことがあり、取締役が自分でテープ起こしをするケースも聞いている。こういう仕事は、取締役に限らず人間がやる必要のないものにしたい｣と話す。

グルーヴノーツは従来から提供している機械学習クラウドサービス｢MAGELLAN BLOCKS｣に、自動文字起こし機能を追加。サーバーに動画・音声ファイルをアップロードすると、グーグルの音声入力システムを通じて、テキストに自動変換する。テキストには音声が発された時間が表示され、書き起こされたテキストに誤りがあった場合は画面上で修正できる。会話内容と時間が記録されたテキストファイルはダウンロード可能。ベータ版は英語と日本語に対応し、利用料金は音声データ1分につき0.1ドル（約11円）

音声入力ソフトを利用したり、アウトソーシングしたり、テープ起こしの省力化に試行錯誤する人は多い。作業に時間を取られ、やるべき仕事が後ろ倒しになっている人にとって、自動文字起こしツールは夢のツールとも言える。だが、気になるのはその精度。

取材時には、テレビのアナウンサーが読むニュースはおおむね正確にテキスト化できることを確認したが、最首社長によると｢複数の人が同時に会話するような場面で、発言がかぶると聞き取れない｣など、苦手なシチュエーションもあるという。

そこで、さまざまな会話を録画・録音し、ツールを使ってみた。

一覧表示

スライドショー



記事の朗読 Business Insider Japanが3月11日に配信した｢イーロン・マスクが地球の未来について語った12のこと｣を音読し、録音した。 結果：｢彼の先見性は素晴らしいからだ｣が｢素晴らしい体｣になったり、｢イーロン・マスク｣が｢イエローマスク｣に変換されたりしたが、かなり正確に文字起こしできた。 世間話その1 スマホのカメラを固定し、編集部でアルバイトしている大学生・分部麻里さんとの雑談風景を録画。 結果：カメラの位置が筆者寄りで、話し声も筆者の方が大きい。録画中から｢分部さんの声は拾えるかな？｣と気になっていたが、不安的中。筆者の発話しか書き起こされなかった。 世間話その2 1回目の結果を教訓に、筆者がスマホを手に持ち、分部さんの目の前で録画。さらに分部さんにより大きな声で話してもらった。 結果：1回目よりは音声を正確に拾った。筆者の博多弁も、比較的正確に反映された。ただし、語尾など音声が小さくなるとほとんど聞き取れなかったようだ。 外国人の話す日本語 日本在住約1年の中国人、李華傑さんに日本語で自己紹介してもらい動画撮影。 結果：名前を聞き取れなかったり、｢来て｣が｢切って｣になったりした。また、｢趣味｣について語っている一文が抜けたが、全体的には聞き取り・書き起こしの精度は高かった。 動画はこちら。



全体の使用感は？

録音されていると意識し、一人で話した場合、文字起こしされたテキストの精度は高い。ただし、意味を解釈して区切っているわけではないため、0.5秒の沈黙で音声が区切られる初期設定では、頻繁に改行された文章になった。ベータ版は、発話を区切る｢沈黙時間｣が手動設定だが、グルーヴノーツによると、正式版リリース時には自動調整されるようにする。

｢あー｣｢えー｣などの音声や笑い声が度々入る日常の世間話の聞き取り・書き起こし精度は下がる。特に声が小さい、語尾が小さくなるなどの環境には弱く、明瞭さを意識して話す必要がある。

議事録など正確に書き起こす必要がある場合、自動文字起こしされた後に、手を入れる必要があるが、テキスト化されたデータは発話時間が表示されるため、レポートや原稿作成で大事なところだけチェックしたい、ざっくりと意味が分かれば十分といったニーズには対応できそうだ。

最首社長は、｢録音環境に左右される部分が大きいが、テレビの音声などはかなり正確に自動でテキスト化できる。正式版リリースまでに機能改良を進め、中国語など対応言語を増やす予定｣と話している。

（文・写真、浦上早苗）