こんにちは。様々な活用方法のあるAIですが、そのひとつに音声認識技術があります。「OK Google」でお馴染みのGoogleアシスタントやAppleのSiriなど、常に持ち歩いているスマホに搭載されているものは身近でしょう。

知りたいことを音声で聞いたり、アシスタントにやって欲しい事を手軽に音声で指示できるのは意外に便利な場面もあり、活用している人もいるのではないでしょうか。

その音声認識技術を活用し、音声を自動的に文字起こしできるサービスがパナソニックシステムソリューションズジャパン株式会社より提供が開始されます。

自動文字起こしサービス「P-VoT(ピーボット)」

この「P-VoT」というサービスですが、放送局をはじめとするマスメディア業界に向けたサービスになっているのが特徴です。


出典:パナソニック

音声の自動文字起こし技術は特段目新しいものではありませんが、事件や事故、災害情報など報道現場の速報性や正確性が求められている業界であることから、このサービスの精度が高いものであることがうかがえます。

サービスは19年6月13日よりβ版として提供されていたそうですが、この度19年11月13日より正式な商用サービスとして提供が開始されます。

サービス概要

サービスでは動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしの自動化ができます。

番組制作などのワークフローのなかでも時間と手間がかかる文字起こし作業を、通常の3分の1にまで削減することが可能になるとのこと。これはおおよそ1時間のコンテンツの文字起こしに約5時間かかるところが約1.5時間にまで短縮できるそうです。


出典:パナソニック

取材現場で撮影・録音したデータをその場でクラウドにアップロードしておけば、自動的に文字起こしを進められるので、他の作業員がすぐに確認・編集作業に取り掛かることができるので、チーム全体で効率よく作業を進めることができます。

また、今回のサービス開始に伴って、ベータ版利用者アンケートであがった要望を反映させたUI(ユーザーインターフェース)に改良しているそうです。

サービス特長

1.高精度音声認識による文字起こし

多層のニューラルネットワーク技術を用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。

2.グループデータ管理により複数人での修正・編集

現場担当者がリクエスト(アップロード)、事務所での修正・編集担当者が認識結果を確認・編集できます。また、認識の完了・結果の通知は登録されたユーザーのみに通知され、担当者間による個別メールでの送付がないため、利便性と安全性を兼ね備えた情報管理・運用が可能。

3.ウェブブラウザで利用可能

インターネットに接続したウェブブラウザでのリクエストから、テキストの修正作業まで行うことができます。特別な機器・設備を必要とせず導入が可能です。

4.効率的な修正インターフェース

編集画面で文字をクリックすると、文字起こしした音声の位置から頭出し、プレビュー再生を開始します。最背中はプレビュー動画/音声の追従した音声認識結果にマーキングします。


出典:パナソニック

5.プロダクトとシステム連携によるさらなる効率化

同社のプロダクトとシステムと連携することで、運用ワークフローとシームレスな連携を予定。

まとめ

番組制作の中でも重要で時間のかかる動画や音声からの文字起こし作業。音声を聞きながら文字起こしをしていくのはかなり骨が折れることでしょう。その部分が3分の1にまで短縮されるのは作業者にとって喜ばしいことです。

マスメディア業界では不規則な労働や長時間労働など働き方における改革が課題になっていますが、この技術で少しでも問題解消になればいいですね。

余談


出典:Google

そういえば音声認識と言えば先日発売されたGoogle謹製のスマートフォンの「Pixel4」。星空撮影ができたり音声のリアルタイム文字起こしができたりと、GoogleらしくAIがふんだんに使われた機能が話題になっていました。

残念ながら現時点では英語対応のみでしたが、今後日本語に対応すれば会議や打合せの議事録などが格段に捗りそうですね。