あなたと創るデジタル社会
テレビ番組の字幕の付与率はかなり上がってきていますが、生放送に限りいまだに人手で打って要約(取りこぼしあり)のタイムラグがひどい状態でやっています。数十秒遅れた上にCMに入るとカットされるのです。一度テレビの字幕ボタンをONにしてみてください。生放送だと「ない」ものもあります。聴覚障害があるかたはそれでテレビをみています。 UDトークと言うアプリの開発者でもあり、多くの聴覚障害があるユーザーさんたちから使い方をヒアリングしているのですが、テレビの前において音声認識させて字幕をみている方が多いです。ラジオでもスマホでバックグラウンドで再生させてUDトークで見ています。 当事者としては「ない」よりは誤認識があっても「ある」ほうが良いのです。正しさにこだわるあまりなのか(そういう方針なのか)テレビの生放送の字幕はびっくりするくらい人手です。 人手がダメと言っているのでなく、全部ができないのであれば音声認識で自動字幕でもないよりはあったほうがいいし(そういう希望も多いので)、そこから一人二人と誤認識を修正していくスタッフが加わっていくような運用がもうできるはずなのに、なかなか採用されません。 災害が起きたときに音声認識での自動字幕がデフォルトであるのは有効だと思います。字幕を担当する人たちも被災者である可能性があるからです。遠隔でも対応できればいいですよね。実際にそういった運用例もあります。 まずは字幕がない状態から音声認識である状態に、そこから人手で掛け算をしていくのをテレビやラジオでもあたりまえに運用されるといいと思います。 かつその音声認識の結果をAPIで受信でき、誤認識の訂正をアップできるようにすると各地でいろんなテレビ向けのアプリができるように思います。