音声認識・合成音声の独自基幹システムを保有せよ by ICTの魔女さん | デジタル改革アイデアボックス

あなたと創るデジタル社会

デジタル改革アイデアボックス


アイディア番号
@02083

音声認識・合成音声の独自基幹システムを保有せよ

カテゴリー
1.生活者・事業者の声
寄稿者
ICTの魔女さん
投稿日時
コメント数
7コメント
評価P
3ポイント

社会のデジタル化が進むにつれ、行政の手続きや案内、教育、会議など、あらゆる場面で音声をインターフェイスにしたICTが普及するものと考える。役所の窓口のロボットに口頭で申請や問い合わせをする時代も近いのではないだろうか。

このような世界を実現する基幹となるのは、音声認識と合成音声の技術である。これら技術は昨今発展が目覚ましく、AIを使用することで極めて自然な結果が得られるようになりつつある。しかしながら、たとえ日本語の処理に限ったとしても、米3大クラウドプラットフォームが提供するAPIサービスが、最も普及しているのが現状である。

この音声認識と合成音声の機能の技術について、完全にデジタル庁がコントロールできる、独自の基幹システムを保有することを提言したい。

理由は以下の通りである。

(1) 機密性の確保
非公開の会議の議事録をテキスト化するといった利用も想定される。国防に関わる内容も含まれるかもしれない。医療現場では、個人のプライバシーに関わる内容も取り扱う。このような機密情報が外部に出るリスクを避ける。

(2) 社会の機能不全リスク
音声インターフェイスが普及してそれが当然になった世の中では、これら機能が停止することで社会が機能不全に陥るリスクがある。文字入力などの代替手段も、その時代には使用できる人が少ないかもしれない。中央にて学習データを集約しつつ、分散型の構造を持つなどの対策が必要である。

(3) 検閲や思想コントロール
自治体でも使用されている某日本語入力ソフトでは、製造元の思想に基づく「言葉狩り」により、一部の言葉が「差別的」とされて変換できないと聞く。音声認識や合成音声においても、同様の「検閲」や「操作」が行なわれるリスクがあり、それを避けるための独立性が必要である。

(4) ユニバーサルなサービスを提供する
世代間の違い、方言、新しい制度や法の固有名詞など、民間のサービスでは採算面から積極的には対応されないであろう範囲にも対応し、ユニバーサルな機能性を育てていく必要がある。

なお、ここで言う音声認識には、文脈から適切な漢字カナ混じりの表記を選択することを含み、合成音声には、文脈から漢字の読みやイントネーションを適切に選択することを含む。

実現までの道のりは長いと思われるため、ぜひ早い段階から研究と学習データの蓄積に着手して頂きたい。

このアイデアのタグ

ページの先頭へ