アイデアの問題報告 | デジタル改革アイデアボックス

あなたと創るデジタル社会

デジタル改革アイデアボックス


アイデアの問題報告

対象の内容

日本語コーパスの収集について

国立国語研究所の日本語コーパスは何と「ヤフー知恵袋」も参照しているようです。日本語コーパスが文章の高級低級の区別なく収集されるべきものどうか甚だ疑問ですが、問題なのは当然あるべき言葉が見つからないことです。今「ふたり」という言葉はありますが「みたり」「よつたり」という言葉は消えかかっています。しかし三島由紀夫までは普通に「みたり」を使っていました。岩波書店は大学などの研究機関に『新日本古典文学大系』を無償提供しています。各出版社は日本語のために著作権の存続する作家のデータを国立国語研究所に提供してはどうでしょう。Society5.0には日本文学に関する記述はありません。しかし日本語が亡びてしまえば日本が亡びます。坂口安吾全集が99円でアマゾンから発売されています。アマゾンは無料で日本の文学作品のデータを収集しお金に換えています。デジタル庁が管理すべき資産には膨大な日本語データも含まれるべきであり、国会図書館への電子書籍の納本制度も含めて、法律の見直し、日本語とどう向き合っていくか真剣に考えるべき時代だと思っています。自然言語処理のためにはより優れた日本語コーパスが必要です。自然言語処理は人間と機械がつながる手段としてどうしても必要です。この分野においても官民連携が必要ではないでしょうか。

報告/依頼内容
ページの先頭へ