百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。 また、カラーヌワット氏は、「くずし字の本は東京の神保町などにある中古書店に行けば、数千円から購入することができ、入手は容易だ。しかし、それらも津波や地震などで失われる可能性があるためデジタル化に取り組んでいるが、デジタル化しても読めなければ意味がない。そこで、AIを活用することを考えた」と、プロジェクト開始の経緯を説明した。 【お詫びと訂正】初出時に、「Googleと協力してプロジェクトを開始した」としておりましたが、Googleは本イベントの主催をしただけで、プロジェクトへの協力は行なっておりません。お詫びして訂正させていただきます。