Brandon Keim

多くの考古学者の挑戦を退けてきた古代文字が、人工知能にその秘密の一部を見破られた。

4000年前のインダス文明で使われていた記号をコンピューターで分析したところ、これらの記号が話し言葉を表している可能性があることがわかったのだ。

「含まれている文法構造は、多くの言語で見られるものと共通しているようだ」と、ワシントン大学のコンピューター科学者、Rajesh Rao博士は語っている。

インダス文字は、紀元前2600年から紀元前1900年に今のパキスタン東部からインド北部にかけて使われていた文字で、エジプト文明やメソポタミア文明と同じくらい洗練された文明に属していた。しかし、残されている文字は他の文明と比べて非常に少ない。考古学者がこれまでに見つけ出したのはおよそ1500種類で、陶器や平板や印章のかけらに彫られていたものだ。最も長いものでもわずか27文字しかない。[インダス文字は、テキストが印章のような短文がほとんどであることと、ロゼッタ・ストーンのような2言語以上の併記がないことから、解読が難航している]

1877年、英国の考古学者だったAlexander Cunningham博士は、インダス文字が中央アジアから東南アジアにかけて使われている現代のブラーフミー系文字の祖先だとする仮説を立てた。しかし、この説に賛同する研究者は他にいなかった。その後、多くの人々が先を争ってインダス文字の解読に挑んだが、結局は失敗に終わり、その状況が現在まで続いている。

2004年には、言語学者のSteve Farmer博士が、現存するインダス文字は政治的、宗教的な象徴を表すものにすぎないと主張する論文を発表した。この考え方には賛否両論がわき起こったが、まったく支持されていないわけではない。

一方、今回の研究を行なったRao博士は機械学習が専門だが、高校時代にインダス文字について書かれた文献を読んだことがあり、インドでのサバティカル(長期休暇)中に、自分の専門知識をインダス文字の研究に生かしてみようと考えた。そして、文字自体の解読とまではいかなくても、文字なのか象徴なのかという論争に終止符を打つ可能性がある研究成果を『Science』に発表した。

「機械学習の主要なテーマの1つは、限られた量のデータからどのようにして規則を一般化するのかということだ。たとえデータを読み取れなかったとしても、そのパターンを見つけ出して、そこにある文法構造を知ることはできる」とRao博士は言う。

Rao博士の研究チームは、マルコフ・モデルと呼ばれる手法で計算を実行するパターン分析ソフトウェアを使用した。これは、システム・ダイナミクスにおいて使用される演算ツールだ。

Rao博士らはこのプログラムに、まず4種類の話し言葉(古代シュメール語、サンスクリット語、古代タミル語、および現代英語)のサンプルを入力した。次に4種類の、話し言葉ではない伝達システム(人間のDNA、フォートラン、バクテリアのタンパク質配列、および人工言語)のサンプルを入力した。

プログラムは、各言語に存在する規則性のレベルを計算した。話し言葉ではない言語は、高い規則性を持つもの(その記号と構造に一定の法則性がある)か、まったく秩序がないものかのどちらかだった。一方、話し言葉はその中間だった。

次に、インダス文字のサンプルをこのプログラムに入力したところ、記号配列のパターンに基づいた文法的規則が検出された。これらは、話し言葉と同程度の適度な規則性だという。

インダス文字の権威であるヘルシンキ大学のAsko Parpola氏は、この研究を有益だと述べたが、文字の意味的理解をこれまでより進めるものではないと述べた。サンプルが少なすぎて、仮説を検証することができないという障害は変わらないという。

[インダス文字の解読については、1960年代のソ連の研究者ユーリ・クノロゾフらがコンピューターを用って解析。修飾語や名詞、形容詞などのある程度の文法的特徴を明らかにしたとされている。Parpola氏による文字の意味解読などを紹介しているサイトはこちら]

参考文献: “Entropic Evidence for Linguistic Structure in the Indus Script.” By Rajesh P. N. Rao, Nisha Yadav, Mayank N. Vahia, Hrishikesh Joglekar, R. Adhikari and Iravatham Mahadevan. Science, Vol. 324 Issue 5926, April 24, 2009.

[日本語版：ガリレオ-佐藤 卓／合原弘子]

WIRED NEWS 原文(English)