中国の阿里巴巴（アリババ）は、同社のディープニューラルネットワークモデルが、世界的に知られる読解力テストで人間を上回るスコアを上げたと発表した。手作業による入力の必要性を軽減する基盤技術の構築につながる快挙だ。

アリババの研究部門であるInstitute of Data Science of Technologies（iDST）は、同社が開発したディープラーニングモデルが、質問応答のデータセット「Stanford Question Answering Dataset（SQuAD）」の「Exact Match」で82.44のスコアを獲得したと述べた。同社によると、人間がこれまでに獲得したスコアの最高記録は82.304だという。



SQuADの現在のランキング SQuADの現在のランキング

SQuADは、500を超えるWikipediaの記事に基づく、10万を超える設問と解答のセットで構成され、参加者は、設問に回答する機械学習モデルを構築することが求められる。それらのモデルは、SQuADによって評価された後に、同テストセットに対して実行される。

騰訊（テンセント）、Google、IBM、Microsoft、サムスン、テルアビブ大学、韓国の江原大学校など、さまざまな大学、研究機関、技術ベンダーがこれに参加した。いくつかの組織は、この1年間で複数回参加した経験があり、Microsoft Research Asiaは2017年12月17日に82.136のスコアを記録している。アリババが同年12月28日に記録した前回のスコアは79.199だった。

アリババは、現地時間1月15日の発表の中で、同テストで初めて人間を超えたと述べたが、SQuADのサイトでは、82.65というさらに高いスコアを獲得したMicrosoft Research Asiaが、同社と並んで1位に挙げられている。SQuADの記載によると、Microsoftのスコア獲得日は2018年1月3日、アリババは同1月5日だ。

アリババの広報担当者によると、日付はそれぞれのモデルが提出された日だという。同氏は米ZDNetに対し、アリババの実際のテスト結果が正式にSQuADによって登録されたのは2018年1月11日で、Microsoftよりも1日前だったと説明した。そうであれば、人間のスコアを「初めて」超えたのはアリババだったということになる。

アリババによると、同社のニューラルネットワークモデルは「Hierarchical Attention Network」をベースとしているという。これは、「段落、文、単語の順」に読むことによって、解答を含む可能性のあるフレーズを識別するものだと同社は説明した。この基盤技術はこれまで、同社の「独身の日」セールで顧客の問い合わせに応えるために使われていたものだ。

同社によると、アリババのAI搭載カスタマーサービスチャットボット「Dian Xiaomi」は、オンライン販売業務のサポートに使われており、同社の「Taobao」と「Tmall」のプラットフォームで毎日平均350万人のユーザーにサービスを提供しているという。