ドワンゴ人工知能研究所所長 山川 宏氏

山川氏のプロフィール

ドワンゴ人工知能研究所が公開しているRNN collectionライブラリ：

https://github.com/mattya/RNN-colle

クイズで賞金王を倒したIBMのWatson

ゲームエンジンへの応用も検討中

日本アイ・ビー・エム スマーターシティ事業部長 溝上敏文氏

IBM Watson: Final Jeopardy! and the Future of Watson

DeepQA Architectureの構造。回答データベースから選んだ複数の回答候補を膨大なエビデンスと比較してスコアリングし，最も確からしい回答を選び出す

（左）DeepQA Architectureが回答を選択するまでの処理量。100以上の回答候補を選びスコア付けを行う，といったあたりの負荷が高いという。そこで，専用のシステムWatsonが構築された。（右）DeepQA Architectureの成績向上を示したグラフ。2011年にはチャンピオンに匹敵するレベルが得られ，ついに番組で勝った

（左）DeepQA Architectureでは「400周年」という時間的な意味合いを含めてエビデンスを参照し，スコア付けを行っている。（右）IBMはWatsonを使ったソリューションを展開。実際に利用され始めている

現実の世界と情報の世界をAIがつなぎ

リアルと情報が融合する

スクウェア・エニックス テクノロジー推進部 リードAIリサーチャー 三宅陽一郎氏

2015年4月24日，ゲーム開発者向けのカンファレンスが開催された。本稿では，数多く行われた講演の中から，をレポートしてみたい。ゲームとはあまり縁がないように見えるかもしれないが，記事の最後には将来のゲームの姿が見えてくるはずだ。AI研究の最先端では今，何が起きているのだろうか？最初に紹介するのは，と題された講演だ。担当したのは，ドワンゴが2014年11月に設立したドワンゴ人工知能研究所の所長を務めるタイトルの表現獲得技術というのは，最近いろいろなところで話題になっている（深層学習）を使った学習による知識表現のことだ。ディープラーニングという言葉を聞いたことがある読者は多いと思うが，例えば，NVIDIAがディープラーニングのGPUへの応用を盛んにアピールしていたりする（ 関連記事 ）。ディープラーニングは，を使って画像などの学習をさせ，画像認識などに役立てようという技術だ。ニューラルネットワークとは脳を構成するニューロンとニューロンのシナプス接続をモデル化し，コンピュータ上で脳（のようなもの）をシミュレートしようというアプローチで，大脳生理学や神経生理学の知見をコンピュータに持ち込んで人工知能を実現しようとしているものだと考えていいだろう。山川氏は大学で物理学を学んだが，「1990年代に注目されていたニューラルネットワークに興味を持ち，研究を始めた」という。余談ながら，その頃のことは筆者も覚えており，組み合わせ問題の解決などで成果を出していたニューラルネットワークに脚光があたっていたことなどを記憶している。1990年代に注目される以前から，ニューラルネットワークにはきわめて長い研究の歴史があり，1960年代にはもうニューラルネットワークの基本的な形ができていた。しかし，応用が進まなかったのは，思うような結果が出せなかったからだ。最もシンプルなニューラルネットワークは入力，中間，出力という3層（あるいは中間がない2層）のニューロンのネットワークで構成されるが，こうした単純なニューラルネットワークは興味深くはあるものの，たいした機能を持たないことが早い段階で明らかになっている。複雑な脳の構造のように中間層を増やせば良さそうだとは考えられていたものの，中間を増やすとなぜかうまくモデル化できないといった難題などがあり，研究が停滞していたのだ。それについて山川氏は，「2006年に非常に大きなブレイクスルーがあった」と述べた。難題だった中間層を増やすことができるようになり，結果が次々と出始めたのだ。例えば，2012年に発表されたGoogleのや，Facebookのなどが話題になったことをご存じの読者も多いだろう。これらはニューラルネットワークが外界から入力された画像を学習し「顔とか猫はどういったものであるか」という概念を内部に構築して画像を認識するという画期的な成果だ。このような，中間層を増やした多層ニューラルネットワークをと呼び，ディープニューラルネットワークで学習し認識するシステムがディーラーニングというわけだ。従来のAIとディープラーニングの違いは，後者がと山川氏は説明した。従来のAIは，推論はできるものの知識は人間があらかじめ与えておく必要があった。そのためAIは特定の分野に特化し，例えば将棋プログラムは将棋以外のことは出来ない。しかし，ディープラーニングは自分で知識を獲得できるので，より汎用的なAIが実現できるわけだ。ディープラーニングは，脳と同じように働いているのだろうか。山川氏によると，猿のニューロンの活動パターンなどと比較して，ディープニューラルネットワークがだいたい同じように機能していることが確かめられているという。ディープニューラルネットワークの研究と脳の研究が互いにリンクして成果を出す，といったこともされているという。ここで山川氏は，Googleが2015年1月に発表した紹介した。これは，学習によってAIがスペースインベーダーやブロック崩しをうまくプレイできるようになったという話だ。偶然だが，DQNという名前が面白いということで日本でも話題になった。興味がある人は，Googleのブログを参照してほしい。山川氏はセッションの中で，ドワンゴ人工知能研究所の活動にも触れた。ドワンゴ人工知能研究所はすでにいくつかのレポートを出していて，ディープラーニングを実装したライブラリをGithubでオープンソース（Apacheラインセス）として公開している。こちらも，詳しくはドワンゴ人工知能研究所の公式ページやリンク先を参照してほしい。さらに山川氏は，脳そのものの構造をコンピュータに実装するの実現を目指していると語る。これにより，より人間に近いAIが可能になるかもしれないが「実現には15年くらいかかる」（山川氏）。そのため，長期にわたって研究開発のバックアップを行うことができるNPO法人の設立を企画しているそうだ。コンピュータの中に人間のようなものが実装されるというのは楽しいような，あるいは恐ろしいような気もするが，そんなSF的な世界が本気で語られるようになってきているのだ。続いて日本アイ・ビー・エムのによる，と題された講演を取り上げたい。Cognitiveという単語は認知，認識といったような意味で，溝上氏が解説したのはIBMが力を入れているCognitive Computingソリューションを代表する（以下，Watson）というシステムのアーキテクチャやその応用についてだ。Watsonは2011年，アメリカの人気クイズ番組「Jeopardy！」で人間の賞金王を倒したことで話題を集めた人工知能だ。その決勝の様子は，IBMが広報映像として公開している。このJeopardy！という番組は，取り上げるクイズの分野がきわめて広いことが特徴で，出題の傾向ををあらかじめ絞り込むのは難しいという。つまりJeopardy！で勝つためには非常に幅広い分野に関する知識が必要になるのだ。しかも対戦相手より速く回答しなければならない早押しクイズなので，Watsonは聞かれたことを判断し，知識の中から回答を選択するという一連の処理を高速で行う必要がある。下のグラフは，縦軸が正答率，横軸が回答率で，Baselineと書かれた赤い線がWatson以前の人工知能の成績だという。Jeopardy！のチャンピオンに勝つためには右上に記されたくらいのレベル，だいたい回答率が6割以上，正答率が9割程度といったラインまで人工知能の成績を引き上げる必要があるのだ。そこでIBMがWatsonのために開発したのがだ。まず，そのクイズが何について聞いているかを文章の形態素解析などで判断し，データベースを参照して複数の候補を選び出す。その候補をさらにエビデンスと比較して回答の確からしさにスコア付けを行い，もっとも確かな回答を選び出すという設計だ。ここでいうエビデンスとは，雑多な知識ベースのようなものを指す。アーキテクチャ的には，従来からあるエキスパートシステムに高度な自然言語処理を組み合わせたものに見える。回答候補の選択，エビデンスによるスコアリングといった処理量は膨大で，それらを高速で実行するために専用のシステムであるWatsonが設計された。IBMは1997年にDeep Blueというシステムで当時のチェスチャンピオンを破っているが，DeepQA ArchitectureのアプローチはDeep Blueとどことなく似ている。Deep Blueでも知識ベースも活用した指し手候補の選択，最善手を選ぶための膨大な計算などのために専用のシステムが構築されており，アプローチの方法がいかにもIBMらしい。いずれにしても，このようなDeepQA Architectureによって成績は飛躍的に向上し，2011年にはチャンピオンに匹敵するレベルになったそうだ。正答率を上げるカギを握るのが，エビデンスによる回答のスコアリングだが，溝上氏は面白い例を紹介してくれた。下のスライドは左側が質問，右側がエビデンスの例だ。質問は「1898年5月，ポルトガルにおいて，ある探検家のインド到達400周年が祝われた。その探検家は誰か？」というもの。正解はバスコ・ダ・ガマだが，クイズにある単語だけを手がかりにエビデンスを検索したのでは誤答しかねないということを下のスライドが示している。つまり，「5月にGaryという人物がインドに到達し，その後ポルトガルでお祝いされた」という謎のエビデンスと単語レベルで一致してしまうのだ。エビデンスにはクイズ王に勝つために極めて雑多な情報が詰め込まれており，単純な検索ではこういうことも起きる。そこで，DeepQA Architectureには質問に含まれるを取り出してエビデンスを参照するアルゴリズムが取り入れられ，こうした誤答を抑える仕組みになっていると溝上氏は説明した。さて，IBMはこのWatsonを使った実用的なソリューションをすでに展開している。「コールセンターに実際に応用されている例もすでにある」（溝上氏）という具合に，Watsonはすでに実用化された技術なのだ。また，ロボットへの応用例としてのムービーが紹介された。これは怪獣ロボットが，Watsonと（おそらくは無線LANで）接続された知育玩具で，子供が怪獣ロボットに何か質問すると答えてくれたり，さらに雑談にも応じてくれたりなど，ほとんどSFの世界が展開されている。溝上氏によれば，「CogniToysはオーダーが殺到し，生産が一時止まっている情況」だそうだが，確かに殺到するのも無理はないという雰囲気だ。また，自然言語処理の部分では日本語が課題になりそうだが，IBMはすでに開発に着手しており，日本語のサービスも一部で始まっているという。トークンを切り出しづらいなど，日本語には英語にない面倒なところもあるが，IBMはと見ているようだ。さらに，例えばUnityのAPIとしてWatsonを提供するといったことも検討しているとのこで，実現すれば，きわめて知的なゲームが登場しそうだ。自力で知識を蓄積し外界を認識するディープラーニングや自然言語を解析し膨大な知識ベースを参照するWatsonなど，現在の人工知能はSF的なレベルにまで進化しているわけだが，それらはゲームをどう変えるのだろうか。それを分かりやすく最後にまとめてくれたのが，ゲームAIの第一人者，スクウェア・エニックスのだ。三宅氏は人工知能の歴史を振り返り，膨大な情報と人間をつなぐために人工知能が活用され，進化してきたと語った。もっとも簡単な例はだ。ネットの情報は大きすぎて人間には処理しきれないため，検索エンジンで必要な情報を選び出して活用する。検索は人工知能のもっともシンプルな形であるという。これまでのIT企業は情報の世界を相手にしてきたわけだが，最近は現実世界へ手を伸ばしつつある。それは例えばロボットやドローン，センシングやIoTなどだ。これは，ネット空間などの情報の世界が現実の世界に進出していると見ることができる。そして，現実世界と情報の世界を結びつけるのが人工知能であり，人工知能によって2つの世界が融合することにより，「現実世界2.0」へ変貌していくというのが三宅氏の描くビジョンだ。ゲームAIは現実世界にも応用できる，と三宅氏は続ける。下のスライドは三宅氏がよくゲームAIの説明に使う図を現実世界に置き換えたものだ。例えばゲーム全体を制御するAIが街全体を管理する「街AI」に，またキャラクターを制御するAIがドローンやロボットを制御するAIに，そしてゲーム内の移動を管理するナビゲーションAIが，人々の移動をサポートするといった具合に，ゲームAIの仕組みは現実世界にピタリと適合する。も，現実と情報の世界が癒合しつつあることの現れだ。そうした流れの中で，ゲームも現実を巻き込んだものに変わっていくはずだと三宅氏は予想する。「例えば原っぱで遊んでいた缶蹴りを，神奈川県全体を使って遊ぶというように，現実と仮想空間をオーバーラップさせたゲームが出てくる」（三宅氏）。すでにGoogleが展開している現実をオーバーラップさせた仮想空間ゲームでは，似たようなことが行われていたりする。このビジョンにおいて，現実から情報を自分で取り込むディープラーニングや，自然言語を解析して膨大な情報を参照するWatsonといった技術が重要になるのは容易に想像できる。これらの技術が現実と仮想空間をつなぎ，その先に，いわゆるが待っているという感じだろうか。シンギュラリティ（技術的特異点）はSF作家で数学者のらが使い始めた言葉で，技術レベルがある点を超えると，人工知能により科学技術が急激に進歩し従来の常識が通用しなくなるといった意味を持っている。以前，シンギュラリティはSF用語に過ぎなかったが，最近はリアルな言葉として使われ始めている。講演ではディープラーニングの山川氏がシンギュラリティに触れ，シンギュラリティに向かう中で，ゲームが大きな役割を果たしうると述べた。三宅氏がまとめてくれたように，現実と情報・仮想空間が融合する世界で，ゲームは時代の先端にいる。とりあずはゲームにおけるVRが，現実と情報・仮想空間が融合を先導していきそうな感じがするが，あなたはどう思われるだろうか。