UCバークレー、アムステルダム大学、マックス・プランク情報科学研究所、Facebook AI Researchの研究者らは、ニューラルネットワークを用いて、画像に対する質問に答え、さらにその根拠となる箇所をテキスト及び視覚的に指し示すモデルを発表しました。

論文：Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

著者：Dong Huk Park, Lisa Anne Hendricks, Zeynep Akata, Anna Rohrbach, Bernt Schiele, Trevor Darrell, Marcus Rohrbach

本稿は、画像に関する質問に回答し、その根拠となる説明をテキストで解説、さらに根拠となる箇所をビジュアル的にアノテーションすることで証拠も示すことができるニューラルネットワークモデルを提案します。

例えば、下図のように、「健康的な食事ですか？」とした質問を2枚の画像に提示したとします。

すると、上画像ではNo、下図ではYesと回答し、その根拠となる説明をテキストで生成し、さらに根拠となる箇所をヒートマップ形式で可視化しているのが見て取れます。上画像は、トッピングが多いホットドッグだから健康的な食事ではないとし、下画像は、様々な野菜が入っているから健康的な食事と判断しています。

これらを可能にするために、ACT-XとVQA-Xのデータセットを提示します。これらデータセットを使用し、テキストと視覚的ポインティングによって回答を正当化することにより、「Pointing and Justification Explanation （PJ-X） model」と呼ぶ新しいモデルを訓練することができるとします。

アクティビティは？ 草刈り：芝刈り機の隣でひざまずいているから。草刈り：芝生の上で芝切り機を押しているから。

動物園ですか？ No,シマウマは野原にいるから。Yes,囲いの中に動物がいるから。

アクティビティは？ マウンテンバイク：山道を下るのに自転車に乗っているから。ロードバイク：サイクリングユニフォームを着て道で自転車に乗っているから。

水は穏やかですか？ No,泡と波があるから。Yes,波がなく、太陽の反射を見ることができるから。

関連

ATRと京都大学、fMRIで測定した人間の脳活動のみから、その人が見ている画像を機械学習を用いて再構成する提案を発表。心の中でイメージした内容の画像化にも成功 | Seamless