2019年04月02日 21時00分 ソフトウェア

自然言語処理などに利用されるAIモデルは言葉の「言い換え」に脆弱であると研究者らが指摘

by Gery Wibowo



人間が日常的に使っている自然言語をコンピューターに処理させるという技術の自然言語処理は、人工知能(AI)の発達により目覚ましい発展を遂げている分野のひとつで、スパムメールやSNS上の投稿、インターネット上に無数に存在するレビューなどの中から、有害なものをフィルタリングするためなどに使用されています。ほかにも、フェイクニュースを識別するためにも利用されている自然言語処理ですが、これに用いられるAIモデルは「言い換え攻撃」と呼ばれる「言葉の言い換え」に脆弱であると研究者らが指摘しています。



[1812.00151] Discrete Attacks and Submodular Optimization with Applications to Text Classification

https://arxiv.org/abs/1812.00151



Text-based AI models are vulnerable to paraphrasing attacks, researchers find | VentureBeat

https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/



IBM、Amazon、テキサス大学の研究者らが共同で行った調査によると、適切なツールを使用すれば、悪意のある攻撃者が自然言語処理に使用されるテキスト分類アルゴリズムを攻撃し、悪意のある方法でアルゴリズムの行動を操作することが可能であるそうです。ここでいうところの「テキスト分類アルゴリズムを攻撃する方法」こそが「言い換え攻撃」と呼ばれるもので、研究者たちはその詳細を「実際の文章の意味を変えず、AIアルゴリズムによる文章の分類のみが変化するように、文章内の言葉を言い換えること」と説明しています。



「言い換え攻撃」の仕組みを理解するために、研究者たちはメールのテキストメッセージを評価し、それを「スパムメールか否か」分類するAIアルゴリズムを用いて説明しています。言い換え攻撃では、スパムメールの内容を「文章の意味が変わらないように」改変することで、本来AIが「スパム」と判断するメールを「スパムではない」と判断するように仕向けます。文章としての意味は変わらないように改変が施されているため、メールを受け取る側は異変に気付くことはありません。



by Kal Visuals



過去にもニューラルネットワークをハイジャックする方法など、AIモデルをハッキングする手法の研究は数多く行われてきましたが、本来、テキストモデルを攻撃することはコンピュータービジョンや音声認識アルゴリズムを改ざんすることよりも「はるかに困難なこと」であるとVentureBeatは説明しています。



自然言語処理分野の専門家であるStephen Merity氏は、「音声や画像の場合は完全な差別化が可能です」と説明しています。例えば画像分類アルゴリズムの場合、画像の各ピクセルの色を少しずつ変更していくだけで、AIモデルがどのようなものを出力するかを観察することが可能です。この手法を用いるとAIモデルの脆弱性を見つけることがとても簡単になるそうです。しかし、テキストモデルの場合は、「(画像のように)文章中に『犬』という言葉を10％以上持っているもの、といった条件付けをすることが難しく、『犬』という単語を含むか含まないかといった分類しかできません。そのためテキストモデルの脆弱性を効率的に探すことは難しい」とMerity氏は説明しています。



もちろんテキストモデルに対する攻撃に関する研究は過去にも存在しており、「文中の単一の単語を変更する」という手法が取られたケースがあります。このアプローチはAIアルゴリズムの出力を変更することに成功しましたが、出力はしばしば人工的に作られたと感じる文章になってしまったそうです。そこで、調査に参加したIBMの研究者であるPin-Yu Chen氏は、「文中の単語を変えるだけでなく、『言葉の言い換え』や『意味を保ったままより長い文章にする』」といった手法を用いることでテキストモデルの出力を意図的に変えることができないかと調査を行ったそうです。



by nrd



そして最終的に、自然言語処理モデルの出力を意図的に操作できるような、「文章の最適な改変方法」を見つけるためのアルゴリズムを開発することに成功。このアルゴリズムについて、「主な制約は、修正された文章が意味的に元の文章と類似しているかどうかを確認することでした。我々はAIモデルの出力に最も大きな影響を与えるであろう単語や文章の言い換えを見つけるため、多くの組み合わせの中から最適なものを検索するアルゴリズムを開発しました」と、IBM Researchの研究者であるLingfei Wu氏は語っています。



研究チームは開発したアルゴリズムを用いてフェイクニュースフィルターやメールのスパムフィルターの出力を変えることに成功しています。例えば、製品レビューで「価格はそこにある大企業の一部よりも安い」という文章を、「価格を以下のビッグネームの一部よりも安い」というものに言い換えることで、意味的には同じものであると感じられるものの、レビューをチェックするAIモデルのレビューへの評価を「100％ポジティブ」なものから「100％ネガティブ」なものに変更することに成功したそうです。



by Jason Leung



言い換え攻撃のポイントは、元の文章の意味を保ったまま一部の言葉だけを言い換えるため、人間に知覚されることはないという点です。Wu氏は「我々は元の文章と修正された文章を人間のテスターに評価してもらうというテストも行いました。テストの結果、アルゴリズムが改変した文章の意味の違いを人間が見極めることは非常に困難であることが明らかになっています。しかし、AIモデルに対しては非常に有効に働きます」と語っています。



Merity氏は言い換え攻撃について、「現在、文章の中に誤字脱字があってもそれをセキュリティ上の問題と思う人はいません。しかし近い将来、こういった場所にAIモデルを攻撃するための仕掛けが組み込まれるようになり、それに対抗しなければいけない時代がやってくるかもしれません」と語っています。加えて、「多くのハイテク企業はコンテンツを分類するために自然言語処理を用いているため、本研究のような攻撃に対して脆弱になってしまいます」と、言い換え攻撃が新しいセキュリティリスクにつながる可能性を示唆しています。



さらに具体的に、ある人物が自分のコンテンツを承認させるためにテキストモデルに攻撃を仕掛けたり、企業が採用に用いる履歴書処理モデルに言い換え攻撃を仕掛けて書類審査を通過させる、といったことが起きる可能性が指摘されています。