by rawpixel



AI(人工知能)を用いた映像変換技術「Deepfake(ディープフェイク)」の文章版とも言うべきテキストジェネレーターを、イーロン・マスク氏らが出資する非営利のAI研究組織であるOpenAIが開発しました。しかし、あまりにも高精度のテキストを簡単に自動生成できるため、開発陣が「あまりにも危険過ぎる」と危惧しています。



New AI fake text generator may be too dangerous to release, say creators | Technology | The Guardian

https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction



OpenAIが「GPT2」と呼ばれる新しいテキスト生成用のAIモデルを開発しました。しかし、このGPT2はあまりにも優れているため、悪用された場合に非常に高いリスクが生じるということで、技術的な詳細を論文で公表することが延期されることとなりました。





論文を公開することは延期となったのですが、イギリスの大手新聞であるガーディアンがGPT2を利用する機会を得ており、以下のムービーで実際にGPT2がどのようにテキストを自動生成できるのかが見られるようになっています。



How OpenAI writes convincing news stories and works of fiction - YouTube





GPT2はニュースおよびフィクションを自動生成可能なAIモデル。試しにガーディアンで掲載するブレグジット関連の記事を書いてもらおう、ということで出だしの文章を人間が入力します。





人間が作成した出だしの文章は「ブレグジットは既にEU離脱を問う国民投票以来、少なくともイギリス経済に800億ポンド(約11兆円)もの負担をかけています」というもの。





その後、GPT2が自動でテキストを生成。アンダーラインが引かれた部分のテキストは全てGPT2が自動生成したものです。GPT2が生成した続きの文章は、「さらに、多くの業界専門家たちはブレグジットによる経済的損失がさらに大きくなっていくと信じています」というもの。





簡単な出だしの文章を書くだけで、GPT2はそれに連なる文章を違和感なく生成してしまうわけです。





続けてジェーン・オースティンの長編小説である「高慢と偏見」の出だしの文章を入力してみます。





すると、原作とはまったく異なる続きの文章が自動生成されました。ある意味GPT2が「高慢と偏見」の偽の文章を生成してしまったというわけ。





GPT2は数単語の入力により、それ以降に来るであろう文章を予測し自動生成することができるというAIモデル。アウトプットの品質が高く、潜在的にさまざまな用途への応用が効くということから、その危険性を開発した研究者たちは危惧しています。GPT2は簡単にもっともらしい文章を生成することが可能で、「段落の途中でそれまで書いてきたことを忘れる」だったり、「長い文章の構文が荒れる」などの、既存のAIテキストジェネレーターで見られるような欠点を見せることはめったにない、とガーディアンは記しています。



ガーディアンによると、GPT2は2つの点で画期的だそうです。1つはそのサイズで、OpenAIの研究ディレクターであるDario Amodei氏は、「(GPT2のAIモデルは既存の最先端AIモデルよりも)12倍大きく、データセットは15倍も大きく、はるかに広い範囲に対応しています」と語っています。GPT2のAIモデルは海外掲示板のRedditで3票以上獲得しているリンクを探し、該当する約1000万件もの記事をデータセットとしてトレーニングが行われているため、データセットの容量はテキストのみで40GBにもおよんでおり、これは小説の「白鯨」約3万5000冊分と同等のデータサイズだそうです。



GPT2は既存のテキストジェネレーターよりも圧倒的に汎用性が高く、入力されたテキストを構造化することで翻訳や要約などのタスクを実行し、単純な読解テストにも合格可能なレベルの文章を生成できるそうです。GPT2は「翻訳」や「要約」といったタスクに特化する形で構築された他のAIモデルと同等以上のパフォーマンスを発揮するそうで、これが従来のテキスト生成AIモデルにはないもうひとつの大きなアドバンテージになっているとのこと。



ガーディアンで編集者として働くAlex Hern氏によると、以下の新聞に掲載されている文章はGPT2を用いて生成されたもので、一切人の手による修正は加えられていないそうです。加えて、この文章はわずか15秒で生成されたことも明らかになっています。



In print, we used OpenAI’s tool to write its own news story about itself. This is what came out of the very first pass, unedited. pic.twitter.com/detjpnAZLv