米ミシガン大学の研究者が、フェイクニュース記事における「うその言語的特徴」を識別するアルゴリズムベースのシステムを開発した。同システムがフェイクニュースを人間並みに、時には人間以上に正確に見分けることができることも実証した。

人間の判別成功率が70％にとどまる中、同システムは、最大76％の成功率でフェイクニュース記事を検出した。このシステムの言語分析アプローチは、最新のフェイクニュース記事が公開された直後でも有効だという。つまり、他の記事と照合して事実確認を行い、うそを暴けない場合でも、フェイクニュース記事を見分けられる可能性があるという。

ミシガン大学のコンピュータ科学工学教授でこのシステムのプロジェクトに携わるラダ・ミハルシー氏は、フェイクニュースを自動的に判別できるソリューションがあれば、こうしたうそ記事の横行に苦労しているWebサイトにとって、重要なツールになると語る。フェイクニュースは多くの場合、クリックの獲得や世論操作を目的に作成されている。

だが、フェイクニュースを、実際に影響を及ぼす前に特定することは難しい。ニュースアグリゲーターやSMSサイトは現在、ニュースの洪水に必ずしも対応できない人間の編集者に大きく依存しているからだ。さらに、うそを暴く現行技術は、外部の事実検証に依存することが多いが、これは公開されて間もなく、他の情報源がないフェイクニュース記事を扱いにくい。

言語分析でフェイクニュースを見分ける

これに対し、言語分析による今回の検出システムは異なるアプローチを採用した。文法構造や、単語選択、句読法、複雑さといった定量化可能な属性を分析する。このアプローチは人間よりも高速であり、多種多様なニュースに適用できる。

「ニュースサイトやソーシャルメディアサイトのフロントエンドやバックエンドで利用できる言語分析ベースのさまざまなアプリケーションが考えられる」とミハルシー氏は説明する。

「例えば、個々の記事やWebサイト全体の信頼度の推計をユーザーに提示したり、Webサイトのバックエンドで、調査が必要な記事をふるいにかけたりすることが可能になるだろう。76％の成功率では、エラーが発生する可能性もかなりあるが、人間が行う作業と組み合わせれば、貴重な洞察が得られる」（ミハルシー氏）

意外にも学習データを集めにくいフェイクニュース

ミハルシー氏によると、テキストを分析する言語アルゴリズム自体は、現在、かなり一般的だ。フェイクニュースの検出システムを構築する難しさは、アルゴリズム自体の開発ではなく、アルゴリズムをトレーニングする適切なデータを見つけることにあるという。

フェイクニュースは現れてもすぐに消えるため、収集が困難だ。さらにジャンルが多岐にわたることから、収集プロセスも複雑になる。風刺ニュースは集めやすいが、フェイクニュースを検出するアルゴリズムのトレーニングにはあまり役に立たない。

そこでミハルシー氏の研究チームは、オンラインチームへのクラウドソーシングによってトレーニング用データをそろえた。

クラウドソーシングマーケットプレース「Amazon Mechanical Turk」を利用して集めたオンラインチームのメンバーは、対価と引き換えに、実際の短いニュースをフェイクニュースに書き換え、記事のジャーナリスティックなスタイルを模倣した。こうして研究チームは、合計500本の本物のニュースとフェイクニュースのデータセットを入手した。

続いて研究チームは、ラベル付きの記事のペアにアルゴリズムを適用した。アルゴリズムは言語分析を行って、実際のニュースとフェイクニュースを判別するよう自身をトレーニングした。さらにチームは、Webから直接集めた実際のニュースとフェイクニュースのデータセットを使ってアルゴリズムをチューニングした結果、76％の成功率を達成できたという。

研究チームは、構築した新システムと使用したデータセットを無料で公開している。このシステムは将来、記事のリンクやコメントといったメタデータの統合により、さらに精緻化される見通しだ。