「なにを信じたらいいかわからない」がトレンドになるか？

デジタルの世界に限らないのだが、２つ以上のトレンドの流れがぶつかって新しい時代を作りだすというのはよくあることだ。たとえば、「ブロードバンドネットワーク」と「モバイルコンピューティング」が作り出したのが、「スマートフォン」であり「クラウドコンピューティング」や「ソーシャルメディア」の時代である。

１年ほど前、私は、「マストドン」（Mastodon）というツイッター型のミニブログについて書いた。これは、フェイスブックなど大手プラットフォーマーに“集中”し過ぎたネットに対する“分散”への揺り戻しである。コンピューターの70年ほどの歴史を見ると“集中”と“分散”は延々と繰り返されてきたテーマなのだ（つまりバランスが求められる）。いうまでもなく「ブロックチェーン」も“分散”の議論を象徴するトレンドの１つとみることもできる。

そうした大きな変化をいま感じざるをえないのが、「人間は何を信じればよいのか？」というテーマである。すなわち、「人工知能」と「ソーシャルメディア」という２つの流れが生み出しつつあるひょっとしたら前述２つよりも本質的な“問いかけ”ともいうべきトレンドである。

ディープフェイク（Deepfake）は、“人工知能によって生成された偽の情報”の中でも映像のことをいう。2017年12月頃から米国のコミュニティサイト「Reddit」で話題になりはじめたもので、その中でも「フェイクポルノ」は、日本のネット文化的にいえば「アイコラの動画版」である（アイコラ＝アイドルの顔をＡＶ女優の写真などに貼り合わせた画像）。

『ワンダーウーマン』のガル・ガドットの義理の兄とのセックスシーンの映像は、米国のネットで話題になった（もちろんというべきか本物ではない）。映画『ロード・オブ・ザ・リング』の登場人物の顔がすべてニコラス・ケイジの顔になっているなんてのもある。

手間をかければ可能だったポストプロセスの１つだが、これのための便利な「FakeApp」というソフトも公開されてブームに拍車をかけた（グーグルの機械学習ライブラリ「TensorFlow」が活用されている）。人物Ａの顔の映っている大量の映像と、人物Bの映っている大量の映像があれば、いまの顔認識技術をつかえば入れ替え可能なのはシロウトでも想像がつくだろう。

そして、Redditなどでフェイクポルノの投稿が禁止されることになる（ディープフェイクの違法性についての議論もあるのだが）。ドナルド・トランプ大統領の顔を、ヒラリー・クリントンやドイツのメルケル首相の演説に貼りつけた映像は、いまもYouTubeで見ることができる。それによってかどうかは不明だが、BBCやニューヨークタイムズが少しシリアスに報じはじめているように見える。









正直、どちらの映像もデジタルフォレンジックや法医学の出番になるような仕上がりではない（そもそも見間違わせるものでもない）。人工知能的に作られた画像や映像によくある“ボケ”た部分が残されているという意見もある。しかし、技術というのは我々の想像を超えるスピードで進化することがままある。

このあと何が起こりうるかは少し考えれば誰にも想像できることだ。たとえば、人工知能技術によって音声変換やリップシンクの質もどんどん向上している。自分の思うとおりに米オバマ前大統領やロシアのプーチン大統領（正確には彼らの映像）を喋らせるという実験ビデオを見てほしい。



ドイツの科学者による大統領たちをリアルタイムで自在に喋らせる実験。左下のターゲットの人物の口が左上のテスターの口の動きのとおりに動く。

アイコラの動画版が可能になって、さらには音声変換やリップシンクによって自分の思うようなことを誰かに喋らせることができるようになる。たとえば、特定の人物に嫌いな奴をおとしめる発言をさせることができる。いまのところ大量の動画がネット上にある有名人が使われているが技術はそれも不要にする可能性がある（歩き方で人を判別する「歩行認証」が可能なのだから逆に似た動作を作りだすことができる）。そうなったら、我々はなにを信じて生きていけばいいのだろう？

人工知能とソーシャルメディアの組み合わせは最悪ではないか？

2016年の米大統領選挙でのロシアによる「フェイクニュース」（fake news）は、選挙結果に影響を与えたとされる。それが、文字がら「映像」になったときにどんな破壊的、かつ悪夢的な影響をおよぼしうるのだろう。人間は、視覚的なメッセージに心理的な影響を受けやすいことは、さまざまな実験であきからになっている。鏡の代わりに自分の顔の口を広げて映し出す装置で、その日一日を明るくスタートできる「扇情的な鏡（東大廣瀬・谷川研究室）なんてのもある。

この話題をあつかったBBCのニュースでは、「ハイエンドPCがあればハリウッドのギャラはいらない」と煽っていた。私の大好きな映画『ファントマ（Fantômas）』をリメイクしたら、主人公の怪盗ファントマは得意のゴム製のマスクは捨ててこれを使うに違いない。喋っている映像や音声だけでなく、さまざまなファクトを組み合わせれば、Skypeを使ってオレオレ詐欺的な取引をする人も出てきうそである。年寄の心配をしている場合ではない。

もっとも、米大統領選挙に影響をおよぼしたフェイクニュースの作者の一人で、昨年死亡したポール・ホーナー氏は、トランプ支持者はファクトチェックをしない人たちだと述べていた。

「人は何を信じればよいのか？」というような話ではない。ファクトすら不要なくらい人間は凄い。どうも「人工知能」×「ソーシャルメディア（つまり人間）」の組み合わせが最悪に近いのだ。自動運転やアマゾンGO（レジ不要のスーパー）のような画像認識の活用は、そうでない点においてよいと思う（ベゾスは考えていると思うが町全体がアマゾンGOの中にスッポリ入ってしまったらそれはそれで便利だろう）。

それに対して、おしゃべりで信じやすい人間をつなぐしくみに人工知能がからむと想像できない結末を招く可能性がある。暗号技術と映像の組み合わせが、こうしたことに対する解決策は導きだしうるのだろうか？ ちょうど、「窃盗」というものに対して「錠前」を発明したようにと考えるのは楽観的であるようにも思う。

いまのところ、日本の「技術の無駄づかい」が好きなエンジニアたちは、ポルノや政治の分野よりも、初音ミクや萌えキャラ方面に費やすそうする傾向がつよいように見えるが。