プロでなくても簡単に動画加工できる「ディープフェイク」 Hank Green（ハンク・グリーン）氏：CGIのおかげで、あたかも実在するように見える「架空の動画」が、ごく一般的になりました。例えば、（映像に見る）キャプテン・アメリカの体は、現実にはありえませんよね。 テレビや映画、ゲームなどで見る「Computer Generated Imagery（コンピューター ジェネレイテッド イマジェリー）」つまりCGIは、何百万ドルものお金や、何ヶ月もの時間をかけて、専門教育を受けたプロが作り上げるものです。しかし、”deepfake”の登場により、そんな現状が変わろうとしています。 機械学習と人工知能を基にした”deepfake（ディープフェイク）”について聞いたことはあるでしょう。ディープフェイクの登場により、アマチュアでも動画を安価に手早く加工できるようになりました。現時点ではディープフェイクのクオリティは発展途上ですが、将来は格段に向上するでしょう。もしかしたら、現実と区別がつかなくなるかもしれません。 そんな未来が実現したら、どうなってしまうのでしょうか。実は、対策はもう練られているのです。

ディープフェイクが作られる仕組み ディープフェイクの技術はまだ出て来たばかりなのですが、急激に進歩しています。一説によると、ディープフェイクの動画数は2019年には倍増しています。どんどん手軽に作れるようになってきているのが原因のようです。 ディープフェイクが使っているのは、敵対的生成ネットワーク、通称GANs（generative adversarial networks）と呼ばれる、新生の強力なコンピューティングメソッドです。 ディープフェイクを作るには、まず、“人の脳のニューロンの繋がり”をモデルにした学習能力のある人工知能である「ニューラルネットワーク」を2つ使用し、これに大量のトレーニングデータを与えます。 この場合は、動画を作りたい対象の人物の写真や動画です。次に、2つのネットワークを競合させます。片方のネットワークには、トレーニングデータを使って人物の顔をテンプレートにはめ込み、動画にして、ディープフェイクを作るよう指示します。もう片方のネットワークには、そのディープフェイクを観測して、トレーニングデータと比較させ、動画がリアルかどうかを判別するよう指示を出します。 これはそれぞれ”ジェネレーティブネットワーク（generative network）”と”ディスクリミネーティブネットワーク（discriminative network）”と呼ばれるもので、この2つが競合して何回もテストを繰り返す結果、ジェネレーティブネットワークの画像はどんどん洗練され、真に迫るディープフェイクが生成されます。最終的には、ディスクリミネーティブネットワークが真贋を判別できないほどの均衡点に達するのです。 もちろん、作られるディープフェイクは、ニューラルネットワークの性能の範囲内に限られますし、コンピュータを騙せても、人間を騙せるとは限りません。 現在では、チープなアマチュアレベルのディープフェイクであれば、ターゲットの画像250枚程度と、2日程のコンピュータプロセスで作ることができます。しかし、人間を騙せる品質ではありませんし、ニコラスケージ・パーティを合成する程度の、クオリティの低い動画しかできません。オバマ元大統領の動画のような、高品質のものを作成するには、いまだにプロの手を加える必要があります。 とはいえ、ディープフェイクを見破る難易度は、どんどん上がっています。例えば、以前であれば、不自然にまばたきが少ない人物を探せば見分けることができていました。しかし、専門家によれば、最近のものはもはやこの手法には頼れないようです。GANs同様、人間のプログラマーも、時と共にアルゴリズムを向上させているのです。そのため、今日、偽物の検出に使えた手法でも、翌日には使えなくなる可能性があります。

動画よりも似せるハードルが高いのは音声 さて、真贋の見分けが付かないほどのディープフェイクが作られる日は、来るのでしょうか。その答えは、いまだ議論の域を出ません。しかし、偽動画よりも高いハードルになるのは、「偽音声」です。顔の合成はかなり質が上がっており、GANsが人間を騙せる動画を生成する日は、遠からず来ることでしょう。しかし、人物に言葉を話させるのは、まったく別の問題です。 通常は、動画と同様、機械学習とGANsで音声を偽造できます。人物の声の録音データが、多少必要になる程度です。 しかし、芸術の域に達するような音声偽造ソフトウェアは、まだ人間を騙せるほどのクオリティではありません。人間による研究が、あまり進んでいないためでしょう。 しかしこれもまた、将来は変わる可能性があります。映画のクリエイターなどにとっては画期的なことではありますが、信頼できる情報の判別は、今後ますます困難となるでしょう。