Chaque événement médiatique engendre aujourd’hui son lot d’images truquées relayant de fausses nouvelles ou « fake news ». Face à ce phénomène que les acteurs du Net tentent de juguler, les chercheurs élaborent de leur côté des algorithmes pour mieux détecter les informations douteuses circulant au moyen des images.

Pour juger de la véracité d’une information en l’absence de contexte, autant jouer à pile ou face. Selon une étude de 2006 de la Texas Christian University, nous ne serions en effet pas beaucoup plus efficaces que le hasard pour repérer les tromperies . Une décennie plus tard, le flot de données auquel nous exposent les réseaux sociaux est devenu si colossal que séparer le bon grain de l’ivraie semble encore plus difficile.

Face à ce phénomène, de nombreuses équipes de recherche développent des outils pour trier les hoaxFermerCanular, en français et autres fake newsFermerFausses nouvelles, en français, des informations mensongères allant de la simple blague à la manipulation politique à grande échelle. À l’Irisa , Vincent Claveau et Ewa Kijak, respectivement chargé de recherche du CNRS et maître de conférences à l’université de Rennes 1, ainsi que le doctorant Cédric Maigrot, travaillent à automatiser la chasse aux images truquées et aux textes bidonnés.

« À moins d’être confronté à un montage grossier, un humain ne peut pas détecter une modification ou un réemploi de photo, estime Vincent Claveau. Seule l’informatique y parvient. » L’automatisation poursuit selon lui deux objectifs : traiter une masse de nouvelles ingérable pour l’homme et apporter une vision propre à la machine, moins affectée par les biais humains. Car de l’aveu du chercheur, « on tend moins à remettre en cause une information qui conforte nos opinions »



La genèse de l’information

La vérification peut s’effectuer de trois manières. Tout d’abord, l’analyse du réseau permet de connaître le cheminement d’un message. Provient-il d’une agence de presse réputée ou d’un site qui produit du contenu bidonné à la chaîne ? Les chercheurs surveillent également les sites qui servent de caisses de résonance, sans forcément produire de contenu.

On tend moins à remettre en cause une information qui conforte nos opinions. Or certains réseaux sociaux ne laissent pas toujours remonter toute la genèse d’une information, principalement pour garder leurs propres algorithmes secrets. Pas de quoi décourager pour autant les chercheurs. Une équipe l’ISC-PIF et du CAMS a ainsi mis place le projet Politoscope, qui permet de cartographier la diffusion des tweets. Le système révèle la formation et l’évolution de communautés politiques, en fonction du comportement des comptes Twitter face aux contenus qui y circulent. Il est même possible de voir quel ensemble est le plus prompt à discuter et à partager chaque nouveau message. Pour cela, la plateforme a passé au crible plus de 80 millions de tweets.

Ensuite, l’examen des réactions des lecteurs dans les commentaires publiés peut fournir des indices sur la véracité d’un contenu.

Enfin, le contenu lui-même sert bien entendu d’objet d’analyse, surtout s’il couple texte et images. La photo est-elle retouchée ou détournée ? Le message est-il en rapport avec l’image ? Le niveau de langage d’un document peut également trahir ses origines : présence de smileys, surabondance de points d’exclamation et d’interrogation, absence de citations, abus de phrases à la première et la deuxième personnes…

Un algorithme peut identifier et isoler ces éléments, ainsi que les noms propres et les dates qui structurent l’information. Certains sont d’ailleurs directement présents dans les mots-clés ou les hashtagsFermerMots-dièse en français. Il s’agit d’une suite signifiante de caractères sans espace commençant par le signe # (dièse), qui signale un sujet d’intérêt et est insérée dans un message par son rédacteur afin d’en faciliter le repérage..

Un moteur pour vérifier les images

Les chercheurs de l’Irisa travaillent tout particulièrement sur les images. Outre les photomontages proprements dits, on peut également tromper le lecteur à partir d’une image authentique dont on a modifié la légende. C’est le cas des clichés de victimes d’un bombardement ancien qui ressurgissent pour mettre en cause le protagoniste d’un tout autre conflit.

Alors que le grand public peut lui-même trouver la source d’une photo grâce à Google Image, les chercheurs ont conçu leur propre moteur de recherche d’images. « Google Image gère très mal certaines des modifications les plus simples et rapides, comme inverser la droite et la gauche, changer de teinte, recadrer…, explique Vincent Claveau. Le moteur de recherche de l’Irisa est bien plus robuste et moins sensible à ces ruses. »

Il peut scruter les éléments d’une photo et découvrir s’ils proviennent d’images différentes et ont donc été combinés par trucage. « À chaque ouragan, la même photo ressort, cite en exemple le chercheur. On y voit une portion d’autoroute inondée où nage un requin. Nous avons retrouvé séparément la vraie photo de l’inondation et celle du requin. »

Des détails techniques permettent aussi de déceler certains photomontages. Une double compression dans le fichier indique par exemple qu’une portion de la photo est issue d’une autre image elle-même compressée. Le moteur de recherche analyse également le texte qui accompagne l’image. L’extraction des mots-clés les plus importants, comme les lieux et les personnes, sert à comparer et détecter des signes de détournement.

(Les intelligences artificielles sont à présent capables de reconstituer des vidéos afin qu’elles correspondent à une source audio. L’artiste allemand Mario Klingemann a ainsi obtenu automatiquement une séquence où Françoise Hardy reprend un discours controversé de Kellyanne Conway, conseillère de Donald Trump. Si le résultat ne trompe pour l’instant personne, les progrès rapides dans le domaine promettent de brouiller encore plus la frontière entre le vrai et le faux.)





Alerter plutôt que trancher

Comment utiliser ces outils dans la lutte contre les fausses informations ? L’idéal serait de les insérer dans l’architecture même des réseaux sociaux pour repérer les canulars le plus tôt possible, mais ce choix reste soumis à la bonne volonté des entreprises. Facebook a ainsi récemment lancé une option, notamment aux États-Unis et en France, pour faire remonter et vérifier par des médias nationaux établis les informations jugées douteuses par les utilisateurs. Or, le public risque de ne pas dénoncer celles qui confortent leurs opinions. Une étude de Yale vient d’ailleurs de montrer que ce système n’a aucun impact positif contre la propagation des fake news . Les chercheurs de l’Irisa penchent donc plutôt pour des extensions intégrées aux navigateurs Internet.

« Des plug-insFermermodules externes qui complètent un logiciel pour lui apporter de nouvelles fonctionnalités parcourraient les pages Web, les tweets ou les posts Facebook, et signaleraient tout ce qui paraît suspect, propose Vincent Claveau. L’idée reste de privilégier la prise de décision par le lecteur, la machine ne tranche pas la vérité mais nous donne des pistes. »

La question de la légitimité revient en effet régulièrement. Lorsque, en février 2017, les Décodeurs du Monde ont inauguré le Décodex, qui classe les sites Web d’information selon un code couleur correspondant à leur fiabilité, l’accueil a été mitigé.

« Un algorithme va être, peut-être d’ailleurs à tort, jugé plus impartial qu’un média qui juge d’autres médias, poursuit Vincent Claveau. L’équipe du Décodex a quand même réalisé un travail utile pour nous aider à mieux estimer la qualité d’une information. »

Les hoax suivent en tout cas des cycles et se multiplient à chaque événement médiatique majeur. Les plus grossiers se démontent facilement, mais d’autres soulèvent des questions plus philosophiques sur le jugement de la vérité. Les algorithmes ont donc davantage vocation à alerter qu’à trancher, ce dernier geste devant demeurer l’apanage du lecteur. ♦