Sciences Po organisait, du 29 novembre au 2 décembre, Datapol, quatre jours de travail collaboratif entre des chercheurs, développeurs, journalistes et designers pour exploiter différents jeux de données numériques de la campagne présidentielle 2017. Les participants se sont répartis en sept groupes autour de questions spécifiques (la politisation du glyphosate, la chronologie numérique de la campagne, les différentes idéologies véhiculées pendant la campagne…).

Plus d’une dizaine de bases de données sur la période électorale ont été proposées aux participants, dont celle du Décodex, sous licence ODbL. Concrètement, nous avons apporté deux types de données :

En croisant nos données avec d’autres bases et en faisant appel aux connaissances de participants venus d’horizons différents du nôtre, Datapol nous a permis de faire plusieurs découvertes intéressantes. En voici trois.

1. Deux typologies différentes de fausses informations

L’un des groupes du Datapol s’est intéressé à la circulation des fausses informations en ligne. Pour tenter de mieux comprendre les mécaniques à l’œuvre en la matière, les participants ont ajouté des catégories supplémentaires à la base des fausses informations du Décodex. Cette typologie visait à distinguer six types d’articles mensongers :

les « pièges à clics » (ou clickbait en anglais) ;

les informations satiriques ou parodiques reprises ensuite au premier degré ;

les informations erronées ;

les rumeurs sans fondement ;

les théories conspirationnistes ;

les informations manipulées (par exemple, une vraie photographie sortie de son contexte).

Les deux cartes ci-dessous font apparaître ces différents types de fausses informations (les pastilles de couleurs) et les sources qui les ont fait circuler (les petits points gris). De manière naturelle, la visualisation fait apparaître deux univers (clusters) bien distincts : d’un côté, à gauche, les fausses informations « pièges à clics » et parodiques. De l’autre, à droite, on trouve les différents types d’intox plus élaborées (conspirations, manipulations, rumeurs…). L’écrasante majorité des émetteurs de fausses infos se range d’un côté ou de l’autre.

Cette visualisation a été réalisée dans le cadre de Datapol à partir des données du Décodex par Quentin Agren, Liliana Bounegru, Robert Bracciale, Dominique Cardon, David Chavalarias, Cheikh-Brahim El-Vaigh, Anne-Sophie Faivre Le Cadre, Maxime Ferrer, Noé Gaumont, Guillaume Gravier, Jonathan Gray, Mathieu Jacomy, Antonio Martella, Maziyar Panahi, Rosella Rega, Adrien Sénécat, Denis Teyssou et Tommaso Venturini. Datapol / Décodex

Ces deux grandes familles de désinformation ont également des canaux de diffusion différents. Dans la première carte ci-dessus, des taches de couleur grise ont été ajoutées pour faire apparaître la circulation sur Twitter des fausses informations (plus la tache est sombre, plus l’intox a circulé sur le réseau social). Où l’on s’aperçoit que les pièges à clics et les contenus parodiques ont peu circulé sur Twitter.

Le constat est, en revanche, radicalement différent dans la deuxième carte ci-dessous, qui reprend les mêmes codes, mais en ajoutant cette fois en gris la circulation des fausses informations sur Facebook. On s’aperçoit que les informations des deux pôles ont circulé sur ce réseau social et, en particulier, les pièges à clics.

Cette visualisation a été réalisée dans le cadre de Datapol à partir des données du Décodex par Quentin Agren, Liliana Bounegru, Robert Bracciale, Dominique Cardon, David Chavalarias, Cheikh-Brahim El-Vaigh, Anne-Sophie Faivre Le Cadre, Maxime Ferrer, Noé Gaumont, Guillaume Gravier, Jonathan Gray, Mathieu Jacomy, Antonio Martella, Maziyar Panahi, Rosella Rega, Adrien Sénécat, Denis Teyssou et Tommaso Venturini. Datapol / Décodex

2. Les partisans de Marine Le Pen partagent plus de sources peu fiables que les autres

Un autre enseignement intéressant est apparu en croisant les données du Décodex avec celles du Politoscope. Dans le cadre de ce projet, l’équipe de l’Institut des systèmes complexes Paris Ile-de-France, un laboratoire du CNRS, a analysé sur la durée de la campagne les messages de milliers d’internautes sur Twitter. L’un des intérêts du Politoscope est qu’il identifie la proximité d’un utilisateur de la plate-forme avec tel candidat au fil du temps (les « indécis » étant classés à part dans une vaste catégorie surnommée la « mer »).

A partir de cette typologie et des données anonymisées du Politoscope, les participants à Datapol ont donc pu regarder dans quelle mesure les différentes communautés politiques partagent plus ou moins de liens vers les différents types de sources d’information identifiées dans le Décodex.

Premier enseignement : globalement, les sources identifiées comme en principe fiables (24 % des liens partagés par l’échantillon étudié sur Twitter) surclassent largement les sources très peu fiables (1,94 %), peu fiables (0,8 %) et parodiques (0,08 %). Les trois quarts des liens portaient, par ailleurs, sur des sources non identifiées dans le Décodex, parce qu’elles n’ont pas vocation à y figurer (par exemple, les sites de personnalités politiques ou les sites qui n’ont pas de caractère informatif) ou parce qu’elles auraient pu y figurer mais n’ont pas été étudiées.

Il existe néanmoins des différences de comportement entre communautés, selon le candidat ou la candidate dont elles sont proches. L’infographie ci-dessous se propose de les représenter de la manière suivante :

chaque candidat(e) correspond à une tranche du diagramme ;

les quatre catégories correspondent chacune à une couleur : vert pour les sites en principe fiables, bleu pour les sites parodiques, rouge pour les sites très peu fiables et noir pour les sites douteux ;

plus un point est éloigné du 0, plus la communauté proche du candidat correspondant a partagé le type de sources en question. Ainsi, lorsqu’un point est proche du cercle de rayon 1, cela veut dire que le type de contenus correspondant a été partagé dans les mêmes proportions que la moyenne. Lorsqu’il est proche du trois, cela veut dire qu’il a été trois fois plus partagé.

Cette visualisation a été réalisée dans le cadre de Datapol à partir des données du Décodex par Quentin Agren, Liliana Bounegru, Robert Bracciale, Dominique Cardon, David Chavalarias, Cheikh-Brahim El-Vaigh, Anne-Sophie Faivre Le Cadre, Maxime Ferrer, Noé Gaumont, Guillaume Gravier, Jonathan Gray, Mathieu Jacomy, Antonio Martella, Maziyar Panahi, Rosella Rega, Adrien Sénécat, Denis Teyssou et Tommaso Venturini. Datapol / Politoscope / Décodex

Il apparaît ainsi que les partisans de Marine Le Pen et François Asselineau sont ceux qui, en moyenne, ont partagé le plus de liens vers des sources considérées comme peu fiables dans le Décodex. Une analyse qui mériterait d’être affinée par un travail approfondi, mais qui a le mérite d’apporter des données pour accréditer un comportement identifié par de nombreux observateurs pendant la campagne.

3. Une étude des sources en fonction de la diversité de leur audience

Un autre groupe du Datapol a également croisé les données du Décodex et de Politoscope, mais, cette fois, pour s’intéresser à la manière dont des sites d’information peuvent avoir des audiences plus ou moins marquées, sur le plan politique, et plus ou moins diverses. Attention : cette analyse ne se base pas sur le contenu des articles d’un média, mais sur la manière dont ils sont partagés par différentes communautés politiques.

La cartographie ci-dessous fait apparaître quatre types de données à la fois :

chaque média est représenté par une étiquette à son nom, qui est plus ou moins grande en fonction du nombre de citations de la source ; l’axe horizontal fait apparaître la « polarisation » d’un média ; l’axe vertical fait apparaître la « diversité » du lectorat d’un média : plus un média se situe loin du 0 sur cet axe, plus son lectorat est divers ; les étiquettes de médias ont été colorées en fonction de la tendance politique moyenne du lectorat : plus la couleur est bleue, plus le lectorat est ancré à droite, plus elle est rouge, plus il est ancré à gauche, et plus elle est blanche, plus il se situe au centre politiquement.

Cette visualisation a été réalisée dans le cadre de Datapol par Noé Gaumont, Michele Invernizzi, Robin Lamarche-Perrin, Maziyar Panahi, Rémy Poulain, Pedro Ramacciotti, Camille Roth et Lionel Tabourier. Datapol / Politoscope / Décodex

Cette typologie, qui mériterait là aussi des recherches complémentaires, met en évidence plusieurs phénomènes. Par exemple, les sites très orientés à l’extrême droite et identifiés comme peu fiables dans le Décodex apparaissent le plus souvent comme étant très polarisés et partagés par une audience très restreinte, comme l’illustre le cas de fdesouche.com.

L’une des limites de cette représentation est qu’elle est le reflet de la politisation des internautes eux-mêmes : les sources qui ont les lectorats les plus divers sont souvent teintées de bleu, ce qui peut s’expliquer par le fait que plus de 45 % de l’électorat a voté à droite, voire à l’extrême droite au premier tour de la présidentielle (21,30 % pour Marine Le Pen, 20,01 % pour François Fillon et 4,70 % pour Nicolas Dupont-Aignan), alors que la somme des candidats de gauche et d’extrême gauche, Jean-Luc Mélenchon (19,58 %) et Benoît Hamon (6,36 %) en tête, ne se situe qu’autour de 30 %, le dernier quart revenant au centre représenté par Emmanuel Macron (24,01 %).