Il y a d’abord eu l’affaire Benalla. La secousse initiale. Puis l’affaire dans l’affaire. Puis l’affaire dans l’affaire dans l’affaire. A force de tiroirs, c’est presque un chiffonnier. Dernier rebondissement en date : l’hypothèse d’un dopage numérique du barouf par un « écosystème russophile ». Dès le 30 juillet, Nicolas Vanderbiest, doctorant à l’Université catholique de Louvain et spécialiste des questions de réputation en ligne, soulève le lièvre. Pour certains membres du gouvernement, comme Mounir Mahjoubi, c’est l’opportunité de respirer après quelques semaines d’apnée.

Astrotufing or not astroturfing ? Capture d'écran

Jeudi 8 août, EU Disinfo Lab, une ONG belge (à ne pas confondre avec EU vs Disinfo, une task force financée par le Parlement européen pour contrer la propagande russe) dont Vanderbiest est co-fondateur, publie l’étude définitive, non signée : « Affaire Benalla, les ressorts d’un hyperactivisme sur Twitter ». On y apprend que 1% d’utilisateurs de Twitter (soit 3378 personnes) ont été responsables de 47% des tweets sur l’affaire. Mais comme l’a démontré Le Monde, nulle trace de bots russes ou de fermes à trolls moscovites. Au lieu de ça, une lapalissade : les opposants à Macron ont été en première ligne pour médiatiser l’affaire Benalla.

C’est ici que les choses se compliquent. Alors qu’on pensait le soufflé retombé, plusieurs utilisateurs apostrophent l’organisation belge en dénonçant un fichage politique illégal. Ce 9 août, ils réclament l’intervention de la CNIL, qui se saisit du dossier pour en faire un premier crash test du nouveau réglement européen sur la protection des données personnelles (RGPD), entré en vigueur en mai dernier. Ça fait désordre pour une structure qui disséque la mécanique des buzz...

Car en marge de son étude, EU Disinfo Lab publie deux tableurs : le premier compile 55 000 comptes ayant parlé de l’affaire Benalla sur Twitter (dont l’auteur de ces lignes) ; le second liste 3 891 « hyperactifs » en leur accolant des catégories (« intérêt pour les médias pro-Kremlin RT et Sputnik », « désinformation russe », « Macron Leaks », « rumeurs diffusées pendant la présidentielle » et « nombre de désinformations propagées »).

Le fichier des “hyperactifs” de l’affaire Benalla est-il illégal ? Capture d'écran

Problème : un troisième fichier circule également. Comme l’attestent les propriétés du document, il a été créé le 5 août, deux jours avant les deux autres, ce qui semble attester de son authenticité. Il reprend les informations du deuxième listing – en mentionnant moins de comptes, 3393 – mais propose une colonne supplémentaire (« Nombre de rumeurs Benalla propagées ») et les adosse à une classification supplémentaire, numérotée de 1 à 4. Celle-ci correspond à leur affiliation politique, selon quatre catégories : LR/souverainistes, Rassemblement national, France Insoumise, médias/LREM (sic). Reprises dans l’étude, ces quatre « classes » permettent de cartographier l’appartenance des « hyperactifs » de l’affaire Benalla.

Deuxième version du fichier des “hyperactifs” Capture d'écran

Les classes utilisées par EU Disinfo Lab pour catégoriser les “hyperactifs” de l’affaire Benalla Capture d'écran

En épluchant le fichier, les erreurs ne tardent pas à sauter aux yeux. Plusieurs journalistes, comme Nassira El Moaddem, journaliste et directrice du Bondy Blog, sont catégorisés « 3 », et donc proches de la France Insoumise. Dans cette galaxie, on retrouve également un média, le très sérieux Contexte, ainsi que Serge Slama, professeur de droit sans étiquette mais abondamment retweeté par les Insoumis lors des auditions parlementaires. Pour se défendre, EU Disinfo Lab insiste sur les « faux positifs » de l’algorithme, soulevant par la même occasion un intense débat méthodologique. Et l’étude de devenir une parabole.

Contexte, média insoumis ? Capture d'écran

En l’état, deux questions se posent :

- Ces fichiers sont-ils légaux au regard de la CNIL et du RGPD ? L’article 8 de la loi informatique et libertés de 1978 précise qu’il est interdit de traiter des données à caractère personnel qui révèlent les opinions politiques d’une personne physique. Mais de son côté, le RGPD n’interdit pas l’analyse de sensibilités politiques à partir de données publiques. Le but poursuivi est-il légitime ? A charge pour l’autorité indépendante de se prononcer.

- Peut-on déterminer (et ficher) l’appartenance politique d’un internaute sur la base de son activité en ligne (ses retweets, par exemple) ?

Cette deuxième interrogation est cruciale. Alors que l’étude reste particulièrement floue sur certains points – à partir de combien de liens vers Sputnik fait-on partie de « l’écosystème russophile » ? –, le « fichage » réalisé par EU Disinfo Lab n’est pas seulement perfectible. Il est automatisé. A ce titre, l’algorithme Louvain, utilisé par l’ONG belge, ne prend pas en compte la dynamique des échanges en ligne (comme le montre cette série de tweets). Inscrire « patriote » dans sa bio Twitter condamne-t-il à être catalogué d’extrême-droite ? Pire, l’étude fait de l’affaire Benalla l’astre autour duquel gravitent des communautés nécessairement artificielles : quand l’actualité aura changé de cible, la classification mise au point pour l’étude aura-t-elle encore un sens ?

Face à la mode de ces études basées sur l’analyse des réseaux sociaux, devant cette croyance excessive dans les signaux numériques, on pourra se remémorer les mots de Bernard Tricot, le conseiller d’Etat qui, en 1978, posa les bases de la loi informatique et libertés après le scandale SAFARI (déjà une histoire de fichier...) :

« L’ordinateur est réputé infaillible. C’est faire bon marché des déductions inexactes, tendancieuses, moralement ou juridiquement critiquables qui peuvent entacher les données et devant lesquelles il n’aura aucune capacité d’étonnement.