Ce mercredi 16 novembre, Emmanuel Macron a déclaré sa candidature à l’élection présidentielle. Depuis qu’il a démissionné du gouvernement, l’ancien ministre de l’Economie ne cessait de se voir demander :

s’il serait candidat ;

quel serait son programme.

De son côté du court, lui martelait :

« D’abord le diagnostic. Le diagnostic. Le dia-gno-stic. LE DIA-GNO-STIC. »

Le diagnostic, donc. Il y a quelques semaines, nous sommes allés voir comment cet état des lieux se faisait.

Algorithmes

Pour apercevoir ce « diagnostic », il fallait se rendre dans le Xe arrondissement de Paris, traverser la courette d’une pépinière d’entreprises, monter un étage et entrer dans le bureau de François-Régis Chaumartin, qui, en baissant la voix, entrouvrait son ordinateur d’où s’échappaient d’épais nuages de mots et de délicates arborescences sémantiques.

A l’œil, on attrapait « liberté d’entreprise », « police de proximité », « énergies propres ». Mais c’était fugace.

L’évaluation proposée par En Marche s’appuie en partie sur les milliers de questionnaires administrés lors de la « grande marche ». Et c’est là que se niche une bizarrerie : la grande majorité de ces verbatims n’a pas été dépouillée par des humains, mais par les algorithmes de Proxem, une boîte spécialisée dans le « big data » et « le traitement automatisé du langage ».

Dans l’entourage d’Emmanuel Macron, on vante la nouveauté de la chose, tandis que M. Chaumartin, le PDG de Proxem, parle avec appétit d’« extraction de vecteurs propres de matrice de grande taille ». Tous ont l’air gourmand de ceux qui sentent le sens de l’Histoire.

« Start me up »

Rappel des épisodes précédents.

Lorsque, au début de l’année, le ministre de l’Economie se pique de monter un mouvement à ses initiales, il s’aperçoit qu’il lui manque des cadres, des militants et un programme. Pas grave. La révolution numérique a ceci de miraculeux qu’il est possible de commencer sans ancrage ou mandat électif. Tout juste faut-il une idée et des financements.

Emmanuel Macron fait donc ce que fait tout chef d’entreprise dans cette situation : il prend langue avec les jeunes qui s’y connaissent.



Emmanuel Macron, lors du meeting de « En Marche », à Paris, le 12 juillet 2016 - PATRICK KOVARIK/AFP

En l’espèce, ce sont trois Strasbourgeois qui ont ramené des Etats-Unis les méthodes de campagne de Barack Obama.

« Première start-up de stratégie électorale en Europe », Liegey Muller Pons – du nom de ses trois fondateurs – se targue d’avoir apporté 280 000 voix à François Hollande en concassant tout un tas de données (notamment venues de l’Insee). L’idée étant de cibler le porte-à-porte vers les poches d’abstention a priori favorables aux socialistes.

« Notre créneau, c’est de combiner le digital, le data et le contact humain pour organiser des campagnes plus efficaces », précise Guillaume Liegey, en avalant ses tartines dans un café parisien.

Graissage de smartphones

Macron a voulu tenter l’expérience à l’envers : commencer par un porte-à-porte soigneusement calibré pour en extraire une sorte de grand état de l’opinion.

Oh, les mauvaises langues se sont vite fait entendre ! Elles dénonçaient le faux-pragmatisme de l’ex-ministre de l’Economie, dont le soubassement idéologique ne serait rien de moins que clair (un libéralisme qui se veut de gauche par le truchement de la théorie des insiders/outsiders). Elles soulignaient que l’état du pays est connu. Que le porte-à-porte est plutôt un moyen de glaner des e-mails. De fidéliser des militants. De faire parler de soi.

Qu’importe, ces critiques n’ont pas arrêté les 4 000 volontaires, qui ont lancé l’appli de la Grande Marche sur leurs écrans de smartphones et tablettes en allant « à la rencontre des Français ».

« Quelque chose d’inédit »

6 200 quartiers (au sens de l’Insee) ont été sélectionnés pour constituer une base représentative. Une première application (50+1) guidait les marcheurs dans leur parcours. Une deuxième permettait de saisir à la volée le suc de conversations qui ont duré en moyenne quatorze minutes.

100 000 « conversations » auraient été collectées (et 25 000 questionnaires entièrement remplis). C’est bien plus que les échantillons des sondages « classiques ». Mais ceux qui ont joué le jeu n’avaient-il pas un a priori positif sur En Marche ? Guillaume Liegey assure que ce biais a été lissé par la masse. Que les grognons acceptaient aussi de se prêter au jeu. Que beaucoup ne connaissaient pas le mouvement. Et qu’un redressement va être effectué.



L’application La Grande Marche - Capture d’écran

Le questionnaire se découpait en huit interrogations, du type : « Selon vous, qu’est-ce qui marche en France ? » « Qu’est-ce qui ne marche pas ? »

Guillaume Liegey insiste :

« Ce n’est pas un sondage, où l’on pose des questions plus fermées à un échantillon, pas non plus un “focus group”, où l’on interroge longuement une poignée de personnes sur un sujet donné, c’est quelque chose de nouveau, d’inédit. »

Une année de lecture

Tout cela a terminé dans un fichier tableur si lourd que la barre de défilement y trébuche. Et zoup, envoyé à Proxem.

En lignes, les personnes interrogées. En colonnes, leurs réponses aux questions. Plus d’un million de mots. Le double de « Guerre et Paix ». Un être humain normalement constitué aurait besoin d’une année complète pour tout lire et classer.

En ouvrant le fichier, M. Chaumartin a pu avoir un moment d’angoisse :

« On voit rapidement si c’est propre. Si l’encodage des caractères spéciaux (accents, guillemets), s’est bien fait. S’il y a beaucoup de fautes d’orthographe. »

Car l’analyse sémantique est une discipline aux mille embûches. « Assez curieusement, il faut beaucoup de mathématiques pour comprendre le langage humain », s’amuse le patron de Proxem, qui revendique trois polytechniciens dans son équipe d’une vingtaine de personnes.

Petits paquets de données

Après avoir nettoyé les données, il faut pouvoir repérer des significations différentes sous un même mot (Hollande est un président et un pays). Ou, à l’inverse, une même réalité sous des expressions différentes (« Je veux quitter la France » et « Je veux partir à l’étranger »).



François-Régis Chaumartin dans son bureau, le 5 septembre 2016 - Rémi Noyon/Rue89

Puis, il s’agit de détecter des associations de mots, de les assembler en grappes, de les catégoriser, de séparer différents sens... La machine propose (par apprentissage automatique) des éléments qu’un info-linguiste valide en les regroupant ou non. Dans les données fournies par En Marche, on trouve ainsi : « proximité avec les citoyens », « service de proximité » et « commerce de proximité ».

Ainsi faisant, les verbatims sont transformés en petits paquets de données.

« Pourquoi ils le pensent »

A quoi serviront-ils ?

Prenons la question : « Qu’est-ce qui fonctionne ? » Il faut pouvoir dire que tout ceux qui répondent « l’hôpital », « la santé » ou « la Sécu » parlent du « système de soins ». Et que celui-ci arrive en tête des points positifs (attention, c’est un exemple fictif).

Dans un deuxième temps, les équipes de En Marche se penchent sur les raisons qui expliquent que le « système de soins » fonctionne. Pour cela, il faut analyser les mots associés (« gratuit », « universel », etc.). C’est la force de l’exercice : ne pas s’arrêter à ce que les gens pensent, mais comprendre pourquoi ils le pensent.

François-Régis Chaumartin résume :

« Comme les répondants s’expriment spontanément, il peuvent justifier et élaborer leur réponse à loisir. [...] Cela permet d’obtenir des réponses à des questions qui ne sont pas explicitement posées. »

La dernière étape, c’est le « qui a dit quoi ? » Si aucune personne au-dessus de 60 ans n’a cité le « système de soins », c’est qu’il y a un souci du côté des seniors.

Détection de signaux faibles

Même si les logiciels ont encore leurs limites (la détection de l’ironie, par exemple), François-Régis Chaumartin assure que cette méthode recèle de puissants leviers :



Résultats provisoires - Capture d’écran

« Grâce à un moteur de recherche, on pourra croiser des critères, voir la manifestation d’un signal faible, vérifier des intuitions. Que disent les femmes, cadres supérieurs, des “commerces de proximité” ? Si 100 personnes en parlent sur 100 000, c’est du 0,1 % mais si elles en parlent c’est que ce point a de l’importance à leurs yeux. On peut se dire qu’il y a quelque chose à creuser. »

Les stratèges d’En Marche peuvent dégager des corrélations. Identifier les préoccupations de certaines catégories socio-professionnelles. Décider de faire dans la pédagogie s’ils mesurent une différence entre la perception d’un phénomène et sa réalité (typiquement, l’immigration). Et cætera.

Dark side of the moon

Les différents prestataires, tout comme les proches d’Emmanuel Macron, refusent de donner le coût d’une telle opération.

L’ancien ministre en a-t-il pour son argent (celui des dons) ? Ces méthodes sont-elles efficaces ? Le PDG de Proxem cite ses faits d’armes, dans la relation clients. Il assure qu’Auchan a augmenté son chiffre d’affaires en papeterie après qu’il a détecté dans des e-mails de clients que les agendas devaient rester une semaine de plus en tête de gondole.

LMP, on l’a vu, estime avoir une influence importante sur les campagnes électorales, qu’elle devrait encore peaufiner. Grâce à En Marche, la start-up a en effet accumulé de précieuses métadonnées sur le porte-à-porte lui-même : Quelle est la durée moyenne d’une conversation ? Quels quartiers répondent le plus facilement ?



Guillaume Liegey (extrait d’une vidéo) - Rémi Noyon/Rue89

La puissance de ces techniques de marketing appliquées à la politique pose néanmoins question.

Puisque que l’on peut savoir ce que pensent les chômeurs de plus de 50 ans habitant le Pas-de-Calais, n’y a-t-il pas là une formidable base pour déployer des e-mailings ciblés ?

Du côté d’En Marche, on assure que la base « informations personnelles » a été séparée de la base « réponses ». Les réponses ne peuvent pas être reliées à un individu.

Comment les gens parlent

La vraie richesse est ailleurs, souligne-t-on dans l’entourage d’Emmanuel Macron :

« Nous avons maintenant des centaines de milliers de formules et d’expressions, qui sont la façon dont les gens parlent des problèmes qu’ils rencontrent. C’est l’équivalent de centaines de milliers de visites de terrain dans tous les coins imaginables. »

En poussant un peu, on pourrait dire que Macron s’est uploadé à grande vitesse l’équivalent d’années de militantisme, de marchés, de permanences du samedi. Et qu’il a accumulé un trésor de communication politique... Le but ?

« Rendre le discours le plus intelligible possible pour le plus de monde possible. »

Wait a minute ? Vous ne trouvez pas cela flippant ? On pourrait donc imaginer des discours adaptés aux auditoires, voire des porte-à-porte quasi-personnalisés avec des éléments de langage. « Il ne faut pas non plus surestimer ces techniques », s’amuse Guillaume Liegey, qui rappelle que les argumentaires politiques sont déjà ciselés par des focus group et que la protection de la vie privée limite certaines pratiques.

Lui souligne plutôt que le champ lexical peut nourrir les prises de parole d’Emmanuel Macron en exemples « concrets » :

« Depuis le livre “Made to stick”, on sait que c’est un bon moyen de s’assurer que les propositions, les discours, sont mémorisés par les gens. »

Le politique « sismographe » ?

Comme le soulignait l’un de nos lecteurs lors de la première publication de cet article, le ratio entre le nombre de questionnaires et le nombre de mots du corpus laisse penser que ces verbatims étaient très limités dans leur longueur (quelques mots à peine, en moyenne). Ce qui interroge sur l’efficacité réelle du dispositif. Quoi qu’il en soit, la démarche mise en place par Emmanuel Macron fait écho aux inquiétudes de certains universitaires sur la « gouvernementalité algorithmique ».

Chercheuse au centre de recherche information, droit et société de l’université de Namur, Antoinette Rouvroy, souligne que la neutralité de l’analyse, sa parfaite objectivité, sont des mythes :

« Les discours des citoyens doivent être transcrits sous forme de signaux a-signifiants mais calculables. Ce que les gens disent est fragmenté sous forme de données métabolisables par les machines. Cela signifie notamment que le discours soit expurgé de son contexte d’énonciation, qu’il ne tienne pas compte des circonstances ni de la relation humaine nouée au moment de la rencontre. Enregistrer des données, ce n’est pas encore écouter la personne. »

Cet effort nourrit le fantasme du politique « sismographe » qui peut réagir sur le mode du réflex aux « stimuli numériques » et qui pense « découvrir », comme l’on découvre une vérité objective, un programme politique dans les données.



Des « marcheurs », à Tours, le 28 mai 2016 - GUILLAUME SOUVANT / AFP

La notion même de « diagnostic » tendrait à vider la politique de sa conflictualité, à la transformer en technique : il s’agirait d’identifier automatiquement des bugs dans un « système ». Plus de droite, plus de gauche. Un regard « neutre » qui identifie ce(ux) qui marche(nt) et ce(ux) qui ne marche(nt) pas...

Cette méfiance ne freine pas l’enthousiasme des partisans d’Emmanuel Macron. Pour eux, « écouter ce que les gens ont à dire » n’a jamais fait de mal à personne.

Initialement publié le 9 septembre 2016.