Qui a dit qu'une élection présidentielle n'était pas rationnelle ? Qu'on ne pouvait rien prévoir ? Qu'on ne pouvait ni anticiper le choix des électeurs ni, chose risquée, pronostiquer le duo qualifié pour la finale ? Les sondages s'y sont essayés avec plus ou moins de succès. Mais en croisant plusieurs données, des études d'opinion aux recherches Google, en s'intéressant à la géographie électorale et aux résonnances sur Twitter, Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt (le chef de projet) et Raphaël Vignes, cinq étudiants de l'école Télécom Paris Tech, ont bâti un raisonnement qui ambitionne de révéler le nom des deux candidats qualifiés au second tour. La prédiction de ces data scientists est la suivante : Marine Le Pen (24,13 %) devancerait François Fillon (21,77 %). Emmanuel Macron arriverait troisième avec 20,32 % et Jean-Luc Mélenchon suivrait à 18,66 %. Dans une élection totalement déroutante, marquée par un resserrement généralisé à une semaine du scrutin, la prédiction finale sera-t-elle validée par les urnes ? Nous le saurons dans quelques jours.

LIRE aussi Les explications des auteurs de l'étude



L'analyse. Predict the president : quand le big data rencontre sondages et réseaux sociaux

Entre Emmanuel Macron qui ne se revendique ni de droite ni de gauche ni du centre, la montée en flèche des extrêmes de Marine Le Pen et Jean-Luc Mélenchon et le Parti socialiste de Benoît Hamon au plus bas dans les sondages, les élections présidentielles de 2017 sont un réel casse-tête. Casse-tête que nous avons tenté de résoudre en modélisant les élections mathématiquement en vue d'en prédire le résultat.

Évidemment, qui dit prédiction pense à sondage d'opinion. Les sondages, qui ont longtemps régné en maître du domaine, ont plusieurs fois montré leurs faiblesses. Ceux-ci avaient notamment donné Hillary Clinton largement vainqueur contre Donald Trump. Beaucoup ont remis en cause cet outil, jugé dépassé, et qu'aujourd'hui les outils mathématiques et statistiques du big data ainsi que la démocratisation du partage de l'opinion grâce aux réseaux sociaux laissent bien moins de place à l'erreur. Faut-il complètement oublier les sondages ? À cette question, nous répondons non. Les sondages montrent, certes, des incertitudes et des marges d'erreur, mais ils décrivent tout de même une tendance, et détiennent une information qui n'est pas à négliger.



Que se passerait-il si nous combinions big data d'Internet, données socio-démographiques et économiques, et sondages pour tenter de prédire le prochain président français ? C'est l'idée que nous avons cherché à approfondir.



Chercher une évolution historique des votes



La question à se poser est la suivante : qu'est-ce qui peut influencer un vote ? Au-delà de l'aspect personnel de chaque citoyen qu'il est impossible à prédire, nous tentons de décrire une tendance de vote plus globale, à la granularité départementale. Regardons une carte des votes pour François Hollande au second tour de la présidentielle de 2012.

Carte de France du vote François Hollande en 2012. © DR





Nous remarquons une certaine scission de la France. L'Est semble beaucoup moins à gauche que le Sud-Ouest. La Bretagne quant à elle semble partisane de la gauche, au contraire de la Corse. On observe ainsi un vote territorial.



Nous pouvons aussi observer les votes parisiens en fonction du temps.

Historique des votes à Paris. © DR





Presque toujours à droite, le département parisien semble allergique à l'extrême droite, qui perd en popularité au cours du temps. En plus d'un vote territorial, il semble y avoir un vote dépendant du temps. Le problème à résoudre est le suivant : par quelles variables sont dictés les votes temporels et territoriaux ?

Passons de l'analyse à la modélisation. L'open data est aujourd'hui une mine d'or. Les données du Web, de l'Insee et de data.gouv ont une valeur certaine pour notre étude. Ce sont les données que nous avons utilisées pour notre prédiction.

L'objectif est alors de déterminer le résultat du premier tour par département, grâce à des données temporelles et départementales. Le modèle que nous présentons repose sur plusieurs hypothèses. L'hypothèse que les électeurs peuvent être regroupés en 4 catégories distinctes :

Les électeurs du bloc de gauche (gauche et extrême gauche qu'on regroupe pour des raisons de performance de modèle) ;

les électeurs du bloc du centre ;

les électeurs du bloc de la droite ;

les électeurs du bloc de l'extrême droite.

Notre deuxième hypothèse est qu'Emmanuel Macron se situe dans le bloc de gauche. La troisième est que le vote départemental peut être expliqué par des données sociales, démographiques et économiques. Enfin, l'hypothèse que la géographie des départements ainsi que les votes des élections passés dans les départements ont une influence sur les votes de 2017. On regroupe les départements en plusieurs catégories : les partisans des blocs qui votent à chaque élection pour un bloc en particulier, les départements dissidents qui votent à l'opposé de la tendance nationale, le bloc du président de département et la persistance de celui-ci.



Cette année, contrairement à toutes les élections précédentes, il n'y a pas de candidat du centre. Ou du moins, aucun candidat qui a les mêmes caractéristiques que les candidats historiques du centre. Nous modélisons alors un vote du centre, en imaginant le cas de figure où François Bayrou ou un autre candidat du centre se présenterait. Les voix prédites pour le centre seront par la suite distribuées entre les candidats.



À partir de ces données, nous utilisons des modèles de Machine Learning et d'économétrie qui nous permettent de déterminer un taux de vote pour chacun des blocs.



Voici le résultat de l'algorithme :

Taux de vote pour chacun des blocs calculé par un algorythme. © DR





23,5 % pour l'extrême droite de Marine Le Pen, 40,1 % pour le bloc de gauche, 26 % pour la droite et 10,4 % pour le centre hypothétique.

En testant cet algorithme sur 2012, nous avons trouvé une marge d'erreur moyenne de +/- 2,5 % pour chacun des blocs.