En croisant des données socio-économiques, des résultats électoraux depuis 1997, et en s'intéressant à la géographie électorale, Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes, cinq étudiants de l'école Télécom ParisTech, ont bâti un raisonnement qui ambitionne de proposer une prévision des résultats des élections législatives "à une maille très fine". Même "s'il va de soi" que ces data scientists ne peuvent "pas prédire correctement tous les futurs députés", ils prévoient 278 sièges pour La République en marche, 106 pour Les Républicains, 64 pour le PS, 45 pour le MoDem, 33 pour La France insoumise, 17 pour l'Union des démocrates indépendants, 14 pour les Divers gauche, 5 pour les écologistes, 5 pour le FN, 3 pour les Radicaux de gauche, 3 pour le Parti communiste, 2 Divers droite, 1 Divers et 1 siège pour les Régionalistes. Cette prédiction sera-t-elle validée par les urnes ? Réponse les 11 et 18 juin.





"Predict the Parliament" : quand le big data prédit le résultat des élections

Dans la continuité du projet "Predict The President", qui nous a amenés à proposer une modélisation du premier tour de l'élection présidentielle, nous nous sommes penchés cette fois-ci sur les élections législatives. Le sujet d'étude est particulièrement difficile, mais nous avons tenu à aller au bout de l'exercice en proposant une prévision des résultats à une maille très fine.

Nous modélisons ainsi le scrutin pour l'ensemble des 577 circonscriptions en utilisant des méthodes mathématiques d'apprentissage automatique (machine learning) et en nous basant sur de l'Open Data, c'est-à-dire des données ouvertes et accessibles au grand public.

Il va de soi que nous ne pouvons pas prédire correctement tous les futurs députés : il ne suffit pas d'écrire des formules mathématiques ou des lignes de code informatique pour pouvoir retranscrire fidèlement la réalité du terrain, mais nous espérons arriver à capter les tendances de cette élection qui s'annonce passionnante à bien des égards.

Une nouvelle donne politique

Le contexte actuel est propice à la recherche de nouvelles façons d'analyser la politique en France : l'élection du président Macron a bousculé le paysage politique en cassant le clivage traditionnel gauche-droite. Cette nouvelle donne permettra-t-elle au président d'obtenir la majorité absolue à 289 sièges ?

Les sondages anticipent également un score élevé des candidats Front national, compte tenu de la présence de Marine Le Pen au second tour de la présidentielle et de l'affaiblissement anticipé du "front républicain". Le cas du Parti socialiste risque aussi d'être riche en enseignements, avec une déroute annoncée à la suite de la fuite de son électorat vers La République en marche ou vers le parti de La France insoumise. Ce dernier a des chances d'avoir un nombre historiquement élevé de députés si l'on se fie aux résultats de l'élection présidentielle. L'alliance des Républicains et de l'UDI a quant à elle de bonnes chances de représenter la première force d'opposition à l'Assemblée.

36 919 candidats depuis 1997

Pour élaborer notre prédiction, nous avons dans un premier temps compilé toute une variété de données que l'on peut trouver librement et gratuitement sur Internet.

Le site du ministère de l'Intérieur met à disposition les historiques de vote. Nous avons ainsi récupéré les données des quatre élections législatives précédentes (1997, 2002, 2007, 2012) en plus de la liste des candidats qui se présentent cette année, ainsi que les données des élections présidentielles depuis 2002. Cela représente au total 36 919 candidatures pour lesquelles nous disposons du nombre de voix obtenues.

Cette "matière première" nous a permis d'élaborer des caractéristiques pour chaque candidat : appartient-il à la majorité présidentielle, s'agit-il d'un député sortant, quel est le score de son groupe politique à la présidentielle qui précède l'élection législative, a-t-il déjà accédé à un second tour par le passé, ou encore quelle est la force des candidats concurrents dans sa circonscription ?

Outre les données politiques, nous avons récupéré sur le site de l'Insee des données sociales et économiques à la granularité du département : les taux de chômage, des données sur la population active (répartition par niveau d'études et par type d'emploi), les revenus des ménages, etc.

En agrégeant ces données, nous constituons un profil historique pour chacun des candidats.

Un mélange de modèles

En premier lieu, nous cherchons à estimer le score de tous les candidats, ce qui nous permet de déterminer les qualifiés pour le second tour, en repérant notamment d'éventuelles triangulaires et majorités absolues. Ce n'est qu'ensuite, à partir de ces prévisions, que nous simulons le second tour pour prédire le vainqueur de la circonscription. Notons toutefois que nous passons directement au second tour pour les circonscriptions des Français de l'étranger puisque le premier tour a déjà eu lieu.

Les techniques de modélisation que nous utilisons sont de l'ordre de l'apprentissage supervisé, cette catégorie d'algorithmes qui nécessitent qu'on les nourrisse de données d'exemple pour en déduire des liens de cause à effet ou des corrélations pour pouvoir projeter ces liens sur des données nouvelles.

Pour coder nos algorithmes, les adapter et optimiser leurs paramètres, nous les testons en nous plaçant à la veille des élections législatives de 2012 et regardons alors la pertinence des résultats prédits par rapport aux résultats réels. Nous obtenons ainsi une précision de 80 % sur les sièges que nous prédisons à l'Assemblée sur 2012. Nous faisons ensuite apprendre notre algorithme sur l'ensemble des données disponibles afin d'effectuer la prédiction finale.

Pour le premier tour, notre choix s'est porté sur une combinaison de trois modèles mathématiques à l'état de l'art du machine learning. Ce mélange permet que les forces des uns compensent les faiblesses des autres.

Une France kaléidoscopique

La carte ci-dessous présente le candidat arrivé en tête du 1er tour selon notre algorithme, dans chacune des 577 circonscriptions.

La carte présente le candidat arrivé en tête du 1er tour selon l'algorithme des ingénieurs de Télécom Paris Tech, dans chacune des 577 circonscriptions. © DR





Les circonscriptions potentiellement disputées via une triangulaire ou gagnées au premier tour sont mises en évidence par un contour blanc ou noir respectivement. Notons que notre algorithme prévoit un seul cas de qualification dès le premier tour, celle de Thierry Solère, dans la 9e circonscription des Hauts-de-Seine.

Nous avons également représenté ci-dessous le nombre de candidats maintenus au second tour, classés par force politique. La longueur de la barre représente la proportion des candidats arrivant à se maintenir au second tour. Le dégradé de couleur indique si les candidats sont arrivés en tête, deuxièmes ou troisièmes pour les cas des triangulaires.

Par exemple, selon notre algorithme, le FN arriverait à maintenir 115 candidats au second tour, ce qui représente 20 % des candidats initialement investis, et dont une bonne partie arrive en deuxième position lors du premier tour.

% des candidats présentés se maintenant au second tour des législatives. © DR





Les grands gagnants du premier tour semblent être le MoDem et La République en marche, qui qualifient la majeure partie de leurs candidats pour le second tour. L'alliance Les Républicains-UDI s'en sort relativement bien, à l'instar du Parti socialiste, dont les résultats ne sont pas aussi catastrophiques qu'annoncés. Le Front national aurait pu espérer mieux, surtout en termes de candidats arrivant en tête. Au rang des déceptions, La France insoumise ne capitalise pas pleinement sur le score encourageant de Jean-Luc Mélenchon à la présidentielle, et Debout la France ne parvient à placer qu'un seul candidat au second tour : Nicolas Dupont-Aignan lui-même.

Un vote régionalisé

Changeons de perspective pour révéler les disparités régionales. La série de cartes qui suit fait un focus sur les candidats qualifiés pour le second tour, pour un parti (ou une alliance) donnée.

France insoumise

Les candidats France Insoumise qualifiés pour le second tour. © DR

Alliance EELV-Radicaux de gauche-PS

Les candidats de l'alliance EELV - Radicaux de gauche - PS qualifiés pour le second tour. © DR

Alliance MoDem-République en marche

Les candidats de l’alliance MoDem - République en Marche qualifiés pour le second tour. © DR

Alliance UDI-LR

Les candidats de l’alliance UDI - MoDem qualifiés pour le second tour. © DR

Front national

Les candidats FN qualifiés pour le second tour. © DR





La prévision du second tour

Pour le second tour, nous avons établi un algorithme qui attribue à chaque candidat une probabilité d'être élu, en tenant compte de plusieurs facteurs tels que la configuration du scrutin (duel ou triangulaire), des partis en présence ou encore des potentiels reports de voix par rapport au premier tour. Sur la carte ci-dessous nous représentons les couleurs des candidats qui ont le plus de chances de remporter leur circonscription, compte tenu de notre prédiction initiale.

La carte présente le candidat arrivé en tête du 2nd tour selon l'algorithme des ingénieurs de Télécom Paris Tech, dans chacune des 577 circonscriptions. © DR





En projetant ces résultats sur l'hémicycle de l'Assemblée, voici ce que nous obtenons :

Projection de sièges à l'Assemblée selon le projet Predict the Parliament. © DR





Résultats du 2nd tour des législatives en nombre de sièges selon le projet "Predict the Parliament". © DR





La République en marche, en tête, rassemblerait donc 278 places à l'Assemblée et disposerait de la majorité grâce à son alliance avec le MoDem (45 sièges), suivie de loin par les Républicains et le Parti socialiste. Notons également le faible nombre de sièges du Front national et l'arrivée en force de La France insoumise dans l'hémicycle.





Focus sur les circonscriptions "chaudes"

Jean-Luc Mélenchon, investi dans la 4e circonscription de Marseille, est dans un territoire qui lui est favorable : il y a réalisé son meilleur score à la présidentielle. Il l'emporterait, selon notre algorithme, face à Patrick Menucci au second tour.

Marine Le Pen se présente dans la 11e circonscription du Pas-de-Calais. Profitera-t-elle de son second tour à la présidentielle sur une terre acquise à sa cause ? Elle perd de peu, selon notre modèle (48 % des voix contre 52 % au second tour face à Philippe Kemel, candidat PS).

Gilbert Collard, lui, serait réélu dans la 2e circonscription du Gard.

Benoît Hamon, dans la 11e circonscription des Yvelines, contribuera-t-il à la déroute annoncée du PS ? Non, d'après notre algorithme, il l'emporte de peu face au candidat de La République en marche.

Manuel Valls en campagne dans la 1re circonscription de l'Essonne, transfuge du PS non investi par La République en marche, pourra-t-il bénéficier de son ralliement à la majorité ? Nous prévoyons une victoire d'une courte tête face à la candidate de La France insoumise Farida Amrani.

Axelle Lemaire dans la 3e circonscription des Français de l'étranger en mauvaise posture au premier tour est donnée très largement perdante au deuxième tour face au candidat de La République en marche Alexandre Holroyd.

Le ministre de la Cohésion des territoires Richard Ferrand, dans la tourmente à la suite des révélations du Canard enchaîné , parviendrait tout de même à remporter la 6e circonscription du Finistère.

, parviendrait tout de même à remporter la 6e circonscription du Finistère. Bruno Le Maire, le ministre de l'Économie, joue son mandat dans la 1re circonscription de l'Eure : une défaite le forcerait à démissionner du gouvernement. Nous pronostiquons une large victoire face à la candidate du Front national Fabienne Delacour.

Myriam El Khomri, investie par le PS dans la 18e circonscription de Paris, pourra-t-elle accéder à l'Assemblée malgré l'absence de candidat REM investi ? Notre modèle ne la voit pas se qualifier pour le second tour.

Cédric Villani, le candidat de La République en marche sur le plateau de Saclay, résoudra-t-il l'équation de la victoire à l'élection ? Il est donné gagnant par notre algorithme.

Nathalie Kosciusko-Morizet, qui reprend le fief de François Fillon, est concurrencée par le candidat REM Gilles Le Gendre. Notre modèle lui donne cependant une victoire assez large au second tour.

Thierry Solère dans la 9e circonscription des Hauts-de-Seine serait potentiellement élu dès le premier tour en bénéficiant d'une majorité absolue.

Christophe Castaner, le Ssecrétaire d'État chargé des Relations avec le Parlement, met son mandat en jeu dans la 2e circonscription des Alpes-de-Haute-Provence. Nous lui prédisons une victoire au second tour.

En conclusion, nous prévoyons la majorité absolue pour En marche ! et le MoDem mais avec un nombre de sièges moindre que ce qui est annoncé par les sondages. Les Républicains deviendraient la première force d'opposition et le Parti socialiste serait le grand perdant de l'élection. En outre, le Front national ne parviendrait pas à constituer un groupe parlementaire, a contrario de La France insoumise.

Réponse définitive les 11 et 18 juin prochains !

Lire sur le même sujet :

Comment peut-on prédire une élection ?

Predict the président : retour sur une prédiction