Quelques cerveaux humains et beaucoup d’intelligence artificielle vont se pencher sur les résultats du «grand débat national». A un mois de la clôture de cette consultation voulue par le chef de l’Etat, on recensait vendredi 900 000 contributions individuelles déposées sur le site internet du grand débat. C’est l’institut de sondage OpinionWay qui assurera le traitement de ces interventions en ligne, a annoncé cette semaine le gouvernement. Une mission forcément délicate, l’impartialité du débat ayant été plusieurs fois questionnée depuis son lancement, et ses résultats devant orienter les «décisions fortes» promises par Emmanuel Macron. Directeur du département opinion et politique d’OpinionWay, Frédéric Micheau détaille la méthodologie adoptée pour analyser les contributions.

Comment votre institut a-t-il été retenu pour ce marché ?

Nous intervenons dans le cadre d’un marché public attribué dès 2015 à OpinionWay, après un appel d’offres ouvert organisé par le Service d’information du gouvernement (SIG). Le lot concernait une mission d’«analyse de données issues de consultations en ligne». Nous avons traité, depuis cette date, les résultats d’une dizaine de consultations organisées par différents ministères.

Quelles garanties d’impartialité pouvez-vous donner dans le traitement de ces contributions ?

Le marché remonte au précédent quinquennat, et nous n’avons pas travaillé pour La République en marche durant la présidentielle, comme le démontrent les comptes de campagne du mouvement. Et notre prestation est purement technique : ni cette fois ni les précédentes nous n’avons participé à l’organisation du débat ou à la conception des questionnaires : on récupère des données et on les traite, c’est tout. Ce qui est inédit ici, c’est leur nombre… Notre intention est d’associer le plus possible à nos travaux le collège des garants [cinq personnalités désignées par le gouvernement et les présidents d’assemblées chargées de veiller à l’impartialité du grand débat, ndlr]. Notre méthodologie leur sera d’ailleurs présentée dès lundi.

Concrètement, comment allez-vous faire ?

Nous allons récupérer deux types de données : le résultat des questionnaires et les propositions «libres» des internautes. Dans le premier cas, c’est assez simple : comme le participant est invité à choisir entre différentes possibilités, il suffit alors de compter le nombre d’occurrences de chaque réponse et de transformer cela en pourcentage. Ce qui est plus compliqué, c’est de traiter les contributions libres, qui se présentent comme des verbatim. Pour cela, nous travaillons avec la société française Qwam : celle-ci dispose d’un outil informatique qui lui permet de traiter des volumes massifs de texte en s’appuyant sur des algorithmes et de l’intelligence artificielle. La machine lit chacun des verbatim avec une extrême précision, et les compare à un dictionnaire de notions - de mots, de groupes de mots, d’idées - dont elle est équipée. Cela lui permet de trier, classer et sous-classer les idées.

Et si elle ne «comprend» pas ce qu’elle lit ?

Dans ce cas, les verbatim seront soumis à une équipe d’analystes qui les reprendra «à la main» et les «apprendra» à l’outil. Cette équipe comprendra une petite vingtaine de personnes, issues d’OpinionWay ou de Qwam. A l’issue de ce processus, on aura une liste de catégories, par exemple «Fiscalité», et de sous-catégories, par exemple «Baisser les impôts» ou «Augmenter les impôts». Nous pourrons associer chaque contribution à une ou plusieurs de ces catégories, et ainsi avoir une évaluation quantitative des différentes pistes. Le nombre et la formulation des catégories seront des éléments importants, car ils constitueront la grille d’analyse des contributions. Nous allons donc soumettre cette liste au collège des garants pour qu’il la valide.

Combien de fois une idée devra-t-elle apparaître pour être reprise parmi vos catégories ?

Nous sommes encore en train d’y travailler. Il faut trouver un juste milieu. Si on retient mille catégories, c’est très fin mais on perd en lisibilité. Si on n’en a que cinq, c’est très lisible mais on y va à l’emporte-pièce. Et on risque de passer à côté de quelques pépites : de très bonnes idées qui n’apparaîtront qu’à quelques reprises… J’ajoute que nous ferons des non-réponses une catégorie en soi. Si on a, pour certaines questions, 5 % ou 10 % de non-répondants, nous le ferons apparaître, tout comme les réponses «Je ne sais pas».

Allez-vous, comme pour un sondage, «redresser» les résultats obtenus ?

Dans un sondage, on procède à ces redressements pour rendre l’échantillon représentatif de l’ensemble de la population, par exemple lorsqu’il ne compte pas assez de femmes. On ne le fera pas ici. D’ailleurs, même si nous le voulions, ce serait impossible, car la seule information individuelle associée aux réponses est le code postal des participants, qui nous servira éventuellement pour restituer les résultats sur une base locale.

Quand publierez-vous la synthèse des contributions ?

Le grand débat national s’achève le 15 mars. On aura traité l’intégralité des réponses très vite après cette date. Nous avons d’ailleurs commencé à travailler depuis plusieurs jours, même s’il m’est impossible de vous indiquer les premières tendances. Les résultats prendront sans doute la forme de plusieurs rapports. Mais nous aurons présenté des données partielles au gouvernement avant la fin de la consultation.

Allez-vous ouvrir vos données au public ?

Notre intention est de travailler en «open data», c’est-à-dire que tout le monde puisse examiner notre code et notre méthodologie. Nous sommes favorables à ces pratiques depuis longtemps : notre institut a été le premier à rendre publics les redressements de ses intentions de vote, lors des présidentielles de 2012 et de 2017.