Plus de 500 bénévoles ont annoté des propositions faites dans le cadre du grand débat national, sur une plateforme citoyenne et collaborative. Le collectif qui l'a créée a pour ambition de classer les réponses des Français avec une plus grande transparence.

"Pour quelle(s) politique(s) publique(s) ou pour quels domaines d'action publique seriez-vous prêts à payer plus d'impôts ? - Aucune, on paye déjà trop sans résultats depuis quarante ans." Voici un exemple de question posée sur le site du grand débat national et de réponse saisie par un contributeur. Ces contributions apparaissent ainsi, aléatoirement, sur la page d'accueil du site intitulé "grande annotation". Depuis début février, un petit collectif de citoyens œuvre derrière cette plateforme d'annotation collective. Objectif ? Proposer à ceux qui le veulent d'aider à classer les contributions au grand débat pour présenter d'autres conclusions que celles du gouvernement.

A la fin du mois d'avril, une synthèse officielle doit être présentée au gouvernement par OpinionWay, l'institut de sondage et d'études chargé de traiter les contributions en ligne au grand débat national. Le prestataire a délégué l'analyse des questions ouvertes, c'est-à-dire celles pour lesquelles l'internaute doit développer une réponse, à Qwam. Cette société spécialisée dans les données textuelles avait répondu aux questions de franceinfo et expliqué ses méthodes dans cet article.

Une "phase humaine" indispensable

Derrière cette "grande annotation" se cachent des "data scientists" – spécialistes de l'analyse de données – chevronnés, des développeurs, des chercheurs, des experts en politique publique et des designers. Ils se sont intéressés aux contributions, librement téléchargeables, postées sur la plateforme officielle du grand débat.

C'est en parcourant ces premiers "jeux" de données qu'une membre du collectif citoyen, qui souhaite rester anonyme, a commencé à se questionner sur la méthode employée par le prestataire choisi par le gouvernement : "J'ai eu le sentiment que les méthodes d'intelligence artificielle et de 'natural langage' dans les applications que je vois dans le cadre de mon métier ne parviendraient pas forcément à traiter l'intégralité des contributions", explique-t-elle.

La méthode utilisée par Qwam repose en effet sur un outil d'intelligence artificielle, qui "scrolle" les contributions au grand débat, à la recherche de mots pré-identifiés. L'outil les répartit ensuite dans des catégories, selon un modèle de classification qui n'a pas été précisé. Pour la conceptrice de la plateforme collaborative, cette méthode revient à réduire les contributions des citoyens "à des mots" et à ne pas prendre en compte "l'intégralité du message." Elle ajoute que les premières contributions qu'elle a lues étaient teintées d'ironie, "très second degré, pince-sans-rire", ce qu'une intelligence artificielle interprète souvent avec erreur. C'est aussi le cas pour des mots ou des tournures de phrase alambiqués, des réponses qui ne correspondent pas à la question posée... Lors de notre visite de ses locaux, le responsable de la société Qwam avait assuré qu'une "phase humaine" de validation venait corriger les erreurs d'interprétation.

De ce constat est née l'idée d'une plateforme collective, où des citoyens viendraient lire et participer à la catégorisation des contributions. Concrètement, une fois téléchargées sur le site officiel du grand débat, les réponses sont nettoyées et mises en ligne par la petite quinzaine de personnes qui a lancé le site. Ces contributions apparaissent ensuite de manière aléatoire sur la page d'accueil de la plateforme. Les internautes volontaires sont ainsi invités à les regrouper par thèmes.

Une "triple annotation" pour des contributions "de qualité"

A la différence de Qwam, qui attribue davantage de poids aux thèmes qui reviennent le plus souvent dans les participations, le collectif "la grande annotation" essaie, lui, de faire remonter des "contributions de qualité". "On est convaincus que les gens qui ont pris le temps d'écrire ont envie d'être lus, on assure cette lecture", clame le collectif.

Avant de les catégoriser, les bénévoles ont d'abord "énormément" lu les différentes contributions. Cela leur a permis de dégager une quinzaine de thèmes. Au total, depuis février, ce sont plus de 500 citoyens qui ont participé à l'annotation de plus de 100 000 réponses. Et chaque contribution est soumise à une "triple annotation", pour s'assurer que les thèmes font consensus. Car il arrive ainsi que des thèmes attribués à la même contribution ne soient pas les mêmes, d'un annotateur à l'autre : "On constate qu'il y a des questions pour lesquelles les personnes (...) ne sont pas d'accord. Si eux ne sont pas d'accord, comment l'intelligence artificielle peut trancher ?" observe la membre de l'équipe.

Pour davantage de transparence

Par ailleurs, l'équipe du site craint que le prestataire choisi par le gouvernement rende une synthèse parcellaire. Selon ses membres, les résultats de cette synthèse pourraient être orientés en fonction des quatre grands thèmes définis au départ par le gouvernement (la transition écologique, la fiscalité et les dépenses publiques, l'organisation de l'Etat et des services publics et la démocratie et la citoyenneté), sans être totalement fidèles aux opinions des Français.

Interrogé par franceinfo, le directeur général de Qwam expliquait que ses équipes utilisent une catégorisation plus fouillée que ces quatre grands thèmes : "ll y aura entre 10 et 25 sous-catégories par question", assure Christian Langevin. "Nous classons des suggestions ou des thèmes, et OpinionWay synthétisera".

Mais les bénévoles ne sont pas convaincus. "Le gouvernement va sûrement faire une synthèse sur les thèmes qui l'intéressent et on est convaincus que la société civile au sens large ne sera pas sur les mêmes points d'entrée, explique la conceptrice du site. On peut avoir envie de s'intéresser à d'autres thèmes par d'autres d'angles" que ceux ciblés dans le questionnaire de départ. Le collectif dénonce aussi un manque de transparence, précisément dans un moment de consultation démocratique des citoyens. Ses membres appellent ainsi le gouvernement à rendre public le système de classification choisi. En attendant, ils mettent les bouchées doubles pour pouvoir, eux aussi, publier des premiers résultats rapidement.