Google Trends permet de mesurer l’intensité des recherches sur un ou plusieurs termes saisis par des internautes dans les moteurs de recherche de Google, Google News ou YouTube. Google ne diffuse pas les valeurs brutes des volumes de requêtes, mais Google Trends permet de représenter dans le temps l’évolution de l‘intérêt pour un mot-clé. L’indice 100 représente le volume maximal des recherches sur un sujet au cours d’une période et dans une zone géographique. Les données mises à disposition de Paris Match par le Google News Lab France sont calculées à partir d’un échantillon représentatif de l’ensemble des recherches effectuées en France.

«Le Poids des mots» est adossé aux travaux de Damon Mayaffre («Le discours présidentiel sous la Ve République. Chirac, Mitterrand, Giscard, Pompidou, de Gaulle» éd. Presses de Sciences po, 2012) et influencé par ceux d’Agnès Callu («Le Mai 68 des historiens, entre identités narratives et histoire orale», Presses universitaires du Septentrion, 2010).

Par ailleurs, d’autres chercheurs apportent leur contribution au «Poids des mots», notamment Marion Ballet , auteure d’une thèse sur l’appel aux émotions dans les campagnes présidentielles.

Les membres ont contribué à l’élaboration de la méthodologie utilisée et fait part de leurs réflexions sur l’ensemble du projet. Ils écrivent des articles en rapport avec leurs thèmes de spécialité. Leurs contributions s’appuient notamment sur l’analyse des discours, que nous avons mettons en intégralité à leur disposition.

Pour «Le Poids des mots», Paris Match a constitué un conseil scientifique. Il est composé de six membres, tous universitaires : Agnès Callu, chercheur associé permanent à l’Institut d’histoire du temps présent (IHTP); Bénédicte Durand, doyenne du collège universitaire de Sciences po; Patrick Eveno, professeur émérite à Paris I Panthéon Sorbonne; Romain Huret, directeur du Centre d’études nord-américaines de l’Ecole des hautes études en sciences sociales (EHESS); Marc Lazar, directeur du Centre d’histoire de Sciences po; Damon Mayaffre, chercheur au CNRS, université de Nice Sophia-Antipolis, et responsable scientifique du projet de logométrie et de deep-learning Mesure du discours . Durant la campagne présidentielle, Cécile Alduy, professeur de lettres françaises à l’université de Stanford (Etats-Unis), a également participé au conseil scientifique.

La méthodologie

Collecte des textes

Une grande partie des interventions repérées dans le cadre de notre veille ont été intégrées dans le corpus de discours. La diversité des sources et des conditions d’énonciation a été un des critères de sélection. Les sources plus institutionnelles (les communiqués de presse de l'Elysée) ne sont pas prises en compte dans la sélection. Les sources orales sont dominantes puisque les interviews dans la presse écrite sont bien moins fréquentes que les autres types de prises de parole. Durant la campagne présidentielle, la méthode de visualisation retenue, qui utilise le nombre d’occurrences brutes (fréquence absolue), nous obligeait à nous baser sur des volumes de mots par candidats comparables (une marge de 5% est prise en compte), afin que les comparaisons demeurent pertinentes. Le problème ne se pose plus avec l'analyse de la seule parole présidentielle.

La fréquence relative (nombre d’occurrences pour 1000 mots), qui permet de lisser les différences de volume à l’intérieur du corpus, est préférée par la plupart des chercheurs. Cette fréquence est d’ailleurs accessible pour chaque mot dans le graphique du «Poids des mots». La pondération entre les types de sources – meetings, conférences de presse, interventions à la télévision ou la radio, interviews dans la presse écrite- n’a pas été possible, notamment en raison des spécificités de cette campagne, qui a vu l’un des candidats (François Fillon) raréfier ses interventions médiatiques pendant plusieurs semaines, préférant s’adresser en priorité à ses militants dans des réunions publiques. La liste des interventions actuellement présentes dans la base de donnée est disponible ici.

Exclusions

La liste des exclusions (c’est-à-dire les mots-outils qui ne sont pas comptabilisés par le moteur de recherche) a été constituée à partir des listes fournies par le linguiste Etienne Brunet, fondateur du laboratoire «Bases, Corpus, Langage» (CNRS-Université de Nice Sophia-Antipolis) et concepteur du logiciel Hyperbase, et par Cécile Alduy, professeur à l’université de Stanford (Etats-Unis). Elle est disponible ici.

La fréquence relative, affichée dans les infobulles associées à chaque mot en nombre d’occurrences pour 1000 mots, est calculée sur la base de tous les mots qui n’ont pas été exclus selon cette méthode.

Expressions

Les locutions de plus d’un mot (y compris les mots composés) sont en partie prises en compte dans une «liste d’expressions» constituée par nos soins. Elle a été mise au point à partir des expressions présentes dans les prises de parole des candidats (par exemple : «président de la République» ou «En marche!»).

Cette liste comprend par ailleurs des noms propres, des noms de communes françaises, de chefs d’Etat, des chefs de partis politiques, d’anciens présidents et Premiers ministres français.

Toute expression présente dans cette liste et dans le corpus peut être recherchée par nos lecteurs.

Les mots affichés par défaut dans la datavisualisation principale sur la page du «Poids des mots» sont ceux qui comptent le plus grand nombre d’occurrences pour la période comprise entre le 30 janvier et la date de la dernière mise à jour de la base de données. Le classement peut donc être amené à évoluer au fur et à mesure que le corpus de discours est complété.

La transcription des textes

Les sources sonores et vidéo ont été transcrites en textes à l’aide d’une solution payante de «speech-to-text» (reconnaissance vocale) développée par Speechmatics. Ce système utilise le «deep learning» (apprentissage profond) : les machines se familiarisent avec les langues par elles-mêmes. «Nous fournissons environ cinquante heures de données sonores et une retranscription fidèle à l’écrit de ce qui a été prononcé ; c’est ainsi que les ordinateurs apprennent la langue», explique Luke Berry, représentant de l’entreprise britannique, basée à Cambridge. Pour intégrer une nouvelle langue, les ingénieurs de Speechmatics utilisent régulièrement les débats enregistrés du Parlement européen, qui sont toujours fidèlement traduits par des interprètes et retranscrits en textes dans toutes les langues de l’Union européenne. Cette méthode leur permet d’intégrer régulièrement de nouvelles langues. «Notre système vient d’apprendre le japonais, juste avant Noël 2016. Nous possédons probablement la meilleure solution de reconnaissance de la voix en japonais et aucun de nous ne parle cette langue», affirme Luke Berry.

Speechmatics a été créé par un professeur en sciences informatiques de l’université de Cambridge, Tony Robinson. «Cela fait vingt-cinq ans qu’il étudie les techniques de reconnaissance vocale. Il a été parmi les premiers à s’y plonger dans le détail. Il a travaillé sur le “machine learning“ et les réseaux neuronaux», précise Luke Berry.

La fiabilité des retranscriptions de Speechmatics est excellente lorsque les conditions d’énonciation sont optimales : bonne qualité de captation sonore, absence d’interruption et lenteur de l’élocution, comme lors d’un meeting. Pour d’autres types d’échanges – débats, interviews -, le repérage des différents interlocuteurs est parfois fastidieux. Dans tous les cas, chaque texte issu de Speechmatics a été vérifié par nos soins pour éviter tout contresens, supprimer les fautes de conjugaison et d’orthographe, notamment sur les noms propres. Nous avons également exclu les questions des journalistes – ou des «témoins» invités sur les plateaux de télévision et dans les émissions de radio ou des internautes dans le cas d’interventions sur les réseaux sociaux - en les balisant systématiquement, de sorte qu’elles n’ont pas été prises en compte dans l’analyse lexicométrique.

La méthode de transcription des textes, pour beaucoup issus de discours oraux, comporte une forte dimension humaine. Nous ne pouvons donc nous prémunir totalement de certaines fautes de frappe.

Limites

«Le Poids des mots» propose un comptage strict des occurrences, sans avoir recours au dégroupement ni à une forme de lemmatisation. Par conséquent, il est impossible de procéder à une désambiguïsation des homographes, qui représentent, selon les chercheurs, au moins 15% des textes. L’absence de lemmatisation implique notamment qu’il y a une occurrence par mot, entendu comme une chaîne de caractères. Ainsi «politique» et «politiques» forment deux occurrences distinctes et «la» (le déterminant) et «la» (la note de musique) représentent la même occurrence.

Il s’agit, dans la version accessible par le public, de lexicométrie, et non de lexicologie.

La simplicité de la représentation graphique a été privilégiée : un mot, une bulle.

Pour des raisons techniques et juridiques, l’ensemble des contenus des discours n’a pas été affiché. Si le lecteur veut revenir précisément au contexte de l’emploi de chaque mot, les sources mentionnées dans la partie du graphique à barres permettent de s’y référer ultérieurement.

Enfin, le choix d’exclure plus de 700 mots facilite la lecture de la datavisualisation et évite la «pollution» par des mots jugés moins pertinents - ce choix est d’ailleurs fait par les chercheurs pour leurs travaux. En revanche, cela peut avoir une conséquence sur la finesse de l’analyse (évoquer «une liberté» ou «la liberté» n’a pas le même sens politique).

Ces limites méthodologiques sont en partie surmontées dans le cas des articles publiés pour éclairer «Le Poids des mots». Ils ont été écrits à partir de la base de données des discours (pour lesquels des outils spécifiques ont été développés), et non de la seule interface accessible en ligne.