C’est une petite phrase qui a fait ricaner, le 14 juillet, lors de la classique interview du président, en direct sur France 2 et TF1. François Hollande a souhaité à ses interlocuteurs Claire Chazal et David Pujadas de connaître, un jour, « des présidents aussi audacieux » que lui.

Trait d’esprit ? Ironie ? Ou assurance maladroite ? Quoi qu’il en soit, le président de la République a prêté le flanc aux moqueries sur Twitter. Reine des saillies se voulant drôlatiques, Nadine Morano a par exemple tweeté, le 15 juillet au matin (il lui a fallu une longue réflexion nocturne) :

Grâce à moi, depuis que je suis President, la France compte 1,3 million de chômeurs de plus. #hollandelaudacieux — Nadine Morano (@nadine__morano) July 15, 2015

Dans ce post en 112 caractères, Nadine Morano manie l’ironie. Notre cerveau, à nous, humains ayant déjà entendu l’ancienne ministre dans une émission sérieuse à la TV ou drôle sur Internet, n’a même pas besoin de cogiter pour détecter le caractère ironique de sa remarque.



La marionnette de Nadine Morano dans une parodie de « Lucy » de Luc Besson - Les Guignols de l’info/Canal+

Un raisonnement binaire suffit : Nadine Morano n’aime pas François Hollande car Nadine Morano aime Nicolas Sarkozy, alors Nadine Morano ne parle pas en bien de François Hollande car Nadine Morano parle en bien de Nicolas Sarkozy (on n’est pas loin du syllogisme).

Ainsi, nous, les humains, déduisons facilement que le tweet de Nadine Morano ne véhicule pas une « image positive » de François Hollande. Au contraire. L’image délivrée aux 134 339 followers de la députée européenne, membre du parti Les républicains, s’inscrit dans le registre « négatif ».

Twitter, une place de sondés

« Image positive », « image négative »… Aucune importance ? Pour vous peut-être, mais pas pour les équipes de campagne des politiques, les agences marketing ou de « social media ». Pour elles, c’est carrément crucial.

Les espaces de discussions, comme les réseaux sociaux Twitter et Facebook, les commentaires ou les forums, leur permettent de prendre le pouls des internautes, et en extrapolant celui de l’opinion publique. Ce n’est pas tant Nadine Morano qui les intéresse, mais les utilisateurs de Twitter dans leur ensemble (comme le dit cette magnifique phrase issue du film « Cloud Atlas » des Wachowski : « Mais qu’est-ce qu’un océan sinon une multitude de gouttes ? »).

Interrogé par Rue89, Bruno Jeanbart, directeur général adjoint de l’institut de sondages OpinionWay, explique l’intérêt d’ausculter l’Internet : la réactivité.

« Prenons le cas d’une interview d’un homme politique à la télévision, en course pour la présidentielle. Sur Twitter, on peut détecter les moments où le candidat va apparaître comme plus ou moins convaincant. Selon les sujets évoqués au cours de l’entretien, on analyse en temps réel les réactions des internautes sur les réseaux sociaux. Ça change d’une enquête d’opinion classique qui nécessite beaucoup plus de temps pour être réalisée. »

Et sur les réseaux sociaux, inutile de poser des questions aux « sondés ». Il suffit juste de classer, sur des sujets déterminés, leurs réactions, « positives », « négatives » ou « neutres ». C’est là qu’interviennent ce qu’on appelle les « algorithmes de sentiment ».

La couleur des sentiments

Pour comprendre, revenons-en à l’entretien télévisé du 14 juillet prononcé par notre audacieux président devant 6,5 millions de téléspectateurs. Une application, publiée sur la toile par OpinionLab, branche d’OpinionWay, analyse les réactions sur Twitter.

Sa lecture est assez simple. Elle comptabilise le nombre de tweets « évoquant » François Hollande (le compteur se remet à zéro tous les jours) et les classe pour en tirer un pourcentage de réactions « positives », « négatives » ou « neutres ». Par exemple, à la rédaction de cet article (le 17 juillet au soir), il y a eu 2 433 tweets sur François Hollande, 21% en termes positifs, 53% en négatif et les 26% restants en neutre.



Capture d’écran du site d’OpinionLab

Le pourcentage de neutres est important. Bruno Jeanbart :

« Sur Twitter, beaucoup de personnes reprennent, entre guillemets, des phrases prononcées par la personne interviewée. Ça alimente le pourcentage de “neutres”. »

Derrière cette application, pas de stagiaires ou autres petites mains de l’Internet, lisant chaque tweet où le mot « François Hollande » apparait. Mais des algorithmes capables de déterminer si un post s’avère « positif », « négatif », ou « neutre ».

Si je tweete « Merci Monsieur Hollande pour ce passionnant discours ! », l’algorithme devrait l’interpréter comme un message positif (de par la présence des mots à la consonance « positive », comme « merci » et « passionnant ». Le tweet « François Hollande est vraiment un crétin ! » apparaîtra, en revanche, comme « négatif » (le mot « crétin »).

Clémence Roux, de la société Vigiglobe, spécialisée dans le « social media analytics », a collaboré avec OpinionWay et Bruno Jeanbart. Elle raconte comment ça se passe dans sa boîte :

« On crée des algorithmes pour chaque secteur, le sport, la finance, la politique… Cela permet d’avoir le vocabulaire associé. Par exemple, dire “match nul” dans le registre sportif ne veut pas dire que le match était nul, simplement que les équipes ont fini à égalité. On y distingue aussi les langues. Mettre trois points de suspension en français n’a pas la même signification qu’en anglais. »

Sarcasme, ironies... le casse-tête

Mais il existe un truc qui fait buguer la plupart des algorithmes. Un truc tellement humain : l’ironie.

Par exemple, la phrase « Merci Monsieur Hollande pour ce passionnant discours », pourrait très bien tenir de l’ironie, du sarcasme. Tout dépend de l’auteur, du contexte, c’est subtil. Or, si l’algorithme répertorie ce tweet comme une réaction « positive », il a tout faux.

Aux Etats-Unis, en pleine campagne des primaires, on se penche sur ce vrai casse-tête, comme l’explique un article de l’agence Reuters, intitulé « Elections présidentielles : le sarcasme pose un problème aux algorithmes ».

Les grands acteurs américains de l’étude d’opinion préparent leurs technologies pour les prochaines élections présidentielles, prévues en 2016. Michael Meyers est l’un d’eux. Employé dans une boîte de « consulting » américaine, il témoigne auprès de Reuters :

« [Le sarcasme, l’ironie ou les moqueries, ndlr] constituent le plus grand obstacle à surmonter, pour comprendre les vrais sentiments des internautes sur les réseaux sociaux. »

Les « Oui c’est ça » (« Yeah right ») et autres « Merci Obama » par exemple. Alors, pour surmonter cet obstacle, ils créent des algorithmes capables d’apprendre de leurs analyses passées (c’est ce qu’on appelle du « Machine Learning »), et rentrent tout un tas de règles précises. Pour essayer de les imaginer, prenons l’exemple du tweet de Nadine Morano, daté du 15 juillet. Elle écrivait :

« Grâce à moi, depuis que je suis Président, la France compte 1,3 million de chômeurs de plus. #Hollandelaudacieux »

Comment les machines peuvent-elles détecter que ce tweet est ironique, donc négatif ?

Premièrement, comme les êtres humains, elles ont l’indice de la personne. Nadine Morano appartient à un parti de droite opposé au président. En rentrant cette information dans la base de données, on dit à l’algorithme qu’il y a très très très peu de chances qu’elle écrive une phrase encensant François Hollande.

Deuxièmement, la sémantique : la présence des mots « chômeurs » et « plus » (c’est d’ailleurs l’emploi du mot « grâce », plutôt positif, qui produit l’ironie ).

Enfin, dernier indice, le hashtag, #Hollandelaudacieux. En rapport avec l’actualité, ceux qui l’utilisent ont tendance à critiquer François Hollande.

Selon Clémence Roux, le tweet de Nadine Morano a « bien été enregistré » comme négatif par son son algorithme. Il faut cependant la croire sur parole car elle ne montre aucune preuve.

Un linguiste, à l’ancienne

La société française Spotter réussirait à détecter les sarcasmes dans 80% des cas, selon un article publié en 2013 par la BBC. Mais on comprend, au téléphone avec la chargée de communication de Spotter, que l’un de ses employés s’était emballé face à la presse :

« Détecter le sarcasme à ce taux-là est quasiment impossible. Chaque jour, il y a de nouvelles règles, de nouvelles abréviations, de nouveaux acronymes, de nouveaux smileys qui faussent les résultats. »

Chez Spotter, ils font ça à l’ancienne. Pas d’algorithme du type « machine learning », mais un linguiste, issu du W3C (le World Wide Web Consortium), qui écrit des règles. La chargée de com’ :

« Je sais qu’il a dû par exemple ajouter le mot “Lol” à sa base de données ».

Il était temps, le dictionnaire français l’ayant intégré en juin 2012. Elle ajoute :

« L’autre problème, avec Twitter, c’est qu’il y a très peu de caractères, 140 tout au plus. C’est beaucoup plus facile de détecter l’opinion globale d’un long corpus de texte, de plusieurs pages, que d’un seul tweet. »

Christophe Van Gysel fait un PhD (une thèse) à l’université d’Amsterdam, entre philosophie et informatique. Son sujet d’étude : détecter les internautes attachés à un parti politique par les informations qu’ils laissent sur la Toile. Même si ce n’est pas sa spécialité, il connaît les algorithmes de sentiment. Et pour lui :