Dans le grand débat sur les fake News et autres biais racistes ou antisémites proposés dans les résultats des moteurs de recherche, il y a un paramètre que je n’ai pas encore traité et qui est, pourtant, presque le plus évident. Il s’agit de la manière de poser la question.

Dans le dernier exemple qui défraya la chronique ( « l’holocauste a-t-il vraiment existé ? »), le fait que Google propose des sites négationnistes dans ses résultats de recherche est évidemment « cohérent » au regard de la question posée : les sites négationnistes sont en effet les seuls à poser ce genre de questions.

Est-ce que Google est raciste ?

Si l’on poursuit cette logique, il est également logique que Google (ou d’autres moteurs) affichent pléthore de résultats plus racistes les uns que les autres face à des requêtes comme « Est-ce que les noirs puent ? » ou « est-ce que les juifs sont radins ? ». Je ne parle pas ici de la fonctionnalité d’auto-complétion (le fait que Google « propose » de compléter un début de phrase comme « est-ce que les noirs » par « puent »), autre problème que j’avais déjà traité par ici.

Pour le dire plus brièvement, il est « naturel » – d’un point de vue algorithmique – que des questions reposant sur des postulats racistes ou négationnistes renvoient comme résultats prioritaires des sites racistes ou négationnistes.

Making of Mathieu Deslandes Ce texte a d'abord été publié sur l'excellent blog Affordance.info, tenu par le maître de conférences en sciences de l'information et de la communication Olivier Ertzscheid. Il nous a aimablement autorisé à le reproduire sur Rue89.

Cela ne veut pas dire que c’est légitime, cela ne veut pas dire que la responsabilité de Google n’est pas engagée, cela veut juste dire que l’algorithme de Google n’a pas pour objet de faire de la médiation culturelle ou de l’éducation à la différence et à la tolérance.

Quiconque a une vie sociale un tant soit peu connectée aura nécessairement vécu plein de fois la scène où, dans une situation familiale ou professionnelle quelconque, quelqu’un pose une question à laquelle aucune des personnes présentes n’a la réponse, et où quelqu’un va donc aller poser cette question... à Google.

« Est-ce que tu viens pour les vacances ? »

Le plus souvent le moteur fait le job. Il s’agit de questions « factuelles » sur des dates, des personnalités, des faits, et le moteur nous affiche ou nous renvoie en général sur la page Wikipédia qui contient la réponse. Cet « habitus » social a eu, ces dernières années, une influence considérable sur notre manière d’interroger un moteur de recherche : nous ne nous contentons plus de lâcher 2 ou 3 mots-clés mais nous interrogeons le moteur « en langage naturel », nous lui posons les mêmes questions que nous poserions à un individu lambda dans un cadre conversationnel.

Deuxième effet Kiss Cool, la nature du processus de requêtage changeant (des phrases interrogatives complètes et parfois complexes plutôt qu’un simple alignement de mots-clés) cela permet également à l’algorithme du moteur de « s’affiner » et achève de transformer un moteur de recherche en moteur de réponses.

En plus de disposer d’un index inversé lui permettant d’associer des mots-clés de requêtes à des pages web, le moteur finit par disposer d’un index inversé de questions « préétablies » et des pages web de réponses correspondantes.

Ainsi les locutions « est-ce que » ou « quel est » se voient déjà associées à des inventaires à la Prévert de questions pré-formatées aux réponses pré-existantes.



Un inventaire à la Prévert

Ainsi, lors de la formulation de questions aux postulats explicitement ou implicitement racistes, il est somme toute presque « normal » que la coloration générale des résultats les plus fréquemment associés soit également raciste. Même si, je le répète une nouvelle fois, cela n’exonère en rien Google de sa responsabilité.

Quelles requêtes soumettons-nous à Google ?

On a l’habitude de désigner sous le terme de « requête » des expressions ou des locutions fort différentes. Dans un article qui continue de faire référence, « A taxonomy of web searches » [PDF], Andrei Broder distinguait en 2002 trois grandes catégories de requêtes en fonction du « besoin derrière la question » :

les requêtes informationnelles désignent celles où l’utilisateur n’aura pas d’autre interaction que de lire les pages proposées. Pour ce type de requête, l’utilisateur souhaite donc que le moteur de recherche lui propose un ensemble de liens pertinents qui vont lui permettre de se forger une opinion de manière synthétique ;

les requêtes navigationnelles désignent la recherche d’une page ou d’un site en particulier. Par exemple se servir de Google pour trouver une page Wikipédia répondant à une question que l’on se pose. L’utilisateur attend et espère une réponse unique ;

enfin les requêtes transactionnelles sont, comme leur nom l’indique, toutes celles liées à un achat en ligne, et particulièrement sensibles à la géolocalisation, à l’historique de recherche et aux diverses ingénieries de la recommandation.

Quatorze ans après l’article de Broder, ces 3 types de requêtes sont toujours un marqueur fort de nos usages en ligne mais là où il y a 14 ans elles se déclinaient toutes sous la forme de juxtaposition de mots-clés, elles sont aujourd’hui toutes le plus souvent formulées « en langage naturel » (cf l’habitus dont je parlais plus haut).

La question « L’holocauste a-t-il vraiment existé » pourrait a priori sembler une requête informationnelle : celui qui la pose pourrait chercher à se faire une opinion sur ce sujet en interrogeant des sources présentant des points de vue différents.

Mais il ne faut pas oublier qu’à chaque fois que quelqu’un pose ce genre de question à Google, Google se souvient des liens sur lesquels ceux qui posent cette question ont le plus cliqué, ceux sur lesquels ils ont passé le plus de temps, et qu’en fonction de ces critères, mais aussi de notre historique de recherche et de tout plein d’autres paramètres, lorsque cette question sera posée une nouvelle fois, les résultats présentés évolueront en fonction de cet ensemble de critères.

Que demandent vraiment les gens ?

Les gens qui posent à Google la question « L’holocauste a-t-il vraiment existé » posent en fait une requête navigationnelle : ils sont avant tout à la recherche d’une confirmation de ce qu’ils sont déjà prêts à croire ou à accepter. Ainsi non seulement Google va leur proposer des résultats à la coloration raciste ou antisémite (pour s’accorder au postulat contenu dans la formulation de la question posée, postulat qui serait radicalement différent si l’on demandait, par exemple, « D’où viennent les théories négationnistes ? »), et ces résultats à la coloration raciste ou antisémite vont en plus, « mécaniquement » être chaque fois davantage surpondérés puisqu’ils sont aussi ceux les plus cliqués et indiquent donc à Google qu’ils sont ceux qui répondent le mieux à la requête.

Il y aurait un livre entier à écrire sur les résultats, variables, offerts en réponse à ces trois questions ainsi que sur les biais algorithmiques, linguistiques et cognitifs qu’ils véhiculent, traduisent et trahissent :

L’holocauste a-t-il vraiment existé ?

D’où viennent les théories négationnistes ?

Pourquoi nier l’holocauste ?

Dans le premier cas on trouvera majoritairement des sites négationnistes et antisémites. Dans le deuxième cas la tonalité des résultats sera plutôt celle de la vérité historique, et dans le troisième cas c’est l’aspect législatif qui sera mis en avant (pays et législation dans lesquelles il est autorisé ou interdit de nier l’holocauste).

La composition des résultats présentés donnerait elle aussi de la matière pour un ouvrage entier : on y trouve en effet à la fois des sites « idéologiques », des pages Wikipédia, des messages postés sur des forums et, mais à la marge, des articles de presse sur ces sujets. Soit 3 principaux niveaux « d’autorité » qui, sur des questions sociétales et historiques importantes mêlent dans des proportions variables le prosélytisme idéologique, la « vérifiabilité » encyclopédique et l’expression populaire des forums.

Combien de mots clés ?

Ces trois espaces de discours sont tous, chacun à leur niveau, légitimes dans l’écosystème de Google : ils rendent compte des logiques de « pertinence » que le moteur affectionne pour construire sa propre heuristique de la preuve, pour construire la « valeur de preuve » que constitue souvent une simple page de résultats : à la fois le discours « dynamique » des forums, le gage d’autorité de l’encyclopédie de référence, et enfin les « points de vue » les plus saillants, c’est à dire les plus accédés, les plus polémiques, les plus « populaires » et ceux qui entretiennent le mieux le modèle économique du moteur de recherche.

Au tout début de l’ère Google, c’est à dire quand celui-ci commença à occuper la place centrale qu’il occupe aujourd’hui (au début des années 2000 donc), les spécialistes du référencement regardaient de près la manière dont nous formulions nos « requêtes ».

La moyenne des mots-clés saisis par les internautes oscillait entre 1,5 et 2,3 (mots-clés). Si l’on voulait rapidement trouver des résultats pertinents, l’intérêt pour les éducateurs et les enseignants était d’expliquer comment « allonger » les requêtes avec des mots-clés pour permettre à l’algorithme du moteur de mieux « cibler » les résultats qu’il allait nous proposer.

Dans l’une des dernières études sur cette épineuse question du nombre de vocables composant les questions posées aux moteurs, la moyenne de 4 semblait franchie circa 2012.

« Et si je tapais “Poissons rouges” ? »

Il y avait, à cette époque également, un débat autour de l’interrogation des outils de recherche « en langage naturel ». En fait ce débat là avait commencé avec le Minitel. Oui oui, le Minitel.



« Tapez votre question »

Dans les années 80. Au début de l’ère Minitel il n’était pas possible d’interagir autrement qu’en suivant une série de choix, de listes déroulantes qui nous étaient proposées pour nous permettre d’accéder aux différentes informations.

Puis progressivement on vit apparaître la question du « langage naturel », c’est à dire l’idée qu’il serait possible d’interagir avec le Minitel non plus simplement en suivant des choix préétablis mais en « posant des questions ». Alors bien sûr, nous étions dans les années 1990-2000 et le « langage naturel » version Minitel à l’époque, c’était surtout ça :



Nos amies les bêtes

Vous vous souvenez du Minitel ?

Il y avait la célèbre « flèche du 11 », c’était la folie dans l’annuaire de France Télécom, mais bon on sentait bien qu’une petite révolution était en train de se préparer. Dès les débuts du Minitel, il était clair que quelque chose allait changer dans la manière de s’adresser à un ordinateur :

« En effet, comme le rappellent André Hatala et Jean-Claude Marcovici en 1983, il n’a jamais été prévu autre chose qu’une notice d’utilisation succincte pour l’utilisateur, la prise en main devant être immédiate : Plus sérieusement, pourquoi le dialogue est-il un élément important pour l’annuaire électronique ? Jusqu’à présent, excepté un usage ludique, l’informatique s’est développée principalement en milieu professionnel. L’utilisation des outils informatiques suppose bien souvent une formation, d’une durée variable […]. La distribution du Minitel sera seulement accompagnée d’un mode d’emploi assez bref. Dans cette situation, il est absolument nécessaire d’avoir un service d’accès aisé pour tous (1983). »



La folie

En 1992 (6 ans avant la naissance de Google), voilà ce que l’on pouvait lire dans un article des Echos intitulé « Les pages jaunes bientôt accessibles en langage naturel » :

« Outre la simplification de l’interrogation, le système permettra en effet de poser des questions plus affinées par l’introduction possible de précisions dans la définition de l’activité d’un professionnel : par exemple “restaurant chinois” et non seulement “restaurant”. Au total, le réseau sémantique utilisé ne comprendra pas moins de 20 000 entrées. »

Eh oui. Le « langage naturel » c’était la possibilité de taper un mot-clé parmi les 20 000 disponibles. « Restaurant chinois » et non seulement « restaurant ». Vertigineux. La préhistoire certes, mais vertigineux à l’époque.

Et quand vraiment on avait envie de dialoguer en langage totalement naturel et désinhibé, y’avait 3615 ULLA, NATACHA et toutes leurs copines avec des noms en A.

« Quels sont les contenus les plus populaires ? »

En 2016, Google a 18 ans. C’est certes l’âge de la majorité mais c’est surtout la majorité d’un enfant thaumaturge et d’un enfant (faiseur de) roi(s). Qui n’a pas encore entièrement intégré la maxime selon laquelle « un grand pouvoir implique une grande responsabilité », ou qui lui préfère peut-être celle selon laquelle « le maintien d’un grand pouvoir économique implique une série de renoncements moraux ». C’est en tout cas quelqu’un à qui il ne faut pas poser certaines questions.

L’autre stratégie consiste peut-être à avoir en tête que, quelle que soit la question que nous posons à Google, elle sera toujours précédée d’une autre préposition antéposée à la formulation immuable : « Quels sont les contenus (pages / forums / tweets / vidéos) les plus populaires sur ... (ENTREZ ICI VOTRE QUESTION) ».

L’holocauste a-t-il vraiment existé ? devient « Quelles sont les contenus les plus populaires sur la négation de l’holocauste ? » Réponse logique : des sites néo-nazis / négationnistes.

D’où viennent les théories négationnistes ? devient « Quelles sont les contenus les plus populaires sur l’origine des théories négationnistes ? » Réponse logique : les pages Wikipédia sur le négationnisme et le révisionnisme.

Est-ce que les noirs puent ? devient « Quelles sont les contenus les plus populaires sur l’odeur corporelle des noirs ? » Réponse tout aussi logique : des blagues et des forums racistes.

Pourquoi nier l’holocauste ? devient « Quelles sont les contenus les plus populaires sur la raison du négationnisme ? » Réponse : des pages Wikipédia présentant les législations dans lesquelles le révisionnisme ou le négationnisme sont autorisés ou interdits.

Est-ce qu’on atterrit direct sur la fachosphère ?

Ce qui est compliqué lorsque nous posons une question à Google, c’est primo, d’intérioriser que nous avons déjà, dans la formulation même de cette question, une représentation mentale assez précise du type de réponse que nous voulons obtenir, et deuxio, de comprendre comment il comprendra, comment il interprètera notre question, comment il tiendra compte de cette représentation mentale pré-existante (biais cognitif) en l’agrémentant de ses propres biais algorithmiques.

Dans les exemples ci-dessus, le simple fait d’entrer dans la requête un mot appartenant au champ lexical direct de la négation va immédiatement « déclencher » chez le moteur la remontée de pages établissant la définition des termes négationnisme ou révisionnisme, pages provenant majoritairement de Wikipédia et donc atténuer considérablement la part de résultats à coloration raciste.

A l’inverse, une question ne contenant aucune occurrence de ce champ lexical (donc par exemple « l’holocauste a-t-il vraiment existé ») ne contient aucun élément sémantique qui permette à Google de remonter prioritairement des pages sur le révisionnisme ou le négationnisme mais au contraire une incitation à aller puiser dans les tréfonds de la fachosphère.

Là encore cette analyse ne serait pas complète si j’omettais de mentionner que la culture en général et l’acculturation aux outils numériques en particulier joue un rôle fondamental, et que ce rôle dispose d’une variable éducative et générationnelle déterminante.

Ainsi, un « enfant » ou un jeune adolescent qui n’est a priori ni raciste ni antisémite mais effectue des recherches sur l’holocauste sans avoir dans son champ ou dans son horizon lexical ou conceptuel les notions de « révisionnisme » ou de négationnisme » s’adressera à Google en utilisant les formulations qui ont le plus de chance de le conduire vers des sites révisionnistes ou négationnistes, ou à tout le moins de l’exposer à ces théories du doute et du complot.

« Pourquoi des gens ne croient pas aux chambres à gaz ? »

A titre parfaitement non-scientifique et tout aussi peu statistiquement significatif mais quand même, j’ai, durant ces vacances de Noel, monté l’institut du « Few Internet » (blague) et posé à des collégiens et à des lycéens de niveau seconde, et aussi quelques enfants en CM1-CM2 (dont mes propres enfants mais pas uniquement), la question suivante :

« Admettons que tu aies une recherche à faire sur la seconde guerre mondiale, les chambres à gaz et le fait que des gens disent qu’elles n’ont pas existé, quelle serait la question que tu poserais à Google ? »

Pas mal d’entre eux (surtout les lycéens) m’ont dit qu’ils « cherchaient le mot » (le mot « négationnisme » ou « révisionnisme » donc). Je les ai aussitôt interrompus en leur demandant précisément de ne pas chercher mais d’être le plus spontané possible. Devinez quelles sont alors les requêtes qui sont « spontanément » sorties :

« Chambre à gaz complot » « Chambre à gaz mensonge » « chambre à gaz vérité » « chambre à gaz fake ou réalité »

Il y avait aussi quelques variantes du genre : « Vérité sur les chambres à gaz ».

Les plus jeunes de ce panel (CM1-CM2) ont eux, systématiquement, formulé une question complète du type « Pourquoi des gens ne croient pas aux chambres à gaz. »

Est-il vraiment utile que je vous parle de la « coloration » des résultats que ces requêtes ramènent sur Google ? Sans exception on y trouve en bonne place, au dessus de la ligne de flottaison du navigateur, une majorité d’infos négationnistes et de sites complotistes.

Est-ce que les jeunes sont perdus ?

N’allez pas croire pour autant que j’en tire d’hâtives conclusions. Je sais que la plupart des jeunes composant ce panel absolument pas représentatif n’en auraient pas pour autant fini par adhérer aux théories négationnistes. Parce qu’ils auraient peut-être, grâce à un truc qui s’appelle l’éducation et la culture, fini par trouver les mots. Les bons mots.

Pas ceux que l’on emploie pour faire entrer le monde dans une page de résultats de recherche, non, les autres mots, ceux qui permettent de raconter le monde et qui sont là, juste derrière ou juste à côté de ces foutues pages de résultats pourtant si indispensables et dont il devient chaque jour toujours plus indispensable d’être capable de se passer, de traverser pour accéder à la seule réponse qui vaille : celle de la complexité du langage qu’aucun algorithme n’est capable de mettre en équations, mais que tous les algorithmes sont déjà, pour le meilleur ou pour le pire, parfaitement capables d’admirablement singer.

A l’inverse, s’obstiner à nier ce problème lexical serait tout aussi malhonnête intellectuellement. D’autant que d’autres ne se contentent pas de faire passer des tests sociologiques bricolés à leurs enfants, mais à plus de 7800 élèves du collège à l’université et parviennent aux mêmes résultats que les miens :

« La capacité de raisonnement des jeunes sur l’information en ligne peut être résumée en un seul mot : désolante. »

Alors attention hein, dans un cas comme dans l’autre pas de généralisation hâtive façon Alain Juppé sur le guéridon : les pratiques langagières, lexicales et informationnelles des « jeunes » sont fort heureusement bien plus diverses et complexes que le simple fait de ne pas savoir ce qu’est un guéridon ou d’avoir des difficultés à « sourcer » une information présentée sur un moteur de recherche. Il existe d’ailleurs deux excellents bouquins sur le sujet, celui de danah boyd, « C’est compliqué », et celui d’Anne Cordier, « Grandir connectés », tous deux chez un excellent éditeur.

Non, le problème vient au moins autant des habitus connectés des jeunes que des biais cognitifs et des ruses de la persuasion technologique qui sont le fondement des moteurs de recherche et des réseaux sociaux aujourd’hui les plus plébiscités. Et oui, c’est cette forme nouvelle d’agnotologie entretenue ou propagée par divers obscurs déterminismes algorithmiques qu’il faut étudier et combattre.

Est-ce qu’aucune question n’est naturelle ?

Et c’est ça, le seul vrai problème. Aucune question même formulée en langage naturel n’est vraiment naturelle car elle ne s’adresse pas à un individu mais à une somme d’instructions mathématiques construites selon un déterminisme algorithmique permettant de valoriser un régime médiatique de la popularité et le modèle économique qui l’accompagne.

Et c’est précisément parce qu’aucune question n’est naturelle qu’aucune question n’est sans réponse. Aucune question ne doit demeurer sans réponse. Rien de moins naturel que cela. Frédéric Kaplan avait raison. Le capitalisme linguistique est la grande maladie du siècle. Et le capital linguistique un trésor à défendre.

Se souvenir que personne n’a rien trouvé à redire quand, au début des années 2000, d’autres moteurs de recherche, bien avant Google, ont décidé de faire entrer le vocabulaire, tout le vocabulaire de toutes les langues, tout le patrimoine linguistique de l’humanité, sans exception, dans le domaine marchand.

Tous les débats que nous avons aujourd’hui sur ce sujet, toutes les analyses que nous tentons de proposer, toutes les questions qui restent sans réponse sont d’abord le résultat de ce grand schisme planétaire qui a vu le bien commun par excellence, celui que l’on pensait inexpropriable, basculer du côté de la spéculation et du « capital ».

« Il n’y aura plus que des réponses » confiait Marguerite Duras dans ce qui restera l’une des vidéos qui m’aura le plus marqué durant ces dix dernières années et que je m’étais amusé à vaguement « recontextualiser ».

Est-ce que ça va mal finir ?

Soit tout cela va mal finir pour nous (aka l’humanité dans son ensemble) et la troisième guerre nucléaire - qui sera aussi la dernière - va être déclenchée soit à cause d’un problème de maintenance d’un logiciel propriétaire obsolète, soit à cause d’un vieux qui aura tweeté trop vite, soit à cause d’un autre vieux qui aura mal compris un tweet.

Soit tout cela va mal finir pour Google. Parce que ces histoires d’holocauste qui n’a pas existé ou de noirs qui puent se multiplient depuis trop longtemps. Et parce que jamais depuis le temps qu’elles se multiplient Google n’a été en mesure de leur fournir une réponse satisfaisante permettant d’éviter qu’elles ne se reproduisent.

Parce qu’en bâtissant son empire sur la possibilité de donner un prix aux mots, Google a ouvert une boîte de Pandore qu’il sera bien incapable de refermer. Il aurait mieux valu qu’il s’en tienne à ce qu’écrivaient ses deux fondateurs en 1998 sur la publicité, ses dérives, son incompatibilité totale avec le fait même de chercher de l’information ou de donner accès à des connaissances. Donc à mon avis oui, Google, le moteur « généraliste » tel que nous le connaissons aujourd’hui en condamné à moyen terme.

Google et la religion algorithmique qu’il défend et incarne sont condamnés parce qu’ils connaissent déjà la réponse à la question de leur propre disparition. D’un point de vue philosophique, l’existence précède l’essence. Or Google a bâti son existence sur une essence qu’il a lui-même définie très méticuleusement et qui tient tout entière dans les conditions générales d’utilisation de sa régie publicitaire.

Est-ce que Google va disparaître ?

Or que croyez-vous que serait devenu le christianisme si le type sur la croix avait eu un smartphone (OK et aussi un clou en moins dans une main, dont acte) et qu’il avait tapé « Eli, Eli, lama sabachthani » sur Google ... et s’il avait obtenu une réponse ?



La question ultime

Et lorsque l’on clique sur « est-ce que Google va disparaître ? », la réponse est celle d’Eric Schmidt expliquant pourquoi Internet tel que nous le connaissons va disparaître. Étant entendu que depuis le début des années 2000 Google est avant tout une métonymie du web ... #CQFD.

Quand l’internet et Google auront disparu, il nous restera alors à nous occuper de Facebook. Et à créer enfin un index indépendant du web. Vite.