Selon nos constatations, les résultats proposés par Qwant, qui va devenir le moteur de recherche « par défaut » de la fonction publique, datent majoritairement de l'été ou de fin 2019, mais pas de 2020. Ils renvoient pour certains à des erreurs. Pour ce qui est de Covid-19, on y trouve dans certains cas des... vidéos complotistes.

Mais si ces résultats toujours datés ne sauraient augurer de ce qu'elle va mettre en place, ils interrogent sur le choix fait par la Dinum de faire de Qwant le moteur de recherche par défaut des terminaux, fixes et mobiles, des agents de la fonction publique en l'état actuel du service.

Une situation à laquelle la nouvelle direction, désignée en janvier dernier, devra faire face. Elle est d'ailleurs en train de mettre son équipe en place, Hugo Venturini ayant été nommé nouveau CTO . Interrogée, elle a néanmoins refusé de répondre à nos questions (pour le moment), reproduites en fin d'article.

De nombreuses requêtes renvoient par ailleurs à des pages ou sites web qui n'existent plus... alors que d'autres ont été modifiées – sinon « caviardées » – par des interventions spécifiques, afin de manipuler les résultats proposés et de ne plus faire apparaître certaines pages et sites web (à caractère pornographique, mais pas seulement).

Si notre enquête n'a pas permis de vérifier ladite évolution, elle révèle que les résultats pour des centaines de requêtes étudiées ne sont pas plus récents qu'en octobre ou novembre 2019. Ils renvoient essentiellement à des pages datant de l'été ou de fin 2019 (mais rien depuis que la Dinum a réalisé son audit), et aucun ne date de 2020.

Les tests et captures d'écran qui suivent ont été réalisés à deux périodes : début octobre, puis fin février-début mars pour en constater l'évolution. D'ailleurs, il est possible que certains résultats aient pu évoluer ou qu'ils soient modifiés, entre la publication de notre enquête et le moment où vous la lirez, a fortiori si Qwant les rectifie. Cela peut aussi être le cas lorsqu'une surcharge survient : Qwant n'affiche alors que 10 des 50 résultats qu'il propose normalement.

À défaut d'avoir obtenu confirmation sur ce point de la part de Qwant, nous avons donc effectué des requêtes sur des mots-clefs a priori très usités, avant de comparer leurs pages de résultats ( SERP , pour Search Engine Results Page) avec celles de Bing, pour vérifier ceux qui relevaient bien de l'index de Qwant.

L'été dernier, un développeur de Qwant avait par ailleurs expliqué au Virus informatique que « pour le moment, les 4 000 requêtes les plus fréquentes, représentant 40 % des recherches textuelles, sont traitées avec l’outil de Qwant, les autres étant encore sous-traitées à Bing de Microsoft ».

Pour vérifier que la situation s’améliore, précisait Acteurs Publics, « l’Etat a mis un point d’honneur à ce que Qwant établisse un “indicateur d’autonomie” qui soit suffisamment “signifiant” pour mesurer son taux de progression et donc d’émancipation de la coupe de Microsoft ». Il sera calculé quotidiennement et communiqué toutes les semaines à la Dinum. Le rapport indique que « le taux de requêtes reposant sur l’index Qwant devait grimper à 50 % d’ici la fin de l’année 2019 ».

Un deuxième leur permit de découvrir que « 36 % des requêtes réalisées par les utilisateurs du moteur reposaient, le jour du second audit (25 septembre 2019), sur l’index de Qwant et non sur celui de Microsoft », donc que 64 % des résultats fournis par Qwant provenaient en fait de Bing.

Mais également que le rapport d’audit technique que Cédric O, secrétaire d'État au numérique, lui avait demandé d'effectuer, indiquait « une forte dépendance à Microsoft, dont l’Etat aimerait se passer ». Un premier audit, effectué fin juillet, n'avait en effet « pas permis d’éclairer complètement la question du taux de recours effectif à Bing en production au jour de l’audit et n’a pas permis d’exclure un scénario dans lequel la quasi-totalité des requêtes viennent in fine de Bing ».

Début janvier, Acteurs publics révélait que la direction interministérielle du numérique (Dinum) avait acté son installation comme moteur de recherche par défaut sur tous les ordinateurs et mobiles des agents publics, au nom de la protection de leurs données personnelles et professionnelles.

En août 2019, lorsque nous avions fact-checké les résultats datant de 2017 proposés par Qwant, le moteur de recherche avait reconnu un « problème de cache », et « une erreur d’adressage qui a en quelque sorte « rebranché » un index de 2017 mis en sommeil », tout en précisant : « on a des résultats frais, nos crawlers fonctionnent, notre index aussi ».

Commençons par une recherche simple, courante : « ce soir à la télé ». Ici, nous n'avons trouvé aucun résultat mentionnant 2020, mais 15 faisant référence à 2019, plus quelques autres datant de l'été dernier : les deux premiers. La page « Ce soir à la télé » du Figaro, mentionne le 12 juillet 2019, et programme-tv.net le 29 juin :



Une capture des premiers résultats de la page puis d'autres visibles un peu plus loin. On constate toujours des références à l'été 2019

La page « Ce soir à la télé » d'Orange.fr date du 11 juillet, « Le programme télé de ce soir » de webmaster-gratuit.com du 25 juillet, le programme TV de Madeinfoot.com du 28 juin, le « guide Télé Z aujourd'hui » du 31 juillet, les programmes TV « ce soir » sur France 2 et TMC de Programme-tv.com des 1er août et 11 juillet, ceux du Point du 01 juillet...

La description des Bronzés, au « Programme TV ce soir » de ouest-france.fr, « Vacances mouvementées dans un club de vacances pour quelques Français, très moyens », correspond par ailleurs à celle que RTL-TVI avait proposé lors de sa diffusion en juin et juillet 2019.

Une requête sur le mot-clef « replay » renvoie le même genre de résultats. Notamment à la page d'accueil du replay de Cnews.fr, dont le résumé mentionne « La chronique éco du 28/06/2019 », celui de Plus belle la vie l'« Épisode du vendredi 26 juillet 2019 », et celui de Numéro 23 l'« Episode du 12 juillet ».

De quoi laisser penser que les crawlers de Qwant ne sont pas passés sur ces pages depuis un moment, pourtant d'usage quotidien chez de nombreux Français. Et si c'est le cas, ces résultats ne semblent pas encore exploités dans la SERP.

Le résumé de la page d'accueil de l'association Replay évoque de son côté leur « passage dans l’émission d’Antoine de Caunes du 12 décembre 2018 », alors que le site a fait l'objet de 12 mises à jour depuis lors. Qwant ne l'a donc pas indexée ou référencée depuis.

Si l'on se tourne vers « programme tv », on trouve une fois encore des mentions du même acabit : « A voir ce soir mardi 24 septembre » sur telestar.fr, « Votre programme TV en ce moment, aujourd'hui le 11 septembre 2019 » sur telez.fr, « Programme TV FRANCE 2 en ce moment | 24 octobre 2019 » pour sa page consacrée à France 2 :

Une recherche de « résultats » renvoie à ceux du tirage du vendredi 07 juin 2019 d'EuroMillions - My Million en 5e position, ceux du 23 août et du 7 juin en 7e et 8e position. Le descriptif de la page d'accueil des résultats des courses de ok-time.fr mentionne le moins de juillet, celui de fsbk.fr août, ffme.fr avril, protiming.fr mai, et francefootball.fr la 38e journée de la Ligue 1 de football 2018-2019, soit le 24 mai 2019.

Au mot « courses », on découvre que la page d'accueil de lescourseshippiques.com date du 28 juin dernier, courses.free.fr du 18 mai, les résultats d'On refait les courses sur RTL du 2 juillet, les résultats des courses hippiques de turfoo.fr du 30 juillet. Bref, l'année 2019 est partout alors que nous entrons dans le quatrième mois de 2020.

En cherchant « pronostics PMU », ceux « de demain » de canalturf.com datent du 28 août, ceux « du jour et de demain » de turf-pronostics.com du 22 octobre, ceux de nouveauquinte.com du 20 octobre, et les trois pages de résultats et d'annonces des « courses du jour » d'infos-entrainement.fr des 8 et 23 octobre 2019 :

Les internautes cherchant des idées de « sorties » seraient quant à eux renvoyés aux bons plans du Pays d'Uzès pour le week-end des 23 au 25 août 2019, puis aux 23 idées pour se décoller des écrans par telerama.fr le 7 juin dernier, en 1er et 2e résultats. La page d'accueil de « Que faire à Paris ce week-end ? » de lebonbon.fr mentionne celui des 28 et 30 juin, celle de l'agenda d'allocine.fr le 7 août 2019.

En cherchant « sorties cinéma », par contre, la même page mentionne le 28 août. Les « sorties cinéma du mois » de cinefil.com datent de septembre, celles de cineserie.com du 18 septembre, de pix-geeks.com du 16 octobre, de jeuxactu.com du 21 août, de cinetrafic.fr du 23 octobre :

Le premier résultat au mot-clef « mercredi » ? La liste des « pronostics de demain » du site canalturf.com, en date du 28 août 2019. Le 3e résultat : l'agenda d'allocine.fr en date, là aussi, du 28 août, suivi des pronostics du 25 septembre puis du 9 octobre de canalturf.com. Le programme de « mercredi prochain » de tv-programme.com date, lui aussi, du 28 août. Les offres promotionnelles de lidl.fr du 21 août. Le pronostic vidéo de canalturf.com du 9 octobre 2019.

Le 4e résultat au mot-clef « dimanche » renvoie aux « derniers avis de décès » de libramemoria.com en date du 25 août. Les 8e, 9e et 10e résultats à des pages de canalturf.com datant de juin, août et mars 2019. La page « dimanche prochain » de tv-programme.com date, elle, du 25 août. Celle de retraitedanslaville.org du 22 septembre :

Des résultats parfois encore antérieurs à 2019

L'an passé, Qwant nous avait expliqué se focaliser sur les dix premières réponses, à mesure que « dès le 10e résultat, on tombe sous le 1% » de consultation. Or, le 4e résultat de la SERP de « teleloisirs » qui, avec 11 « modifications » en février (voir plus bas), est celle de l'index de Qwant qui aurait été la plus mise à jour le mois dernier (cf le fichier .pdf que nous en avons enregistré début mars), renvoie à une page « A la télé ce soir » datant du 2 novembre 2018.

Le 5e résultat renvoie de son côté à un fil de juillet-août 2005, le 6e à un article d'octobre 2019, le 7e, « Dans la presse pople (sic) cette semaine » à un article d'août 2018, le 8e à une page datée du 24 avril 2017 et le 9e à un tweet datant de décembre 2015. Le 11e renvoie à une vidéo publiée en octobre 2019, le 12e à une erreur 404, le 13e à une publicité pour un masturbateur postée fin octobre 2019, le 14e à une autre erreur 404, le 16e à un site affichant « 403 forbidden », le 18e à un avis publié « il y a 3 ans », le 20e à une vidéo ajoutée en mars 2018...

Et les 30 autres résultats datent de 2008, 2009, 2011, 2012, 2013, 2015, février, mai et décembre 2018, février ou octobre 2019, mais aucune page n'ayant été créée depuis.

Des résultats « dans leur jus » depuis... six mois

Aucune des requêtes que nous avons vérifiées ne renvoie à des résultats mentionnant 2020. Pire : en octobre dernier, nous avions enregistré ces SERP et, si l'on excepte quelques modifications cosmétiques de présentation graphique, ils n'ont quasiment pas changé depuis ou sont les mêmes, dans le même ordre :

Faute de réponses de Qwant à nos questions, il nous est impossible de comprendre pourquoi tout ou partie des SERP reposant sur son index seraient ainsi restés figés depuis six mois, ni si Qwant aurait par ailleurs concentré ses efforts sur d'autres mots-clefs ou vecteurs d'amélioration.

Si nous avons parfois trouvé des résultats datant de 2020, il faut pour cela multipler mots clés et filtres, ce qui renvoie alors des résultats similaires à ceux de Bing. C'est le cas sur une requête se limitant aux articles de Next INpact (Qwant vs Bing), qui affiche majoritairement des articles de 2017 à 2019, mais un lien de 2020 (le même dans les deux cas).

S'il est loisible de penser que Qwant ait indexé nombre de pages web l'été dernier, ne serait-ce qu'en prévision du second audit que la Dinum allait effectuer au sujet de son index fin septembre, et a fortiori parce que, jusqu'en juillet et comme nous l'avions démontré, Qwant proposait des résultats datant de 2017, il nous est par contre impossible de comprendre ce pourquoi Qwant n'a rajouté aucune nouvelle page web à ses SERP depuis 6 mois.

Nous aurions aussi aimé pouvoir comprendre si ces problèmes sont la résultante d'un ou plusieurs bugs, de compromis voire de choix, ou de limitations techniques ou financières, ou encore de la fuite de cerveaux dont elle a été victime, que nous avions également documentée, et qui l'empêcherait de mettre son crawler à l'œuvre et son index à jour.

Le nouveau coronavirus n'est apparu sur Qwant que le 10 mars

Plaçons-nous désormais sur le terrain de l'actualité, avec un sujet « chaud » : Covid-19. Jusqu'à ce 10 mars, date à laquelle les résultats proposés pour le mot-clef « coronavirus » ont été soudainement mis à jour (alors que la France répertoriait pourtant déjà près de 1 800 cas confirmés, et 33 décès), la seule mention de l'épidémie apparue en Chine en décembre 2019 était un message sanitaire, ajouté à la main dans un bloc dédié.

Il renvoyait aux sites web mis en place par le gouvernement français et l'OMS : aucune des 50 pages web indexées et affichées dans les résultats de Qwant n'évoquait le Covid-19 (voir cette capture). Seul lien avec l'actualité récente sur cette page : la colonne de droite contenant deux articles d'actualité et deux tweets.

Mais les éléments de la colonne de résultats étaient bien datés : le premier renvoyait à une FAQ de l'OMS au sujet du syndrome respiratoire du Moyen-Orient (MERS-CoV) de mai 2017, l'autre à la description de la fiche Wikipedia, qui a prévalu du 13 août 2019 au 18 janvier 2020 (sans que l'on sache quand elle avait été indexée).

Le résumé de la fiche de l'OMS, en 3e position, datait de 2013, ce qui est d'autant plus incompréhensible qu'il avait été modifié en 2014, que Qwant a lui-même été lancé en 2013, mais qu'il n'était à l'époque qu'une interface récupérant les résultats indexés par Bing. Les 4e, 6e et 7e résultats renvoyaient eux aussi au MERS-CoV avec des données de santepubliquefrance.fr datant de 2012 à 2015, un communiqué de l'OMS daté de mars 2019, et un article de 2014.

Le 10 mars, la colonnes de résultas de Qwant proposait certes plusieurs articles de presse (voir cette capture), mais datant de la 3e semaine de janvier, alors que l'épidémie était encore confinée à la seule Chine et qu'elle n'y avait fait qu'une vingtaine de morts. Le seul article consacré au « Premier décès en France lié au coronavirus » datait, lui, de 2013 :

14 des 15 résultats renvoyant au site de l'OMS portaient eux aussi au MERS-CoV découvert en 2012, le 15e datant de l'épidémie de SRAS en 2003. Le seul résultat de mars 2020 était consacré à la journée portes ouvertes de la cité scolaire Gambetta Carnot à Arras.

Le 16 mars dernier, Qwant renvoyait majoritairement aux dossiers spéciaux de médias et sites institutionnels français et internationaux. Ce, même s'ils ne semblaient pas avoir été mis à jour depuis que, le 12, le gouvernement avait décidé de fermer les établissements scolaires puis, le 14, une bonne partie des commerces.

Le seul article consacré à la propagation du virus en France était du Monde, datant du 24 janvier dernier, évoquant « un troisième cas confirmé en France » (alors que le cap des 5 400 cas confirmés avait été franchi le 15, dont 127 décès).

Le coronavirus : une « volonté divine », une « mise en scène », voire un « complot »

Depuis, la SERP a certes été mise à jour et propose quelques articles datant (au mieux, ce 1er avril) du 16 mars dernier, mais comprenant des pages datant de 2012 ou du coronavirus transmis par les chameaux en 2014, ainsi qu'une émission de kla.tv évoquant des réfugiés « utilisés pour déstabiliser les États de l'UE »...

kla.tv ne comporte aucune mention de son affiliation, mais il suffit de quelques clics pour découvrir qu'il s'agit de la chaîne d'Ivo Sasek, gourou suisse complotiste, antisémite et révisionniste d'une secte pour qui le coronavirus « pourrait être une arme biologique militaire ciblée » qui « aurait été créé par la CIA pour affaiblir la Chine », avec l'aide de Georges Soros et Bill Gates.

En filtrant les résultats pour n'afficher que ceux indexés depuis un mois, les articles de Wikipedia consacrés au coronavirus et à la pandémie arrivent certes en première et deuxième position, mais étaient également suivis, la semaine passée, d'une vidéo de « Prédictions de voyance » mise en ligne par un médium et magnétiseur pour qui, « d'après les cartes, plus de 50 % du monde » sera touché par le coronavirus.

Étrangement, et alors que les médias, plateformes et réseaux sociaux n'ont de cesse de lutter contre les infox et théories complotistes qui pullulent depuis le début de la pandémie, on note que les deux vidéos présentées dans les premiers résultats (du dernier mois) de Qwant émanent principalement de conspirationnistes et charlatans.

En 4e position, une autre vidéo de 48 minutes mise en ligne le 11 février et qui totalisait plus de 810 000 vues (elle est depuis passée en privé). Intitulée « Coronavirus : ce qu'on nous dit, ce qu'on nous cache » et mise en ligne par Mika Denissot, un « formateur de coach Holistique spécialisé en psychologie Algorithmique, Analytique et Transpersonnelle et analyse de rêves », elle entendait permettre de « s’y retrouver face à toutes les manipulations médiatiques que l’ont subis (sic) à longueur de journée au sujet du Coronavirus » (cf la capture d'écran).

Elle se basait aussi notamment sur un article publié par Natural News, site conspirationniste et anti-vaccins connu pour ses infox, qui avance que le coronavirus « serait un vaccin expérimental créé en laboratoire par des scientifiques », et que « tous les médias grand public nous mentent ».

Ces deux contenus ont ensuite été remplacés par une vidéo montrant Guo Wengui, milliardaire chinois exilé aux États-Unis après avoir fait l'objet de nombreuses accusations (de corruption notamment) par la Chine. Proche de Trump, accusé d'avoir contribué au relai de théories conspirationnistes sur le coranavirus, il y est présenté comme un « lanceur d'alerte » dans une interview menée par Steve Bannon, l'ex-conseiller (complotiste) de Donald Trump...

Cette vidéo a ensuite elle-même été remplacée, en 3e position, par un « cours » d'un rabbin ultra-orthodoxe, Ron Chaya, pour qui « le coronavirus est une volonté divine » (à 6'50), qu'« on nous cache des choses » (à 14'40) mais que, à la lumière des textes « prophétiques » de la Torah, « c'est vraiment le déferlement des forces du mal » (à 27'25), que l'épidémie serait même un signe de « la venue du Messie » et qu'il faut « prier, prier et … prier ».

En 4e position, une interview vidéo d'un « médecin holistique », Tal Schaller, chaman reconverti dans l'urinothérapie et la désinformation complotiste d'après Conspiracy Watch. Intitulée « Coronavirus : faites confiance à votre système immmunitaire ! », il y explique que « la peur tue plus que les virus » (2'19), que « le virus n'est pas un ennemi mais un agent de dépollution, une femme de ménage » (4'45), que « les maladies c'est pas grave du tout, la peur de ces maladies virales est idiote » (5'30), que « non seulement les vaccins sont inutiles, inefficaces et dangereux, ce que je dis depuis un demi-siècle, j'ai écrit un livre "Vaccins, un génocide planétaire", c'est dire mon point de vue » (8'55), et qu'« aujourd'hui les médicaments tuent plus que les maladies » (11'08)...

Dans sa newsletter, Tal Schaller explique par ailleurs que « la Pandémie de coronavirus de Wuhan serait une MISE EN SCÈNE destinée à couvrir la crise de santé publique causée par le déploiement intensif de la 5G à Wuhan en 2019 », et qu'« il est possible que la pandémie de coronavirus actuelle soit due à des manipulations pour créer des virus tueurs beaucoup plus dangereux que les virus naturels ».

Ce 27 mars, arrivait en 3e une vidéo sur les « bienfaits » et les « bons côtés du coronavirus », qu'il faudrait « regarder avec amour » plutôt que de se contenter d'en avoir peur, parce que « ce n'est pas quelque chose de mauvais fondamentalement, puisque tout ce qui existe est divin. Oui, le coronavirus c'est de la lumière qui ne s'est pas reconnue ».

L'auteur de la vidéo, qui explique sur son site web avoir « développé des capacités à soigner des gens à des milliers de kilomètres », et qu'il « communique quotidiennement avec l’au-delà », propose à ce titre de vous envoyer « gratuitement un soin énergétique de prévention du Coronavirus fait au son d'un tambour chamanique ».

Le 4e résultat est une nouvelle vidéo complotiste de Mika Denissot, « Effondrement économique et Enfumage médiatique », qui a pourtant été supprimée de YouTube, « car elle ne respectait pas le règlement de la communauté YouTube »...

Qwant ne sait ni n'explique pourquoi Benjamin Griveaux s'est retiré

Exception faite des deux blocs consacrés aux actualités et aux réseaux sociaux, un internaute qui voudrait en savoir plus sur Benjamin Griveaux n'a de son côté droit qu'à des articles de janvier à juillet 2019, voire antérieurs, plus un autre datant du 29 août, mais rien depuis. Et donc rien non plus au sujet du scandale qui l'a poussé à retirer sa candidature aux municipales de Paris le mois dernier.

Contrairement à Google et Bing, qui proposent des résultats tenant compte de leurs correcteurs orthographiques, une requête aux mots-clefs Benjamin Grivaux renvoie à des articles ayant mal orthographié son nom et datant, eux aussi et au mieux, de l'été 2019, mais également à 13 erreurs 404 ou sites ne répondant plus.

Elles correspondaient majoritairement à des pages probablement piratées par des spammeurs, à mesure que leurs résumés faisaient la promotion de « 2018 Marques Chaussure Air 270 Chaussures Max Nike Fqov62 Grandes OPTXZkiu », ou encore de « Baskets Coq Le GarconEnfant Cher Sportif Pas eH9YIWD2Eb », et dont on peine à comprendre pourquoi Qwant les a indexées en lien avec l'ex-porte parole du gouvernement.



En scrollant dans les résultats de recherche de Qwant avec une faute d'ortographe, des résultats bien étranges...

8 % des résultats ne répondent plus

Marc Longo, poursuivi et condamné pour « dénigrement » à la demande de Qwant (qui a depuis perdu en appel), pour avoir déploré, au printemps 2019, que les résultats de Qwant renvoyaient à des contenus datant de 2017, a de son côté constaté que de nombreux autres résultats renvoyaient à des pages n'existant plus.

Après avoir interrogé quotidiennement les pages de résultats de Qwant sur 588 mots-clefs en février, il a découvert que 37 des 50 résultats (soit 74 %) à la requête « itinéraire michelin » renvoyaient sur des pages ne répondant plus. Sept d'entre eux au site d'un gîte dont archive.org indique qu'il était cybersquatté depuis novembre 2018 sur ces mots-clefs.

Les descriptifs de plusieurs autres pages ne laissent guère de doute sur l'absence de pertinence : « Astuce codes tomb raider,occasion or renault,les albums de pirouette com », « Via Itineraire Michelin jeune salope nu », « Changer avi en dvd,grossiste and coiffure » ou « tendres cousines de david hamilton,funny sexy webcam boob poker hot strip busty thong »...

58 % des résultats aux requêtes « colissimo suivi » et « cuisine ikea » sont, selon ses relevés, également erronés, tout comme 50 % de « itinéraire michelin », 44 % de « mappy itinéraires », 40 % de « resultat loto », 30 % de « oui sncf », 28 % de « france5 » et 27 % de « ratp ». Voici une capture de ses propres analyses :

Le faible pourcentage des similarités entre les résultats de la SERP de Qwant comparés à ceux de Bing et Google signe qu'ils émanent bien de l'index du moteur de recherche français. Au total, 2 282 (soit 7,8%) des 29 400 résultats analysés par Marc Longo renvoient à des erreurs 404 ou sites ne répondant plus.

Nous n'avons pas vérifié l'intégralité des SERP analysées par Marc Longo, mais plusieurs de celles que nous avons testées manuellement, ainsi que via l'extension de LinkResearchTools – qui permet notamment de visualiser les erreurs 404 et les liens suspects sur une page web – ont confirmé un nombre élevé de pages et sites ne répondant plus.

80 % des résultats n'ont fait l'objet d'aucune mise à jour en février

La colonne C du tableur de la synthèse des résultats analysés par Marc Longo indique par ailleurs que Qwant a effectué très peu de modifications le mois dernier sur les près de 600 mots-clefs analysés :

En triant le tableur en fonction du nombre de modifications, on découvre en effet que seuls 125 (soit 21,2 %) des 588 mots-clefs testés ont fait l'objet d'une ou plusieurs mises à jour en février, dont seulement 24 (soit 4 %) d'au moins 4 mises à jour, correspondant pour moitié à des résultats émanant très probablement de l'index de Bing (en mauve).

A contrario, la totalité des mots-clefs n'ayant enregistré qu'entre 1 et 3 modifications, ainsi que les 463 résultats (soit 78,8 % du total des mots-clefs analysés) n'ayant fait l'objet d'aucune mise à jour en février, émanent du seul index de Qwant. De plus, et à l'exception des requêtes émanant de Bing, aucune des modifications émanant de l'index de Qwant ne semble reposer sur l'ajout de nouvelles pages indexées depuis novembre 2019.

Les mots-clefs que nous avons analysés montrent en effet qu'il s'agit essentiellement de changements dans l'ordre des résultats, ou de l'apparition (ou disparition) de résultats eux aussi datés.

Marc Longo évoque de son côté une « mise à jour qui semble manipulée en faisant bouger les résultats en permanence, mais en faisant alterner de vieux résultats avec d'autres vieux résultats, puis revenir au début avec à nouveau les premiers vieux résultats... le moins drôle, c'est d'alterner des résultats aux liens en erreurs avec d'autres résultats aussi vieux et en erreur... »

De plus, « l'ordre changé n'est pas variable (comme cela pourrait être le cas par des optimisations suite a des clics), mais il est fixe, c'est a dire qu'un jour on a une liste 1, le lendemain une liste 2 avec les mêmes liens dans un ordre différent, et le jour 3 on revient exactement à la liste du jour 1 ».

Des requêtes (discrètement) modifiées à la main

L'an passé, Marc Longo avait par ailleurs remarqué que Qwant modifiait certains résultats à la main, pour faire disparaître notamment l'adresse IP du BingBot, le robot d'indexation de Microsoft, et donc sa dépendance à Bing.

Cette année, en réponse à Cédric O – qui avait déploré sur Twitter qu'« un enfant accède en moyenne à de la pornographie à 14 ans » – Marc Longo lui avait fait remarquer qu'une requête « mère et fils » faite sur Qwant renvoyait à des sites pornographiques dédiés à l'inceste...

Les résultats ont été modifiés dans la foulée, là aussi en interférant sur les résultats, Qwant ayant discrètement ajouté le mot « film » aux deux termes recherchés... mais tout en continuant d'afficher, en premier, un site de vidéos pornographiques d'incestes, en français cette fois :



En analysant les flux HTTP, on peut voir la requête réellement effectuée par le moteur

Une requête au mot « inceste » est, de même, redirigée vers les résultats de « inceste définition », « prostate » vers « prostate -porno », peut-être suite à ce signalement indiquant que le 2e résultat était un site porno, « astrophysicienne française noire » à « astrophysicienne française noire -xx » après qu'un internaute a alerté Qwant que le premier résultat renvoyait lui aussi à du porno, « lesbienne » vers « lesbienne -sexy -youtube -film -fontaine -chatte -baise ».

Ce genre de caviardage est également utilisé aux mots-clefs « macron » et « emmanuel macron », qui renvoient tous deux aux résultats d'« Emmanuel Macron président République », avec une SERP somme toute étonnante : en plein mouvement social de grèves contre la réforme de la retraite, 5 des 8 premiers résultats proposés par Qwant renvoyaient à l'annonce faite en décembre dernier qu'il renonçait à sa retraite de président de la République :

Alors que les termes recherchés figurent en gras sur les pages de résultats de Qwant, et que les 4 mots-clefs renvoyés à la requête « macron » modifiée apparaissaient clairement en janvier dernier, la fonctionnalité a été récemment désactivée. Résultat : on ne voit plus les mots-clefs de la véritable requête en gras.

« Il nous faudra évidemment un peu de temps »

Auditionné le 12 juin 2019 par la commission d'enquête du Sénat sur la souveraineté numérique, Eric Léandri, l'ex-PDG et cofondateur de Qwant expliquait : « un moteur de recherche, c'est par définition un outil qui permet de savoir où se trouve l'information recherchée. Au préalable, il faut donc qu'il connaisse le maximum d'informations pour pouvoir répondre à la question qui lui est posée. C'est le rôle de l'index ».

Avant de préciser : « pour constituer son index, Qwant envoie des logiciels appelés crawlers, ou indexeurs, qui, simulant l'activité d'un internaute lambda, se promène sur internet, regarde le contenu de la page et en note les changements ». Il ajoutait : « aujourd'hui, l'index de Qwant compte 20 milliards de pages, dont 2 milliards sont visitées chaque jour »... mais sans que l'on comprenne donc pourquoi ces 2 milliards de pages « visitées chaque jour » n'auraient donc et pour autant pas permis de mettre à jour de nombreux résultats du moteur depuis près de six mois.

Contacté le 6 mars dernier, Qwant a refusé de répondre à nos questions, se contentant de nous expliquer que « nous nous consacrons à améliorer encore et encore nos produits existants et les services que nous rendons aux internautes. Nous avons bien conscience qu'ils n'ont pas et ne sont pas toujours à la hauteur des attentes suscitées. La tâche est, vous vous en doutez, difficile et très prenante. Nous en sommes responsables et avons conscience du chemin à parcourir ».

Évoquant le départ d'Éric Leandri en janvier, et son remplacement par Jean-Claude Ghinozzi, ex-« Général Manager Retail Sales & Marketing » chez Microsoft France, Qwant précise que « la période de transition dans laquelle nous sommes engagés depuis ce début d'année, d'une nature inédite dans l'histoire de Qwant, nous oblige à nous concentrer sur la construction de l'avenir et non à revenir sur ce qui a pu être fait, ou pas fait, par le passé. Il nous faudra évidemment un peu de temps mais soyez assurés que toute notre énergie est consacrée à cette transition dont vous constaterez, nous l'espérons, les effets ».

Contactée dans la foulée, et malgré plusieurs relances, la Dinum n'a pas non plus répondu à nos questions. Le 11 mars dernier, elle avait mis en ligne une note sur l'« installation par défaut d’un moteur de recherche respectueux de la vie privée dans l’environnement de travail numérique des agents ».

Nadi Bou Hanna, directeur interministériel du numérique, y explique que « le secrétaire d’Etat chargé du numérique Cédric O a annoncé que l’Etat privilégierait désormais l’installation sur les postes de l’administration de moteurs de recherche qui respectent des critères exigeants en termes notamment de respect de la vie privée et de la protection des données ».

Dès lors, explique-t-il, « il semble pertinent de configurer pour l’usage par défaut de l’administration un moteur appliquant préférentiellement le droit européen et disposant également de son propre indexeur ». En l'espèce, « Qwant réunit, à ce jour, l’ensemble de ces qualités, dont les aspects techniques ont été vérifiés par un audit interministériel ».

Dans le communiqué qu'il avait consacré à son destin de « moteur de recherche de l’administration française », Qwant expliquait que « les services de l'État ont en effet identifié une série de critères techniques et juridiques que doit remplir un moteur de recherche installé par défaut sur les postes des agents de l’administration, puis déterminé que "le seul capable de répondre aux attentes du gouvernement" est Qwant ».

Faute de réponses à nos questions, il nous est impossible de savoir si l'audit interministériel avait également pour vocation de vérifier la fraîcheur, la pertinence et donc la qualité des résultats proposés par Qwant. Et nonobstant le fait que, suite à notre enquête, qui avait révélé que l'index de Qwant ne proposait que 50 résultats seulement (contre 150 lorsqu'ils émanaient de celui de Bing), le nombre de résultats proposés pour l'ensemble des requêtes effectuées sur Qwant, qu'elles émanent de Bing ou de son propre index, soit subitement passé de 150 à 50 pages web seulement.

Qwant n'en a donc pas moins vocation à devenir le moteur de recherche par défaut « sur l’ensemble des terminaux, fixes et mobiles » des agents publics « d'ici le 30 avril 2020 », même si la note de la Dinum précise que « vous veillerez toutefois à ce que les agents puissent librement modifier ce choix de manière simple et autonome ». De quoi, en tout cas, booster la part de marché de Qwant qui, après avoir atteint un pic de 0,89% en janvier, est retombée à 0,84% en février, et 0,78% en mars :

Cette faible part de marché est cela dit d'autant plus étonnante que, dans son communiqué, Qwant se félicitait également d'être devenu le moteur de recherche par défaut de l’Assemblée Nationale, du Conseil Économique, Social et Environnemental, du Ministère des Armées, du CNES, du CEA, de la Banque de France, de 10 des 13 régions de France, de nombreuses villes (dont Paris, Rennes, Nice, Toulouse, Issy-les-Moulineaux...) et départements (dont les Hauts-de-Seine, Ille-et-Vilaine, la Haute-Garonne...), mais également d'une ribambelle d'entreprises privées (de Thalès à Michelin en passant par Safran, BNP Paribas, France Télévisions, etc.).

Capital, en novembre dernier, avait à ce titre raconté que nombre des employés des administrations ayant fait de Qwant leur moteur de recherche par défaut s'empressait de « repasser sur Google », évoquant même une « blague vacharde » qui voudrait que « le premier mot-clé recherché sur Qwant, c’est "Google" »... ce qui reste cela dit à démontrer.

Voici la liste des questions que nous avions posé par email à Qwant (et pour partie à la Dinum) :

Bonjour,

Suite à mes enquêtes de l'année dernière sur les résultats de Qwant, et les promesses d'amélioration faites depuis par la direction précédente, j'ai effectué différentes séries de relevés. Notamment en octobre dernier, sur une série de mots clés « du quotidien », dont Eric Léandri avait indiqué qu'ils étaient parfaitement intégrés à l'index de Qwant.

Une autre grosse enquête m'avait empêché jusque-là de m'y repencher plus avant, mais j'ai enfin pu m'y replonger ces derniers jours. J'ai ainsi pu constater que la grande majorité des résultats, émanant de l'index de Qwant et renvoyés dans la colonne principale, dataient pour une bonne part de l'été 2019, au mieux d'octobre/novembre 2019, mais rien depuis :

Pouvez-vous nous expliquer pour quelle raison aucun résultat récent n’apparaît actuellement dans les résultats principaux ?

Pourquoi avoir modifié le nombre de résultats affichés à 50, alors qu'ils étaient précédemment de 150 (quand issus de Bing) ou de 50 (quand issus de votre index) ?

Quelles sont les mesures que vous comptez prendre à plus ou moins long terme pour améliorer la situation ?

Selon les derniers chiffres publics communiqués par Qwant, ses crawlers visitent chaque jour 2 milliards de page.

Pouvez-vous nous confirmer ce chiffre, et pourquoi les informations qui en résultent ne semblent pas visibles ?

La section « Actualités » du site (affichée dans la colonne de droite), propose des résultats qui semblent, eux, à jour.

Est-ce que cette section est opérée par Qwant ou de résultats récupérés auprès de Bing ?

Dans ses conclusions révélées par la presse, la Dinum indiquait que lors de son analyse, 64 % des résultats de Qwant émanaient de Bing, et que l'objectif était d'atteindre 50 % d'ici fin 2019.

Est-ce que cet objectif a été atteint, si oui, comment est effectué cette mesure exactement ? Si non, quelle est la part des requêtes issues de l'index de Qwant ou de Bing sur le mois de février 2020 ?

Quels sont les typologies de sites et pages que Qwant indexe en priorité pour afficher ses propres résultats plutôt que ceux de Bing ?

D'après Acteurs Publics, l'audit précisait que « l’index présenté contient 15 milliards de documents » : à quoi correspond le terme de « documents » ?

Serait-il possible de disposer d'une copie du rapport de la Dinum ?

Lors de précédents relevés, nous avions remarqué que certaines requêtes renvoyaient vers des résultats émanant d'autres mots clés, ajoutant ou excluant des mots selon les cas. Par exemple, une recherche sur le terme « Lesbienne » renvoie en fait les résultats de « lesbienne -sexy -youtube -film -fontaine -chatte -baise ».

Est-ce que ces modifications sont effectuées de manière manuelle, si oui selon quels critères ? Si non, selon quelle méthode ?

Auparavant, les mots clés de la requête réellement effectuée étaient mis en gras sur la page, pourquoi n'est-ce plus le cas ?

Marc Longo vient d'indiquer avoir effectué une analyse sur environ 6 00 mots clés sur l'ensemble du mois de février, et avance que 10 % des 30 000 résultats analysés renverrait vers des page 404 ou serveurs injoignables. Ces données confirment également nos propres relevés de résultats très peu mis à jour depuis la période de la seconde moitié de 2019.

Comment expliquez-vous qu'une part si importante des résultats renvoient vers des pages n'existant plus ?

Dans une interview publiée peu après son arrivée, Jean-Claude Ghinozzi, interrogé par Siècle digital sur sa volonté de « recentrer vos efforts sur le Search, est-ce en lien avec les accusations portées entre autres par Marc Longo, et relayées par Next INpact, qui parlaient d’un moteur de recherche bloqué en 2017 ? » a répondu « Non, je n’ai personnellement aucun intérêt à commenter ces attaques, qui ont fait beaucoup de mal à l’entreprise, et peiné les employés dont je fais partie, puisque je suis dans l’aventure depuis plus de 2 ans. L’entreprise Qwant c’est à 90% des ingénieurs qui produisent de la technologie tous les jours. »