Temps de lecture: 6 min

Les Centres pour le contrôle et la prévention des maladies estiment que l’épidémie d’Ebola qui sévit en ce moment pourrait infecter jusqu’à 1,4 million de personnes. En quoi le big data peut-il nous aider à identifier les premiers indices de futures épidémies et à suivre en temps réel les mouvements de l’épidémie actuelle? Il se trouve que surveiller la diffusion d’Ebola peut nous en apprendre beaucoup sur ce que nous avons raté –et nous révéler comment les systèmes d’exploitation de données, la surveillance et la traduction de sources non-occidentales peuvent nous aider à obtenir de meilleurs outils d’alerte.

Au début du mois d'août, le service HealthMap de Harvard a fait les gros titres dans le monde entier pour avoir, dès le 14 mars 2014, recensé les premières mentions de l’épidémie d’Ebola, soit «neuf jours avant que l’Organisation mondiale de la santé n’annonce officiellement l’épidémie», et pour avoir lancé sa première alerte le 19 mars. La plupart des articles abordant le succès de HealthMap soulignent le fait que le site a pu tirer très tôt la sonnette d’alarme car il utilise une immense puissance de calcul qui lui a permis de dégager les premiers indices parmi des millions de posts de réseaux sociaux et autres médias informels.

Comme on peut le lire dans un blog:

«Comment un algorithme informatique a-t-il pu déceler le début de l’épidémie avant l’OMS? Il se trouve que certains des premiers personnels de santé à avoir vu Ebola en Guinée bloguent régulièrement sur leur travail. Lorsqu’ils ont commencé à écrire sur les soins portés aux patients manifestant des symptômes ressemblant à ceux d’Ebola, quelques personnes ont mentionné leurs posts de blogs sur les médias sociaux. Il n’a pas fallu longtemps à HealthMap pour les détecter.»

L’Intelligence Advanced Research Projects Activity (IARPA), organisme d’Etat américain qui contribue au financement de HealthMap, a brandi cette success story comme une preuve que les approches utilisées dans son programme Open Source Indicators peuvent réellement «aller plus vite que les infos» et signaler avant tous les autres les signes avant-coureurs d’épidémies et de conflits.

Histoire édifiante

Cette édifiante histoire est souvent ressassée dans l’univers du big data –des algorithmes informatiques sophistiqués passent au crible des millions de données et d’ésotériques schémas, révèlent une épidémie que personne n’avait encore repérée et permettent d’avertir des autorités sanitaires et de hauts fonctionnaires qui ne se doutaient de rien. Le problème est que cette histoire n’est pas tout à fait vraie: lorsque le tout premier rapport de HealthMap a été publié, le gouvernement guinéen avait déjà annoncé l’épidémie et averti l’OMS.

La première mise en garde internationale contre l’imminence de l’épidémie n’est venue ni de l’exploitation de données, ni des réseaux sociaux mais d’un canal bien plus classique: d’un article en français de l’agence de presse chinoise Xinhua intitulé «Guinée: une étrange fièvre fait 8 morts à Macenta», publié le 14 mars en milieu de journée (heure de la côte Est des Etats-Unis). L’article signale qu'«une maladie dont la nature n’a pas encore été identifiée a causé la mort de 8 personnes dans la préfecture de Macenta, dans le sud-est de la Guinée. [...] Elle se manifeste sous la forme d’une fièvre hémorragique...»

Cet article faisait référence à une conférence de presse tenue le jour même par le Dr Sakoba Keita, directeur de la division de la prévention des maladies au département de la santé de Guinée, diffusée dans tout le pays par la télévision d’Etat, et annonçant à la fois le déclenchement d’une fièvre hémorragique inconnue et le départ d’une équipe de personnel médical gouvernemental dans la région pour mener l’enquête. L’article de Xinhua relève que le gouvernement guinéen a déjà notifié formellement l’OMS de l’apparition de cette maladie inconnue.

Les médias traditionnels jouent encore un rôle crucial

Ainsi, contrairement à la version selon laquelle l’exploration de données a conduit à «battre l’OMS» dans la course aux renseignements, les premières indications de HealthMap le 14 mars n’étaient rien d’autre que le repérage d’un communiqué d’Etat officiel. Malgré tout le battage autour du rôle de révélateur de la société humaine des médias sociaux, les médias traditionnels jouent encore un rôle informatif crucial dans de nombreuses régions du monde. Cela ne veut pas dire qu’il n’y ait pas eu de signaux plus précoces dans la multitude d’échanges entre travailleurs de santé et citoyens ordinaires de la zone touchée, mais simplement que ce ne sont pas ces indicateurs-là qu’HealthMap a détectés.

Le problème tient en partie au fait que la majorité des médias en Guinée ne sont pas publiés en anglais, langue utilisée par la plupart des systèmes de veille. Le GDELT Project se donne pour but de repérer et de traduire chaque jour un échantillon des médias d’information du monde entier, sans être pour autant capable de traduire cent pour cent des informations internationales. Il se trouve que le GDELT a détecté la discussion initiale sur la conférence de presse du Dr Keita du 13 mars et repéré une augmentation de la diffusion du sujet à partir du 14 mars, le jour où HealthMap a signalé la première mention par les médias. Or, toutes ces informations étaient en français, et ne figuraient pas parmi les documents que le GDELT pouvait traduire à ce moment-là.

Voici une illustration de l’importance de la veille en plusieurs langues: depuis un an, avec l’aide d’une subvention accordée par Google Translate for Research, GDELT alimente quotidiennement une partie de l’édition portugaise de Google News. Or, plus de 70% des événements rapportés dans les réseaux d’information en portugais n’apparaissent absolument nulle part ailleurs dans le monde dans les fils d’actualité anglophones. En outre, une grande partie d’entre eux se rapporte à des situations hors du Portugal et du Brésil, touchant notamment d’anciennes colonies portugaises en Afrique, comme le montre la carte ci-dessous. Avoir les moyens de traiter tous ces documents permettrait de gagner considérablement en efficacité pour superviser les médias locaux, du genre de ceux qui ont les premiers fourni des indices sur le déclenchement de l’épidémie d’Ebola.

Il nous faut de meilleures données, plus locales

J’ai participé récemment à une commission d’enquête où il nous a été demandé ce qui était, à nos yeux, le plus grand obstacle à une meilleure compréhension du monde. Le représentant d’une agence financée par le gouvernement américain a expliqué que, du point de vue de son programme, il manquait d’outils informatiques permettant de mieux exploiter les données pour en extraire certains schémas.

L’objectif est louable, mais pas si le corpus de données utilisé est incomplet. Certes, de meilleurs outils d’exploitation de données sont absolument nécessaires, mais même s’il en existait un capable d’extraire chaque jour la moindre miette d’information du New York Times, il ne brosserait pas de tableau plus détaillé de l’émergence de l’épidémie d’Ebola que ce dont disposent déjà les hauts responsables américains. Ce qu’il nous faut en réalité, ce sont de meilleures données, plus locales (et des outils plus perfectionnés capables de les traduire et de les traiter), qui nous permettent d'écouter et de comprendre au plus près chaque communauté.

Les gouvernements sont singulièrement préoccupés par les prévisions. Perdus comme nous le sommes dans nos systèmes prévisionnels à plusieurs centaines de millions qui n’ont pas encore donné de résultats probants, nous devrions prendre garde à ne pas passer à côté des premiers signes de pandémies émergentes littéralement annoncées par les télévisions nationales. Plutôt que d’essayer de «battre» les réseaux d’information en investissant massivement dans des modèles informatiques, nous ferions mieux de nous appliquer à mieux écouter.