Depuis quelque temps, les agences de presse telles qu’Associated Press, Reuters et bien d’autres diffusent chaque mois des milliers de news écrites par des robots.

C’est une évolution certes alarmante, mais ces robots ne font pour le moment que remplir des phrases types avec des chiffres émanant de rapports annuels ou de comptes de résultats. Il y a de bonnes raisons de penser que cette forme de journalisme entièrement automatisé restera limitée pendant longtemps encore.

Cyborgs

Making of L’intégralité de cet article écrit par Jonathan Stray est disponible sur Ulyces, un magazine qui publie des enquêtes, des grands reportages et des interviews exclusives (vous pouvez les acheter à l’unité ou vous abonner). Ce texte a été traduit de l'anglais par Juliette Murray d'après l'article « The Age of the Cyborg », paru dans la Columbia Journalism Review. Lisez aussi sur Ulyces une interview de Joshua Topolsky, l'homme qui prédit la fin de Twitter.

Pendant ce temps, paisiblement et sans faire de tapage – contrairement à leurs cousins robots –, les cyborgs font leur entrée dans le journalisme.

Et ils vont gagner la bataille, car ils sont capables de choses que ni les êtres humains, ni les programmes informatiques ne peuvent accomplir seuls.

Siri, l’assistant intelligent d’Apple, sait planifier des rendez-vous ;

Alexa, d’Amazon, est capable de recommander de la musique ;

et Watson, d’IBM, excelle à répondre aux questions de Jeopardy.

Imaginons qu’une intelligence artificielle se mette au journalisme, comme un assistant personnel intelligent capable d’étendre notre capacité d’action.

Izzy

Elle devra pouvoir analyser des quantités surhumaines de données, répondre aux informations de dernière minute aussi vite que l’éclair, et il faudra qu’elle soit capable d’écrire non pas la dernière version d’un article, mais la première. En bref, une telle technologie pour les épauler produirait à terme de meilleurs journalistes, plus rapides et plus intelligents.

'gt;'gt; Lire l’intégralité de l’article sur Ulyces.?

Appelons-là Izzy, en hommage au journaliste d’investigation Isador Feinstein Stone, qui a déterré de nombreux scandales enfouis dans les dossiers du gouvernement américain en son temps. Nous sommes déjà en mesure de concevoir Izzy aujourd’hui. Cette technologie utiliserait la reconnaissance vocale pour accomplir un vaste éventail de pratiques journalistiques modernes.

Les ordinateurs veillent déjà sur les médias sociaux à la recherche des dernières informations, avec une rapidité qu’aucun être humain ne peut égaler. Ils scannent les données et les documents afin d’établir des liens, pour les besoins de projets d’investigation complexes. Ils suivent la propagation des rumeurs, vérifient l’exactitude des chiffres énoncés, et sont capables de créer instantanément de courtes vidéos à partir de scripts, ne demandant qu’à être peaufinées par le journaliste.

« C’est une course de vitesse, car les marchés financiers sont à la recherche de ce genre d’outils », déclare Reg Chua, responsable du département Données et innovation chez Reuters.

Chaque seconde compte

L’agence de presse a produit ses premiers articles automatisés en 2001, en publiant des titres générés automatiquement à partir du rapport hebdomadaire de l’American Petroleum Institute. Ce rapport, qui contient les chiffres clés de la production pétrolière, est étroitement surveillé par les traders des marchés de l’énergie, qui ont besoin des dernières informations le plus rapidement possible – et bien entendu avant leurs concurrents. L’automatisation devient une évidence lorsque chaque seconde compte.

Aujourd’hui, les agences de presse du monde entier diffusent environ 8 000 articles automatisés par jour, en plusieurs langues et sur n’importe quel sujet.

Les systèmes automatisés peuvent signaler un chiffre, mais ne sont pas encore capables de dire ce qu’il signifie. Les articles générés par ordinateur ne proposent aucun contexte, aucune analyse tendancielle, ils ne sont pas en mesure de relever les irrégularités ni de sonder les différentes forces en présence.



Un journaliste et son robot - DR/Ulyces

La technologie la plus récente de Reuters va plus loin, mais avec une aide humaine : elle écrit toujours des mots, mais elle n’est pas destinée à publier des articles de son propre chef. Ce système « d’informations automatiques », actuellement en cours de développement, résume les données financières pertinentes et alerte les journalistes.

Surveiller tout Twitter

Au lieu de fournir ce que Chua appelle « les chiffres des gros titres (l’indice était à tel niveau, plus haut ou plus bas qu’à la clôture d’hier) », la machine fait ressortir « des analyses plus sophistiquées comme, par exemple, la plus forte augmentation depuis tant de temps – ce genre de choses ».

Ce système pourrait rechercher des changements dans la notation des analystes, relever des performances exceptionnellement bonnes ou mauvaises par rapport à d’autres sociétés de la même industrie, ou regarder si des acteurs clés du secteur ont récemment vendu des actions.

Plutôt que d’être un simple générateur de phrases, il est censé « signaler aux journalistes des éléments qui pourraient présenter un intérêt pour eux », dit Chua. « Éléments qu’il présente sous la forme plus avantageuse d’une phrase. »

Mais toutes les informations ne proviennent pas uniquement des flux de données financières. C’est pourquoi le système d’automation le plus sophistiqué de Reuters repère les données en analysant les médias sociaux.

Leurs tests ayant démontré qu’environ 10 ou 20% des informations sont d’abord diffusées sur Twitter, l’entreprise a décidé de surveiller activement la plateforme. Toute entière.

Sources dignes de confiance

Fin 2014, Reuters a lancé un projet baptisé News Tracer. Le système analyse chaque tweet en temps réel – soit 500 millions de tweets quotidiens. Tout d’abord, il filtre le spam et la publicité. Ensuite, il rassemble les tweets traitant du même sujet et attribue à ce groupe un mot-clé tel que « business », « politique » ou « sports ». Enfin, il utilise des techniques de traitement du langage pour générer un résumé clair de chaque groupe.

Il y a déjà eu des systèmes de surveillance des médias sociaux, principalement mis en place pour les professionnels du marketing et de la finance. DataMinr, une plateforme commerciale puissante qui analyse également chaque tweet, est un concurrent de l’outil interne de Reuters – une bonne nouvelle pour les journalistes qui ne travaillent pas chez eux.

Mais News Tracer a été intégralement pensé et créé pour les journalistes, et ce qui le distingue le plus est peut-être son évaluation de l’ « exactitude » et de la « pertinence » qu’il attribue à chaque groupe.

Les pratiques ayant cours au sein des rédactions sont généralement trop informelles pour pouvoir être codifiées. De combien de sources indépendantes ont besoin les journalistes avant d’être disposés à écrire un article ? Quelles sont les sources dignes de confiance ? Pour quel type d’article ? « Ce qui est intéressant quand on commence à passer aux machines, c’est qu’on doit se mettre à codifier tout ça », dit Chua. Un peu comme lorsqu’il s’agit de programmer l’éthique d’une voiture sans conducteur, l’exercice consiste à transformer des jugements implicites en instructions claires.

« Mettons qu’une bombe éclate... »

News Tracer attribue une cote de crédibilité, basée sur des critères qu’un humain prendrait en considération : localisation et identité de l’émetteur, certification de l’utilisateur, façon dont le tweet se propage sur le réseau social et confirmation/invalidation de l’information par d’autres utilisateurs.

Plus important encore, Tracer confronte les tweets à une « base de connaissances » de sources fiables interne. Ici, intelligences humaine et algorithmique travaillent de concert : les journalistes sélectionnent soigneusement des comptes sources fiables et l’ordinateur analyse quels autres comptes suivent et retweetent ces premiers, afin de déterminer s’ils sont eux aussi dignes de confiance.

« Mettons qu’une bombe éclate quelque part et que le compte certifié de la police locale le rapporte, ou le bureau du maire, ou celui de la Maison-Blanche… », explique Chua. En obtenant ces informations, Reuters a le feu vert pour écrire un article et un journaliste doit en être informé.

News Tracer doit également décider si un groupe de tweets est une « information » ou simplement un sujet populaire. Pour bâtir leur système, les ingénieurs de Reuters ont sélectionné plusieurs groupes de tweets et vérifié si la rédaction avait effectivement écrit un article sur chacun de ces événements – ou si les journalistes auraient écrit un article sur le sujet s’ils en avaient été informés. Ils ont ainsi recueilli un corpus d’événements dignes d’intérêt.

60 minutes d’avance

Les ingénieurs ont également surveillé les comptes Twitter de journalistes respectés de la profession, et d’autres comme @BreakingNews, qui tweete très en avance des alertes sur des événements vérifiés. Toutes ces données ont été utilisées pour apprendre à la machine à comprendre ce qu’était une information pertinente. Reuters a en quelque sorte montré à News Tracer ce que les journalistes voulaient voir.

Les résultats obtenus jusqu’à présent sont impressionnants. Tracer a signalé le bombardement d’hôpitaux à Alep et les attentats terroristes de Nice et Bruxelles bien avant que d’autres médias ne le fassent. Chua estime que l’outil a permis à chaque fois au journaliste de Reuters de commencer son reportage de 8 à 60 minutes plus tôt que ses concurrents, une avance non négligeable.

Pour Chua, l’importance de Tracer ne réside pas uniquement dans ce que la machine est capable de faire, mais dans ce qu’elle permet aux journalistes de faire pendant ce temps libéré :

« Parler aux gens, poser des questions qui n’ont pas déjà été posées, faire des analogies que les machines ne savent pas faire aussi bien, etc. »

?'gt;'gt; Il vous reste 50 % de l’histoire à lire ici.