Derrière les « Panama papers », ses centaines de journalistes impliqués et ses milliers d’articles publiés, il y a une base de données. Un « leak » massif de 2,6 téraoctets (2 600 Go) transmis par une source anonyme à la Süddeutsche Zeitung et partagée au Consortium international des journalistes d’investigation (ICIJ). Confrontés à ce « basculement de l’investigation dans l’ère du big data », comme l’a écrit lundi le directeur du Monde dans son éditorial, les 110 médias partenaires de l’enquête ont dû abandonner le calepin et le crayon au profit d’outils informatiques avancés.

Un moteur de recherche et 11,5 millions de documents

Parcourir un à un chacun des documents des « Panama papers » n’était tout simplement pas envisageable, même pour 376 journalistes. Il était donc indispensable de disposer d’un moteur de recherche performant pour explorer la base de données.

Rompue à de type d’investigation, l’équipe technique de l’ICIJ disposait déjà d’un moteur solide, basé sur le système Solr, qui a été amélioré pour cette nouvelle opération. Il dispose bien sûr d’opérateurs de recherche avancés (« AND », « OR », recherche exacte avec des guillemets) et d’un système de “facettes” pour trier les milliers de résultats que généraient certaines recherches grâce aux métadonnées (type de document, date de création, société associée). Il permet aussi l’extraction du texte brut de dizaines de formats de fichiers, du .pdf au .doc, en passant par les très obsolètes .msg (un format de courriels lié à Microsoft Outlook), qui recouvraient l’essentiel de la correspondance interne du cabinet Mossack Fonseca.

Mais surtout, le moteur était doté d’un mécanisme de « requête approximative » (« fuzzy search »), qui permet une recherche moins limitative. Ainsi, une requête approximative sur « Jean Dupont » renvoie également des résultats pour « Dupont Jean » ou « Jean Edouard Michel Dupont ».

Malgré toutes ces fonctionnalités, nous nous sommes heurtés à des limitations structurelles liées à la nature du « leak ». De nombreux documents n’étant pas à l’origine sous des formats lisibles par des machines (scans, images), ils ont été passés à la moulinette d’un système de reconnaissance de caractère (OCR) par l’ICIJ. Cette technique, aussi performante soit-elle, fait courir le risque de passer à côté de mots mal retranscrits, comme des mentions manuscrites ou des scans de mauvaise qualité.

En outre, il faut garder en tête que les données sur lesquelles nous avons travaillées sont issues d’une organisation (le cabinet Mossack Fonseca) composée d’être humains, qui sont faillibles. Des fautes d’orthographe ou de mauvais transcriptions phonétiques de noms d’individus ont pu les faire échapper à nos recherches. Sans parler des problèmes de traduction des noms russes ou chinois écrits en alphabet cyrillique ou en idéogrammes…

La nécessité du systématisme

Passée la première phase d’exploration un peu « brouillonne » des données, il nous a fallu rationaliser nos recherches pour être certains de ne pas passer à côté de noms importants. En clair, chercher l’ensemble des parlementaires français plutôt que quelques noms connus.

Pour cela, l’ICIJ a mis en place, au cours du projet, un mécanisme de recherches par lot (« batch search »). Plutôt que d’examiner fastidieusement, et nom par nom, la liste des 500 familles les plus riches de France, il était possiblement de soumettre au moteur de recherche une liste structurée de nom. Quelques minutes plus tard, l’outil retournait un tableau de résultats sous le format .csv, contenant toutes les occurrences trouvées pour chaque entrée de la liste. Restait à trier, comme pour chaque recherche, le bon grain de l’ivraie.

Mais la recherche d’entités nommées n’est qu’un moyen parmi d’autres de trouver des personnes d’intérêt. Nous avons par exemple concentré une bonne partie de nos forces sur la recherche de résidents français, en utilisant le registre interne des sociétés de Mossack Fonseca, qui était la seule partie du « leak » à se présenter sous la forme d’un tableau structuré de données. Aux 214 488 structures offshore étaient associées pas moins de 450 000 actionnaires, quasiment tous liés à une adresse postale.

Grâce au logiciel de traitement de données OpenRefine, nous avons « nettoyé » et harmonisé ces adresses (via l’outil de “clustering” notamment, qui permet de faire des regroupements automatiques) pour en extraire une liste d’un millier d’actionnaires domiciliés en France, que nous avons ensuite systématiquement « googlés » pour détecter d’éventuelles personnalités d’importance.

La compatibilité du moteur de recherche de l’ICIJ avec les « expressions régulières » (« regex », pour les intimes) nous a également permis de systématiser certaines recherches.

Ainsi, sachant que tous les comptes bancaires français ont un identifiant IBAN de structure identifique (d’abord “FR”, puis deux chiffres, suivis d’au moins quatre groupes de quatre chiffres), nous avons pu tous les retrouver grâce à l’expression régulière suivante :

FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4

De la même façon, nous avons pu mettre la main sur la plupart des passeports français enfouis dans le « leak » grâce à leur code d’identification “P<FRA”.

L’exploration des données en graphe avec Linkurious

La complexité des montages offshore, où plusieurs sociétés-écrans s’emboîtent comme des poupées russes, rendait très laborieux le travail pour remonter la piste des véritables bénéficiaires. L’ICIJ a donc mis à disposition des médias partenaires l’outil de visualisation en graphes Linkurious pour faciliter l’exploration de la base de données.

Concrètement, cet outil faisait le lien entre quatre entités différentes contenues dans la partie « structurée » du « leak » : les sociétés, les intermédiaires, les actionnaires et leurs adresses. Il permettait de faire des recherches rapides et visuelles sur ces entités.

Compléter avec des sources ouvertes

Bien entendu, les seules données du « leak » ne suffisaient pas à l’enquête. D’une part parce que le détail des comptes en banque, actifs et activités associés à chaque structure offshore n’était pas toujours disponible, mais surtout parce que l’enchevêtrement des montages offshore conduisaient bien souvent à des sociétés enregistrées ailleurs que chez Mossack Fonseca.

Nombre des cas que nous avons étudiés remontaient ainsi à des holdings au Luxembourg – un pays à la fiscalité limitée, mais plutôt transparent sur son registre du commerce, disponible gratuitement en ligne (contrairement à la France, où ces informations ne sont toujours pas en open data). On y retrouve notamment les actes de création des sociétés, leurs changements de statuts et d’administrateurs, et parfois même leurs actionnaires.

L’absence de référencement du registre dans les moteurs de recherche nous empêchait toutefois de faire des recherches inversées (pour savoir dans quels dossiers une société apparaissait comme actionnaire, par exemple). Nous avons contourné cette difficulté en utilisant le très pratique legicopylux, qui est un copié-collé du registre du commerce luxembourgeois, avec pour avantage d’être indexé dans les moteurs de recherche (et donc cherchable sur Google avec l’opérateur « site:legicopylux.free.fr« ).

Hors du Luxembourg, nous avons jonglé avec les informations disponibles sur des sites semi-gratuits (comme Société.com et Verif.com en France, Duedil au Royaume-Uni ou companyweb en Belgique) et sur l’indispensable OpenCorporates, qui tente de rassembler les informations publiques sur les sociétés en agrégeant les registres du commerce en ligne du monde entier (pratique, surtout quand le registre panaméen a étrangement été mis hors ligne quand nos premières demandes d’interview ont été envoyées à Mossack Fonseca, début mars…).

Le téléphone… et le fax

Mais parfois, aucun de ces outils informatiques ne suffisaient à nos recherches. Acculés, au pied du mur, nous avons été contraints de dégainer notre botte secrète. Un matériel incroyablement sophistiqué que nous n’utilisons d’ordinaire que dans les situations d’extrême urgence : le téléphone.

Si l’on met de côté quelques désagréables bordées d’injures et d’épisodiques mensonges éhontés, ces conversations nous ont souvent permis de grapiller auprès des personnalités impliquées dans les montages offshore de précieuses informations sur leur usage.

L’utilisation du fax s’est révélée moins fructueuse. L’entêtement de la holding Akila Finance, dirigée par le cofondateur d’Adecco Philippe Foriel-Destezet, à réclamer l’envoi de nos questions par fax nous avait pourtant fait découvrir que Le Monde disposait encore d’un télécopieur. Malheureusement, elle n’a finalement jamais répondu à nos sollicitations.

La sécurité et le secret

Nous n’avons eu de cesse de nous le répéter tout au long de l’enquête : préserver la sécurité de nos communications était crucial pour limiter le risque de fuite ou de piratage. Ce qui n’est guère pratique, quand on doit rester en contact avec près de 400 confrères répartis un peu partout dans le monde, dans des fuseaux horaires souvent éloignés.

En interne, nous avons recouru au chiffrement PGP pour sécuriser les échanges de courriels au sein du Monde, ainsi qu’à la messagerie mobile sécurisée Signal. L’équipe informatique du journal nous a aussi fourni des ordinateurs, des supports de stockage et une connexion Internet sécurisés.

Pour faire travailler ensemble tous les médias partenaires de “Prometheus” (le nom de code de l’opération dorénavant aujourd’hui sur le nom de “Panama papers”), l’ICIJ a mis à notre disposition son forum collaboratif sécurisé « Global i-Hub », mis sur pied grâce à une bourse de la Knight Foundation. Il nous a permis de nous regrouper dans des groupes en fonction des thématiques et des zones géographiques, et de partager nos trouvailles tout au long des neuf mois d’enquête.

Comment aller plus loin ?

Les limites de la collaboration

Au bout de neuf mois d’enquête, plus de 1 500 discussions avaient été ouvertes sur le forum « Global i-Hub » (certaines déterminantes, d’autres inutiles), ce qui rendait difficile le suivi exhaustif du travail des confrères.

En outre, la nécessité de mener un long travail de vérification avant d’être certain d’être tombé sur une piste intéressante nous a souvent fait renoncer à signaler certains noms à nos partenaires – et vice-versa. C’est la limite d’une « méta-rédaction » si nombreuse : nous sommes très certainement passés à côté de nombreuses histoires par souci de ne pas « noyer » nos canaux de communication avec du « bruit » inutile.

Par manque de temps, un outil collaboratif mis en place par l’ICIJ s’est aussi révélé être un échec : il consistait à détecter automatiquement dans la base des données les bénéficaires réels des sociétés (derrière les prête-noms) grâce à un algorithme informatique, puis de faire valider le résultat (forcément incertain) par au moins trois journalistes différents. Par manque de temps et par l’immensité de la tâche, cette tentative de « vérification crowd-sourcée » n’a jamais porté ses fruits.

Des outils de « big data » pour le journalisme

Elle était pourtant l’ébauche de ce que pourrait être la prochaine étape de l’investigation journalistique assistée par ordinateur : l’utilisation systématique d’outils de « big data », qui est pour l’instant plutôt cantonnée au monde de la recherche et l’entreprise, et encore très étrangère à celui des médias.

On pourrait par exemple envisager de mettre en place des solutions de détection d’entités nommées pour extraire des noms ou des adresses email de l’incroyable fouilli des « Panama papers ».

Le tout, dans l’optique de réduire au maximum la place laissée à l’incertitude et au hasard dans le traitement par des êtres humains de masses de données qui les dépassent.

Jérémie Baruch et Maxime Vaudano, datajournalistes aux Décodeurs

Sur les aspects plus généraux de l’enquête, lire : Comment « Le Monde » a travaillé sur plus de 11 millions de fichiers