Les données de plus d’un milliard d’internautes ont été découvertes centralisées sur un seul serveur, sans cryptage ni mot de passe. QUENTIN HUGON / LE MONDE

Une base de données comprenant des informations sur quatre milliards de comptes Facebook, Twitter ou encore LinkedIn, et qui concerne en tout 1,2 milliard de personnes, soit presque l’équivalent des populations combinées de l’Union européenne, de l’Amérique du Nord et du Brésil. C’est le document que les chercheurs en sécurité informatique Bob Diachenko et Vinny Troia ont eu la surprise de découvrir, le 16 octobre, sur un serveur Internet, comme ils l’expliquent dans un article exposant leurs travaux.

Cette base de données était librement accessible à partir d’une simple URL, sans aucune protection. Signalé au FBI, le serveur a été coupé dans les heures qui ont suivi, a expliqué Vinny Troia au magazine spécialisé Wired, dans un article publié vendredi 22 novembre. Ses découvreurs parlent de « la plus grosse fuite de données depuis une source unique » de l’histoire.

« Enrichissement de données »

Dans la base de données, on trouvait 622 millions adresses e-mail, des noms, des numéros de téléphone, ou encore des informations provenant des réseaux sociaux. En revanche, pas de mot de passes, de numéros de carte de crédit, ou autres informations réellement sensibles : la plupart des données y figurant sont en effet publiques, et pas forcément très différentes de celles que l’on peut trouver dans un antique annuaire.

Ce qui surprend et inquiète les chercheurs, ce n’est pas le caractère secret des informations compilées, mais plutôt la somme de celles-ci, et le fait qu’une base de données aussi complète puisse servir à des personnes mal intentionnées pour monter des arnaques ou se faire passer pour quelqu’un d’autre.

D’après l’analyse des chercheurs, cette base de données serait en fait la compilation de quatre documents différents, provenant notamment des sociétés américaines People Data Labs et, dans une moindre mesure, Oxydata. Deux sociétés que M. Troia décrit comme des entreprises « d’enrichissement de données ».

Leur modèle économique : compiler et croiser les données personnelles publiques de centaines de millions voire de milliards d’Internautes, et les vendre ensuite à d’autres entreprises – typiquement, des sociétés cherchant à identifier un groupe de clients potentiels par caractéristiques ou centres d’intérêt communs.

Manque de traçabilité

People Data Labs revendique elle-même, sur son site, posséder des données à propos d’un milliard et demi d’internautes, tandis que Oxydata se targue d’avoir des informations sur 380 millions de profils. D’après les chercheurs, Oxydata auraient notamment aspiré ses données depuis le réseau social LinkedIn.

Comment ces données, dont les entreprises comme People Data Labs et Oxydata font normalement le commerce, se sont-elles retrouvées en ligne gratuitement et accessibles à tous ? Pour les chercheurs, il ne s’agirait vraisemblablement pas d’un piratage mais d’une compilation qui pourrait être le fait d’un client, actuel ou passé, de ces entreprises.

« Une fois qu’un client a téléchargé nos données, les données sont sur leurs serveurs et leur sécurité est de leur responsabilité », avance à Wired Sean Thorne, cofondateur de People Data Labs. Dans le même article, Martynas Simanauskas, l’un des responsables d’Oxydata, précise : « Nos accords interdisent formellement à nos clients de revendre les informations que nous leur fournissons. Mais nous n’avons aucun moyen de nous assurer que ceux-ci protègent correctement leurs données. »

Les sites comme People Data Labs propose en outre de créer gratuitement un compte permettant de télécharger librement mille profils par mois. Comme le souligne Vinny Troia, contacté par Wired, il suffirait que quelqu’un crée « mille comptes bidons et télécharge mille profils avec chacun d’entre eux » pour aspirer les données d’un million d’internautes.