Chaque jour, chaque minute sur le Web, en cherchant sur Google, en postant sur Facebook ou Snapchat, je, tu, il, nous produisons de la donnée, des données qui ne nous appartiennent pas vraiment la plupart du temps, qui nous échappent le plus souvent, et qui constituent surtout le puissant carburant des géants de l’économie numérique.

Pour mieux comprendre les batailles qui se trament sur la Toile mais aussi les moyens de reprendre la main, au niveau individuel et collectif, l’ouvrage « Datanomics » décortique ces « nouveaux business models des données ».



« La data ne dort jamais » : ce qu’il se passe sur le Web dans le monde chaque minute - Domo

Pas besoin de sortir de Polytechnique ou de HEC pour s’y plonger : les exemples sont concrets, le jargon traduit en langage intelligible et l’approche de cet essai d’une centaine de pages, sorti l’an dernier, se veut clairement pédago, en mode « la data pour les nuls ».

Making-of Envie de parler d’autres choses que de Pokemon Go ou du Morandinigate à l’apéro ? Nous vous invitons à une série de lectures estivales qui décryptent la société numérique. Des ouvrages récents, d’autres moins, qui nous ont paru clés pour comprendre les grands enjeux du monde d’aujourd’hui et de demain. Rue89

Les auteurs, Simon Chignard, responsable de l’édition des données à Etalab, la mission gouvernementale chargée de l’ouverture des données publiques, et Louis-David Benyayer, chercheur en stratégie à l’ICD Business School, ont d’ailleurs pris soin d’ajouter un petit lexique fort utile en fin d’ouvrage pour décomplexer à coups de définitions simples et claires, du type « algorithme : recette de cuisine » ou « proxy : mesure alternative d’un phénomène ».

Ces termes vous font peur ? Restez, au contraire, car les algorithmes, qui se nourrissent et produisent aussi eux-mêmes de la donnée, sont « de plus en plus puissants et opaques ». Exemple limpide avec Airbnb :

« La société Airbnb a construit un système permettant aux utilisateurs qui mettent leur appartement en location d’estimer le prix de la nuitée. Cet algorithme se nourrit des données de la plateforme : la nature du bien, les prix des autres biens dans le secteur, l’élasticité constatée entre la demande et les prix, la saisonnalité, etc. [...] Or cet algorithme est d’abord conçu pour satisfaire les objectifs de la plateforme et en premier lieu la maximisation des chances de location. La rémunération d’Airbnb est liée au volume de transactions et non directement à leur montant. Les recommandations de la plateforme ne sont donc pas nécessairement optimales pour les loueurs. En fixant un prix supérieur, ils pourraient disposer d’un revenu comparable avec moins de nuitées. »

Combien pour mes données ?

Les auteurs cassent au passage quelques mythes :

Il n’y a pas de donnée « brute » ou « naturelle », elle est toujours le fruit d’une construction, collectée en fonction d’objectifs qui présentent des biais.

ou « naturelle », elle est toujours le fruit d’une construction, collectée en fonction d’objectifs qui présentent des biais. Attention à « la pensée magique du big data », c’est-à-dire la confusion fréquente entre corrélation et causalité, et la « tendance du big data à privilégier le quoi plutôt que le pourquoi » :

« Les ventes de lunettes de soleil et celles de crème glacée vont souvent de pair – on dira qu’elles sont fortement corrélées – et pourtant aucune des deux n’explique l’autre ! »

Les données ne sont pas du pétrole (car leurs gisements semblent infinis), ni de l’or (elles ne prennent de la valeur que si elles circulent, pas en restant stockées). Mais elles sont bien une sorte de matière première comparable à un diamant brut (le raffinage leur donne de la valeur) ou à du blé (pour son potentiel de réutilisation multiple).

Et ce blé, alors, il a un prix, un marché ? Un sondage avait montré qu’un tiers des internautes français étaient prêts à donner un large accès à leurs données persos en échange de 500 euros par an ! Une start-up new-yorkaise, DataCoup, propose de son côté de rémunérer les utilisateurs jusqu’à dix dollars par mois en échange de leurs données qu’elle revend aux annonceurs.

En fait, la valeur des données dépend de multiples facteurs :

Le coût de production et de collecte. Créer de la donnée a un coût souvent proche de zéro, c’est le fameux « digital labor », troc implicite des internautes qui laissent leurs données en échange d’un service web gratuit.

et de collecte. Créer de la donnée a un coût souvent proche de zéro, c’est le fameux « digital labor », troc implicite des internautes qui laissent leurs données en échange d’un service web gratuit. Leur utilité , ce que l’on veut en faire.

, ce que l’on veut en faire. Leur rareté . Les données sont abondantes mais l’accès à la source est souvent exclusif, contrôlé par quelques grandes plateformes (qui peuvent couper le robinet).

. Les données sont abondantes mais l’accès à la source est souvent exclusif, contrôlé par quelques grandes plateformes (qui peuvent couper le robinet). Leur usage potentiel dans le futur. Parce qu’il faut souvent une certaine quantité de données pour que des usages émergent.

Aspirateurs à données géants

Si le grand public ne connaît que les principaux aspirateurs à données géants que sont Google et Facebook, ce marché de la donnée a aussi ses intermédiaires, « des courtiers en données, aussi puissants que méconnus ». Leur nom ne vous dira rien : il y a les Américains Acxiom et Epsilon (groupe Alliance Data) et l’Irlandais Experian qui revendique [PDF] une base de données portant sur 890 millions de personnes dans le monde !

« (Ces courtiers) récupèrent les données publiées sur les sites des administrations, particulièrement nombreuses aux Etats-Unis, achètent des informations auprès des banques, des organismes de crédit ou de la grande distribution. Une société peut aussi fournir son fichier client à un courtier qui lui livre en échange des données enrichies dans le cadre d’accords de réciprocité. Les individus eux-mêmes alimentent ces bases en participant à des jeux concours. »

Ces entreprises entretiennent délibérément l’opacité, soulignent les auteurs qui s’appuient sur les conclusions d’une enquête du Sénat américain : ce rapport montrait par exemple que les courtiers en données proposent des services permettant de cibler des publics vulnérables comme les « mères célibataires endettées ». Evidemment pas dans un but philanthropique !



Un technicien américain remplace le disque dur d’un ordinateur - Jason T. Poplin-Us Navy/WikimediaCommons/CC

Un propos qui fait écho au cri d’alarme de la « data sceptique » Cathy O’Neil contre les dangers de certains algorithmes aux effets discriminatoires, dans l’éducation, la justice ou l’accès au crédit. Et le risque de « prison algorithmique » que crée l’hyper-personnalisation induite par l’utilisation des données massives.

Les auteurs explorent ensuite les différentes stratégies des acteurs économiques qui exploitent les données (devenir une plateforme, se placer au cœur de l’écosystème, faire des alliances) et décryptent les « nouvelles arènes concurrentielles » qui se dessinent : Google perçu comme un rival par la Sncf par exemple, et toute la bataille qui se joue autour de la voiture autonome, qui tourne à la donnée.

« Redistribuer les rôles »

Les citoyens aussi peuvent jouer un rôle, au niveau individuel et collectif, et les données « peuvent être un levier d’émancipation », comme s’emploient à le démontrer les auteurs dans la partie sans doute la plus stimulante de « Datanomics », qui donne des pistes d’action. Car la donnée c’est politique, éminemment politique :

L’Etat a une tradition de collecte et d’utilisation de la donnée, « de la statistique (décrire le réel) au contrôle des populations (état civil) ».

Dans la définition même du champ d’action des pouvoirs publics, « de la ville intelligente aux missions régaliennes telles que la santé ou l’éducation, les données massives ont la capacité de redistribuer les rôles entre acteurs publics, privés, associatifs et la société ».

Les implications sont larges, avec le risque d’une délégation de la décision politique aux grands systèmes informatiques intégrés (IBM par exemple) qui proposent de piloter la ville par les données. Et toutes sortes de dérives comme la politique du chiffre appliquée dans la police ou la détection de potentiels fraudeurs au fisc, quitte à empiéter allègrement sur la vie privée en scrutant les dépenses des ménages.

« Un autre big data est possible »

Les auteurs insistent : « un autre big data est possible » à condition de suivre quatre grands principes.

« Les objectifs des politiques publiques ne peuvent se résumer uniquement à des critères de performance ou de coût. »

Ces outils doivent être utilisés « pour encourager l’autonomie de la décision au niveau local dans une optique de décentralisation ».

Il faut « garantir la transparence et l’ouverture des données, des outils et des modèles », à a fois pour une question morale et par souci d’efficacité.

Le respect de la vie privée.

Il y a aussi « une géopolitique et une diplomatie de la donnée », un enjeu de souveraineté, avec la crainte exprimée par certains que l’Europe ne devienne une « colonie du monde numérique », autrement dit des Etats-Unis. Se posent alors les questions de la régulation de l’utilisation des données, de son éventuelle taxation et de la nécessité de relocaliser les données, dans des serveurs sur le territoire national.

« Faire société »

Tout cela vous passe au-dessus de la tête ? Impossible de s’en désintéresser pourtant, car les données « déterminent de plus en plus souvent de manière implicite les capacités d’actions et d’émancipation des individus ». Il y a des leviers d’actions, expliquent les auteurs dans leur dernier chapitre « faire société dans un monde de données ». Par exemple :

La « monétisation » directe, la vente de ses données personnelles. Aux Etats-Unis, les données sont des marchandises et peuvent être cédées. En Europe au contraire, elles sont un droit attaché à la personne humaine, et donc incessibles.

» directe, la vente de ses données personnelles. Aux Etats-Unis, les données sont des marchandises et peuvent être cédées. En Europe au contraire, elles sont un droit attaché à la personne humaine, et donc incessibles. L’approche des « biens communs ». Les données sont une ressource collective qui peut être utilisée sous certaines conditions, comme les licences à réciprocité.

». Les données sont une ressource collective qui peut être utilisée sous certaines conditions, comme les licences à réciprocité. La restitution des données personnelles. Permettre aux individus de télécharger facilement les données les concernant, comme cela est testé dans le cadre du projet Mes Infos de la Fing avec des assureurs, EDF, Orange, etc.

des données personnelles. Permettre aux individus de télécharger facilement les données les concernant, comme cela est testé dans le cadre du projet Mes Infos de la Fing avec des assureurs, EDF, Orange, etc. Les stratégies de retrait ou contournement. En utilisant des applis « responsables », comme le navigateur Firefox de Mozilla qui garantit le respect de la vie privée, ou le logiciel Tor, Lightbeam qui permet de visualiser les flux de données. Toutefois, les auteurs sont fatalistes :

« Se cacher est devenu un défi quasi impossible, sauf à renoncer à toute activité en ligne. »

Une sociologue de Princeton a ainsi essayé de cacher sa grossesse aux algorithmes et a fini par éveiller la suspicion de blanchiment d’argent.

Les projets collaboratifs. Des organisations citoyennes peuvent devenir un vrai contre-pouvoir, en nourrissant le débat public. Exemple avec la base de données mondiales, Open Food Facts, sur la composition des produits alimentaires, pour rendre l’industrie plus transparente. Ou encore le réseau social Patients like me pour aider les malades à échanger sur leur traitement.

Les auteurs terminent en donnant quelques conseils, comme de bien lire les conditions générales des services internet que vous utilisez, de demander à votre mairie qui accède aux données de transport, d’eau et d’électricité, ou à votre député quel est son point de vue sur les données. Ils nous invitent aussi à participer à ces projets collaboratifs pour avoir enfin prise sur cette économie des données.