Depuis 2011, l’enthousiasme autour de Predpol, le logiciel de police prédictive américain, électrise la terre entière. Son algorithme secret, toujours comparé aux précogs de Minority Report, c’est-à-dire à une forme de perception extra-sensorielle, semble tenir plus de la magie que de la science, comme si les mathématiques étaient miraculeuses. La société, elle, affiche partout des résultats là où sa technologie est déployée – à savoir si l’on en croit le site de Predpol, une petite dizaine de villes américaines pour l’instant, Los Angeles et Atlanta étant les plus importantes – : une baisse de la criminalité de 10 à 30% selon le type de crimes.

Si des discours critiques existent, ils se situent plus à un niveau d’analyse politique que technique. Comme le soulignait récemment le sociologue Bilel Boubouzid sur Rue89 : « PredPol, pour moi, c’est un algorithme de droite. Il permet de réduire les dépenses publiques, les effectifs dans la police, de faire des économies. En plus, il s’appuie sur l’idée qu’on agit auprès des plus pauvres. Or quand on organise l’action sociale auprès d’une minorité, et seulement d’une minorité, c’est une conception libérale. Les sociologues qui critiquent PredPol ont une approche d’État social solidariste, alors que la protection des victimes via PredPol correspond à une approche plus libérale.”



Image : capture d’écran de l’interface cartographique du logiciel de Predpol et sa prédiction de zones à risques.

Pourtant, on trouve peu d’études critiques sur les résultats mêmes de Predpol. Notamment parce que si la société communique beaucoup, elle livre bien peu de données. Comme si son algorithme secret devait être parfait parce que secret.

D’où l’idée d’Ismaël Benslimane, qui dans le cadre d’un master en physique à l’université Joseph-Fourier de Grenoble et en tant que membre du CorteX, un collectif d’enseignement et de recherche en esprit critique, de s’attaquer aux résultats mêmes de Predpol – Cortex est une association de chercheurs qui cherche à créer du débat public par l’analyse critique et scientifique.

Bien sûr, le chercheur grenoblois n’a pas eu accès aux données de Predpol. Mais il a utilisé des données accessibles comparables et la rare littérature grise publiée par les scientifiques de Predpol pour construire un modèle similaire et l’interroger avec d’autres types d’algorithmes. Dans son remarquable et très accessible article (voir également cette présentation .pdf et cet article plus technique (.pdf)), Ismaël Benslimane dresse une très convaincante critique des limites de Predpol, en soulignant que l’algorithme de la société américaine prédit surtout de bien piètres banalités. A l’heure où se profile un PredPol à la française, comme le révélait il y a peu Mediapart, voilà l’occasion de nous intéresser concrètement aux limites de ces outils.

Les biais de la mesure de la criminalité

Dans son article, après avoir souligné les limites de la communication scientifique de la société américaine, Ismaël Benslimane rappelle les biais inhérents à la mesure de la criminalité. Tout d’abord, ne sont comptés que les crimes et délits constatés. Il suffit donc d’un changement dans les procédures d’enregistrement pour faire varier les chiffres. Or, Predpol est aussi et d’abord un outil d’enregistrement et de classification des délits. Ce qui pose la question des types de délits enregistrés et de ceux utilisés pour l’évaluation et la prédiction, ainsi bien sûr que leur géolocalisation. Si Predpol est efficace là où il est déployé, que sait-on de l’augmentation de la criminalité dans les quartiers où il n’est pas présent ? Comme le montrent plusieurs études sur les caméras de surveillance (voir notamment les enquêtes de Jean-Marc Manach), Predpol ne risque-t-il pas avant tout de déplacer la criminalité ?

Autre problème comment valide-t-on l’efficacité du logiciel ?

Imaginons un policier, en pause, en train de manger un donut gras et collant dans sa voiture, l’ordinateur signale une zone à risque : 1. il va sur les lieux, il remet le donut à plus tard :

A. il y a un délit qui se produit, le policier valide donc la prédiction du logiciel.

B. il n’y a pas de délit, le policier valide aussi la prédiction du logiciel, car il a empêché tout incident. 2. il ne va pas sur les lieux, il finit son donut :

A. Il y a eu un de délit, le policier apprend la nouvelle, il validera la prédiction du logiciel, car il aurait dû finir son donut et se déplacer.

B. Il n’y a pas eu de délit, le policier finira son énième donut et oubliera l’événement, car personne ne lui rappellera qu’il n’y a pas eu de délit. »

Visiblement, comme le souligne l’exemple, Predpol gagne à tous les coups !

Enfin, l’usage de Predpol repose sur l’augmentation des patrouilles de police, ce qui a pour effet logique de diminuer la criminalité. Cette diminution est-elle alors le fait du logiciel ou de l’augmentation du nombre de patrouilles ?

Ces biais signalés, intéressons-nous maintenant à la démonstration.

80% des délits ont lieu dans 20% du territoire… ou la démonstration du principe de Pareto

N’ayant pas eu accès aux données de Predpol, Ismael Benslimane a dû construire son propre modèle. Pour cela, il a exploité la base de données de criminalité de la ville de Chicago publiée en accès libre par la police de la ville depuis 2001 qui a d’ailleurs servi de base aux rares études accessibles de Predpol. À partir de cette base répertoriant plus 5 millions de délits, il a pu créer une cartographie reproduisant le quadrillage de Predpol et l’exploiter avec des données les plus proches de celles indiquées par Predpol dans ses articles de recherche. Il a ensuite utilisé plusieurs algorithmes assez basiques pour générer pour chaque jour une carte de prédiction dont il pouvait vérifier la pertinence avec les enregistrements des crimes des jours suivants. Il a développé un algorithme de prédiction aléatoire (où chacune des zones du territoire a chaque jour une chance sur l’ensemble d’être tirée au sort), un autre pondéré par le taux de criminalité (favorisant les zones avec une plus forte activité criminelle), et un dernier qui favorise les zones à plus haut risque sur les autres.

Ce dernier algorithme obtient des scores de prédiction très proche de la courbe de Predpol et même meilleure si on élargit la carte du territoire. Le problème, souligne Ismaël Benslimane, c’est que lorsque l’on quadrille la ville, la plupart des délits ont toujours lieu dans les mêmes secteurs, suivant la classique loi de Pareto qui date du XIXe siècle : à savoir que 80% des délits à arme à feu ont lieu dans 20% du quadrillage.



Image : exemple de courbe de roc permettant de comparer l’efficacité de deux algorithmes. C’est cet outil qu’utilise Ismaël Benslimane dans son article pour comparer ses résultats à ceux de Predpol. Predpol avait utilisé le même outil pour montrer la supériorité de son logiciel sur son ancêtre, Promap.

« Cette découverte relativise grandement l’autosatisfaction de Predpol qui se félicite de prédire 50% des délits en pointant 10,3% de la surface de la ville. Le graphique nous montre que 50 % des délits ont lieu dans 7,5 % de la ville. Étant donné que la criminalité évolue peu, il suffit de prédire toujours les mêmes lieux « à risque » pour être aussi performant que Predpol : c’est ce que démontre notre algorithme concurrent. »

Pour résumer simplement, ce que nous dit cette étude, c’est que Predpol réinvente l’eau chaude.

C’est certes une banalité de la criminologie que les crimes se répètent dans le temps et l’espace, mais pour le sociologue Dominique Cardon, ce n’est pas pour autant que la loi, que la théorie, est fausse. Cette répétition de la victimisation est d’abord inscrite dans le social. On sait que le crime est contagieux spatio-temporellement, qu’une victime qui ne se protège pas risque de se faire à nouveau cambrioler, elle ou ses voisins. « Les policiers à l’ancienne savent que les crimes reviennent. C’est pour cela qu’ils maraudent aux mêmes endroits. Pourtant, ils ne savent pas faire la liste des 20 lieux qu’ils doivent visiter dans la journée, qu’ils auraient potentiellement faite. L’algorithme de Predpol permet juste de déployer ce qu’ils auraient fait naturellement. »

En fait, si les calculs peuvent être compliqués, les outils sont à disposition. Les universitaires produisent les théories et les algorithmes et les sociétés qui les exploitent font des ajustements : ce que semble montrer Ismaël Benslimane, c’est que dans le cas de Predpol, il ne semble pas y avoir beaucoup d’ajustements… Encore que. L’ajout de variables environnementales sur les données peut permettre d’ajouter des règles et de modifier les résultats, qui ne se voient pas nécessairement sur l’ensemble des données, mais sur les coeurs, sur la prédiction de lieux et de moments.

Le jeune chercheur, lui, est modeste et prudent. Il nous explique surtout que son analyse est bien lacunaire à ce stade, qu’il n’a fait qu’un test, avec des algorithmes de base, naïfs… scolaires pourrait-on presque dire. « Mon étude montre que leur analyse manque d’information. Quand on construit un algorithme simple consistant à envoyer les unités de polices dans les zones les plus criminogènes d’une ville, on obtient des résultats équivalents ».

« Mon analyse n’est qu’un premier pas. Mes résultats sont incertains du fait de manque de données. (…) On pourrait aussi reproduire leur algorithme depuis leur formule mathématique pour faire une simulation… Ce pourrait être une vérification supplémentaire qu’il serait nécessaire de faire », confie-t-il encore comme pour montrer que les pistes pour démonter Predpol peuvent être encore nombreuses.

Pour le physicien Pablo Jensen de l’Institut rhônalpin des systèmes complexes, il est important que des chercheurs des sciences se mettent au rétro-ingéniering, c’est-à-dire « à démontrer ce que ces systèmes font ». Il faut démythifier les boites noires, sans les prendre au sérieux. « Quand on le fait, on constate alors que nous ne sommes pas vraiment dans Minority Report ». Pour lui, Predpol est survendu, sans avoir réellement montré qu’il était vraiment capable d’améliorer les prévisions, comme souvent quand on cherche à tirer du sens de bases de données pour apprendre des choses du monde réel. « Sur des domaines où la sociologie ou les sciences sociales ont déjà un passé, on ne voit pas beaucoup de choses très concluantes sortir de l’analyse de données. »

Pour Yves-Alexandre de Montjoye, chercheur au laboratoire Human Dynamics du Media Lab du MIT, ce très bon travail technique pose des questions intéressantes. Le machine learning, l’apprentissage automatisé qui consiste à faire que les algorithmes apprennent de leurs données, rappelle-t-il a, été inventé pour résoudre des problèmes techniques, comme pour classer des images ou des données. Mais l’appliquer aux politiques publiques pose beaucoup de questions, notamment parce qu’il encode nos propres biais. Certes, même avant Predpol, les policiers n’ont jamais patrouillé au hasard. Cela ne veut pas dire que nous n’avons pas besoin d’une méthode plus scientifique, mais il ne faut pas oublier qu’au bout du compte cela revient à mettre des gens en prison. Il n’y a aucune magie dans les calculs qui ont lieu. Mais il est plus que jamais nécessaire de se poser la question du sens de la prédiction que l’on veut réaliser, des données dont on dispose pour se faire, de celles qu’on omet de prendre en compte et du mécanisme de contrôle que l’on met en place.

Comme nous le confie Benslimane : « il faut rester prudent avec les prédictions, car on peut souvent en être satisfait », notamment si on ne les compare pas avec d’autres analyses. « Or Predpol, entreprise privée, n’a aucun intérêt à comparer son algorithme ou à en montrer ses limites. Ce qui est moins le cas de la société civile qui va être amenée à les utiliser » ou à en subir les conséquences.

Qu’est-ce que la prédiction cherche à prédire ?

Dans un article qui vient de paraître dans la revue Champ pénal, le sociologue Bilel Benbouzid retrace la récente histoire de la prédiction algorithmique du crime. Pour lui non plus, Predpol ne prédit pas des banalités, mais s’appuie sur la « théorie de la répétition de la victimisation ». La force des outils prédictifs est d’intégrer des variables spatiales et temporelles qui vous indiquent qu’aux alentours d’un lieu où il a déjà eu un crime, il y a une forte chance qu’il se répète avec un risque très fort qui chute rapidement au bout d’un mois. « Un crime précédent est lié au crime à venir, un peu comme le cancer : si vous en avez un, vous devenez un terrain, comme disent les médecins. On prédit mieux les cancers aux gens qui en ont déjà eut un ».

« Predpol tire d’ailleurs son modèle de la sismologie. Une science où l’on prédit assez mal les tremblements de terre, mais très bien les répliques », ajoute Bilel Benbouzid. Dans le modèle mis en place par Predpol, le crime n’est plus qu’un point chaud, nettoyé de son histoire et de son contexte social. Les paramètres s’ajustent par auto-apprentissage.

Le problème de ce modèle, c’est qu’il se concentre sur la répétition des victimisations. Or la réalité est qu’on est dans un modèle où on a beaucoup de gens qui ne sont jamais victimes de crimes, un petit groupe qui est victime de manière chronique et un autre plus aléatoire. Faut-il se concentrer sur la seule répétition quand la dynamique d’ensemble est plus complexe ? C’est la critique qu’adresse le chercheur Tim Hope, éminent spécialiste du sujet, à ses confrères à l’origine de Predpol et de son ancêtre Promap. Les gens qui ont été victimes d’un crime ont néanmoins plutôt tendance à devenir des victimes immunes. Pour Benbouzid, « comprendre une société qui a un haut niveau de sécurité est très liée à la vulnérabilité extrême d’un petit groupe ». Pour les critiques de Predpol, comme Time Hope, il faut envisager la lutte contre la victimisation dans une logique de solidarité, afin de pouvoir la redistribuer à ceux qui n’en bénéficient pas. Pour le dire autrement : le fait que la quasi-totalité des crimes se répète sur un petit groupe de la population est avant tout lié à la surprotection de la majorité. L’enjeu n’est alors pas tant de surveiller ce petit groupe que d’élargir la protection. Comme Bilel Benbouzid le souligne dans son article : « fonder une politique publique sur le seul modèle de l’exposition au risque, c’est ignorer le fait que l’immunité des uns est liée à l’exclusion des autres de la sécurité ». La manière dont les gens se protègent a certainement plus à nous apprendre pour protéger la population que la manière dont le crime se répète.

Pour Bilel Benbouzid, Predpol intègre dans son algorithme même une conception de l’action publique des plus libérales. Les données et les traitements ne sont pas neutres, elles intègrent une conception de l’action de l’État. Il est intéressant de souligner que la prédiction nait à l’heure où la criminalité recule, aux Etats-Unis comme dans beaucoup de pays industrialisés, et ce n’est pas tant l’efficacité de la police qui s’est améliorée. C’est une tendance longue qui montre que les changements en cours sont profonds et qu’ils nous offrent l’occasion de repenser nos institutions et nos programmes d’action publique et envisager une autre conception de la police.

Les services publics peuvent-ils fonctionner sur des boîtes noires ?

Pour Ismaël Benslimane, Predpol semble surtout exprimer d’une manière politiquement correcte, grâce à des données chiffrées sur une carte, qu’il y a plus de délits dans certaines zones d’une ville, sans rien dire de la précarisation de ces zones. « Predpol est un moyen de cacher une réalité sociale. Au lieu de dire que c’est un quartier pauvre, on va dire que c’est une zone de criminalité. » On donne ainsi une valeur de probabilité à un délit, alors qu’on pourrait corréler la criminalité à d’autres facteurs, comme la densité de population par exemple…

Le jeune chercheur souligne encore une autre limite de Predpol. Il semble que ce soit surtout des villes américaines qui ont eu des problèmes de budgets avec leur police qui se sont lancées avec cette entreprise. « Mis de côté les problèmes éthiques ou moraux d’avoir recours à Predpol, si ça marchait si bien, pourquoi il n’y aurait pas plus de villes qui l’utiliseraient ? Le seul projet en Europe, dans le Kent, est toujours au stade d’expérimentation. En fait, Predpol n’a pas montré que leurs résultats étaient aussi probants qu’ils l’affichent. C’est ce que montre mon article. Et quand bien même leurs résultats seraient probants, vu le nombre de biais, cela ne montrerait pas pour autant l’efficacité de leur logiciel ».

Ce que montre l’étude d’Ismaël Benslimane en tout cas, c’est, comme nous l’avons déjà répété, l’importance d’interroger les modèles. Les algorithmes, contrairement à ce que semble indiquer leur nom, ne sont pas obscurément magiques, car complexes. Leurs fonctionnements peuvent même être très simplement expliqués, comme le montre le très pédagogique article d’Ismaël Benslimane.

Cette étude illustre en tout cas l’importance et l’urgence de comprendre ce à quoi on est confronté. Et combien ces systèmes techniques doivent être ouverts et ce d’autant plus qu’ils agissent sur des systèmes aussi publics que la police. Or, comme le souligne Ismaël Benslimane, « le problème est qu’on ne connaît pas les variables qui font tourner l’algorithme ». Peut-on faire reposer des services publics sur des boîtes noires, sur des systèmes dont nul ne peut observer ou discuter des modalités ? Assurément, plus que les services privés, les services publics doivent reposer sur des systèmes techniques ouverts, vérifiables, dont les modalités doivent pouvoir être contrôlables par les citoyens ou par des experts. Pour Benslimane, Predpol pose une question morale plus que politique. « Est-ce si utile pour la société civile comme pour la police ? »

En tout cas, pour l’instant, cela ne semble pas le cas. La police prédictive n’aligne, sous le sceau du secret, que des évidences. De quoi relativiser bien des certitudes sur notre avenir.

Hubert Guillaud