On a déjà mentionné dans un précédent article, un papier de la Technology Review comparant les recherches en Deep Learning a du « bricolage ». Nous avons également mentionné l’existence d’une crise de la réplication touchant l’IA. Cette fois, ce sont Ali Rahimi (@alirahimi0), chercheur chez Google, et Ben Recht (@beenwrekt), professeur à Berkeley, qui tirent à leur tour la sonnette d’alarme, en comparant l’ensemble de ce champ de recherche à de l’alchimie. C’est ce dont nous informe, dans le magazine Science, le journaliste scientifique Matthew Hutson (@silverjacket), qui, on le notera, aime se plonger dans les domaines où les frontières entre rationnel et irrationnel deviennent floues (il est l’auteur des 7 lois de la pensée magique que nous avons chroniqué).

Pour Rahimi et Recht, la situation serait même encore plus grave qu’on ne le croyait.

Comme l’écrit Hutson :

« Le problème est distinct de celui de la reproductibilité en IA, à cause duquel les chercheurs ne peuvent pas reproduire les résultats d’autrui en raison de pratiques expérimentales et de publication incorrectes. Il diffère également de celui de la «boîte noire» ou de l’«interprétabilité» de l’apprentissage automatique, c’est-à-dire la difficulté dans laquelle on se trouve d’expliquer comment une IA particulière est parvenue à ses conclusions. Comme le dit Rahimi, «j’essaie de faire la distinction entre un système d’apprentissage automatique qui est une boîte noire et un domaine entier qui est devenu une boîte noire». »

Pour résumer, les chercheurs en IA ne savent pas trop ce qu’ils font. Ils se reposent sur des recettes aux fondements peu solides, François Chollet (@fchollet), chercheur chez Google, allant jusqu’à parler de « pratiques dignes du culte du cargo, de folklore et de sortilèges ». Ainsi, chaque chercheur a ses méthodes favorites pour entraîner son programme, mais ne saurait souvent pas justifier pourquoi sa technique préférée serait meilleure que d’autres. La preuve ? Des chercheurs se sont emparés d’un algorithme complexe de traduction, puis en ont supprimé un certain nombre de parties. Il s’est avéré que le système continuait à traduire l’anglais vers le français ou l’allemand, aussi bien, et parfois mieux, que dans sa version originale. Ce qui, note Hutson, signifie qu’on ignorait à quoi servaient exactement les parties supprimées.

Dans ce cas, le coeur du programme était efficace, et c’étaient les ajouts périphériques qui s’avéraient inutiles, mais parfois, c’est le contraire. Il arrive, explique Hutson, que l’essentiel du programme soit vicié. Mais l’algorithme continue à donner de bonnes performances. Cette fois, c’est parce que certaines additions périphériques contribuent à corriger le résultat.

Rahimi et Recht conseillent cependant quelques actions pour rendre le travail en IA plus scientifique. Par exemple, s’inspirer des exemples mentionnés pour « découper les programmes », et les exécuter étapes par étape, pour voir quelles sont les séquences desdits programmes véritablement indispensables et quelle est leur efficacité réelle.

Il faudrait aussi s’inspirer de l’expérimentation en physique. Les physiciens, dit Ben Recht, sont très forts pour « inventer des expériences simples susceptibles de révéler des explications à certains phénomènes. ». Pour Hutson, « certains chercheurs en IA adoptent déjà cette approche, testant des systèmes de reconnaissance d’images sur de petits caractères manuscrits en noir et blanc avant de s’attaquer à de grandes photos couleur, afin de mieux comprendre la mécanique interne des algorithmes. «

Mais termine Hutson, tout le monde n’est pas d’accord avec cette vision inquiétante. Hutson mentionne ainsi le chercheur français Yann le Cun (@ylecun), directeur de la recherche en intelligence artificielle chez Facebook, pour qui :