En 2016 et 2017, la victoire sans appel d'un logiciel, AlphaGo, battant les plus grands champions de jeu de go, avait montré de manière spectaculaire la progression de l'intelligence artificielle (IA), gagnant à ce jeu plus complexe que les échecs, 20 ans après la défaite du meilleur joueur d'échecs (humain) du monde, Garry Kasparov, contre le DeepBlue d'IBM.

Game over : le logiciel bat définitivement l'humain au jeu de goUne nouvelle étape, impressionnante, vient d'être franchie : DeepMind Technologies, branche consacrée à l'IA d'Alphabet, la maison mère de Google, a conçu une plateforme d'IA appelée AlphaZero, présentée ce vendredi dans la revue "Science".

Elle a appris les règles de base des échecs, du jeu de go et du shogi (autre jeu de plateau à deux joueurs, proche des échecs). Puis, utilisant des réseaux de neurones artificiels, AlphaZero a joué des millions de parties contre elle-même, sans aucune aide humaine, souligne le site d'actus tech CNET . Une innovation, puisque les logiciels antérieurs étaient nourris de données issues de parties réelles jouées par des humains.

Ce système par essai et erreur appelé "apprentissage par renforcement", a pris à AlphaZero 9 heures pour les échecs, 12 heures pour le shogi et 13 jours pour le go (une différence de durée qui montre bien la complexité de ce dernier). Le programme a mobilisé 5.000 circuits intégrés, appelés TPU : un seul de ces circuits peut traiter 100 millions de photos par jour dans Google Photos, souligne CNET.

Après quoi ce fauve virtuel a été lâché contre les meilleurs programmes existant dans chaque catégorie : Stockfish pour les échecs, Elmo, champion du tournoi mondial informatique de shogi de 2017, et AlphaGo Zero, le propre champion de go de DeepMind.

Championne de go, et après : jusqu'où ira l'intelligence artificielle ?

"D'une autre planète"

Résultat de cet entraînement inédit : "AlphaZero joue d'une manière extrêmement innovante, ni comme un humain, ni comme une machine, avec une stratégie de jeu très dynamique", a expliqué aux "Echos" le fondateur et PDG de DeepMind, Demis Hassabis.

"Sa façon de jouer aux échecs semble venir d'une autre planète."

Le résultat est sans appel, AlphaZero a battu ses trois adversaires dans chacun des jeux de plateau :

Aux échecs, par 155 victoires et 6 défaites sur 1.000 parties (on constate donc un niveau élevé de parties nulles).

Au shogi, avec 91,2% de victoires.

Au go, avec 61% de victoires.

Les résultats des séries de parties d'AlphaZero avec les trois logiciels champions chacun dans sa catégorie. Source: DeepMind.

Les 13 auteurs de l'étude publiée dans "Science" relèvent qu'AlphaZero ne cherche "que" 60.000 positions par seconde aux échecs et au shogi, contre 60 millions pour Stockfish (échecs) et 25 millions pour Elmo (shogi). Mais AlphaZero compense ce moins grand nombre d'évaluations "en se concentrant de façon beaucoup plus sélective sur les variations les plus prometteuses". Redoutablement efficace.

Thierry Noisette