L’intelligence artificielle est en pleine explosion et Montréal en est l’un des pôles de développement majeurs. Comment expliquer ce nouvel engouement?

L’humain rêve depuis longtemps d’une machine pensante; il est parvenu à remplacer la force brute par des robots pour effectuer des tâches répétitives.

Mais dans les années 80 et 90, les chercheurs Geoffrey Hinton, Yann LeCun et Yoshua Bengio ont jeté les bases de ce qui allait révolutionner l’intelligence artificielle, permettant à l’ordinateur d’apprendre par lui-même à voir, à dialoguer, à prédire et à créer. Des aptitudes qu’on croyait réservées à l’intellect humain.

Basée sur les « réseaux de neurones artificiels », cette approche, appelée apprentissage profond, s’inspire du fonctionnement du cerveau humain.

« Les réseaux de neurones n’essaient pas de copier ou de simuler le cerveau. Simplement, ça nous donne des idées pour construire des machines, des ordinateurs qui s’inspirent de ces principes. » - Yoshua Bengio, directeur de l’Institut des algorithmes d’apprentissage (MILA), Université de Montréal

Yoshua Bengio Photo : Radio-Canada

L’intérêt de cette approche est de permettre au système d’apprendre de lui-même les tâches complexes qui seraient autrement difficiles à programmer de bout en bout.

« La philosophie de l’intelligence artificielle était à l’époque [dans les années 70 et 80] de se reposer sur les ingénieurs pour taper à la main le savoir que les machines devaient utiliser. Il s’avère que cette approche ne marche pas pour la perception, entre autres. » - Yann LeCun, directeur du laboratoire de recherche en intelligence artificielle, Facebook

« C’est comme si on n’avait pas vraiment réalisé que le secret qui nous permettrait de construire des machines capables de percevoir ou de raisonner était basé sur l’apprentissage », précise Yann LeCun, directeur du laboratoire de recherche en intelligence artificielle de Facebook.

Bien que l’approche de l’apprentissage profond soit innovante et qu’elle permette certaines avancées dans les années 90, elle n’attire pas, à l’époque, toute l’attention de la communauté scientifique. Beaucoup croient que les chercheurs qui s’y attardent font fausse route.

« Ça ne fonctionnait pas comme on l’aurait souhaité et on ne savait pas vraiment pourquoi. Aujourd’hui, on le sait. On manquait de puissance de calcul et de masse de données. » - Geoffrey Hinton, professeur et chercheur, Université de Toronto et Google

Autour de 2010, la croissance exponentielle des données devient le carburant de l’intelligence artificielle. Celles-ci permettent d’améliorer l’entraînement des systèmes intelligents. Parallèlement, le développement de processeurs graphiques fait exploser la puissance de calcul des ordinateurs.

Une ferme de serveurs Photo : AP/PCF/Susanne Lindholm, Scanpix Sweden

L’apprentissage profond Le principe général qui guide cette approche est de laisser l’ordinateur découvrir par lui-même la stratégie optimale pour résoudre un problème. Si on fournit à l’ordinateur une quantité massive de données (sons, images ou textes) et le résultat qu’on attend de lui, l’ordinateur ajuste graduellement ses paramètres internes. Il peut ensuite exécuter la tâche apprise : traduire un document, établir des liens entre deux phénomènes ou décrire une image. « C’est-à-dire que l’ordinateur observe, on lui donne des exemples de ce qu’il devrait faire et si on lui donne suffisamment d’exemples et qu’on utilise ces fameux algorithmes d’apprentissage, y compris l’apprentissage profond, il est capable de générer sa propre compréhension intuitive de ce sur quoi il a été entraîné », explique Yoshua Bengio.

Durant la phase d'entraînement, l'ordinateur découvre par lui-même, à partir de milliers d'images étiquetées et à travers son réseau de neurones, les motifs simples et complexes qui composent l'objet. Une fois entraîné, il peut ensuite reconnaître l'objet dans n'importe quelle image. Photo : Radio-Canada/Patricia Dallaire

Concours ImageNet

L’utilisation de l’apprentissage profond connaît ses premiers succès à la fin des années 2000, mais c’est en 2012, avec le concours ImageNet, que l’approche gagne l’estime de la communauté scientifique dans le monde.

Le concours met au défi des chercheurs du monde entier de créer un système intelligent capable de classer des centaines de milliers d’images dans des centaines de catégories. Geoffrey Hinton, s’appuyant sur les travaux de ses confrères Yann LeCun et Yoshua Bengio, participe au concours avec deux de ses étudiants de l’Université de Toronto.

À cette époque, les systèmes de vision par ordinateur qui avaient les meilleurs résultats et qui n’utilisaient pas les réseaux de neurones profonds avaient des taux d’erreurs de plus de 25 %, explique Geoffrey Hinton. Ses étudiants et lui ont obtenu un taux d’erreur de moins de 16 %.

« La personne qui était chargée de vérifier le pourcentage d’erreurs s’y est reprise à trois fois pour vérifier nos résultats. Elle croyait que c’était une erreur. » - Geoffrey Hinton, professeur et chercheur, Université de Toronto et Google

Geoffrey Hinton et ses étudiants Ilya Sutskever (gauche) et Alex Krizhevsky (droite) Photo : Université de Toronto, Johnny Guatto

C’est comme si, d’un seul coup, « l’apprentissage profond » avait révélé son potentiel.

L’année d’après, pratiquement tous les compétiteurs d’ImageNet l’utilisaient.

À partir de ce moment, on a assisté à un regain d’intérêt pour le développement de l’intelligence artificielle. Les industriels ont investi massivement dans la recherche fondamentale et appliquée dans ce domaine.

La vision par ordinateur : un défi

Les progrès récents de la vision par ordinateur sont largement associés au développement des méthodes d’apprentissage profond. Pensons, entre autres, à la reconnaissance des visages et des formes, à la recherche d’images dans les engins de recherche et aux systèmes de vision des voitures autonomes.

« On ne se rend pas compte que les tâches qui sont compliquées pour un ordinateur sont des tâches qui, quelquefois, sont très simples pour les humains, comme la perception visuelle. » - Yann LeCun, directeur du laboratoire de recherche en intelligence artificielle, Facebook

Yann LeCun Photo : Radio-Canada

Ce qui rend la tâche de la vision par ordinateur difficile, c’est que, contrairement à l’humain, l’ordinateur n’a aucune expérience du monde qui l’entoure. Il doit tout apprendre, de A à Z. On doit lui apprendre à nommer les objets, à les repérer dans l’image, à les distinguer les uns des autres ou encore à comprendre la relation entre eux.

Il faut savoir aussi qu’une image, pour un ordinateur, n’est qu’un tableau de nombres. Chacun représente la luminosité d’un pixel de l’image. Une seule image fixe en haute résolution contient des millions de valeurs numériques.

Le défi pour l’ordinateur consiste à savoir si ce tableau de nombres contient un chien, un chat, une personne ou une chaise, explique Yann LeCun. La personne peut porter des lunettes, apparaître de face ou de côté, être assise ou debout, etc. « C’est extrêmement difficile pour la machine de déterminer ça », dit-il.

Il faut donc que l’ordinateur apprenne à distinguer seul tous ces objets, peu importe leur apparence sur l’image. On y arrivera en utilisant des méthodes d’apprentissage profond. Si on souhaite que l’ordinateur reconnaisse un objet spécifique, par exemple, on l’entraînera en lui montrant des milliers d’images différentes de cet objet. Le réseau de neurones artificiels va analyser l’ensemble des images qu’on lui soumettra et va, au fil de son apprentissage, détecter des motifs récurrents qui lui permettent d’arriver à la bonne réponse.

« On lui montre une image, par exemple une voiture, et on lui dit : “C’est une voiture.” Si la réponse de la machine est différente de la réponse désirée, elle s’ajuste à l’interne pour produire une réponse qui, la prochaine fois pour la même image, sera plus proche de la réponse désirée. Donc, ce principe d’apprentissage est vraiment la base des progressions en intelligence artificielle », explique Yann LeCun.

Après son entraînement, l’ordinateur peut identifier, avec un degré de confiance élevé, l’objet pour lequel on l’a entraîné, dans une nouvelle image qu’il verra pour la première fois.

Au-delà de la classification des images, il faudra aussi que l’ordinateur apprenne à repérer les objets dans l’image et à en déterminer les contours, à les séparer du décor, qui donne souvent le contexte de l’image.

Décoder les images vidéo et les objets en mouvement

Le nouveau défi auquel se mesurent maintenant les chercheurs, c’est la description des scènes en vidéo. C’est un problème de taille, et Christopher Pal, professeur-chercheur spécialisé dans la vision par ordinateur à Polytechnique Montréal, y travaille. Il s’agit, toujours, à l’aide de différentes méthodes issues de l’apprentissage profond, de détecter à la fois les objets dans l’image, mais aussi la relation qu’ils ont entre eux et même d’anticiper certains mouvements avant qu’ils se produisent. Cette capacité de prédire l’action à venir est particulièrement importante pour ce qui est du système de contrôle d’une voiture autonome.

Une voiture autonome à Pittsburgh Photo : AP/PCF/Jared Wickerman

« Si on a un enfant à côté de la rue et qu’il y a un ballon, les humains sont capables de dire : “OK, il y a un enfant, il y a un ballon, peut-être que ça implique qu'il y a une action à venir importante à considérer, et que c’est le genre de situation qu’il faut prévoir dans le système de contrôle.” », dit Christopher Pal.

Si la mise au point de la voiture autonome est aujourd’hui envisageable, c’est grâce au déploiement de l’apprentissage profond. Fournir une vision complète des scènes dynamiques, en temps réel, au système de contrôle de la voiture autonome représente un défi colossal.

Raquel Urtasun, professeure et chercheuse spécialisée en vision par ordinateur à l’Université de Toronto Photo : Radio-Canada

« La voiture autonome doit évaluer plusieurs paramètres à la fois : l’espace libre où elle peut se déplacer, les types de véhicules autour d’elle, leurs comportements », explique Raquel Urtasun, professeure et chercheuse spécialisée en vision par ordinateur à l’Université de Toronto.

Les mouvements d’une bicyclette diffèrent considérablement de ceux d’un camion ou d’une voiture. La voiture autonome doit avoir la capacité de décoder les intentions des autres véhicules dans son environnement et d’agir en conséquence.

Bien que la vision par ordinateur ait fait des bonds remarquables depuis cinq ans, il reste encore beaucoup de travail à accomplir. Pour l’instant, ses capacités les plus étonnantes sont associées à des tâches spécialisées, dans le secteur de la santé entre autres. Avec l’amélioration des données d’entraînement, l’effort de recherche, l’amélioration des algorithmes et l’évolution de la puissance de calcul, nul doute que la vision par ordinateur n’a pas fini de nous en mettre plein la vue.