OpenAI, l'association d'Elon Musk qui se consacre à la recherche sur l'intelligence artificielle, prévoit d'utiliser le site communautaire Reddit pour apprendre la parole à une machine. En analysant les millions de conversations sur le site, celle-ci devrait maîtriser différents schémas de langage.

Vous connaissez peut-être Reddit, l’un des sites les plus populaires au monde. Sur cette plateforme communautaire, des centaines de milliers de personnes discutent, partagent des informations sur pléthore de sujets ou publient tout simplement des choses distrayantes pour passer le temps.

Preuve de l’influence du site, des personnalités de tout premier plan comme Barack Obama s’en servent de temps à autre pour répondre aux questions des internautes dans le cadre de sessions appelées « Ask Me Anything (AMA) ». Et justement, cette richesse conversationnelle n’a pas échappé aux tenants de l’intelligence artificielle, puisque le site va servir d’outil d’apprentissage à une machine.

Le magazine du MIT, Technology Review, rapporte que des ingénieurs du projet OpenAI, une association à but non lucratif fondée en 2015 par Elon Musk dédiée à la recherche dans le domaine de l’intelligence artificielle, prévoient d’expérimenter l’apprentissage de la parole en exploitant les millions de conversations qui existent sur Reddit. L’idée ? Qu’elle puisse avoir une conversation naturelle.

Ce projet repose sur l’apprentissage profond (ou « deep learning »), un sous-genre de l’apprentissage automatique (ou « machine learning »). Cette méthode consiste à faire ingérer des quantités considérables de données à une machine pour qu’elle puisse par la suite travailler seule et progresser par elle-même. C’est cette approche qui est massivement appliquée par les géants de la tech. L’IA de Google est ainsi capable de détecter, de manière autonome, des maladies oculaires. Celle de Facebook, quant à elle, sait comment décrire une photo à des personnes malvoyantes.

Reddit constitue pour le coup une formidable mine d’information. Des phrases simples ou constructions compliquées, en passant par les nuances, les sous-entendus, les figures de style, l’articulation dans l’argumentation, le site offre sans aucun doute l’éventail de tout ce que l’on peut voir apparaître dans une conversation. Ça, c’est la théorie. Il reste à mettre le projet en pratique et à en tirer quelque chose d’intéressant.

Sur Reddit, on trouve aussi bien le meilleur d’Internet que le pire, avec son lot de bizarreries à la fois étranges et incompréhensibles. Mais plus que le contenu des conversations, c’est leur quantité qui intéresse les ingénieurs. Grâce à des algorithmes et aux innombrables exemples disponibles sur le site, la machine doit pouvoir, à terme, identifier et comprendre les modèles de langage. Autrement dit, plus il y en a, mieux c’est.

OpenAI compte sur le super-ordinateur DGX-1 de Nvidia. Ce modèle unique dispose d’une puissance de 170 teraflops, ce qui équivaut à 250 serveurs classiques. Dans un communiqué, le fabricant estime que « le leader mondial de la recherche à but non lucratif sur l’intelligence artificielle a besoin du système le plus rapide du monde ».

Le langage est une notion indispensable dans les techniques d’apprentissage profond pour améliorer les interactions entre les machines et les êtres humains. D’autant plus qu’Elon Musk est très pessimiste par rapport à cette problématique. Le patron de Tesla et SpaceX craint en effet une trop grande dépendance de l’humanité vis-à-vis des IA. D’après lui, cela donnerait énormément de pouvoir à l’intelligence artificielle qui pourrait se transformer en despote autoritaire. Le but éthique du consortium OpenAI est d’ailleurs de concevoir une IA qui bénéficiera à l’humanité toute entière.

En attendant, les plus grandes entreprises du monde continuent d’améliorer leur propre solution et tous les moyens sont bons pour y arriver. Google, par exemple, fait lire à son IA des romans à l’eau de rose. Espérons que cela pourra l’adoucir et l’empêcher de devenir un cruel tyran.

Partager sur les réseaux sociaux Tweeter Partager Partager Partager redditer

La suite en vidéo