Un nouvel « Entretien autour de l’informatique » : Binaire interviewe Julia Kempe. Julia est une brillante mathématicienne, physicienne, et informaticienne. C’est une des meilleures spécialistes mondiales en informatique fondamentale et, en particulier, en informatique quantique. À partir de l’automne, elle dirigera le Center for Data Science de New York University.

Cet article est publié en collaboration avec le blog Binaire.

Binaire : tu es une scientifique très cosmopolite. Peux-tu nous raconter un peu d’où tu viens ?

CDS , CC BY

Julia Kempe : Je suis née en Allemagne de l’Est, d’origine russe et allemande. Je suis allée dans une école spécialisée en maths en Allemagne de l’Est à l’âge de 14 ans. Nous avions déjà des cours de programmation. Quand le mur est tombé, je suis allée en Autriche et j’ai étudié les maths et la physique à Vienne, avec un semestre en Australie dans un programme d’échange. Puis je suis allée en France où j’ai fait un DEA d’Algèbre à Paris VI, en géométrie algébrique. Mais mes intérêts ont toujours été pluridisciplinaires, et j’ai enchaîné avec un DEA de physique théorique à l’École Normale Supérieure.

Et puis, il y a eu la découverte par Peter Shor du premier algorithme quantique. Dans les années 90, j’ai passé deux thèses en même temps, une en maths à Berkeley, et l’autre en informatique à Télécom Paris avec Gérard Cohen, toutes les deux sur des aspects des calculs quantiques. Ensuite, j’ai eu un poste au CNRS en informatique. J’ai eu la chance de travailler dans l’équipe de Milos Santha à Orsay. À l’époque, l’informatique quantique était encore un domaine tout nouveau. En 2007, je suis partie pour 4 ans en Israël comme professeur d’informatique à l’université de Tel-Aviv. Puis je suis rentrée en France, et un peu plus tard j’ai rejoint un fonds d’investissement américain. Ma culture scientifique générale y a été très utile même si mes compétences en informatique quantique ne servaient pas. Récemment, j’ai pris un poste de professeur d’informatique à New York University : je serai directrice du Centre de Sciences des Données.

Tu es mathématicienne, informaticienne, physicienne. Si on te demandait de choisir entre les trois ?

Je n’ai pas à choisir. Ce qui m’a attiré à l’informatique, c’est la rigueur, la précision que cela exige, comme en mathématiques. En informatique, on réalise des choses concrètes, des calculs, et j’aime ça. Et puis, les méthodes que l’on développe et les problèmes que l’on traite viennent de domaines très divers. C’est une grande aide pour moi que d’avoir des connaissances dans plusieurs disciplines. D’une part ça m’aide à comprendre les domaines d’application dans lesquels je travaille, et d’autre part, j’ai plus de facilité à travailler avec des personnes de ces domaines, qui ont toutes des cultures différentes.

Binaire , Author provided

Pourrais-tu expliquer simplement l’informatique quantique ?

L’informatique classique est fondamentalement basée sur le traitement de signaux binaires. L’état d’un interrupteur ou d’un bit en mémoire est soit 0 soit 1. En mécanique quantique, les particules quantiques se trouvent dans un état qu’on appelle « superposé », c’est un peu 0 et un peu 1. On appelle qubit ces bits quantiques qui sont à la fois dans l’état 0 et dans l’état 1. Quand on cherche à observer un qubit, on va trouver soit un 0 ou un 1. L’observation a changé l’état de la particule en choisissant entre les deux.

Le but c’est d’arriver à réaliser beaucoup de calculs en parallèle ?

Avec un vecteur de n qubits, on a en même temps 2n valeurs. Si on arrive à faire des calculs avec de tels vecteurs, on arrive en quelque sorte à faire tous les calculs en même temps. C’est comme si on réalisait 2n calculs « en parallèle ». Le problème c’est qu’à la fin, il se peut qu’il n’y ait qu’un seul de ces calculs qui ait réussi, et c’est son résultat qui nous intéresse. Ce résultat est quelque part et la difficulté, c’est de l’isoler. L’art des algorithmes quantiques est d’effacer de façon judicieuse tous les calculs qui n’ont pas abouti.

Est-ce que, avec le quantique, on pourrait arriver à réaliser rapidement des calculs comme la factorisation ?

L’algorithme de Shor explique comment factoriser de grands nombres en facteurs premiers de manière efficace. On ne sait pas faire cela avec l’informatique classique. Les algorithmes qu’on connaît prennent un temps exponentiel. D’ailleurs, une grande partie de la cryptographie très utilisée dans nos vies quotidiennes est basée sur le fait qu’on ne sait pas factoriser rapidement un nombre premier. Ce problème de factorisation, on arrive à le résoudre dans le modèle quantique avec l’algorithme de Shor. Évidemment, pour que cela devienne réalisable en pratique, il faudrait savoir construire un ordinateur quantique qui manipule des grands nombres de qubits. On n’y est pas encore.

Binaire , CC BY

Est-ce que l’informatique quantique remet en cause la théorie de la complexité traditionnelle de l’informatique ?

La théorie de la complexité étudie ce qu’on peut faire avec un ordinateur étant donné des ressources limitées en temps et en espace. On peut faire des études comparables à partir d’un modèle quantique. Un travail de recherche passionnant actuellement, c’est que certaines classes de complexité quantique sont équivalentes à des classes classiques. On obtient aussi des résultats de réductions passionnants comme : « si un problème peut être résolu dans le modèle classique avec une complexité particulière, alors il peut aussi l’être dans le modèle quantique avec telle complexité. » Il y a tout un panorama de classes de complexité. C’est vrai que, comme en complexité classique, ce n’est pas simple de « séparer » les classes de complexité.

Voit-on arriver ces ordinateurs quantiques ? Y a-t-il des résultats concrets pratiques ?

Quand j’ai commencé, à la fin des années 1990, les expérimentateurs prédisaient un ordinateur quantique dans 10 ans ; les plus prudents parlaient de 20 ans. Il s’est déjà passé vingt ans et on attend toujours ! En réalité, dans le monde de la recherche, quand on vous dit dans 10 ans, il faut souvent comprendre : « je n’en sais rien ». Malheureusement il y a eu beaucoup de survente. Les ordinateurs quantiques ne savent même pas encore factoriser des chiffres autour de 10 000 à cause de l’accumulation des erreurs. Nous avons encore des problèmes à régler avant d’arriver à quelque chose d’intéressant. On est encore très loin de pouvoir utiliser l’algorithme de Shor.

Mais est-ce qu’on avance ?

Oui ! Vraiment. Nous sommes dans une période de transition car nous assistons à des tentatives concrètes de Google, d’IBM… Avec des machines à 50 qubits. C’est passionnant car, à partir de grosso modo 50, nous arrivons à des phénomènes qu’on ne peut plus simuler avec des ordinateurs classiques ; 250, c’est à peu près leur limite. Si on ne sait pas encore faire un ordinateur quantique général, on pourrait utiliser les machines quantiques qu’on sait construire pour simuler des phénomènes physiques qu’on ne sait pas simuler autrement actuellement.

Qu’est-ce qui t’a fait choisir de vivre aux USA ?

Il y avait beaucoup de paramètres. J’aime vivre en France mais je voulais faire quelque chose de nouveau, travailler dans un fonds d’investissement, et pour cela, New York, c’était le bon endroit. Je ne pensais pas y rester six ans. J’avais de jeunes enfants et avec de jeunes enfants, c’est difficile de faire une recherche qui demande de s’immerger dans des problèmes complexes de façon prolongée. Je n’exclus pas de revenir en France, mais pour l’instant l’occasion ne s’est pas présentée.

Ce travail dans les fonds d’investissement est-il aussi un travail scientifique ?

Nous utilisons une approche « quantitative » des fonds d’investissement. Nous partons de téraoctets de données financières. Nous remplaçons les intuitions des traders des années 1980 par de l’analyse scientifique de données. Nous développons des théories, des modèles, et nous les testons pour détecter des signaux qui nous permettent de prédire les évolutions des marchés financiers. La difficulté est que les données dont nous disposons ne sont jamais parfaites. C’est tout un art de les nettoyer pour en extraire les informations pertinentes. C’est de la science des données. Cela ressemble beaucoup à un travail universitaire mais nous ne publions pas et le critère ultime de succès pour nous, c’est si ça rapporte de l’argent. Mes collègues sont, pour beaucoup, mathématiciens ou physiciens, et c’est une grande aide pour moi que d’avoir fait des études pluridisciplinaires.

Ce genre de travail existe-t-il aussi en France ?

Oui, en France il y a en particulier CFM, un fonds d’investissement dirigé par un physicien, Jean‑Philippe Bouchaud, avec de nombreux employés qui viennent du monde de la physique statistique. Ils retrouvent finalement des méthodes assez semblables à celles qu’ils utilisaient en physique, avec les expérimentations, la définition de modèles mathématiques, l’analyse de données, la simulation, la validation des résultats à la lumière de la réalité des données, etc.

Un problème particulier assez classique que nous rencontrons est celui du « sur-apprentissage » (overfitting en anglais). Avec suffisamment de paramètres, je peux ajuster les paramètres du modèle de façon à correspondre exactement aux données disponibles. Seulement, le modèle peut être trop exactement ajusté aux exemples et ne pas s’adapter aux données futures. On est un peu comme les astrophysiciens : ils ont une seule donnée, l’univers tel qu’il existe, et nous n’avons que les données financières sur une seule réalisation du monde financier tel qu’on l’observe. Comme les astrophysiciens, il faut faire avec. Et si on a fait du sur-apprentissage, on va juste rater une évolution du marché qui ne s’est pas passée exactement comme dans le passé…

C’est facile de se tromper. Le temps de demi-vie d’un fonds d’investissement est de 18 mois en moyenne, parce que des erreurs sont faites, souvent à cause de sur-apprentissage.

Que vas-tu faire à NYU ?

Je vais faire de la recherche en science des données. Je vais essayer d’appliquer, par exemple, mes compétences sur le traitement du bruit à des données autres que financières.

Quelle est la présence féminine dans ces domaines ?

Dans le fonds d’investissement, nous étions 2 femmes chercheuses sur 55. Au CDS (centre de sciences des données), nous sommes entre un quart et un tiers de femmes. Il y a un nombre relativement élevé de femmes en sciences des données, plus que dans d’autres domaines de l’informatique. Je crois que l’aspect pluridisciplinaire attire les femmes. Et comme les chercheurs en data science sont habitués à une diversité de disciplines scientifiques, cela les rend peut-être plus ouverts à une diversité des genres.

As-tu un conseil à donner aux étudiants ?

Nous vivons un temps où il y a beaucoup de données numériques, de plus en plus de calculs sur ces données. Chacun doit apprendre à se servir de ces données, et en même temps à être prudent avec elles. Il faut par exemple être conscient des problèmes de biais qui peuvent exister dans des données dont on se sert dans des domaines critiques. Je pense que les étudiants dans toutes les disciplines devraient avoir une solide expérience de programmation et maîtriser la compréhension des données numériques.