Les avancées de l’intelligence artificielle ont permis de créer des voix de synthèse imitant de véritables personnes. QUENTIN HUGON / LE MONDE

Ce type d’affaire est encore rare, mais pourrait être amenée à se multiplier. Au mois de mars, une entreprise britannique du secteur de l’énergie s’est fait dérober 220 000 euros à cause d’une voix synthétique, générée par un système d’intelligence artificielle, rapporte le Wall Street Journal.

Le PDG de l’entreprise – qui préfère rester discrète – a reçu un appel du dirigeant de sa maison mère, sise en Allemagne, lui demandant d’effectuer un virement de 220 000 euros sur un compte en Hongrie. L’homme s’est exécuté. Or, son interlocuteur était en fait une voix synthétique imitant celle du dirigeant allemand, a affirmé l’assureur de l’entreprise, Euler Hermes. Dans un e-mail transmis à cet assureur, que Le Monde a pu consulter, la personne dupée détaille le cours des événements.

Boîte e-mail piratée

Lors d’un premier appel, le patron factice ordonne à sa victime d’effectuer un paiement urgent sur le compte d’un sous-traitant hongrois – faute de quoi l’entreprise s’expose à de lourdes pénalités. L’homme reconnaît immédiatement la voix de son patron, ses intonations ainsi que son accent allemand. Le faux patron lui explique que le siège remboursera dans la foulée la somme à sa filiale britannique. Puis lui promet qu’il enverra un e-mail contenant les informations nécessaires pour effectuer le virement. Ce message arrive en effet, peu après, envoyé par la véritable adresse e-mail du dirigeant. Celle-ci avait en fait été piratée, a expliqué Jean-Baptiste Mounier, responsable de la communication externe d’Euler Hermes, au Monde.

Le lendemain matin, le PDG britannique reçoit un nouvel appel du même interlocuteur, lui assurant que le remboursement a été effectué. Quelques heures plus tard, l’argent n’est toujours pas arrivé : les premiers doutes apparaissent. Le faux patron rappelle une troisième fois, pour réclamer un nouveau virement au soi-disant sous-traitant hongrois. Plusieurs détails alertent la victime : l’appel provient d’Autriche, et non d’Allemagne, et le numéro de compte est différent de celui de la veille.

L’homme n’effectue pas le virement et contacte le bureau du véritable patron. Au téléphone, ce dernier lui dit être étranger à tous ces appels… tandis qu’au même moment, le faux patron tente à nouveau de joindre sa victime. L’usurpateur le rappellera quelques minutes plus tard, mais raccrochera quand il lui demandera son identité. Entre-temps, les fonds ont quitté le compte hongrois, transité par le Mexique avant d’être dispersés sur différents portefeuilles.

« Le résultat n’est pas parfait, mais peut faire illusion »

Les progrès de l’intelligence artificielle, et notamment du deep learning (« apprentissage profond »), ont permis l’émergence ces dernières années d’outils permettant d’imiter la voix d’une personne à partir d’enregistrements – des technologies connues sous le nom de deepfake.

Il est ensuite possible de faire dire ce que l’on veut à la voix synthétique. Lyrebird, par exemple, est l’un de ces logiciels les plus connus : quelques phrases seulement lui permettent de créer une voix de synthèse, et il suffit de taper les phrases souhaitées pour qu’elle les prononce quasi instantanément – sans avoir besoin de compétences particulières en informatique.

Article réservé à nos abonnés Lire aussi Lyrebird, l’algorithme qui parle comme toi ou moi

C’est ce type d’outil qui aurait été utilisé par le ou les usurpateurs dans le cas présent, selon l’assureur Euler Hermes. « Notre expert, Rüdiger Kirsch, précise que le résultat n’est pas parfait, mais peut faire illusion dans un environnement sonore perturbé », explique Jean-Baptiste Mounier. Mais les appels frauduleux n’ayant pas été enregistrés, il est difficile d’identifier précisément la façon dont ils ont été conçus.

Les arnaques consistant à usurper l’identité de quelqu’un afin d’obtenir un virement sont relativement courantes, au point que les personnes disposant de ce pouvoir dans les grandes entreprises sont souvent formées à les détecter. Ces usurpations s’appuient généralement sur des e-mails, piratés ou imités, ou bien par des appels se faisant passer pour le service comptabilité par exemple. « Mais là, même en faisant les vérifications habituelles, on peut se faire tromper », souligne Jean-Baptiste Mounier.

Il faut dire que l’escroquerie est particulièrement sophistiquée, puisqu’elle combine, selon l’assureur, deux techniques : le piratage d’une boîte e-mail, ainsi que le recours à une technologie d’intelligence artificielle pour créer une voix synthétique.

Inquiétudes autour des « deepfakes »

Ces cas restent rares. L’entreprise Symantec, spécialiste de la sécurité informatique, a affirmé au Washington Post avoir identifié trois autres affaires dans lesquelles des voix de dirigeants d’entreprises ont été imitées – l’une aurait généré des millions de dollars de pertes.

Les technologies de deepfake génèrent des inquiétudes, notamment les deepfakes vidéo, qui consistent à remplacer le visage d’une personne par celui d’une autre. Des femmes ont ainsi vu leur visage apparaître dans des vidéos pornographiques, et certains craignent que ces images manipulées ne servent à des campagnes de désinformation – surtout si elles sont combinées avec des voix synthétiques crédibles. Côté son, Google pointait en janvier les risques que ces technologies soient utilisées « pour duper des systèmes d’authentification par reconnaissance vocale », ou pour créer « de faux enregistrements audio afin de nuire à des personnalités publiques ».

Aujourd’hui, ces deepfakes, visuels ou sonores, sont encore imparfaits et peuvent être détectés à l’œil ou à l’oreille – à condition d’être attentif. Mais nul ne sait comment évolueront ces technologies. Pour se prémunir, des chercheurs et des entreprises ont développé, et continuent à développer, des systèmes permettant de les détecter automatiquement. Organisé par des institutions comme l’Inria (Institut national de recherche en informatique et en automatique) et soutenu par des entreprises comme Google, l’ASVspoof est un concours récompensant les meilleurs systèmes de détection des voix de synthèse. Côté vidéo, plusieurs outils existent déjà pour détecter les deepfakes. Ce qui n’a pas empêché Facebook et Microsoft de lancer, ce jeudi 5 septembre, un concours à ce sujet, le Deepfake Detection Challenge.