Les solutions de clonage de voix avec l’intelligence artificielle se multiplient, même si les craintes autour de cette technologie persistent.
C’est une des start-up star du secteur. La société ElevenLabs, spécialisée dans la génération et le clonage de voix avec l’intelligence artificielle (IA), s’apprêterait à boucler une nouvelle levée de fonds de 200 millions de dollars, selon « Business Insider ». En janvier, l’entreprise basée à New York avait déjà levé 80 millions.
A l’issue de ce tour de table mené par Iconiq, elle pourrait être valorisée à 3 milliards de dollars. Une ascension fulgurante pour cette société cofondée en 2022 par des anciens de Google et du géant du big data Palantir : il y a tout juste un an, sa valorisation s’élevait « seulement » à 100 millions de dollars.
ElevenLabs peut par exemple générer avec l’IA des voix synthétiques pour enregistrer des livres audio, proposer des versions audio d’articles de presse ou encore doubler des vidéos en 29 langues. La start-up est également connue pour son outil de clonage, capable de générer une copie à partir de « seulement quelques minutes d’audio ». « Nos clones vocaux de grande qualité sont quasiment indissociables des vraies voix », affirme l’entreprise.
« Des risques sérieux »
Au printemps, OpenAI, qui a bouleversé le monde de l’IA générative il y a 2 ans avec ChatGPT, a également présenté son propre outil de clonage de la voix. Baptisé « Voice Engine », il peut, quant à lui, créer une copie « au rendu naturel » à partir d’un échantillon audio de seulement 15 secondes.
Le groupe dirigé par Sam Altman a néanmoins décidé de ne pas rendre ce modèle disponible pour le grand public. Pour l’instant, seulement une poignée d’organismes et d’entreprises « partenaires » y a accès. « Nous reconnaissons que la capacité de générer des voix ressemblant à celles de personnes représente des risques sérieux, qui sont particulièrement importants en cette année électorale », a expliqué OpenAI.
Le clonage de voix est en effet une technologie controversée, qui ouvre la porte à des abus tels que les usurpations d’identité. « La voix est une donnée biométrique, au même titre que le visage et les empreintes digitales et iriennes [la reconnaissance de l’iris, NDLR] », rappelle Nathalie Devillier, professeure associée d’éthique et droit de l’IA à l’école Aivancity. Certaines banques, par exemple, utilisent la biométrie vocale comme un moyen d’authentification.
Des millions de victimes potentielles
Les fraudes par clonage de la voix inquiètent ainsi particulièrement le secteur bancaire. Selon une étude publiée en septembre par la néobanque britannique Starling Bank, 28 % des personnes interrogées disaient avoir été la cible de ce type d’escroquerie dans les 12 derniers mois au Royaume-Uni.
Mais 46 % des interrogés n’avaient jamais entendu parler de ces arnaques par clonage vocal : la fintech estime que « des millions » de personnes pourraient ainsi en être victimes. « Les gens mettent régulièrement en ligne des contenus avec des enregistrements de leur voix, sans jamais imaginer que cela les rend plus vulnérables aux escrocs », indiquait dans le rapport Lisa Grahame, responsable de la sécurité des informations au sein de la fintech.
Le clonage de voix fait aussi croître le risque de désinformation. « Avec ces outils, n’importe qui peut cloner n’importe quoi », estime le Dr Nathalie Devillier, qui évoque de possibles deepfakes « avec des voix de dirigeants ou de candidats à des élections ».
Appels de Joe Biden
En début d’année, des électeurs du New Hampshire avaient ainsi reçu un appel automatisé imitant Joe Biden – la voix clonée du président américain leur demandait de ne pas voter aux primaires du parti démocrate. Pour générer cette imitation, l’escroc avait eu recours… à ElevenLabs.
« Nous nous efforçons d’empêcher l’utilisation frauduleuse des outils d’audio IA et prenons très au sérieux tout cas d’abus », avait alors déclaré la start-up à Bloomberg, ajoutant que le compte concerné avait été banni.
Quelques mois plus tard, une ONG britannique a testé la capacité des outils de clonages de voix à bloquer le clonage de voix de responsables politiques, tels qu’Emmanuel Macron et Donald Trump, pour créer de la désinformation. Dans son rapport, le Center for Countering Digital Hate explique que dans 80 % des cas, les outils permettaient de générer les deepfakes demandés.
Lire : Les Echos du 1er décembre