Les chercheurs de Microsoft affirment qu'un modèle d'IA qu'ils ont développé permet aux avatars de s'engager dans des conversations d'apparence réaliste avec des expressions faciales nuancées.
Les chercheurs de Microsoft affirment qu'un modèle d'IA qu'ils ont développé permet aux avatars de s'engager dans des conversations d'apparence réaliste avec des expressions faciales nuancées. AFP

Des chercheurs de Microsoft ont révélé un nouvel outil artificiel capable de créer des avatars humains profondément réalistes, mais n'ont proposé aucun calendrier pour le rendre accessible au public, invoquant des inquiétudes concernant la facilitation de contenus profondément faux.

Le modèle d'IA connu sous le nom de VASA-1, pour " compétences affectives visuelles ", peut créer une vidéo animée d'une personne parlant, avec des mouvements de lèvres synchronisés, en utilisant une seule image et un clip audio vocal.

Les chercheurs en désinformation craignent une utilisation abusive généralisée des applications basées sur l'IA pour créer des images, des vidéos et des clips audio " profondément faux " au cours d'une année électorale charnière.

"Nous nous opposons à tout comportement visant à créer des contenus trompeurs ou préjudiciables à des personnes réelles", ont écrit les auteurs du rapport VASA-1, publié cette semaine par Microsoft Research Asia.

"Nous nous engageons à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain", ont-ils déclaré.

"Nous n'avons pas l'intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées."

Les chercheurs de Microsoft ont déclaré que la technologie peut capturer un large éventail de nuances faciales et de mouvements naturels de la tête.

"Cela ouvre la voie à des engagements en temps réel avec des avatars réalistes qui imitent les comportements conversationnels humains", ont déclaré les chercheurs dans leur article.

VASA peut travailler avec des photos artistiques, des chansons et des discours non anglais, selon Microsoft.

Les chercheurs ont vanté les avantages potentiels de la technologie, tels que la fourniture d'enseignants virtuels aux étudiants ou un soutien thérapeutique aux personnes dans le besoin.

"Il n'est pas destiné à créer du contenu destiné à induire en erreur ou à tromper", ont-ils déclaré.

Les vidéos VASA contiennent toujours des " artefacts " qui révèlent qu'elles sont générées par l'IA, selon le message.

Ben Werdmuller, responsable de la technologie chez ProPublica, a déclaré qu'il serait "excité d'entendre parler de quelqu'un qui l'utilise pour le représenter lors d'une réunion Zoom pour la première fois".

"Comment ça s'est passé ? Est-ce que quelqu'un l'a remarqué ?" a-t-il déclaré sur le réseau social Threads.

OpenAI, créateur de ChatGPT, a révélé en mars un outil de clonage vocal appelé " Voice Engine " qui peut essentiellement dupliquer le discours d'une personne sur la base d'un échantillon audio de 15 secondes.

Mais il a déclaré qu'il "adoptait une approche prudente et éclairée en vue d'une diffusion plus large en raison du potentiel d'utilisation abusive de la voix synthétique".

Plus tôt cette année, un consultant travaillant pour des candidats démocrates à la présidentielle a admis qu'il était à l'origine d'un appel automatisé usurpant l'identité de Joe Biden envoyé aux électeurs du New Hampshire, affirmant qu'il essayait de souligner les dangers de l'IA.

L'appel présentait ce qui ressemblait à la voix de Biden exhortant les gens à ne pas voter lors de la primaire de l'État de janvier, suscitant l'inquiétude des experts qui craignent un déluge de fausses informations alimentées par l'IA lors de la course à la Maison Blanche de 2024.