Peut-on entrer dans la mémoire de l'IA générative ?

Travaux universitaires, lettres de motivation, mails, articles de presse... L'intelligence artificielle générative - avec notamment l'avènement de l'outil ChatGPT - s'est propagée, en l'espace de quelques mois seulement, dans de nombreux secteurs d'activité. L'utilisation de celle-ci peut parfois être problématique. Comment savoir si un étudiant en deuxième année de droit a lui-même rédigé ses cas pratiques pour le cours de droit administratif ? Est-il possible d'identifier si un mail envoyé par un dirigeant pour souhaiter de bonnes vacances à ses employés est bien sincère et n'a pas été généré par ChatGPT ? Plusieurs outils, à l'instar de GPTZero, AI Text Classifier ou encore Draft&Goal, ont vu le jour pour distinguer un texte écrit par une IA d'un texte écrit par un humain.

De même, la problématique des droits d'auteur prend de plus en plus d'ampleur depuis l'émergence de l'IA générative. Dernièrement, des sociétés d'auteurs du secteur culturel se sont mobilisés afin d'imposer une rémunération pour l'utilisation de leur production par les start-ups et les géants de la Tech comme OpenAI (ChatGPT). "L'évolution exponentielle de l'IA à laquelle nous sommes confrontés aujourd'hui oblige à chercher et trouver une parade pour endiguer ce qui, dès à présent, nous semble être une menace et probablement un désastre à venir pour la création, qu'il s'agisse des arts plastiques, de l'image photographique, des livres, de la musique, des articles scientifiques ou de presse...", soulignaient alors huit députés français dans un projet de loi visant à encadrer l'intelligence artificielle par le droit d'auteur.

Parallèlement à cet aspect législatif, des chercheurs de l'Imperial College de Londres ont travaillé sur un procédé permettant de détecter si un texte littéraire ou scientifique a été lu ou non par une intelligence artificielle. En effet, la génération textuelle est permise par l'IA grâce à de nombreuses données provenant de contenu présent sur internet et certainement protégé par le droit d'auteur (travaux scientifiques, articles de presse, forums...). Et la transparence n'est pas de mise de la part des entreprises qui développent des robots conversationnels : OpenAI, Meta (Llama 2) et Google (Bard) n'ont pas dévoilé les sources de leurs outils.

"Nous étions motivés par l'idée de rendre moins opaque cet aspect des modèles de langue", confie Yves-Alexandre de Montjoye, professeur associé à l'Imperial College. Ainsi, pour palier ce manque de transparence et protéger la propriété intellectuelle des auteurs, l'équipe universitaire a tenté de découvrir si leur propre corpus d'ouvrages et de travaux scientifiques a été lu par l'IA. Leur expérience a été fructueuse : Dans 81 % des cas, ils affirment pouvoir identifier si un livre a été vu ou pas par un outil conversationnel lors de sa phase d'apprentissage.

Pour les articles scientifiques, leur taux d'identification est moins important (63 %). Et qu'en est-il des articles de presse ? "Cela pourrait marcher aussi pour un article de journal, mais il vaudrait mieux adapter notre méthode sur de tels corpus pour être davantage robustes", explique Yves-Alexandre de Montjoye.

Comment savoir si un texte a été lu par l'IA ?

Pour cela, les scientifiques ont testé la connaissance des outils en cherchant "à voir si le modèle est surpris par un texte" ou non. Concrètement, "ils ont testé le modèle de langue en étudiant quel mot l'outil suggère après une phrase d'environ 128 tokens et quelle probabilité il assigne au vrai mot. Ces écarts entre le modèle et la réalité sur des milliers de phrases permettent de construire une sorte de signature de chaque livre ou article", expose David Larousserie dans les colonnes du Monde.

En réalisant ce même test avec des textes probablement déjà lus par l'agent conversationnel et d'autres qui n'ont pas pu l'être (car publiés après la phase d'apprentissage de l'outil), les chercheurs sont donc parvenus à identifier des différences. Une petite étape de franchie pour briser le mystère de l'intelligence artificielle...

Malgré tout, celui-ci reste encore bien épais : "Ces grands modèles de langue sont fascinants. Au-delà de la question du copyright qu'ils posent, il faut essayer de les comprendre. Ils ne recopient pas simplement des paragraphes. A quels signaux dans un texte sont-ils sensibles ? Au contexte ? Aux répétitions ?", s'interroge Yves-Alexandre de Montjoye.