Un drapeau de l’Union européenne flotte devant le siège de la Commission européenne à Bruxelles
L'UE a introduit de nouvelles règles en matière d'IA qui obligent les entreprises à partager des détails clés sur le processus de création de leurs modèles d'IA. IBTimes UK

Au grand dam d'OpenAI et d'autres sociétés d'IA, l'Union européenne met en place une surveillance plus stricte des développeurs d'IA.

Les négociateurs de l'UE ont récemment conclu un accord historique sur les premières règles globales en matière d'intelligence artificielle (IA) au monde.

Le projet récemment approuvé de la prochaine loi européenne sur l'IA exigera qu'OpenAI, la société à l'origine du célèbre chatbot IA ChatGPT, et d'autres sociétés divulguent des détails clés sur le processus de création de leurs produits.

Même si les entreprises continueront à s'auditer elles-mêmes, la prochaine loi sur l'IA reste une évolution prometteuse, car les entreprises d'IA continuent de ne ménager aucun effort pour être à l'avant-garde de l'espace de l'IA en lançant de puissants systèmes d'IA sans pratiquement aucune surveillance de la part des régulateurs.

La loi devrait notamment entrer en vigueur en 2025, une fois que les États membres de l'UE l'auront approuvée. La loi oblige les entreprises à faire davantage de lumière sur le processus de développement de leurs puissants systèmes d'IA " à usage général ", capables de générer des images et des textes.

Pourquoi les données d'entraînement sont-elles si importantes ?

Une copie du projet repéré par Bloomberg Opinion suggère que ces sociétés d'IA devront partager un résumé détaillé de leurs données de formation avec les régulateurs européens. Alors que les utilisateurs de ces systèmes d'IA se demandent peut-être qui se soucie des données de formation, il semble que ce soit le cas des entreprises d'IA.

Il semblerait que deux des principales sociétés européennes d'IA aient tenté de rendre ces exigences de transparence moins contraignantes. De plus, les développeurs de systèmes d'IA comme OpenAI et Google sont devenus plus secrets sur les données qu'ils ont récupérées sur Internet pour former des outils d'IA au cours des dernières années.

Par exemple, OpenAI, dirigé par Sam Altman, n'a pas partagé de rapport complet sur les données utilisées pour créer ChatGPT, qui comprenait des livres, des sites Web et des textes.

En conséquence, l'entreprise a réussi à éviter l'examen public de son utilisation d'œuvres protégées par le droit d'auteur ou des ensembles de données biaisés qu'elle a pu utiliser pour entraîner ses modèles d'IA. De même, Microsoft a récemment déclaré qu'il ne devrait pas être tenu responsable si les utilisateurs de Copilot enfreignaient du matériel protégé par le droit d'auteur.

Les données biaisées nécessitent une intervention réglementaire car elles constituent un problème majeur en IA. Les données partagées par une étude menée par l'Université de Stanford montrent que des outils d'IA comme ChatGPT ont été utilisés pour générer des lettres d'emploi pour des personnes hypothétiques. Ces lettres regorgeaient de stéréotypes sexistes.

L'outil d'IA aurait décrit les hommes comme des " experts " et les femmes comme une " beauté " et un " délice ". De nombreuses autres études ont mis en évidence des résultats troublants similaires. En obligeant les entreprises à montrer leurs devoirs, les chercheurs et les régulateurs seront dans une meilleure position pour vérifier où les choses ne vont pas avec leurs données de formation.

Ainsi, les entreprises proposant les plus grands modèles d'IA devront commencer à les tester pour détecter les risques de sécurité et également déterminer la quantité d'énergie requise par leurs systèmes. Les entreprises devront alors partager ces bribes d'informations vitales avec la Commission européenne.

Citant une note interne au Parlement européen, le rédacteur en chef du site d'information européen Euractiv Luca Bertuzzi a indiqué qu'OpenAI et plusieurs entreprises chinoises seraient incluses dans cette catégorie. Cependant, le projet de loi suggère que la loi aurait dû aller plus loin.

Il y a encore place à l'amélioration dans les prochaines lignes directrices sur l'IA

"Ce résumé doit être complet dans sa portée plutôt que techniquement détaillé, par exemple en répertoriant les principales collections ou ensembles de données qui ont servi à former le modèle, comme les grandes bases de données ou archives de données privées ou publiques, et en fournissant une explication narrative sur d'autres sources de données utilisées", indique le projet de loi.

La règle imminente en matière d'IA est suffisamment vague pour permettre à des entreprises comme OpenAI de masquer plusieurs points de données clés, notamment le type de données personnelles qu'elles utilisent dans leurs ensembles de formation.

En dehors de cela, les sociétés d'IA pourront masquer d'autres informations telles que la prévalence des images et des textes abusifs ou violents et le nombre de modérateurs de contenu qu'elles ont embauchés pour surveiller la façon dont leurs outils sont utilisés.

Il n'y a aucun prix à deviner que les réponses à ces questions nécessitent plus de détails. De plus, les lignes directrices auraient pu obliger ces entreprises à donner accès à des chercheurs et universitaires tiers aux données de formation utilisées dans leurs modèles à des fins d'audit.

Au lieu de cela, l'UE continuera de s'appuyer sur ces entreprises pour s'auto-auditer. "Nous sortons tout juste de 15 années passées à mendier sur les plateformes de réseaux sociaux des informations sur le fonctionnement de leurs algorithmes", a déclaré Daniel Leufer, analyste politique principal chez Access Now, basé à Bruxelles.

Bien que légèrement incomplète, la loi européenne sur l'IA constitue un bon début en ce qui concerne la réglementation de l'IA. Il sera intéressant de voir si d'autres régions, notamment le Royaume-Uni et les États-Unis, emboîteront le pas et introduiront des réglementations similaires sur l'IA dans les prochains jours.