Google donne à son chatbot Bard un coup de pouce majeur en matière d'intelligence artificielle alors que le créateur de ChatGPT, OpenAI, fait face aux conséquences d'un coup d'État au sein d'un conseil d'administration qui a vu le dire
AFP

Une équipe de Google a présenté un programme passionnant du géant de la recherche. Il consiste à utiliser l'intelligence artificielle (IA) pour donner aux utilisateurs une vue d'ensemble de leur vie.

La technologie proposée utilisera les données des téléphones mobiles telles que les photos et les recherches Google. Le programme porte le nom de code " Projet Ellmann " en l'honneur du biographe et critique littéraire Richard David Ellmann.

Selon une copie d'une présentation consultée par CNBC , l'équipe de Google recommande d'utiliser des modèles de langage étendus (LLM) comme Gemini pour absorber les résultats de recherche, découvrir des modèles dans les photos d'un utilisateur, créer un chatbot et "répondre à des questions auparavant impossibles".

La présentation établit également comment le projet Ellmann sera " le conteur de votre vie ". Cependant, Google reste muet sur son intention d'ajouter ces fonctionnalités à l'un de ses produits, y compris Google Photos.

Un article de blog partagé par Dave Perra, ingénieur logiciel pour Photos de Google, et Tracy Ferrell, responsable SRE des appareils et services de la société, suggère que Google Photos compte plus d'un milliard d'utilisateurs et 4 000 milliards de photos et de vidéos.

Projet Ellmann : tout ce que nous savons jusqu'à présent sur le nouveau projet de Google

Outre le projet Ellman, Google envisage d'adopter la technologie de l'IA de nombreuses manières dans le but d'améliorer ses produits. Dans cette optique, le géant américain de la technologie a récemment dévoilé son dernier modèle d'IA " le plus performant " et le plus avancé à ce jour, Gemini.

Il convient de noter que le modèle Gemini AI a réussi à surpasser le GPT-4 d'OpenAI dans 30 des 32 tests de référence. Google aurait l'intention de rendre Gemini accessible à un large éventail de clients via Google Cloud pour qu'ils puissent l'utiliser dans leurs propres applications.

L'une des caractéristiques les plus remarquables de Gemini est qu'il est multimodal. En d'autres termes, le modèle d'IA peut non seulement traiter mais également comprendre des informations au-delà du texte, notamment la vidéo, l'audio et les images.

Les documents consultés par CNBC suggèrent qu'un chef de produit pour Google Photos a présenté le projet Ellman aux côtés des équipes Gemini lors d'un sommet interne récemment conclu. Le chef de produit a proposé que ce projet ait une approche globale de l'histoire de la vie de chacun.

"Nous ne pouvons pas répondre à des questions difficiles ou raconter de bonnes histoires sans une vue d'ensemble de votre vie", mentionne la présentation.

"Nous parcourons vos photos, en examinant leurs tags et leurs emplacements pour identifier un moment significatif. "Lorsque nous prenons du recul et comprenons votre vie dans son intégralité, votre histoire globale devient claire", peut-on lire sur une diapositive de présentation.

La présentation indique que de grands modèles de langage pourraient déduire une multitude de moments mémorables tels que la naissance de l'enfant d'un utilisateur. La présentation affirme : "Ce LLM peut utiliser les connaissances du haut de l'arbre pour déduire qu'il s'agit de la naissance de Jack et qu'il est le premier et unique enfant de James et Gemma."

"L'une des raisons pour lesquelles un LLM est si puissant pour cette approche à vol d'oiseau, c'est qu'il est capable de prendre en compte un contexte non structuré à toutes les altitudes de cet arbre et de l'utiliser pour améliorer la façon dont il comprend les autres régions de l'arbre", a déclaré un chercheur. lectures de diapositives séparées.

Il est intéressant de noter que Google testerait également un assistant IA capable de donner des conseils de vie.