Google a manipulé une vidéo pour faire paraître Gemini plus puissant qu’il ne l’est (update)

News

Google a levé le voile sur Gemini, son LLM pensé pour être multimodal dès sa formation. Plusieurs versions sont lancées, Nano, Pro et Ultra. La dernière serait plus puissante que GPT-4 et sera bientôt introduite dans le chatbot Bard. Une impressionnante vidéo promotionnelle a créé le buzz mais s’avère en réalité en partie truquée.

Le nouveau système Cloud TPU v5p de Google, spécifiquement conçu pour entraîner les modèles de pointe d’IA. (Source: Google)

Mise à jour du 11 décembre 2023: En dévoilant son LLM Gemini, Google a impressionné son monde (la rédaction y compris) avec une vidéo promotionnelle censée montrer les capacités de «compréhension» audiovisuelle de son modèle (voire news originale ci-dessous). Sauf que la présentation en question est en partie truquée, a rapporté le site spécialisé Techcrunch. La description sous la vidéo Youtube précisait certes qu’un montage avait été effectué pour réduire la latence avant la production d’une réponse. Mais la manipulation va bien au-delà.

«En réalité, il s'agit d'une série de prompts textuels soigneusement ajustés avec des images fixes, clairement sélectionnés et raccourcis pour déformer la réalité de l'interaction. Vous pouvez voir certains des prompts et des réponses réelles dans un article de blog connexe - qui, pour être honnête, est lié à la description de la vidéo, bien qu'en dessous de " ... more"», indique Techcrunch.

Par exemple, dans la vidéo, Gemini reconnaît presque instantanément qu’une personne joue à «Feuille-Caillou-Ciseaux» en ne voyant qu’un seul geste. En réalité, le système à dû être soumis aux trois gestes, mais aussi au prompt: «Qu'est-ce que vous pensez que je suis en train de faire? Indice: c'est un jeu.»

News originale du 7 décembre 2023: Google dévoile Gemini, son LLM multimodal taillé pour concurrencer GPT-4

Il paraît loin le temps où Google lançait à la hâte Bard, sa réponse à ChatGPT. La firme de Mountain View a introduit son nouveau grand modèle de langage (LLM) Gemini, qui a la particularité d’avoir été formé dès les prémisses pour une interaction multimodale. Il est ainsi capable de «généraliser, comprendre avec fluidité, traiter et combiner différents supports d’informations, dont le texte, le code, l’audio, l’image et la vidéo», indique Demis Hassabis, CEO et cofondateur de Google DeepMind.

Dans un document technique d'une cinquantaine de pages, Google précise que les modèles Gemini sont entraînés sur un ensemble de données à la fois multimodales et multilingues, provenant de documents web, de livres et de codes. Et nous n’en saurons pas davantage sur les sources de données d'entraînement…

Modèle polyvalent décliné en trois versions

Dans son annonce, Google met en outre en avant la polyvalence de son modèle décliné en trois tailles différentes. Gemini Nano, le plus petit, se destine aux tâches embarquées (par exemple au sein des smartphones, il sera d'ailleurs intégré au Pixel). La version Pro serait adaptée à une grande variété de tâches, alors que Gemini Ultra, le plus puissant, se destine «aux tâches de haute complexité». Le rapport technique de Google indique que, selon différentes méthodes de benchmark
établies ou récentes, la version Pro fait mieux que GPT-3.5. Alors que Gemini Ultra serait plus puissant que GPT-4. Aussi bien pour des tâches textuelles que basées sur des images et le son.

GPT-3.5 est intégré au chatbot Bard dans 170 pays (mais pour l'heure ni en Europe ni en Suisse). En 2024, il est prévu d’introduire Bard Advanced, qui exploitera Gemini Ultra.

La firme de Mountain View a publié une vidéo qui a généré nombre de commentaires impressionnés, pour illustrer les capacités de «compréhension» audiovisuelle de son modèle.

Tensor Processing Units signés Google

Gemini a également une autre particularité, celle d'avoir été formé sur les TPU (Tensor Processing Units) développées par Google. La firme a d'ailleurs également annoncé un nouveau système, Cloud TPU v5p, spécifiquement conçu pour entraîner les modèles de pointe d’IA. Le document technique de la firme ne dit rien sur l'empreinte carbone de la formation de Gemini. Dans un récent billet de blog, Google a affirmé que la v4 de ses TPU est «l'un des centres d'infrastructure de ML les plus rapides, les plus efficaces et les plus durables au monde». L'entreprise mentionne en outre avoir effectué des analyses d'impact de son LLM, sans toutefois entrer dans les détails.

Google a manipulé une vidéo pour faire paraître Gemini plus puissant qu’il ne l’est (update)

Modèle polyvalent décliné en trois versions

Tensor Processing Units signés Google

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA

Google a manipulé une vidéo pour faire paraître Gemini plus puissant qu’il ne l’est (update)

Modèle polyvalent décliné en trois versions

Tensor Processing Units signés Google

ChatGPT apprend à voir, à entendre et à parler

Quand un cousin de ChatGPT commet un délit d'initié et s'en défend

Les 10 principales vulnérabilités des modèles GPT

Bard peut vérifier ses déclarations sur Google (update)

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA