Visual ChatGPT

Microsoft dote ChatGPT de capacités de reconnaissance visuelle

Des chercheurs de Microsoft ont publié sur Github l’outil Visual ChatGPT, qui permet de faire appel à une image pour interagir avec la chatbot de nouvelle génération.

(Source: Ociacia / iStock.com)
(Source: Ociacia / iStock.com)

Microsoft veut doter ChatGPT de capacité multimodale. En commençant par la reconnaissance d’images. Des chercheurs de la firme ont publié sur Github l’outil Visual ChatGPT. Dans un article publié sur la plateforme Arxiv.org, l’équipe de  spécialistes en vision par ordinateurs explique que leur modèle combine les  fonctionnalités de ChatGPT avec des modèles de traitement visuels tels que Visual Transformers ou Stable Diffusion. De même qu’avec le modèle Prometheus de Microsoft. 

Selon les chercheurs travaillant sur Visual ChatGPT, les modèles de type Visual Transformers ou Stable Diffusion, «bien que présentant de grandes capacités de compréhension et de génération visuelle», n'excellent que dans des tâches spécifiques et ne fonctionnent  qu’avec une seule commande en input. Ici, l’idée est de pouvoir réellement interagir avec l’IA, comme il est possible de le faire textuellement avec ChatGPT. 

Visual ChatGPT permet donc de faire appel à une image en guise de prompt, au lieu de taper ces indications au clavier. Outre la possibilité d'importer des photographies et de créer de nouvelles images, Visual ChatGPT permet aussi de modifier les images déjà créées.

Avec la publication de son API pour mettre ChatGPT dans n’importe quelle app, OpenAI a récemment introduit un langage structuré qui laissait présager de futures fonctionnalités additionnelles, en plus des capacités d’interactions strictement textuelles. 

Tags
Webcode
mZGUusCH