IA générative multimodale

L’EPFL collabore avec Apple pour perfectionner les modèles GenAI multimodaux

L’EPFL a dévoilé 4M, un réseau neuronal visant à résoudre les limites actuelles de l’intelligence artificielle multimodale. Ce cadre de formation de modèles de fondation vise à unifier plusieurs types de données, allant du texte aux signaux biologiques.

Les chercheurs de l’EPFL essaient de modéliser la réalité physique en assemblant différentes modalités. Cette image montre des oranges vues à travers le prisme de multiples modalités. (Source: EPFL/Visual Intelligence and Learning Laboratory - CC-BY-SA 4.0)
Les chercheurs de l’EPFL essaient de modéliser la réalité physique en assemblant différentes modalités. Cette image montre des oranges vues à travers le prisme de multiples modalités. (Source: EPFL/Visual Intelligence and Learning Laboratory - CC-BY-SA 4.0)

Dans le domaine de l’IA générative, l’EPFL a dévoilé un cadre d'entraînement pour mettre au point des modèles de fondation multimodaux. Selon un communiqué de l’institution, le futur de l’intelligence artificielle générative se fondera sur des modèles multimodaux qui ne se limiteront pas à l'analyse de textes, mais intégreront également d'autres types de données, comme des images, des vidéos, des sons, ou des données issues de domaines variés tels que des informations biologiques ou atmosphériques.

Les géants de l’intelligence artificielle que sont OpenAI et Google ont d’ailleurs récemment franchi une étape importante en lançant des API multimodales. Ces solutions permettent des interactions bidirectionnelles en temps réel, traitant simultanément des entrées textuelles, audio et vidéo, avec des réponses générées sous forme de texte ou d’audio. 

Cependant, comme l’explique l’EPFL, entraîner des modèles capables de traiter de multiples modalités représente un défi de taille. Les différences marquées entre les types de données rendent l’entraînement difficile. Et certaines modalités sont souvent négligées, compromettant la qualité et la précision du modèle global. 

Un réseau neuronal baptisé 4M

Pour surmonter ces limitations, une équipe du Laboratoire d’intelligence et d’apprentissage visuels (VILAB), au sein de la Faculté informatique et communications (IC) de l’EPFL, a développé 4M, avec le soutien d’Apple (dont le directeur de la recherche IA vient d'être nommé professeur à l’EPFL). Ce projet vise à créer un réseau neuronal capable de gérer une vaste gamme de tâches et de modalités. 

«Lorsque nous passons à la modélisation multimodale, nous n’avons pas à nous limiter au langage. Nous apportons d’autres modalités, y compris des capteurs. Par exemple, nous pouvons communiquer sur une orange à l’aide du mot “orange”, comme dans les modèles de langage, mais aussi par une collection de pixels, indiquant à quoi ressemble l’orange, ou par le sens du toucher, capturant la sensation de toucher une orange. Si vous assemblez différentes modalités, vous obtenez une encapsulation plus complète de la réalité physique que nous essayons de modéliser», explique Amir Zamir, responsable du VILAB. 

Les modèles trichent encore

Ce cadre d'entraînement n’a toutefois pas encore atteint une véritable unification des modalités. Selon Amir Zamir, «les modèles trichent et créent un petit ensemble de modèles indépendants. Un ensemble de paramètres résout un problème, un autre ensemble de paramètres en résout un autre, et, collectivement, ils semblent résoudre le problème global. Mais ils n’unifient pas vraiment leurs connaissances d’une manière qui permette une représentation conjointe compacte de l’environnement qui constituerait un bon portail vers le monde».

L’équipe du VILAB continue d’affiner 4M, afin d'atteindre une capacité robuste d’unification des modalités. L'objectif poursuivi étant de développer une architecture générique open source qui permettra aux chercheurs et experts d’autres disciplines d’adapter le modèle à leurs besoins spécifiques. 
 

Tags
Webcode
E7xizmTi