NVIDIA lance un modèle multimodal pour limiter la latence des agents IA
NVIDIA introduit Nemotron 3 Nano Omni, un modèle open source capable de traiter simultanément texte, image, audio et vidéo dans une architecture unique. Pensé pour réduire la fragmentation des systèmes d’IA, il vise à améliorer l’efficacité des agents en limitant les transferts entre modèles et en rapprochant perception et raisonnement au sein d’un même système.
NVIDIA dévoile Nemotron 3 Nano Omni, un modèle open source combinant traitement de la vision, de l’audio et du langage au sein d’une architecture unique. Selon le billet de blog, l’objectif est de réduire la fragmentation des systèmes d’IA actuels, souvent basés sur des modèles distincts, en unifiant ces capacités dans un seul modèle.
Nemotron 3 Nano Omni s’attaque à un problème récurrent des systèmes d’agents: la séparation entre modèles de perception et de langage, qui introduit latence et pertes d’information lors des transferts. Pour y répondre, le modèle repose sur une architecture hybride mixture-of-experts de type 30B-A3B, intégrant notamment des composants Conv3D, EVS et un contexte étendu jusqu’à 256K tokens, afin de traiter différents types de données sans nécessiter de transfert de contexte entre plusieurs modèles.
Dans ce cadre, il prend en entrée du texte, des images, de l’audio, de la vidéo, des documents et des interfaces graphiques, et génère des sorties textuelles. Il est conçu comme un composant de perception au sein de systèmes d’agents, pouvant être combiné avec d’autres modèles, notamment Nemotron 3 Super pour l’exécution ou Ultra pour la planification. Il peut ainsi alimenter des agents capables d’interagir avec des interfaces graphiques, d’analyser des documents complexes ou de comprendre des contenus audio et vidéo.
Agents multimodaux et performances
Le modèle vise des cas d’usage comme la navigation automatisée dans des applications, l’interprétation de documents et de graphiques ou l’analyse de flux multimédias dans des environnements de service ou de supervision. H Company l’utilise notamment pour ses agents d’usage informatique, avec une résolution native de 1920×1080 pixels. Selon son CEO Gautier Cloix, la réduction du temps de traitement est un facteur clé pour permettre une interaction en temps réel avec des environnements numériques.
Selon NVIDIA, Nemotron 3 Nano Omni atteint un débit jusqu’à neuf fois supérieur à d’autres modèles multimodaux ouverts à niveau d’interactivité comparable.
Nemotron 3 Nano Omni est disponible avec des poids ouverts, des jeux de données et des techniques d’entraînement via Hugging Face, OpenRouter et build.nvidia.com, où il est proposé comme microservice NVIDIA NIM. Le modèle peut être déployé sur des systèmes locaux NVIDIA Jetson, DGX Spark et DGX Station, ainsi que dans des environnements datacenter et cloud. Les développeurs peuvent utiliser NVIDIA NeMo pour la personnalisation, l’évaluation et l’optimisation du modèle.
L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!