Modèles multimodaux

Baidu déploie en open source son LLM Ernie 4.5

Baidu met à disposition en open source la version Ernie 4.5 de son LLM basé sur une architecture MoE, visant à améliorer les performances dans la compréhension multimodale, le raisonnement et la génération de texte.

Siège de Baidu à Beijing, en Chine, où sont développés les modèles Ernie (Source: N509FZ/ Wikipédia)
Siège de Baidu à Beijing, en Chine, où sont développés les modèles Ernie (Source: N509FZ/ Wikipédia)

Baidu a désormais rendu accessible en open source Ernie 4.5, une version avancée de sa famille de modèles, après son annonce publique en mars dernier. Ce modèle combine traitement du texte et compréhension visuelle. Selon un communiqué, Ernie 4.5 intègre des méthodes d’entraînement avancées, visant à améliorer les performances dans diverses tâches, telles que la compréhension multimodale, le raisonnement et la génération de texte.
 
La famille Ernie 4.5 comprend une dizaine de modèles, dont des architectures Mixture-of-Experts (MoE) comptant jusqu’à 424 milliards de paramètres, ainsi que des versions plus compactes. Ces modèles combinent des paramètres partagés entre modalités et d’autres dédiés spécifiquement, optimisant ainsi la compréhension multimodale sans compromettre les performances sur les tâches textuelles, telles que la génération de texte et le raisonnement multimodal. Ils sont optimisés pour un entraînement et un déploiement efficaces.
 
L’entreprise a également développé des innovations pour améliorer l’efficience de l’entraînement et du déploiement, parmi lesquelles le parallélisme hybride, l’équilibrage hiérarchique des charges, la formation en précision mixte FP8 ainsi que des algorithmes de quantification 4 et 2 bits sans perte. Ces avancées reposent sur PaddlePaddle, le framework open source de Baidu.
 
En mettant ce modèle en open source, Baidu, l'un des géants technologiques chinois, suit une stratégie similaire à celle d'autres acteurs de la tech en Chine, tels que DeepSeek. Par ailleurs, selon les benchmarks effectués par Baidu, Ernie 4.5 surpasse DeepSeek-V3 et d'autres modèles plus grands en compréhension linguistique, raisonnement et multimodal.

Tous les modèles Ernie 4.5 sont rendus accessibles publiquement sous la licence Apache 2.0 afin de soutenir la recherche et le développement futurs dans le domaine de l'intelligence artificielle, précise le communiqué.

Tags
Webcode
Rarh3sPq