Microsoft dévoile une nouvelle puce d’inférence IA pour Azure
Microsoft lance Maia 200, un nouvel accélérateur d’inférence IA destiné à son cloud Azure. La puce, développée en interne, s’intègre nativement aux services Azure.
Microsoft annonce le lancement de Maia 200, une nouvelle puce d’accélération dédiée à l’inférence en intelligence artificielle. Développée en interne, elle sera intégrée à l’infrastructure du groupe pour soutenir ses services et modèles IA.
Cette nouvelle génération de puce s’inscrit dans la continuité de la stratégie dévoilée lors de la conférence Ignite 2023, où Microsoft avait présenté ses premières puces maison destinées à accélérer ses services d’IA et Copilot.
Cet accélérateur d’inférence vise à améliorer les performances et l’efficacité économique de la génération de tokens dans le cloud Azure. Selon Microsoft, l’accélérateur repose sur une approche intégrée combinant matériel, modèles d’IA et applications.
Une puce conçue pour l’inférence à grande échelle
Gravée en 3 nanomètres, Maia 200 intègre plus de 140 milliards de transistors. D’après Microsoft, la puce atteint plus de 10 pétaFLOPS en précision 4 bits (FP4) et plus de 5 pétaFLOPS en précision 8 bits (FP8), tout en respectant une enveloppe énergétique de 750 watts. Elle embarque également 216 Go de mémoire HBM3e, offrant une bande passante de 7 To/s, ainsi que 272 Mo de mémoire SRAM intégrée.
Ces caractéristiques doivent permettre à Maia 200 d’exécuter les plus grands modèles d’IA actuels, tout en conservant une marge pour des modèles de taille encore supérieure à l’avenir. Microsoft précise que l’accélérateur a été optimisé pour les architectures à faible précision, désormais largement utilisées pour l’inférence des modèles de langage de grande taille.
Une architecture réseau basée sur Ethernet standard
Au niveau des systèmes, Maia 200 repose sur une architecture de mise à l’échelle utilisant Ethernet standard. Selon la firme de Redmond, cette conception permet de connecter jusqu’à 6’144 accélérateurs par cluster, tout en garantissant des opérations collectives prévisibles et une bande passante bidirectionnelle dédiée de 2,8 To/s par accélérateur.
À l’intérieur de chaque module, quatre accélérateurs Maia sont interconnectés via des liaisons directes non commutées, afin de réduire la latence et d’optimiser l’efficacité de l’inférence. Le même protocole de communication est utilisé pour les échanges au sein des racks et entre les racks, ce qui, selon l’entreprise, simplifie la programmation et améliore la flexibilité des charges de travail.
Déploiement dans Azure, usages et outillage
Maia 200 est actuellement déployé dans la région Azure US Central, près de Des Moines (Iowa). Une extension vers la région US West 3, aux environs de Phoenix (Arizona), est prévue, d’autres régions devant suivre par la suite. Microsoft précise que l’accélérateur s’intègre nativement aux services Azure.
La puce sera exploitée pour plusieurs charges de travail internes, dont les modèles GPT les plus récents d’OpenAI, Microsoft 365 Copilot, ainsi que des projets de l’équipe Superintelligence du groupe. Elle doit également servir à la génération de données synthétiques et à certaines tâches d’apprentissage par renforcement destinées à améliorer les modèles internes.
Pour accompagner ce déploiement, Microsoft met également à disposition une version préliminaire du kit de développement Maia. Ce SDK prend en charge les principaux frameworks d’IA, dont PyTorch, et inclut notamment un compilateur Triton, un langage de programmation bas niveau, un simulateur ainsi qu’un outil de calcul des coûts. Selon Microsoft, cet ensemble doit permettre aux développeurs d’optimiser leurs modèles pour les systèmes Maia, tout en facilitant le portage des charges de travail entre différents accélérateurs au sein d’infrastructures hétérogènes.
L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!