Microsoft dévoile une nouvelle puce d’inférence IA pour Azure

News

Microsoft lance Maia 200, un nouvel accélérateur d’inférence IA destiné à son cloud Azure. La puce, développée en interne, s’intègre nativement aux services Azure.

Maia 200, nouvelle puce d’inférence IA pour Azure (Source: Microsoft)

Microsoft annonce le lancement de Maia 200, une nouvelle puce d’accélération dédiée à l’inférence en intelligence artificielle. Développée en interne, elle sera intégrée à l’infrastructure du groupe pour soutenir ses services et modèles IA.

Cette nouvelle génération de puce s’inscrit dans la continuité de la stratégie dévoilée lors de la conférence Ignite 2023, où Microsoft avait présenté ses premières puces maison destinées à accélérer ses services d’IA et Copilot.

Cet accélérateur d’inférence vise à améliorer les performances et l’efficacité économique de la génération de tokens dans le cloud Azure. Selon Microsoft, l’accélérateur repose sur une approche intégrée combinant matériel, modèles d’IA et applications.

Une puce conçue pour l’inférence à grande échelle

Gravée en 3 nanomètres, Maia 200 intègre plus de 140 milliards de transistors. D’après Microsoft, la puce atteint plus de 10 pétaFLOPS en précision 4 bits (FP4) et plus de 5 pétaFLOPS en précision 8 bits (FP8), tout en respectant une enveloppe énergétique de 750 watts. Elle embarque également 216 Go de mémoire HBM3e, offrant une bande passante de 7 To/s, ainsi que 272 Mo de mémoire SRAM intégrée.

Ces caractéristiques doivent permettre à Maia 200 d’exécuter les plus grands modèles d’IA actuels, tout en conservant une marge pour des modèles de taille encore supérieure à l’avenir. Microsoft précise que l’accélérateur a été optimisé pour les architectures à faible précision, désormais largement utilisées pour l’inférence des modèles de langage de grande taille.

Une architecture réseau basée sur Ethernet standard

Au niveau des systèmes, Maia 200 repose sur une architecture de mise à l’échelle utilisant Ethernet standard. Selon la firme de Redmond, cette conception permet de connecter jusqu’à 6’144 accélérateurs par cluster, tout en garantissant des opérations collectives prévisibles et une bande passante bidirectionnelle dédiée de 2,8 To/s par accélérateur.

À l’intérieur de chaque module, quatre accélérateurs Maia sont interconnectés via des liaisons directes non commutées, afin de réduire la latence et d’optimiser l’efficacité de l’inférence. Le même protocole de communication est utilisé pour les échanges au sein des racks et entre les racks, ce qui, selon l’entreprise, simplifie la programmation et améliore la flexibilité des charges de travail.

Déploiement dans Azure, usages et outillage

Maia 200 est actuellement déployé dans la région Azure US Central, près de Des Moines (Iowa). Une extension vers la région US West 3, aux environs de Phoenix (Arizona), est prévue, d’autres régions devant suivre par la suite. Microsoft précise que l’accélérateur s’intègre nativement aux services Azure.

La puce sera exploitée pour plusieurs charges de travail internes, dont les modèles GPT les plus récents d’OpenAI, Microsoft 365 Copilot, ainsi que des projets de l’équipe Superintelligence du groupe. Elle doit également servir à la génération de données synthétiques et à certaines tâches d’apprentissage par renforcement destinées à améliorer les modèles internes.

Pour accompagner ce déploiement, Microsoft met également à disposition une version préliminaire du kit de développement Maia. Ce SDK prend en charge les principaux frameworks d’IA, dont PyTorch, et inclut notamment un compilateur Triton, un langage de programmation bas niveau, un simulateur ainsi qu’un outil de calcul des coûts. Selon Microsoft, cet ensemble doit permettre aux développeurs d’optimiser leurs modèles pour les systèmes Maia, tout en facilitant le portage des charges de travail entre différents accélérateurs au sein d’infrastructures hétérogènes.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!

Microsoft dévoile une nouvelle puce d’inférence IA pour Azure

Une puce conçue pour l’inférence à grande échelle

Une architecture réseau basée sur Ethernet standard

Déploiement dans Azure, usages et outillage

PLUS DE NEWS

En bref: polémique autour des Ray-Ban Meta, levée record pour LeCun, une marketplace pour Claude

Que faire en Suisse romande à l’occasion du Digital Cleanup Day?

Un agent IA exploite une faille dans le chatbot interne de McKinsey et accède à des millions de messages

Events

51e Salon International des Inventions de Genève

Cheops Experience Day

X-SPIErience Day 2026 : Souveraineté Numérique

.NEXT On Tour Lausanne

Dossiers

Essor de l’IA agentique

Robotique

Guide de l'informatique 2026

Numéro Actuel

ICTjournal 1/2026

Microsoft dévoile une nouvelle puce d’inférence IA pour Azure

Une puce conçue pour l’inférence à grande échelle

Une architecture réseau basée sur Ethernet standard

Déploiement dans Azure, usages et outillage

Microsoft présente de nouvelles puces IA et met Copilot partout

Microsoft mise sur la technologie suisse de Corintis pour refroidir ses puces IA

Microsoft dévoile un modèle d’IA capable de transformer des instructions en actions robotiques

Microsoft adopte le refroidissement sans eau additionnelle

PLUS DE NEWS

En bref: polémique autour des Ray-Ban Meta, levée record pour LeCun, une marketplace pour Claude

Que faire en Suisse romande à l’occasion du Digital Cleanup Day?

Un agent IA exploite une faille dans le chatbot interne de McKinsey et accède à des millions de messages

Events

51e Salon International des Inventions de Genève

Cheops Experience Day

X-SPIErience Day 2026 : Souveraineté Numérique

.NEXT On Tour Lausanne

Dossiers

Essor de l’IA agentique

Robotique

Guide de l'informatique 2026

Numéro Actuel

ICTjournal 1/2026