Consommation énergétique

L'empreinte carbone des grands modèles de langage décortiquée

Une étude académique sur la consommation d'énergie du grand modèle de langage Bloom permet de comprendre les multiples facteurs à l'origine de l'empreinte carbone de ces technologies au cœur des IA génératives. Aussi bien lors de la formation de ces modèles que lorsqu’ils sont sollicités.

(Source: Matthias Heyde via Unsplash)
(Source: Matthias Heyde via Unsplash)

La formation de modèles de langage géants nécessite une grande quantité de ressources et donc d'énergie. Mais pour quel coût environnemental? Une récente recherche académique s’est attelée à quantifier l'empreinte carbone de Bloom, tout au long du cycle de vie de ce modèle de langage possédant 176 milliards de paramètres. 

Publié dans la revue Journal of Machine Learning Research, l'article a été soumis par Anne-Laure Ligozat, professeure à l’Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE) et est cosigné par des chercheurs de Hugging Face et de Graphcore. 

Consommation pour l’entraînement du modèle

Le papier révèle que la formation de Bloom a émis environ 24,7 tonnes d'équivalent CO2 pour la seule consommation d'énergie dynamique. C'est-à-dire la production de l'électricité nécessaire strictement à l'alimentation de l'entraînement du modèle. Ce résultat se base sur le fait que le processus a duré 1,08 millions d’heures de calcul sur une partition matérielle constituée de GPU Nvidia A100 SXM4 avec 80 Go de mémoire, qui ont un TDP (enveloppe thermique) de 400W. 

Les chercheurs ont également voulu calculer la consommation de tous les processus impliqués, à commencer par les émissions associées à la fabrication des équipements fournissant les ressources de calcul engagées. En se référant à des estimations concernant les puces de Nvidia et les serveurs HPE utilisés pour entraîner Bloom, les chercheurs ont calculé que les émissions intrinsèques étaient d’environ 7,57 tonnes pour les serveurs et 3,64 tonnes pour les GPU, soit un total de 11,2 tonnes d'équivalent CO2. 

Vient s’ajouter à ces deux premières dimensions celle de la consommation dite au repos. A savoir l’énergie qui alimente l'infrastructure plus large qui maintient et connecte l’ensemble des composants hardware impliqués. Les chercheurs précisent que celle-ci est en partie reflétée par la prise en compte du PUE (Power Usage Effectiveness) des datacenters utilisés pour former les modèles, incluant entre autres une indication sur l'électricité allouée au refroidissement des serveurs. Il apparaît que la consommation au repos atteint les 14,6 tonnes d’équivalent  CO2.

Au total, l'empreinte carbone de la formation du modèle Bloom est ainsi estimée à 50,5 tonnes d’équivalent CO2. 

Consommation de l'utilisation du modèle 

Le modèle Bloom, déployé sur une instance de Google Cloud Platform (GCP) dotée de 16 GPU Nvidia A100 de 40 Go, fonctionne via une API. Pour estimer la consommation des inférences, les chercheurs ont monitorer les opérations pendant 18 jours. Au total, 230’768 requêtes - soit une moyenne de 558 par heure - ont été traitées au cours de cette période. Près du quart des ressources énergétiques ont été utilisés par la RAM et trois quarts par les GPU (seulement 2% par les CPU). 

En prenant en compte la densité carbone spécifique à la région cloud sur laquelle Bloom est déployé, il en résulte que l'équivalent CO2 de l'utilisation du modèle correspond à 19 kg par jour. En considérant l'empreinte carbone totale du modèle (sa formation et son utilisation), la part provenant des inférences après une période d’une année serait environ de 12%. 

Les chercheurs font bien sûr remarquer que leurs estimations ne concernent qu’un exemple parmi d’autres, de nombreuses configurations pouvant être utilisées pour déployer des modèles de machine learning, qu’il s’agisse du matériel utilisé pour le déploiement à la taille des lots d'inférences et à la zone où le modèle est exécuté. En outre, l’estimation de l'empreinte carbone due aux inférences va énormément varier en fonction du nombre de requêtes sollicitant un modèle. 
 

Tags
Webcode
Rboawchj