Panne expliquée

Des erreurs de configuration et un bug ont causé la panne de Google Cloud

Tout s’explique… Des erreurs de configuration du plan de contrôle réseau et un bug dans le logiciel des événements de maintenance sont à l’origine de la récente panne majeure qui a touché de nombreux services basés sur Google Cloud.

(Source: Pixabay)
(Source: Pixabay)

Plusieurs défaillances combinées expliquent l'ampleur des perturbations qui ont récemment touché des services hébergés dans le cloud de Google. La firme de Mountain View a investigué sur les causes et livre plus de détails au sujet de cette panne qualifiée de majeure «tant par son ampleur que par sa durée».

Pour rappel, dimanche 2 juin, la plupart des services G Suite ainsi que Youtube ont subi une interruption de plusieurs heures, de même que des applications tierces dont Shopify et Snapchat. Le problème a principalement affecté les Etats-Unis mais des perturbations ont aussi été constatées en Europe et en Suisse. Google précise que six régions US de son cloud sont concernées. Les services Google Cloud dépendant de ces dernières ont été touchés (dont Google Compute Engine, App Engine et Cloud Interconnect), de même que des services tiers qui ne pouvaient pas rediriger entièrement les utilisateurs vers des régions non affectées.

Un bug dans le logiciel des événements de maintenance

Deux erreurs de configuration normalement bénignes et un bug logiciel spécifique se sont combinés pour déclencher la panne, explique Google. Première erreur de configuration: les tâches du plan de contrôle réseau et leur infrastructure de support dans les régions touchées étaient configurées pour être arrêtées lors d'un évènement de maintenance. Seconde erreur: les multiples instances du logiciel de gestion de cluster exécutant le plan de contrôle du réseau ont été marquées comme admissibles à l'inclusion dans un type particulier et relativement rare d'événement de maintenance. Quant au bug identifié, il concerne le logiciel à l'origine des événements de maintenance et permettait de déplanifier plusieurs clusters logiciels indépendants à la fois, et ce, même si ces clusters se trouvaient dans des emplacements physiques différents. Suite à la déplanification erronée, le routage entre les différents sites physiques concernés a été supprimé, ce qui a entraîné la congestion réseau à l’origine de la panne.

Pour prévenir la survenue de ce type de défaillances, Google a arrêté le logiciel d'automatisation qui déplanifie les tâches en cas d'événements de maintenance. Ce logiciel ne sera à nouveau activé que lorsque des mesures seront en place pour éviter une déplanification des tâches dans plusieurs emplacements physiques simultanément.

Tags
Webcode
DPF8_142058