Datacenters principaux et périphériques

Facebook contraint de dépêcher ses ingénieurs dans ses datacenters pour résoudre la panne

Dans un post, le responsable des infrastructures est revenu sur la panne des plateformes de Facebook qui a contraint les ingénieurs à se rendre physiquement dans les datacenters. A l’origine de la panne, un problème de maintenance réseau et un effet cascade qui s’explique par la manière dont l’infrastructure de Facebook est organisée.

(Source: agnormark / Fotolia.com)
(Source: agnormark / Fotolia.com)

Lundi, Facebook et ses plateforme Instagram et WhatsApp connaissaient une interruption de tous les services dans le monde entier. Comme ICTjournal l'expliquait hier, un problème de configuration réseau est à l'origine de la panne. Responsable des infrastructures de la firme, Santosh Janardhan a donné davantage de précisions dans un blog, tant sur le problème que sur la difficulté pour les ingénieurs d’y remédier rapidement.

Lien rompu entre les datacenters principaux et périphériques

Son explication permet (et nécessite) de comprendre la manières dont l’infrastructure de Facebook est organisée. La firme compte deux types de centres de données: des datacenters «périphériques», qui sont connectés à internet et reçoivent les requêtes des utilisateurs, et des datacenters «principaux» de grande taille qui hébergent les capacités de stockage et de calcul servant à traiter les demandes. Entre ces deux types de datacenters, le réseau dorsal de Facebook qui est justement au centre de la panne.

Lors de travaux de maintenance, une commande destinée à évaluer la capacité de ce réseau dorsal, a eu pour effet d’interrompre l’ensemble des connexions. Les datacenters principaux de Facebook du monde entier se sont ainsi retrouvés déconnectés des datacenters périphériques et donc d’internet.

Pour corser le tout, les datacenters périphériques hébergent les serveurs DNS de la firme. Et ces serveurs sont ainsi configurés qu’ils arrêtent d’exposer leurs propres adresses IP (BGP), dès lors qu’ils ne peuvent plus communiquer avec les datacenters centraux. Ce qui s’est précisément passé. Il n’était donc plus possible pour internet de trouver les datacenters périphériques. En résumé, Facebook était littéralement offline.

Ingénieurs forcés d’aller physiquement dans les datacenters

Une fois la cause de la panne identifiée, ces même problèmes de connexion ont ralenti le travail des ingénieurs de Facebook qui ne pouvaient plus accéder aux datacenters à distance par les moyens usuels, tandis que la perte de DNS mettait hors service les outils internes employés pour diagnostiquer et remédier à des pannes. Les ingénieurs ont ainsi dû se rendre physiquement dans les datacenters et passer les contrôles de sécurité stricts avant de pouvoir accéder aux serveurs et routeurs (spécialement conçus pour être difficiles à modifier avec un accès physique!), résoudre le problème et redémarrer les systèmes.

Un redémarrage auquel il a fallu procéder par étape afin d’éviter une surcharge de trafic - certains datacenters ayant enregistré auparavant des baisses de consommation de l’ordre de dizaines de mégawatts. Le responsable des infrastructures explique que les ingénieurs étaient heureusement préparés à ce type d'exercice. «Chaque incident est l'occasion d'apprendre et de s'améliorer, et nous avons beaucoup à apprendre de celui-ci. Après chaque problème, petit ou grand, nous procédons à un examen approfondi pour comprendre comment nous pouvons rendre nos systèmes plus résilients. Ce processus est déjà en cours», conclut Santosh Janardhan.

Webcode
DPF8_233265