Panne d’AWS: causes et implications stratégiques
Amazon Web Services (AWS) a détaillé les causes de la panne qui a affecté ses services le 7 décembre dernier, perturbant la disponibilité de milliers de sites et services dont Disney+, Netflix et Slack. L’incident remet sur le devant de la scène la question de la pertinence d’une approche multicloud, qui ne se profile toutefois pas nécessairement comme une stratégie adéquate.
Le 7 décembre dernier, des milliers de sites et services web ont flanché à cause d’une panne technique de cinq heures touchant l'infrastructure cloud d’Amazon Web Services (AWS). Le fournisseur vient de détailler les causes, via un billet de blog, de cette interruption de services qui s’est produite dans les infrastructures de la région de Virginie du Nord. (US-EAST-1).
La panne n’a pas directement impacté le réseau externe d’AWS mais interne, celui où sont hébergés certains services fondamentaux, notamment le monitoring, le DNS interne et les services d'autorisation. Ces services communiquent avec le réseau principal via des dispositifs qui fournissent un routage et une traduction d'adresses réseau, explique le leader du cloud public. La communication entre les réseaux, interne et externe, a subitement été submergée de connexions suite à une activité de mise à l'échelle automatisée par un logiciel. Selon AWS, ce dernier est utilisé depuis des années, mais il a malgré tout déclenché un comportement qui n'avait pas été observé auparavant. La congestion provoquée a perduré des heures, car elle a touché les services de monitoring, les équipes d’AWS n’ont donc pas disposé de la visibilité suffisante pour rapidement remonter à la source du problème.
Le multicloud comme seule réponse?
Cette interruption de services a perturbé la disponibilité aux Etats-Unis du site d’Associated Press, ainsi que des services Alexa, Disney+, Netflix, Slack ou encore Coinbase. La panne a remis sur le devant de la scène la question de la dépendance d’un service numérique à un seul fournisseur cloud, dont les capacités de résilience restent souvent obscures aux yeux des entreprises. Ces incidents appuient-ils la pertinence des stratégies multicloud? Ce n’est pas l’avis de Lydia Leong, analyste chez Gartner, qui dans un article récent explique pourquoi le multicloud est «toujours une mauvaise idée».
Même si elle admet que le risque zéro n’existe pas, que des problèmes de communication et de pressions inattendues dues à l'échelle peuvent survenir, l’analyste met en avant les mécanismes multiples des infrastructures cloud composées d'une myriade d'éléments possédant leur propre forme de résilience. Et de proposer une analogie intéressante avec l'industrie aéronautique: «Il pourrait y avoir, par exemple, un bug dans les systèmes de contrôle des avions de tel ou tel fabricant qui pourrait être déclenché simultanément à un moment donné et faire tomber tous leurs avions du ciel simultanément. Mais nous ne prévoyons pas d'obliger les compagnies aériennes à conserver des avions de secours d'un autre constructeur au cas où cela se produirait. Au lieu de cela, nous essayons de faire en sorte que chaque avion soit résilient à bien des égards, notamment en ce qui concerne les formes les plus probables de défaillance, à savoir les défaillances électriques ou mécaniques de certains composants.»
Négocier le partage des risques
Plutôt que d’opter pour une approche multicloud pour assurer coûte que coûte la continuité de leurs services, les entreprises pourraient plutôt prendre en compte le risque dans les termes de la relation avec leur fournisseur. «Si vous pouvez adapter un service de manière à ce qu'il fonctionne dans plus d'un cloud, ou dans un cloud et sur site, faites-le. Si ce n'est pas le cas, négociez le partage des risques commerciaux, renseignez-vous sur les pratiques [des fournisseurs de services cloud] et négociez pour que ces pratiques s'alignent sur vos besoins de résilience interne», explique l’analyste de Forrester Brent Ellis, dans un article du média spécialisé TechRepublik.