Chaos Monkey

Résilience cloud: Netflix mise sur ses singes tueurs d’instances AWS

Netflix publie une seconde version de sa propre solution Chaos Monkey. Open source, celle-ci sert à éprouver la résilience d’un environnement cloud en mettant régulièrement hors service des instances.

Netflix publie sur Github la version 2.0 de sa solution open source Chaos Monkey. Le populaire site de streaming vidéo se sert de cet outil fait maison depuis plusieurs années, afin de tester et garantir la résilience de son architecture orientée microservices reposant sur le cloud d’Amazon Web Services (AWS). Le concept de Chaos Monkey consiste à régulièrement choisir au hasard des instances dans l’environnement de production et de les mettre délibérément hors service. Netflix explique partir du principe que des défaillances de serveurs se produisent fréquemment. En «tuant» régulièrement des instances au hasard, la compagnie entend s’assurer que ses ingénieurs anticipent correctement la survenue de ce type d’incidents en mettant en place une architecture suffisamment redondante pour qu’une panne de serveurs AWS n’impacte d’aucune façon les millions de membres de Netflix dans le monde.

Chaos Kong, version musclée de Chaos Monkey

Constatant l’efficacité de l’utilisation de Chaos Monkey pour garantir la résilience de son infrastructure cloud, Netflix a ensuite franchi un stade de plus en imaginant Chaos Kong. Une version puissante comme un gorille de Chaos Monkey, puisqu’elle simule les cas extrêmes de pannes générales des serveurs de toute une région AWS. Ayant donc testé ce cas de figure rare au préalable, Netflix assure que des dysfonctionnements touchant toute la zone US-EAST-1 en septembre 2015 n’a eu aucun impact sur l’accès et l’utilisation de ses services, les redondances mises en place ayant automatiquement eu pour effet de rediriger tout le trafic de la région touchée vers une autre.

Netflix estime que ces outils de création de chaos lui permettent d’assurer la résilience d'une architecture distribuée qualifiée d’extrêmement complexe, en mesure de soutenir des centaines de déploiements par jour. Le service de streaming explique pouvoir ainsi continuer à prospérer en se basant sur son environnement cloud lui apportant agilité et flexibilité.

Webcode
DPF8_11675