Les SRE (Site Reliability Engineers) sont en charge la bonne santé de Google.
Pour se préparer aux problèmes éventuels, ils organisent des tests appelés DiRT (Disaster Recovery Testing).
Ces scénarios de fausses attaques ont pour objectif d’assurer que les services et opérations de Google continuent de fonctionner après un désastre.
C’est un voyage dans un DataCenter Google qui nous apprend l’existence du programme DiRT.
J’avais déjà entendu parler des Google SRE, en tombant sur une actu un peu glauque.
Quand on sait l’importance d’un bon sysadmin pour infogérer nos serveurs, c’est intéressant de regarder comment Google se préoccupe de sa sécurité.
Les ingénieurs de l’équipe SRE sont comme l’équipe du stand d’une Formule 1.
Il paraît même qu’ils portent des vestes super cools avec un insigne d’inspiration militaire.
Le programme DiRT
C’est intéressant de savoir que Google sait encore apprendre de ses erreurs.
La culture de l’échec était l’ADN de la société, mais je pensais que ces valeurs étaient éclipsées depuis la volonté de pousser artificiellement Google +, au lieu de passer à autre chose comme avec Buzz ou Wave.
Le programme DiRT est conçu pour mettre en péril Google. La plupart des entreprises n’ont pas cette vision d’anticiper que le pire puisse arriver. L’incident Gmail du 17 avril 2012 est un exemple récent.
Une fois par an, le programme va attaquer Google, dans un recoin qui ne l’attend pas. L’exercice démarre toujours sur un spectre limité, puis s’étend lorsque l’utilité est prouvée.
Des tests DiRT ont éprouvé la simple coupure électrique de serveurs, jusqu’à simuler un tremblement de terre. Ce dernier a permis d’identifier des failles dans les mécanismes de basculement.
Les scénarios peuvent s’attarder sur des services précis, mais va également traiter des failles dans de multiples systèmes en parallèle. Cela permet d’identifier l’interdépendance et d’incorporer diverses branches de l’entreprise.
DiRT a même hacké la cafétéria, lorsque les employés ont décidé d’aller boire un coup, après le faux tremblement de terre qui avait éteint leur ordinateur.
Inspiration
J’ai été impressionné par l’étendue du programme. C’est couteux et risqué, mais une entreprise de cette ampleur va forcément bénéficier de l’expérience.
En tant qu’utilisateur, je suis rassuré par l’attitude de Google à propos de la sécurité. Je n’ai pas confiance, mais c’est bien d’apprendre que la mise en péril est prise en compte dans la mentalité des personnes qui veillent sur nos données et les fabuleux services qui vont avec.
Sur le plan personnel j’ai un peu oublié ce réflexe, qui était pourtant mon leitmotiv, lorsque mes revenus dépendaient de systèmes type PPC ou affiliation. Pourtant, j’avais toujours un plan pour palier à un désastre.
En tant que référenceur, nous devons avoir une vision claire de la gestion des risques. C’est quelque chose de primordial pour assurer la légitimité et pérennité d’une stratégie de visibilité sur Internet.
Merci Google de m’avoir rappelé une bonne leçon.