Site Reliability Engineering (SRE)
Le SRE est un ensemble de pratiques issue de l'expérience de Google à taiter l'exploitation comme un logiciel. L'engagement envers l'ensemble du cycle de vie des services permet aux organisations de construire, déployer, surveiller et maintenir les systèmes logiciels avec succès. Le SRE est composé d'éléments techniques et culturels qui tous partagent l'objectif commun de respecter les objectifs de stabilité.
Les 5 principes de base de la philosophie DevOps et leur mise en œuvre via le SRE sont :
- Briser les silos organisationnels
Les grandes entreprises ont une structure organisationnelle complexe
avec une multitude d'équipes travaillant souvent séparément en "silos".
Chaque équipe a une vision différente de l'ensemble, ce qui encourage
l'inefficacité. La tâche des DevOps et des SRE est de mieux aligner les
équipes les unes sur les autres vers les objectifs généraux et vers une
vision commune. 2. Accepter les échecs dans le cycle de vie des produits
Les indicateurs de niveau de service (SLI) et les objectifs de niveau
de service (SLO) permettent d'évaluer les défaillances. Les SLI
mesurent les défaillances dans le temps. Un SLO est un accord de
niveau de service concernant une métrique spécifique, telle que la
disponibilité ou le temps de réponse, qui doit être respectée. Chaque
défaillance conduit à réévaluer et à optimiser les objectifs. Les SRE
disposent d'un budget de risque pour tester les limites et des changes
plus radicaux pour potentiellement innover plus rapidement.Le SRE
quantifie ce risque acceptable comme un "budget d'erreur". 3. Mettre en œuvre les changements par petites étapes rapides
Comme DevOps, SRE encourage l'amélioration continue par des étapes de
développement petites et fréquentes. 4. Utiliser des outils standards et l'automatisation
Les problèmes d'incompatibilité et d'intégration entre les technologies
créent des silos, même dans un environnement DevOps. SRE introduit des
technologies communes et un accès croisé aux informations dans les
différentes équipes informatiques. La politique de SRE est
d'automatiser les tâches manuelles qui sont répétitives, réactives et
ne produisent aucune amélioration durable. L'automatisation devrait
libérer des capacités pour un travail qui apporte des avantages à long
terme. 5. Fonder la fiabilité sur les données de mesure
les différents protagonistes doivent convenir d'une manière commune
pour mesurer la fiabilité et de ce qu'il faut faire lorsque la valeur
n'est pas conforme aux spécifications. Les métriques clés DevOps sont
le nombre de déploiements dans le temps, le délai entre l'engagement et
la publication, le nombre de déploiements ayant échoué et le temps de
récupération requis.
- En savoir plus
- Site officiel Google
Articles associés
Collecte de logs Databricks vers Azure Monitor à l'échelle d'un workspace
Catégories : Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags : Métriques, Supervision, Spark, Azure, Databricks, Log4j
Databricks est une plateforme optimisée d’analyse de données, basée sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualité des données, les performances du…
Par PLAYE Claire
10 mai 2022