Description
Dans ce contexte, nous recherchons pour renforcer nos équipes un :
Ingénieur SRE (F/H)
Vous jouerez un rôle central dans la gestion, l’optimisation et la disponibilité d’une ou plusieurs applications opérationnelles. En appliquant les principes du Site Reliability Engineering, vous serez responsable d’automatiser, de surveiller et d’améliorer continuellement la fiabilité des systèmes critiques 24/7 de CLS hébergés dans le cloud et/ou on premise. Votre mission inclut la gestion proactive des incidents, la réduction du temps moyen de réparation et l’amélioration des indicateurs clés de fiabilité (SLO, SLA, SLIs) pour garantir des opérations fluides et une disponibilité optimale des services proposés à nos utilisateurs.
Vos missions :
1. Gestion des infrastructures Cloud IAC : Déployer et monitorer les environnements et services Cloud (AWS, Azure).
2. Approche SRE :
o Implémenter et mesurer des Service Level Indicators (SLIs), Service Level Objectives (SLOs) et Service Level Agreements (SLAs) pour garantir la performance et la disponibilité des services.
o Automatiser les processus de maintenance et de gestion des incidents pour améliorer la fiabilité et la robustesse des services.
3. Opérations critiques 24/7 :
o Mettre en place les outils de monitoring et d’alerting (NAGIOS, Grafana, Prometheus, CloudWatch) pour surveiller les systèmes, détecter les incidents et optimiser les performances opérationnelles.
o Rédaction/maintien des procédures opérationnelles pour permettre aux techniciens d’Operations 24/7 de résoudre rapidement et de manière autonome les incidents.
o Assurer le support, la formation et le maintien en compétence des techniciens d’Operations 24/7.
4. Automatisation et CI/CD : Maintenir des pipelines d’automatisation (Terraform, Ansible, Jenkins, etc.) pour améliorer l’efficacité des déploiements.
5. Gestion des incidents : Diagnostiquer rapidement les problèmes, effectuer des analyses approfondies des root causes et mettre en place des solutions pérennes.
6. Coordination interservices pour le suivi opérationnel (équipe IT, développeurs, architectes, business, techniciens d’opérations H24).
Profil recherché :
De formation supérieure en informatique, vous détenez une première expérience réussie dans en gestion d’infrastructure Cloud ou SRE idéalement dans des environnements opérationnels à haute disponibilité.
Compétences techniques :
* Connaissances avancées dans au moins une plateforme Cloud majeure (AWS ou Azure). Maitrise des outils d’automatisation (Terraform, Ansible, ou équivalent).
* Connaissances avancées en conteneurisation (Docker, Kubernetes).
* Solide compréhension des protocoles réseau, systèmes Linux/Windows et concepts CI/CD.
* Expérience dans la mise en œuvre des pratiques SRE (SLOs, SLIs, SLA).
* Familiarité avec les environnements nécessitant une disponibilité en continu (24/7).
* Maitrise des outils de monitoring et d’alerting : Prometeus, OpenSearch, NAGIOS, Grafana, CloudWatch.
Soft skills :
* Capacité à gérer des situations sous pression et à réagir rapidement en cas d’incident critique.
* Approche méthodique pour résoudre les problèmes complexes.
* Proactivité, curiosité technique, esprit collaboratif et aisance relationnelle.
Nous sommes impatients de vous rencontrer pour discuter de votre avenir chez CLS ! Rejoignez-nous pour construire des systèmes fiables et performants au service d’opérations critiques en 24/7.
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.