Vaga remota para Site reliability engineer (sre) – pleno na empresa Netvagas

Descrição da vaga

Sobre a Tec2Cloud

Somos uma Consultoria de Tecnologia parceiros SAP e AWS,

O nosso clima e jeito de trabalhar são guiados pelos nossos valores: paixão por pensar,

tecnologia e gente, foco no cliente, empatia, dedicação e respeito!

Estamos à procura de um SRE Pleno para compor o time do nosso cliente, uma empresa multinacional Belga.

Você desempenhará um papel crucial na manutenção da confiabilidade, escalabilidade e desempenho de nossos sistemas.

Atividadades:

Demonstrar fortes habilidades de resolução de problemas para diagnosticar e resolver problemas técnicos complexos com eficiência.

Colabore com equipes multifuncionais para identificar e resolver as causas raízes dos problemas do sistema.

Compreenda e aplique princípios de arquitetura de sistema para projetar e implantar sistemas escalonáveis, confiáveis e tolerantes a falhas.

Contribuir para o projeto e implementação de melhorias de infraestrutura para melhorar o desempenho do sistema.

Possuir familiaridade com plataformas em nuvem como Azure, AWS ou Google Cloud.

Conhecimento e compreensão da implantação e gerenciamento de recursos em nuvem com confiabilidade, escalabilidade e segurança.

Compreensão ou experiência com orquestração Docker e Kubernetes.

Implemente scripts e ferramentas de automação para agilizar tarefas repetitivas, garantindo eficiência operacional.

Colabore com equipes de desenvolvimento para integrar a automação aos pipelines de CI/CD e agilizar o processo de lançamento, com foco nos princípios de DevOps.

Utilize ferramentas de monitoramento para monitorar o desempenho do sistema e dos aplicativos, fornecer insights para aprimorar a observabilidade da solução, configurar alertas e analisar métricas.

Identifique proativamente possíveis problemas e implemente soluções de monitoramento para garantir a confiabilidade do sistema.

Compreenda os procedimentos de resposta e gerenciamento de incidentes, incluindo a participação em rodízios de plantão.

Contribuir para a resolução de incidentes, escalonamento e análise pós-incidente (Análise de causa raiz/post-mortem sem culpa) para prevenir ocorrências futuras.

Assuma a responsabilidade pelos projetos atribuídos, conduzindo-os desde o início até a conclusão.

Trabalhe de forma independente e colaborativa para fornecer soluções de alta qualidade dentro de prazos especificados.

Requisitos:

Forte capacidade analítica e de resolução de problemas.

Compreensão dos princípios da arquitetura do sistema.

Familiaridade com plataformas em nuvem (Azure, AWS ou Google Cloud) e sua CLI.

Familiaridade com plataformas e ferramentas DevOps (Azure DevOps, GitHub, Jenkins)

Experiência com ferramentas de monitoramento (Datadog, Prometheus, Dynatrace, Splunk).

Conhecimento de procedimentos de resposta e gerenciamento de incidentes.

Idiomas:

Boas habilidades de comunicação em inglês, tanto escrita quanto verbal.

Formação:

Graduação em Ciência da Computação, Tecnologia da Informação ou áreas afins.

Diferenciais:

Certificações em nuvem (Az-900, Az-104, AWS ou equivalentes GCP)

Certificação CKA ou CKAD.

Certificação DevOps ou SRE Foundations ou Practitioner

Contratação no modelo PJ

Modelo 100% Remoto