Principais Responsabilidades: Assegurar a monitorização contínua do ambiente AWS (CloudWatch, X-Ray, dashboards).
Definir e gerir alertas proativos com base em métricas e deteção de anomalias.
Atuar como principal responsável na resposta a incidentes críticos (P0/P1).
Realizar análise de causa raiz (RCA) e implementar ações corretivas.
Manter e evoluir runbooks operacionais para redução de MTTR.
Garantir a operação de mecanismos de resiliência e disaster recovery.
Executar e validar testes de disaster recovery (RTO/RPO).
Suportar e troubleshooting de pipelines CI/CD e deployments.
Gerir e otimizar recursos AWS (ECS, EC2, bases de dados, networking).
Assegurar boas práticas de segurança (IAM, certificados, controlo de acessos).
Requisitos mínimos
Experiência sólida em operação de ambientes AWS em produção (EC2, ECS, S3, IAM, VPC, CloudWatch).
Conhecimentos de arquitetura resiliente e disaster recovery em AWS.
Experiência com containers (Docker, ECS) e gestão de workloads distribuídos.
Experiência em bases de dados (PostgreSQL/Aurora e/ou MongoDB).
Conhecimentos de monitorização e observabilidade (CloudWatch, X-Ray, Datadog ou similar).
Capacidade de troubleshooting em ambientes complexos e distribuídos.
Experiência com CI/CD (Jenkins, AWS Code* ou equivalentes).
Conhecimentos de scripting (Python ou Bash).
Experiência com sistemas de mensageria (ex: RabbitMQ).
Experiência em gestão de incidentes, RCA e definição de SLO/SLI.