Chamadas presas impedindo discagem
Resolvido
01 Mar, 09:17am GMT-3
Postmortem – Falha na Geração de Ligações
Data do incidente: 01 de março de 2025
Duração: 07:59 – 08:39 GMT-3
Status: Resolvido
Resumo do Incidente
Na manhã do dia 01 de março, identificamos uma falha que impedia a geração de ligações na plataforma. As chamadas que foram iniciadas não foram corretamente processadas, impactando a operação.
Causa Raiz
A investigação apontou que o problema teve origem nas atualizações automáticas do Google Kubernetes Engine (GKE), onde nosso cluster está alocado. Embora essas atualizações sejam essenciais para manter a segurança e estabilidade do ambiente, elas ocorrem dentro das janelas de manutenção configuradas (01:00 – 06:00 GMT-3). No entanto, o processo de atualização causou reinicializações desordenadas dos recursos do cluster, resultando em falhas na inicialização dos serviços.
Ações Corretivas e Preventivas
Correção imediata: As atualizações automáticas foram interrompidas e canceladas para evitar novas ocorrências no curto prazo.
Prevenção: Estamos revisando os procedimentos de atualização e a orquestração da inicialização dos serviços para garantir que futuras atualizações não impactem a operação.
Linha do Tempo
07:59 GMT-3: Identificação do problema – falha na geração de ligações.
08:21 GMT-3: Início da investigação.
08:35 GMT-3: Falha identificada e início do procedimento corretivo.
08:39 GMT-3: Plataforma normalizada.
Próximos Passos
Revisar a configuração de inicialização dos serviços após atualizações do GKE.
Ajustar a estratégia de manutenção para minimizar impactos operacionais.
Monitorar preventivamente o comportamento do cluster durante futuras atualizações.
O incidente foi solucionado e todas as operações seguem normalizadas. Seguimos trabalhando para aprimorar nossos processos e garantir maior resiliência da plataforma.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Vox - Back-end CLI
Atualizado
01 Mar, 08:39am GMT-3
Procedimentos finalizados. Plataforma normalizada.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Vox - Back-end CLI
Atualizado
01 Mar, 08:35am GMT-3
Falhas identificadas, iniciando procedimento corretivo.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Vox - Back-end CLI
Atualizado
01 Mar, 08:21am GMT-3
Problema em investigação.
Serviços afetados
Vox - Back-end CLI
Criado
01 Mar, 07:59am GMT-3
Identificamos que hoje o sistema iniciou com uma falha impedindo a geração de ligações. Chamadas que iniciaram não foram corretamente processadas.
Serviços afetados
Vox - Back-end CLI