Incidente de abandono de ligações
Resolved
Feb 24 at 03:48pm GMT-3
Post-mortem – Incidente de abandono de ligações (24/fev)
A seguir apresentamos um resumo cronológico do incidente, as ações tomadas e o tempo total de indisponibilidade identificado.
Tempo total de indisponibilidade
Somando os três períodos identificados de efetiva indisponibilidade:
- 1º Período 11h20–11h29: 9 minutos
- 2º Período 11h42–11h46: 4 minutos
- 3º Período 15h22–15h26: 4 minutos
Total: ~17 minutos de indisponibilidade.
Causa raiz e medidas adotadas
Causa raiz: A falha estava relacionada a um comportamento inesperado na discadora que mantinha sessões presas e causava abandono indevido de ligações.
Medidas tomadas:
- Procedimentos corretivos imediatos para limpar sessões e restabelecer o serviço.
- Aplicação de uma correção definitiva às 14h21, reforçando o manuseio de sessões em filas de discagem.
- Monitoramento contínuo para garantir que o problema não reaparecesse; em caso de reincidência (como observado às 15h22), atuou-se novamente para normalizar.
- Análise aprofundada para prevenção de ocorrências futuras, com revisões nos mecanismos de controle de chamadas e alertas de monitoramento.
Próximos passos
- Revisão de arquitetura: Garantir maior resiliência do módulo de telefonia frente a picos de uso.
Conclusão
O incidente resultou em cerca de 17 minutos de indisponibilidade total distribuídos em três janelas distintas. Após o conjunto de ações corretivas e a aplicação do fix definitivo, a plataforma permanece estável e em pleno funcionamento.
Seguiremos monitorando constantemente e aprimorando nossos processos para prevenir problemas similares.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 03:26pm GMT-3
Processo finalizado, plataforma normalizada.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 03:22pm GMT-3
Após limpeza final de chamadas presas, identificamos a falha de abandono de ligações novamente. Temos muitas chamadas presas em status incorretos.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 03:09pm GMT-3
Identificamos a causa raiz do incidente ocorrido e a resolução definitiva foi aplicada as 14h21. A partir deste horário monitoramos todos os serviços e confirmamos a completa resolução do problema.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:50am GMT-3
Serviços aparentam normalização. Seguiremos monitorando para garantir estabilização total.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:46am GMT-3
Serviços normalizados. Estamos monitorando a performance a partir deste instante.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:42am GMT-3
Identificamos que a falha reapareceu. Estamos atuando com máxima prioridade.
Affected services
Controle de Telefonia
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:29am GMT-3
Nosso monitoramento confirma normalização completa dos serviços após as 11h26.
Affected services
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:27am GMT-3
Escalonamento concluído. Serviços de discagem já estão em plena operação.
Affected services
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:25am GMT-3
Após execução do processo, o escalonamento dos serviços de discagem está finalizando, a performance será plenamente recuperada dentro de 3 minutos.
Affected services
Telefonia - Ligações
Vox - Back-end CLI
Updated
Feb 24 at 11:23am GMT-3
Procedimento corretivo finalizado. Plataforma está apta a receber logins após processo de limpeza realizado. Estamos monitorando a performance.
Affected services
Telefonia - Ligações
Created
Feb 24 at 11:20am GMT-3
Identificamos abandono indevido de chamadas na plataforma após degradação de performance na discadora, estamos iniciando procedimento corretivo.
Affected services
Telefonia - Ligações