Back to overview
Degraded

Incidente de abandono de ligações

Feb 24 at 11:20am GMT-3
Affected services
Vox - Back-end CLI
Controle de Telefonia
Telefonia - Ligações

Resolved
Feb 24 at 03:48pm GMT-3

Post-mortem – Incidente de abandono de ligações (24/fev)

A seguir apresentamos um resumo cronológico do incidente, as ações tomadas e o tempo total de indisponibilidade identificado.


Tempo total de indisponibilidade

Somando os três períodos identificados de efetiva indisponibilidade:

  • 1º Período 11h20–11h29: 9 minutos
  • 2º Período 11h42–11h46: 4 minutos
  • 3º Período 15h22–15h26: 4 minutos

Total: ~17 minutos de indisponibilidade.


Causa raiz e medidas adotadas

  • Causa raiz: A falha estava relacionada a um comportamento inesperado na discadora que mantinha sessões presas e causava abandono indevido de ligações.

  • Medidas tomadas:

    1. Procedimentos corretivos imediatos para limpar sessões e restabelecer o serviço.
    2. Aplicação de uma correção definitiva às 14h21, reforçando o manuseio de sessões em filas de discagem.
    3. Monitoramento contínuo para garantir que o problema não reaparecesse; em caso de reincidência (como observado às 15h22), atuou-se novamente para normalizar.
    4. Análise aprofundada para prevenção de ocorrências futuras, com revisões nos mecanismos de controle de chamadas e alertas de monitoramento.

Próximos passos

  • Revisão de arquitetura: Garantir maior resiliência do módulo de telefonia frente a picos de uso.

Conclusão

O incidente resultou em cerca de 17 minutos de indisponibilidade total distribuídos em três janelas distintas. Após o conjunto de ações corretivas e a aplicação do fix definitivo, a plataforma permanece estável e em pleno funcionamento.

Seguiremos monitorando constantemente e aprimorando nossos processos para prevenir problemas similares.

Updated
Feb 24 at 03:26pm GMT-3

Processo finalizado, plataforma normalizada.

Updated
Feb 24 at 03:22pm GMT-3

Após limpeza final de chamadas presas, identificamos a falha de abandono de ligações novamente. Temos muitas chamadas presas em status incorretos.

Updated
Feb 24 at 03:09pm GMT-3

Identificamos a causa raiz do incidente ocorrido e a resolução definitiva foi aplicada as 14h21. A partir deste horário monitoramos todos os serviços e confirmamos a completa resolução do problema.

Updated
Feb 24 at 11:50am GMT-3

Serviços aparentam normalização. Seguiremos monitorando para garantir estabilização total.

Updated
Feb 24 at 11:46am GMT-3

Serviços normalizados. Estamos monitorando a performance a partir deste instante.

Updated
Feb 24 at 11:42am GMT-3

Identificamos que a falha reapareceu. Estamos atuando com máxima prioridade.

Updated
Feb 24 at 11:29am GMT-3

Nosso monitoramento confirma normalização completa dos serviços após as 11h26.

Updated
Feb 24 at 11:27am GMT-3

Escalonamento concluído. Serviços de discagem já estão em plena operação.

Updated
Feb 24 at 11:25am GMT-3

Após execução do processo, o escalonamento dos serviços de discagem está finalizando, a performance será plenamente recuperada dentro de 3 minutos.

Updated
Feb 24 at 11:23am GMT-3

Procedimento corretivo finalizado. Plataforma está apta a receber logins após processo de limpeza realizado. Estamos monitorando a performance.

Created
Feb 24 at 11:20am GMT-3

Identificamos abandono indevido de chamadas na plataforma após degradação de performance na discadora, estamos iniciando procedimento corretivo.