Back to overview
Degraded

Incidente de abandono de ligações

Feb 24, 2025 at 2:20pm UTC
Affected services
Vox - Back-end CLI
Controle de Telefonia
Telefonia - Ligações

Resolved
Feb 24, 2025 at 6:48pm UTC

Post-mortem – Incidente de abandono de ligações (24/fev)

A seguir apresentamos um resumo cronológico do incidente, as ações tomadas e o tempo total de indisponibilidade identificado.


Tempo total de indisponibilidade

Somando os três períodos identificados de efetiva indisponibilidade:

  • 1º Período 11h20–11h29: 9 minutos
  • 2º Período 11h42–11h46: 4 minutos
  • 3º Período 15h22–15h26: 4 minutos

Total: ~17 minutos de indisponibilidade.


Causa raiz e medidas adotadas

  • Causa raiz: A falha estava relacionada a um comportamento inesperado na discadora que mantinha sessões presas e causava abandono indevido de ligações.

  • Medidas tomadas:

    1. Procedimentos corretivos imediatos para limpar sessões e restabelecer o serviço.
    2. Aplicação de uma correção definitiva às 14h21, reforçando o manuseio de sessões em filas de discagem.
    3. Monitoramento contínuo para garantir que o problema não reaparecesse; em caso de reincidência (como observado às 15h22), atuou-se novamente para normalizar.
    4. Análise aprofundada para prevenção de ocorrências futuras, com revisões nos mecanismos de controle de chamadas e alertas de monitoramento.

Próximos passos

  • Revisão de arquitetura: Garantir maior resiliência do módulo de telefonia frente a picos de uso.

Conclusão

O incidente resultou em cerca de 17 minutos de indisponibilidade total distribuídos em três janelas distintas. Após o conjunto de ações corretivas e a aplicação do fix definitivo, a plataforma permanece estável e em pleno funcionamento.

Seguiremos monitorando constantemente e aprimorando nossos processos para prevenir problemas similares.

Updated
Feb 24, 2025 at 6:26pm UTC

Processo finalizado, plataforma normalizada.

Updated
Feb 24, 2025 at 6:22pm UTC

Após limpeza final de chamadas presas, identificamos a falha de abandono de ligações novamente. Temos muitas chamadas presas em status incorretos.

Updated
Feb 24, 2025 at 6:09pm UTC

Identificamos a causa raiz do incidente ocorrido e a resolução definitiva foi aplicada as 14h21. A partir deste horário monitoramos todos os serviços e confirmamos a completa resolução do problema.

Updated
Feb 24, 2025 at 2:50pm UTC

Serviços aparentam normalização. Seguiremos monitorando para garantir estabilização total.

Updated
Feb 24, 2025 at 2:46pm UTC

Serviços normalizados. Estamos monitorando a performance a partir deste instante.

Updated
Feb 24, 2025 at 2:42pm UTC

Identificamos que a falha reapareceu. Estamos atuando com máxima prioridade.

Updated
Feb 24, 2025 at 2:29pm UTC

Nosso monitoramento confirma normalização completa dos serviços após as 11h26.

Updated
Feb 24, 2025 at 2:27pm UTC

Escalonamento concluído. Serviços de discagem já estão em plena operação.

Updated
Feb 24, 2025 at 2:25pm UTC

Após execução do processo, o escalonamento dos serviços de discagem está finalizando, a performance será plenamente recuperada dentro de 3 minutos.

Updated
Feb 24, 2025 at 2:23pm UTC

Procedimento corretivo finalizado. Plataforma está apta a receber logins após processo de limpeza realizado. Estamos monitorando a performance.

Created
Feb 24, 2025 at 2:20pm UTC

Identificamos abandono indevido de chamadas na plataforma após degradação de performance na discadora, estamos iniciando procedimento corretivo.