Voltar para visão geral
Tempo de inatividade

Abandono de ligações

21 Mar, 02:26pm GMT-3
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações

Resolvido
28 Mar, 11:31am GMT-3

Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.

Atualizado
28 Mar, 10:38am GMT-3

Registro retroativo: Causa identificada: Durante a manutenção realizada ontem na aplicação do patch, o script que realiza o procedimento reverteu ajuste de limite de capacidade voltando o limite incorreto na configuração. Limites foram aplicados novamente e o script foi atualizado para que não ocorra a reversão novamente.

Atualizado
28 Mar, 10:30am GMT-3

Registro retroativo: Reaparecimento do problema causando abandono de chamadas.

Atualizado
27 Mar, 04:56pm GMT-3

Post-Mortem - Incidente de Performance na Controladora de Telefonia

Serviço Afetado: Controle de Telefonia - Agentes e Ligações


Impacto Percebido:

  • Chamadas sendo abandonadas mesmo com agentes disponíveis na fila.
  • Em alguns momentos, reinicializações emergenciais causaram desconexão de usuários, exigindo novo login.
  • No dia 27/03/2025, algumas campanhas foram afetadas;
  • Nos dias anteriores, o impacto foi mais amplo, afetando todos os clientes e campanhas simultaneamente.

Resumo da Causa Raiz:

Após múltiplas tentativas de mitigação e uma investigação detalhada, foi possível identificar que o problema se originava de um acúmulo de jobs em uma fila específica da controladora de telefonia. Essa fila é responsável pela conexão de chamadas a agentes, especialmente após a identificação de que a chamada foi atendida por um humano (ou seja, não caixa postal).

Durante esse processo, é necessário obter um lock da campanha antes de realizar a conexão com o agente. Em momentos de pico, as campanhas permaneciam travadas por longos períodos devido à lentidão na liberação desses locks, o que fazia com que os jobs fossem reprogramados repetidamente. Esse comportamento gerava efeito cascata, degradando ainda mais a performance e causando abandono parcial ou total de chamadas em alguns momentos.


Ações Corretivas Aplicadas:

  • Aumento da capacidade de escalabilidade automática do cluster de telefonia, permitindo a criação mais rápida de novas instâncias em momentos de pico de tráfego.
  • Melhorias nas ferramentas de monitoramento e visibilidade, que permitiram identificar com mais precisão os gargalos de processamento.
  • Patch corretivo de lógica em desenvolvimento, previsto para deploy em 27/03/2025 às 22h00, durante janela de manutenção agendada. Esse patch visa otimizar o fluxo de execução dos jobs, evitando travamentos de campanha e reduzindo o número de reprocessamentos desnecessários.

Resultados Observados Após Ações Aplicadas:

  • Desde a aplicação do aumento de capacidade no dia 27/03, foi observada estabilização consistente do sistema, mesmo em horários de pico.
  • A normalização da performance foi confirmada às 14h42 de 27/03/2025.

Lições Aprendidas e Próximos Passos:

  • A necessidade de revisar e otimizar processos que envolvem locks e filas de jobs em sistemas críticos foi reforçada.
  • Será realizada uma revisão abrangente nos fluxos internos da controladora de telefonia para garantir resiliência mesmo sob cargas intensas.
  • Equipe técnica permanece monitorando de forma ativa o comportamento do sistema nos próximos dias.

Compromisso com a Qualidade:

Seguimos comprometidos com a estabilidade da plataforma e com o SLA acordado. Todas as ações foram executadas com o objetivo de minimizar impactos e garantir a operação plena da plataforma. Este incidente trouxe aprendizados importantes que já estão sendo incorporados em nossos processos internos e em melhorias contínuas de infraestrutura e software.

Atualizado
27 Mar, 02:42pm GMT-3

Registro retroativo: 27/03/2025 14h42 Após novos ajustes realizados identificamos novamente a normalização da performance do sistema.

Atualizado
27 Mar, 02:21pm GMT-3

Registro retroativo: 27/03/2025 14h21 Identificado reaparecimento da degradação de performance na discadora 3C Plus, causando novamente o abandono parcial e não geral de ligações na plataforma em algumas campanhas.

Atualizado
27 Mar, 11:50am GMT-3

Registro retroativo: 27/03/2025 11h50 Identificado normalização das falhas após medidas corretivas adotadas sem reinicialização ou downtime.

Atualizado
27 Mar, 11:30am GMT-3

Registro retroativo: 27/03/2025 11h30 Identificado degradação de performance na discadora 3C Plus, causando abandono parcial e não geral de ligações na plataforma em algumas campanhas.

Atualizado
24 Mar, 04:33pm GMT-3

Durante nossa investigação, identificamos um acúmulo de jobs relacionados à limpeza de chamadas, causado por um bug em nossa aplicação. Esse comportamento ocorria especificamente em campanhas configuradas com tempo de espera igual a zero.

Aplicando um patch corretivo para tratar esse cenário e eliminar o acúmulo das tarefas mencionadas. No entanto, em compromisso com a transparência, destacamos que ainda não temos plena certeza de que essa correção resolverá integralmente todos os problemas identificados até o momento.

Paralelamente à correção, nossa equipe também implantou novas ferramentas de monitoramento e diagnóstico no recurso afetado. Isso nos proporcionará muito mais visibilidade para futuras análises e permitirá diagnósticos mais rápidos e precisos, caso o problema volte a ocorrer.

A investigação segue em andamento, com total dedicação de nossa equipe. Assim que a correção for aplicada e estivermos 100% seguros da estabilidade do sistema, emitiremos um relatório final detalhado, compartilhando todas as ações realizadas e os aprendizados obtidos.

Reforçamos nosso compromisso com a estabilidade da plataforma e com a manutenção do SLA acordado. Não estamos medindo esforços para resolver este problema, que já foi abordado sob diversas perspectivas. E não descansaremos até que a causa raiz seja totalmente compreendida e definitivamente solucionada.

Manteremos todos atualizados sobre qualquer avanço relevante na investigação ou na eficácia da correção aplicada.

Atualizado
24 Mar, 10:55am GMT-3

Seguimos investigando esse problema. Ficou claro que as medidas paliativas adotadas, demonstraram comportamento correto inicialmente mas não solucionaram o problema.

Estamos tratando esta falha com máxima priorização sem medir esforços para encontrar solução definitiva.

Informaremos aqui toda e qualquer atualização tivermos em tempo real.

Atualizado
24 Mar, 10:52am GMT-3

Procedimento concluído, plataforma normalizada.

Atualizado
24 Mar, 10:50am GMT-3

Iniciando procedimento emergencial de resolução da falha.

Atualizado
24 Mar, 10:45am GMT-3

Estamos reabrindo este incidente devido ao reaparecimento do problema.

Atualizado
21 Mar, 05:40pm GMT-3

As medidas paliativas adotadas durante o processo de resolução do incidente demonstraram estabilidade e estão operando conforme o esperado.

Em relação ao relatório post-mortem, informamos que as investigações ainda estão em andamento e deverão ser concluídas nas próximas 24 horas. A plataforma segue sob monitoramento contínuo e, assim que houverem atualizações relevantes sobre este incidente, comunicaremos por este canal.

Atualizado
21 Mar, 02:31pm GMT-3

Reportaremos informações de POST-MORTEM ao final do processo de monitoramento e investigação.

Atualizado
21 Mar, 02:30pm GMT-3

Procedimento finalizado. Plataforma restabelecida.
Estamos iniciando processo de monitoramento e verificando se o ajuste realizado está operacional.

Atualizado
21 Mar, 02:28pm GMT-3

Previsão de retorno: 5 minutos.

Atualizado
21 Mar, 02:27pm GMT-3

Estamos realizando o procedimento para restabelecimento emergencial do sistema.

Criado
21 Mar, 02:26pm GMT-3

Identificamos que o sistema está abandonando ligações com agentes disponíveis.