Abandono de ligações

Tempo de inatividade

Mar 21, 2025 at 5:26pm UTC

Serviços afetados

Controle de Telefonia

Telefonia - Agentes

Telefonia - Ligações

Resolvido
Mar 28, 2025 at 2:31pm UTC

Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.

Atualizado
Mar 28, 2025 at 1:38pm UTC

Registro retroativo: Causa identificada: Durante a manutenção realizada ontem na aplicação do patch, o script que realiza o procedimento reverteu ajuste de limite de capacidade voltando o limite incorreto na configuração. Limites foram aplicados novamente e o script foi atualizado para que não ocorra a reversão novamente.

Atualizado
Mar 28, 2025 at 1:30pm UTC

Registro retroativo: Reaparecimento do problema causando abandono de chamadas.

Atualizado
Mar 27, 2025 at 7:56pm UTC

Post-Mortem - Incidente de Performance na Controladora de Telefonia

Serviço Afetado: Controle de Telefonia - Agentes e Ligações

Impacto Percebido:

Chamadas sendo abandonadas mesmo com agentes disponíveis na fila.
Em alguns momentos, reinicializações emergenciais causaram desconexão de usuários, exigindo novo login.
No dia 27/03/2025, algumas campanhas foram afetadas;
Nos dias anteriores, o impacto foi mais amplo, afetando todos os clientes e campanhas simultaneamente.

Resumo da Causa Raiz:

Após múltiplas tentativas de mitigação e uma investigação detalhada, foi possível identificar que o problema se originava de um acúmulo de jobs em uma fila específica da controladora de telefonia. Essa fila é responsável pela conexão de chamadas a agentes, especialmente após a identificação de que a chamada foi atendida por um humano (ou seja, não caixa postal).

Durante esse processo, é necessário obter um lock da campanha antes de realizar a conexão com o agente. Em momentos de pico, as campanhas permaneciam travadas por longos períodos devido à lentidão na liberação desses locks, o que fazia com que os jobs fossem reprogramados repetidamente. Esse comportamento gerava efeito cascata, degradando ainda mais a performance e causando abandono parcial ou total de chamadas em alguns momentos.

Ações Corretivas Aplicadas:

Aumento da capacidade de escalabilidade automática do cluster de telefonia, permitindo a criação mais rápida de novas instâncias em momentos de pico de tráfego.
Melhorias nas ferramentas de monitoramento e visibilidade, que permitiram identificar com mais precisão os gargalos de processamento.
Patch corretivo de lógica em desenvolvimento, previsto para deploy em 27/03/2025 às 22h00, durante janela de manutenção agendada. Esse patch visa otimizar o fluxo de execução dos jobs, evitando travamentos de campanha e reduzindo o número de reprocessamentos desnecessários.

Resultados Observados Após Ações Aplicadas:

Desde a aplicação do aumento de capacidade no dia 27/03, foi observada estabilização consistente do sistema, mesmo em horários de pico.
A normalização da performance foi confirmada às 14h42 de 27/03/2025.

Lições Aprendidas e Próximos Passos:

A necessidade de revisar e otimizar processos que envolvem locks e filas de jobs em sistemas críticos foi reforçada.
Será realizada uma revisão abrangente nos fluxos internos da controladora de telefonia para garantir resiliência mesmo sob cargas intensas.
Equipe técnica permanece monitorando de forma ativa o comportamento do sistema nos próximos dias.

Compromisso com a Qualidade:

Seguimos comprometidos com a estabilidade da plataforma e com o SLA acordado. Todas as ações foram executadas com o objetivo de minimizar impactos e garantir a operação plena da plataforma. Este incidente trouxe aprendizados importantes que já estão sendo incorporados em nossos processos internos e em melhorias contínuas de infraestrutura e software.

Atualizado
Mar 27, 2025 at 5:42pm UTC

Registro retroativo: 27/03/2025 14h42 Após novos ajustes realizados identificamos novamente a normalização da performance do sistema.

Atualizado
Mar 27, 2025 at 5:21pm UTC

Registro retroativo: 27/03/2025 14h21 Identificado reaparecimento da degradação de performance na discadora 3C Plus, causando novamente o abandono parcial e não geral de ligações na plataforma em algumas campanhas.

Atualizado
Mar 27, 2025 at 2:50pm UTC

Registro retroativo: 27/03/2025 11h50 Identificado normalização das falhas após medidas corretivas adotadas sem reinicialização ou downtime.

Atualizado
Mar 27, 2025 at 2:30pm UTC

Registro retroativo: 27/03/2025 11h30 Identificado degradação de performance na discadora 3C Plus, causando abandono parcial e não geral de ligações na plataforma em algumas campanhas.

Atualizado
Mar 24, 2025 at 7:33pm UTC

Durante nossa investigação, identificamos um acúmulo de jobs relacionados à limpeza de chamadas, causado por um bug em nossa aplicação. Esse comportamento ocorria especificamente em campanhas configuradas com tempo de espera igual a zero.

Aplicando um patch corretivo para tratar esse cenário e eliminar o acúmulo das tarefas mencionadas. No entanto, em compromisso com a transparência, destacamos que ainda não temos plena certeza de que essa correção resolverá integralmente todos os problemas identificados até o momento.

Paralelamente à correção, nossa equipe também implantou novas ferramentas de monitoramento e diagnóstico no recurso afetado. Isso nos proporcionará muito mais visibilidade para futuras análises e permitirá diagnósticos mais rápidos e precisos, caso o problema volte a ocorrer.

A investigação segue em andamento, com total dedicação de nossa equipe. Assim que a correção for aplicada e estivermos 100% seguros da estabilidade do sistema, emitiremos um relatório final detalhado, compartilhando todas as ações realizadas e os aprendizados obtidos.

Reforçamos nosso compromisso com a estabilidade da plataforma e com a manutenção do SLA acordado. Não estamos medindo esforços para resolver este problema, que já foi abordado sob diversas perspectivas. E não descansaremos até que a causa raiz seja totalmente compreendida e definitivamente solucionada.

Manteremos todos atualizados sobre qualquer avanço relevante na investigação ou na eficácia da correção aplicada.

Atualizado
Mar 24, 2025 at 1:55pm UTC

Seguimos investigando esse problema. Ficou claro que as medidas paliativas adotadas, demonstraram comportamento correto inicialmente mas não solucionaram o problema.

Estamos tratando esta falha com máxima priorização sem medir esforços para encontrar solução definitiva.

Informaremos aqui toda e qualquer atualização tivermos em tempo real.

Atualizado
Mar 24, 2025 at 1:52pm UTC

Procedimento concluído, plataforma normalizada.

Atualizado
Mar 24, 2025 at 1:50pm UTC

Iniciando procedimento emergencial de resolução da falha.

Atualizado
Mar 24, 2025 at 1:45pm UTC

Estamos reabrindo este incidente devido ao reaparecimento do problema.

Atualizado
Mar 21, 2025 at 8:40pm UTC

As medidas paliativas adotadas durante o processo de resolução do incidente demonstraram estabilidade e estão operando conforme o esperado.

Em relação ao relatório post-mortem, informamos que as investigações ainda estão em andamento e deverão ser concluídas nas próximas 24 horas. A plataforma segue sob monitoramento contínuo e, assim que houverem atualizações relevantes sobre este incidente, comunicaremos por este canal.

Atualizado
Mar 21, 2025 at 5:31pm UTC

Reportaremos informações de POST-MORTEM ao final do processo de monitoramento e investigação.

Atualizado
Mar 21, 2025 at 5:30pm UTC

Procedimento finalizado. Plataforma restabelecida.
Estamos iniciando processo de monitoramento e verificando se o ajuste realizado está operacional.

Atualizado
Mar 21, 2025 at 5:28pm UTC

Previsão de retorno: 5 minutos.

Atualizado
Mar 21, 2025 at 5:27pm UTC

Estamos realizando o procedimento para restabelecimento emergencial do sistema.

Criado
Mar 21, 2025 at 5:26pm UTC

Identificamos que o sistema está abandonando ligações com agentes disponíveis.