Abandono de ligações
Resolvido
Mar 28, 2025 at 2:31pm UTC
Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.
Serviços afetados
Atualizado
Mar 28, 2025 at 1:38pm UTC
Registro retroativo: Causa identificada: Durante a manutenção realizada ontem na aplicação do patch, o script que realiza o procedimento reverteu ajuste de limite de capacidade voltando o limite incorreto na configuração. Limites foram aplicados novamente e o script foi atualizado para que não ocorra a reversão novamente.
Serviços afetados
Atualizado
Mar 28, 2025 at 1:30pm UTC
Registro retroativo: Reaparecimento do problema causando abandono de chamadas.
Serviços afetados
Atualizado
Mar 27, 2025 at 7:56pm UTC
Post-Mortem - Incidente de Performance na Controladora de Telefonia
Serviço Afetado: Controle de Telefonia - Agentes e Ligações
Impacto Percebido:
- Chamadas sendo abandonadas mesmo com agentes disponíveis na fila.
- Em alguns momentos, reinicializações emergenciais causaram desconexão de usuários, exigindo novo login.
- No dia 27/03/2025, algumas campanhas foram afetadas;
- Nos dias anteriores, o impacto foi mais amplo, afetando todos os clientes e campanhas simultaneamente.
Resumo da Causa Raiz:
Após múltiplas tentativas de mitigação e uma investigação detalhada, foi possível identificar que o problema se originava de um acúmulo de jobs em uma fila específica da controladora de telefonia. Essa fila é responsável pela conexão de chamadas a agentes, especialmente após a identificação de que a chamada foi atendida por um humano (ou seja, não caixa postal).
Durante esse processo, é necessário obter um lock da campanha antes de realizar a conexão com o agente. Em momentos de pico, as campanhas permaneciam travadas por longos períodos devido à lentidão na liberação desses locks, o que fazia com que os jobs fossem reprogramados repetidamente. Esse comportamento gerava efeito cascata, degradando ainda mais a performance e causando abandono parcial ou total de chamadas em alguns momentos.
Ações Corretivas Aplicadas:
- Aumento da capacidade de escalabilidade automática do cluster de telefonia, permitindo a criação mais rápida de novas instâncias em momentos de pico de tráfego.
- Melhorias nas ferramentas de monitoramento e visibilidade, que permitiram identificar com mais precisão os gargalos de processamento.
- Patch corretivo de lógica em desenvolvimento, previsto para deploy em
27/03/2025 às 22h00, durante janela de manutenção agendada. Esse patch visa otimizar o fluxo de execução dos jobs, evitando travamentos de campanha e reduzindo o número de reprocessamentos desnecessários.
Resultados Observados Após Ações Aplicadas:
- Desde a aplicação do aumento de capacidade no dia
27/03, foi observada estabilização consistente do sistema, mesmo em horários de pico. - A normalização da performance foi confirmada às
14h42de27/03/2025.
Lições Aprendidas e Próximos Passos:
- A necessidade de revisar e otimizar processos que envolvem locks e filas de jobs em sistemas críticos foi reforçada.
- Será realizada uma revisão abrangente nos fluxos internos da controladora de telefonia para garantir resiliência mesmo sob cargas intensas.
- Equipe técnica permanece monitorando de forma ativa o comportamento do sistema nos próximos dias.
Compromisso com a Qualidade:
Seguimos comprometidos com a estabilidade da plataforma e com o SLA acordado. Todas as ações foram executadas com o objetivo de minimizar impactos e garantir a operação plena da plataforma. Este incidente trouxe aprendizados importantes que já estão sendo incorporados em nossos processos internos e em melhorias contínuas de infraestrutura e software.
Serviços afetados
Atualizado
Mar 27, 2025 at 5:42pm UTC
Registro retroativo: 27/03/2025 14h42 Após novos ajustes realizados identificamos novamente a normalização da performance do sistema.
Serviços afetados
Atualizado
Mar 27, 2025 at 5:21pm UTC
Registro retroativo: 27/03/2025 14h21 Identificado reaparecimento da degradação de performance na discadora 3C Plus, causando novamente o abandono parcial e não geral de ligações na plataforma em algumas campanhas.
Serviços afetados
Atualizado
Mar 27, 2025 at 2:50pm UTC
Registro retroativo: 27/03/2025 11h50 Identificado normalização das falhas após medidas corretivas adotadas sem reinicialização ou downtime.
Serviços afetados
Atualizado
Mar 27, 2025 at 2:30pm UTC
Registro retroativo: 27/03/2025 11h30 Identificado degradação de performance na discadora 3C Plus, causando abandono parcial e não geral de ligações na plataforma em algumas campanhas.
Serviços afetados
Atualizado
Mar 24, 2025 at 7:33pm UTC
Durante nossa investigação, identificamos um acúmulo de jobs relacionados à limpeza de chamadas, causado por um bug em nossa aplicação. Esse comportamento ocorria especificamente em campanhas configuradas com tempo de espera igual a zero.
Aplicando um patch corretivo para tratar esse cenário e eliminar o acúmulo das tarefas mencionadas. No entanto, em compromisso com a transparência, destacamos que ainda não temos plena certeza de que essa correção resolverá integralmente todos os problemas identificados até o momento.
Paralelamente à correção, nossa equipe também implantou novas ferramentas de monitoramento e diagnóstico no recurso afetado. Isso nos proporcionará muito mais visibilidade para futuras análises e permitirá diagnósticos mais rápidos e precisos, caso o problema volte a ocorrer.
A investigação segue em andamento, com total dedicação de nossa equipe. Assim que a correção for aplicada e estivermos 100% seguros da estabilidade do sistema, emitiremos um relatório final detalhado, compartilhando todas as ações realizadas e os aprendizados obtidos.
Reforçamos nosso compromisso com a estabilidade da plataforma e com a manutenção do SLA acordado. Não estamos medindo esforços para resolver este problema, que já foi abordado sob diversas perspectivas. E não descansaremos até que a causa raiz seja totalmente compreendida e definitivamente solucionada.
Manteremos todos atualizados sobre qualquer avanço relevante na investigação ou na eficácia da correção aplicada.
Serviços afetados
Atualizado
Mar 24, 2025 at 1:55pm UTC
Seguimos investigando esse problema. Ficou claro que as medidas paliativas adotadas, demonstraram comportamento correto inicialmente mas não solucionaram o problema.
Estamos tratando esta falha com máxima priorização sem medir esforços para encontrar solução definitiva.
Informaremos aqui toda e qualquer atualização tivermos em tempo real.
Serviços afetados
Atualizado
Mar 24, 2025 at 1:52pm UTC
Procedimento concluído, plataforma normalizada.
Serviços afetados
Atualizado
Mar 24, 2025 at 1:50pm UTC
Iniciando procedimento emergencial de resolução da falha.
Serviços afetados
Atualizado
Mar 24, 2025 at 1:45pm UTC
Estamos reabrindo este incidente devido ao reaparecimento do problema.
Serviços afetados
Atualizado
Mar 21, 2025 at 8:40pm UTC
As medidas paliativas adotadas durante o processo de resolução do incidente demonstraram estabilidade e estão operando conforme o esperado.
Em relação ao relatório post-mortem, informamos que as investigações ainda estão em andamento e deverão ser concluídas nas próximas 24 horas. A plataforma segue sob monitoramento contínuo e, assim que houverem atualizações relevantes sobre este incidente, comunicaremos por este canal.
Serviços afetados
Atualizado
Mar 21, 2025 at 5:31pm UTC
Reportaremos informações de POST-MORTEM ao final do processo de monitoramento e investigação.
Serviços afetados
Atualizado
Mar 21, 2025 at 5:30pm UTC
Procedimento finalizado. Plataforma restabelecida.
Estamos iniciando processo de monitoramento e verificando se o ajuste realizado está operacional.
Serviços afetados
Atualizado
Mar 21, 2025 at 5:28pm UTC
Previsão de retorno: 5 minutos.
Serviços afetados
Atualizado
Mar 21, 2025 at 5:27pm UTC
Estamos realizando o procedimento para restabelecimento emergencial do sistema.
Serviços afetados
Criado
Mar 21, 2025 at 5:26pm UTC
Identificamos que o sistema está abandonando ligações com agentes disponíveis.
Serviços afetados