Abandono de ligações
Resolved
Mar 28 at 11:31am GMT-3
Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 28 at 10:38am GMT-3
Registro retroativo: Causa identificada: Durante a manutenção realizada ontem na aplicação do patch, o script que realiza o procedimento reverteu ajuste de limite de capacidade voltando o limite incorreto na configuração. Limites foram aplicados novamente e o script foi atualizado para que não ocorra a reversão novamente.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 28 at 10:30am GMT-3
Registro retroativo: Reaparecimento do problema causando abandono de chamadas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 27 at 04:56pm GMT-3
Post-Mortem - Incidente de Performance na Controladora de Telefonia
Serviço Afetado: Controle de Telefonia - Agentes e Ligações
Impacto Percebido:
- Chamadas sendo abandonadas mesmo com agentes disponíveis na fila.
- Em alguns momentos, reinicializações emergenciais causaram desconexão de usuários, exigindo novo login.
- No dia 27/03/2025, algumas campanhas foram afetadas;
- Nos dias anteriores, o impacto foi mais amplo, afetando todos os clientes e campanhas simultaneamente.
Resumo da Causa Raiz:
Após múltiplas tentativas de mitigação e uma investigação detalhada, foi possível identificar que o problema se originava de um acúmulo de jobs em uma fila específica da controladora de telefonia. Essa fila é responsável pela conexão de chamadas a agentes, especialmente após a identificação de que a chamada foi atendida por um humano (ou seja, não caixa postal).
Durante esse processo, é necessário obter um lock da campanha antes de realizar a conexão com o agente. Em momentos de pico, as campanhas permaneciam travadas por longos períodos devido à lentidão na liberação desses locks, o que fazia com que os jobs fossem reprogramados repetidamente. Esse comportamento gerava efeito cascata, degradando ainda mais a performance e causando abandono parcial ou total de chamadas em alguns momentos.
Ações Corretivas Aplicadas:
- Aumento da capacidade de escalabilidade automática do cluster de telefonia, permitindo a criação mais rápida de novas instâncias em momentos de pico de tráfego.
- Melhorias nas ferramentas de monitoramento e visibilidade, que permitiram identificar com mais precisão os gargalos de processamento.
- Patch corretivo de lógica em desenvolvimento, previsto para deploy em
27/03/2025 às 22h00
, durante janela de manutenção agendada. Esse patch visa otimizar o fluxo de execução dos jobs, evitando travamentos de campanha e reduzindo o número de reprocessamentos desnecessários.
Resultados Observados Após Ações Aplicadas:
- Desde a aplicação do aumento de capacidade no dia
27/03
, foi observada estabilização consistente do sistema, mesmo em horários de pico. - A normalização da performance foi confirmada às
14h42
de27/03/2025
.
Lições Aprendidas e Próximos Passos:
- A necessidade de revisar e otimizar processos que envolvem locks e filas de jobs em sistemas críticos foi reforçada.
- Será realizada uma revisão abrangente nos fluxos internos da controladora de telefonia para garantir resiliência mesmo sob cargas intensas.
- Equipe técnica permanece monitorando de forma ativa o comportamento do sistema nos próximos dias.
Compromisso com a Qualidade:
Seguimos comprometidos com a estabilidade da plataforma e com o SLA acordado. Todas as ações foram executadas com o objetivo de minimizar impactos e garantir a operação plena da plataforma. Este incidente trouxe aprendizados importantes que já estão sendo incorporados em nossos processos internos e em melhorias contínuas de infraestrutura e software.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 27 at 02:42pm GMT-3
Registro retroativo: 27/03/2025 14h42 Após novos ajustes realizados identificamos novamente a normalização da performance do sistema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 27 at 02:21pm GMT-3
Registro retroativo: 27/03/2025 14h21 Identificado reaparecimento da degradação de performance na discadora 3C Plus, causando novamente o abandono parcial e não geral de ligações na plataforma em algumas campanhas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 27 at 11:50am GMT-3
Registro retroativo: 27/03/2025 11h50 Identificado normalização das falhas após medidas corretivas adotadas sem reinicialização ou downtime.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 27 at 11:30am GMT-3
Registro retroativo: 27/03/2025 11h30 Identificado degradação de performance na discadora 3C Plus, causando abandono parcial e não geral de ligações na plataforma em algumas campanhas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 24 at 04:33pm GMT-3
Durante nossa investigação, identificamos um acúmulo de jobs relacionados à limpeza de chamadas, causado por um bug em nossa aplicação. Esse comportamento ocorria especificamente em campanhas configuradas com tempo de espera igual a zero.
Aplicando um patch corretivo para tratar esse cenário e eliminar o acúmulo das tarefas mencionadas. No entanto, em compromisso com a transparência, destacamos que ainda não temos plena certeza de que essa correção resolverá integralmente todos os problemas identificados até o momento.
Paralelamente à correção, nossa equipe também implantou novas ferramentas de monitoramento e diagnóstico no recurso afetado. Isso nos proporcionará muito mais visibilidade para futuras análises e permitirá diagnósticos mais rápidos e precisos, caso o problema volte a ocorrer.
A investigação segue em andamento, com total dedicação de nossa equipe. Assim que a correção for aplicada e estivermos 100% seguros da estabilidade do sistema, emitiremos um relatório final detalhado, compartilhando todas as ações realizadas e os aprendizados obtidos.
Reforçamos nosso compromisso com a estabilidade da plataforma e com a manutenção do SLA acordado. Não estamos medindo esforços para resolver este problema, que já foi abordado sob diversas perspectivas. E não descansaremos até que a causa raiz seja totalmente compreendida e definitivamente solucionada.
Manteremos todos atualizados sobre qualquer avanço relevante na investigação ou na eficácia da correção aplicada.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 24 at 10:55am GMT-3
Seguimos investigando esse problema. Ficou claro que as medidas paliativas adotadas, demonstraram comportamento correto inicialmente mas não solucionaram o problema.
Estamos tratando esta falha com máxima priorização sem medir esforços para encontrar solução definitiva.
Informaremos aqui toda e qualquer atualização tivermos em tempo real.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 24 at 10:52am GMT-3
Procedimento concluído, plataforma normalizada.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 24 at 10:50am GMT-3
Iniciando procedimento emergencial de resolução da falha.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 24 at 10:45am GMT-3
Estamos reabrindo este incidente devido ao reaparecimento do problema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 21 at 05:40pm GMT-3
As medidas paliativas adotadas durante o processo de resolução do incidente demonstraram estabilidade e estão operando conforme o esperado.
Em relação ao relatório post-mortem, informamos que as investigações ainda estão em andamento e deverão ser concluídas nas próximas 24 horas. A plataforma segue sob monitoramento contínuo e, assim que houverem atualizações relevantes sobre este incidente, comunicaremos por este canal.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 21 at 02:31pm GMT-3
Reportaremos informações de POST-MORTEM ao final do processo de monitoramento e investigação.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 21 at 02:30pm GMT-3
Procedimento finalizado. Plataforma restabelecida.
Estamos iniciando processo de monitoramento e verificando se o ajuste realizado está operacional.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 21 at 02:28pm GMT-3
Previsão de retorno: 5 minutos.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Mar 21 at 02:27pm GMT-3
Estamos realizando o procedimento para restabelecimento emergencial do sistema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Created
Mar 21 at 02:26pm GMT-3
Identificamos que o sistema está abandonando ligações com agentes disponíveis.
Affected services
Controle de Telefonia
Telefonia - Ligações