Voltar para visão geral
Tempo de inatividade

Ligações abandonadas com agentes disponíveis

22 Jan, 03:37pm GMT-3
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações

Resolvido
22 Jan, 04:17pm GMT-3

Visão Geral do Incidente

Nos dias recentes, a plataforma 3C Plus experienciou instabilidades significativas que resultaram em downtime. Foi observado um grande volume de chamadas sendo abandonadas, apesar da disponibilidade de agentes para atender a essas chamadas. Este relatório visa documentar as causas, impactos e medidas corretivas adotadas para resolver a situação.

Descrição do Incidente

  • Datas dos Incidentes: Dois dias consecutivos 21 e 22 de Janeiro de 2024
  • Horários dos Picos: 15h19 no primeiro dia e 15h27 no segundo dia
  • Sintoma Principal: Abandono de chamadas, mesmo com agentes disponíveis

Investigação

Após profundo exame, identificamos que o problema teve origem no serviço de armazenamento temporário conhecido como RealTime. Este serviço é responsável por manter informações cruciais sobre os estados dos agentes e ligações e sofreu um pico de processamento nos horários mencionados. Este pico coincidiu com o horário de maior uso da plataforma, devido ao aumento do volume de usuários e chamadas simultâneas.

Causa Identificada

  • Uso Máximo de CPU: O microsserviço atingiu seu limite máximo de CPU, causando uma saturação.
  • Processos Em Fila: Devido à saturação, o serviço começou a enfileirar processos, resultando em lentidão na conexão de agentes ociosos com ligações prontas.
  • Tempo de Espera Excedido: Devido à lentidão, as ligações eram abandonadas automaticamente após exceder o tempo máximo de espera configurado no sistema.

Medidas Corretivas

Para resolver o problema, foram implementadas as seguintes ações:
1. Aumento de Capacidade: A capacidade máxima do serviço RealTime foi incrementada em 100%.
2. Melhoria de Recursos Computacionais: O serviço agora opera em recursos computacionais mais avançados, oferecendo assim uma performance otimizada.

Próximos Passos

Para garantir que a solução seja eficaz e monitore qualquer reocorrência:
- Monitoramento Contínuo: A operação do serviço será observada de perto pelos próximos dias.
- Análise de Desempenho: Análises regulares de desempenho serão realizadas para garantir que o sistema continue a operar eficientemente.

Conclusão

Através da investigação detalhada e das medidas corretivas implementadas, estamos confiantes de que a solução implantada resolverá o problema identificado. Continuaremos a monitorar a situação e estaremos preparados para agir rapidamente, caso novos problemas se apresentem.

Agradecemos a compreensão e paciência de todos os usuários afetados durante este período. Estamos comprometidos em oferecer um serviço robusto e confiável.

Atenciosamente,
Time de Produto da 3C Plus

Atualizado
22 Jan, 03:49pm GMT-3

Identificamos que a falha de hoje teve a mesma origem e comportamento da falha ocorrida na data de ontem. Estamos investigando a causa raiz deste problema e reportaremos assim que identificada os próximos e correções que serão realizadas para que este problema não volte a acontecer.

Atualizado
22 Jan, 03:47pm GMT-3

Estamos monitorando a performance da plataforma.

Atualizado
22 Jan, 03:46pm GMT-3

Testes iniciais demonstraram funcionamento normal do sistema.

Atualizado
22 Jan, 03:44pm GMT-3

Procedimento de reinicialização finalizado. Nossa equipe está realizando testes.

Atualizado
22 Jan, 03:40pm GMT-3

Estamos inicializando procedimento emergencial para recuperação da plataforma. Previsão para normalização de 10 minutos.

Criado
22 Jan, 03:37pm GMT-3

Estamos investigando uma possível instabilidade causando abandono de chamadas mesmo com agentes disponíveis.