Voltar para visão geral
Tempo de inatividade

Instabilidade na plataforma - Telefonia

21 Jan, 03:40pm GMT-3
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações

Resolvido
22 Jan, 04:18pm GMT-3

Visão Geral do Incidente

Nos dias recentes, a plataforma 3C Plus experienciou instabilidades significativas que resultaram em downtime. Foi observado um grande volume de chamadas sendo abandonadas, apesar da disponibilidade de agentes para atender a essas chamadas. Este relatório visa documentar as causas, impactos e medidas corretivas adotadas para resolver a situação.

Descrição do Incidente

  • Datas dos Incidentes: Dois dias consecutivos 21 e 22 de Janeiro de 2024
  • Horários dos Picos: 15h19 no primeiro dia e 15h27 no segundo dia
  • Sintoma Principal: Abandono de chamadas, mesmo com agentes disponíveis

Investigação

Após profundo exame, identificamos que o problema teve origem no serviço de armazenamento temporário conhecido como RealTime. Este serviço é responsável por manter informações cruciais sobre os estados dos agentes e ligações e sofreu um pico de processamento nos horários mencionados. Este pico coincidiu com o horário de maior uso da plataforma, devido ao aumento do volume de usuários e chamadas simultâneas.

Causa Identificada

  • Uso Máximo de CPU: O microsserviço atingiu seu limite máximo de CPU, causando uma saturação.
  • Processos Em Fila: Devido à saturação, o serviço começou a enfileirar processos, resultando em lentidão na conexão de agentes ociosos com ligações prontas.
  • Tempo de Espera Excedido: Devido à lentidão, as ligações eram abandonadas automaticamente após exceder o tempo máximo de espera configurado no sistema.

Medidas Corretivas

Para resolver o problema, foram implementadas as seguintes ações:
1. Aumento de Capacidade: A capacidade máxima do serviço RealTime foi incrementada em 100%.
2. Melhoria de Recursos Computacionais: O serviço agora opera em recursos computacionais mais avançados, oferecendo assim uma performance otimizada.

Próximos Passos

Para garantir que a solução seja eficaz e monitore qualquer reocorrência:
- Monitoramento Contínuo: A operação do serviço será observada de perto pelos próximos dias.
- Análise de Desempenho: Análises regulares de desempenho serão realizadas para garantir que o sistema continue a operar eficientemente.

Conclusão

Através da investigação detalhada e das medidas corretivas implementadas, estamos confiantes de que a solução implantada resolverá o problema identificado. Continuaremos a monitorar a situação e estaremos preparados para agir rapidamente, caso novos problemas se apresentem.

Agradecemos a compreensão e paciência de todos os usuários afetados durante este período. Estamos comprometidos em oferecer um serviço robusto e confiável.

Atenciosamente,
Time de Produto da 3C Plus

Atualizado
21 Jan, 03:52pm GMT-3

Visão Geral do Incidente

Nos dias recentes, a plataforma 3C Plus experienciou instabilidades significativas que resultaram em DOWNTIME. Foi observado um grande volume de chamadas sendo abandonadas, apesar da disponibilidade de agentes para atender a essas chamadas. Este relatório visa documentar as causas, impactos e medidas corretivas adotadas para resolver a situação.

Descrição do Incidente

  • Datas dos Incidentes: Dois dias consecutivos (Data não especificada)
  • Horários dos Picos: 15h19 no primeiro dia e 15h27 no segundo dia
  • Sintoma Principal: Abandono de chamadas, mesmo com agentes disponíveis

Investigação

Após profundo exame, identificamos que o problema teve origem no serviço de armazenamento temporário conhecido como RealTime. Este serviço é responsável por manter informações cruciais sobre os estados dos agentes e ligações e sofreu um pico de processamento nos horários mencionados. Este pico coincidiu com o horário de maior uso da plataforma, devido ao aumento do volume de usuários e chamadas simultâneas.

Causa Identificada

  • Uso Máximo de CPU: O microsserviço atingiu seu limite máximo de CPU, causando uma saturação.
  • Processos Em Fila: Devido à saturação, o serviço começou a enfileirar processos, resultando em lentidão na conexão de agentes ociosos com ligações prontas.
  • Tempo de Espera Excedido: Devido à lentidão, as ligações eram abandonadas automaticamente após exceder o tempo máximo de espera configurado no sistema.

Medidas Corretivas

Para resolver o problema, foram implementadas as seguintes ações:
1. Aumento de Capacidade: A capacidade máxima do serviço RealTime foi incrementada em 100%.
2. Melhoria de Recursos Computacionais: O serviço agora opera em recursos computacionais mais avançados, oferecendo assim uma performance otimizada.

Próximos Passos

Para garantir que a solução seja eficaz e monitore qualquer reocorrência:
- Monitoramento Contínuo: A operação do serviço será observada de perto pelos próximos dias.
- Análise de Desempenho: Análises regulares de desempenho serão realizadas para garantir que o sistema continue a operar eficientemente.

Conclusão

Através da investigação detalhada e das medidas corretivas implementadas, estamos confiantes de que a solução implantada resolverá o problema identificado. Continuaremos a monitorar a situação e estaremos preparados para agir rapidamente, caso novos problemas se apresentem.

Agradecemos a compreensão e paciência de todos os usuários afetados durante este período. Estamos comprometidos em oferecer um serviço robusto e confiável.

Atenciosamente,
Time de Produto da 3C Plus

Atualizado
21 Jan, 03:48pm GMT-3

Procedimento de limpeza executado, estamos realizando testes para verificar se a plataforma foi totalmente recuperada após a correção.

Atualizado
21 Jan, 03:43pm GMT-3

Após diagnóstico, identificamos que um dos componentes responsáveis pelo armazenamento realtime das informações de chamadas apresentou queda. Estamos iniciando a limpeza das chamadas presas e reinicialização dos componentes para normalização emergencial.

Criado
21 Jan, 03:40pm GMT-3

Estamos investigando uma instabilidade causando problemas na conexão de agentes e ligações na plataforma 3C Plus, nos serviços que envolvem a telefonia.

Previsão de normalização estimada em 10 minutos.

Novas atualizações à qualquer momento.