Instabilidade na plataforma - Telefonia
Resolved
Jan 22 at 04:18pm GMT-3
Visão Geral do Incidente
Nos dias recentes, a plataforma 3C Plus experienciou instabilidades significativas que resultaram em downtime. Foi observado um grande volume de chamadas sendo abandonadas, apesar da disponibilidade de agentes para atender a essas chamadas. Este relatório visa documentar as causas, impactos e medidas corretivas adotadas para resolver a situação.
Descrição do Incidente
- Datas dos Incidentes: Dois dias consecutivos 21 e 22 de Janeiro de 2024
- Horários dos Picos: 15h19 no primeiro dia e 15h27 no segundo dia
- Sintoma Principal: Abandono de chamadas, mesmo com agentes disponíveis
Investigação
Após profundo exame, identificamos que o problema teve origem no serviço de armazenamento temporário conhecido como RealTime. Este serviço é responsável por manter informações cruciais sobre os estados dos agentes e ligações e sofreu um pico de processamento nos horários mencionados. Este pico coincidiu com o horário de maior uso da plataforma, devido ao aumento do volume de usuários e chamadas simultâneas.
Causa Identificada
- Uso Máximo de CPU: O microsserviço atingiu seu limite máximo de CPU, causando uma saturação.
- Processos Em Fila: Devido à saturação, o serviço começou a enfileirar processos, resultando em lentidão na conexão de agentes ociosos com ligações prontas.
- Tempo de Espera Excedido: Devido à lentidão, as ligações eram abandonadas automaticamente após exceder o tempo máximo de espera configurado no sistema.
Medidas Corretivas
Para resolver o problema, foram implementadas as seguintes ações:
1. Aumento de Capacidade: A capacidade máxima do serviço RealTime foi incrementada em 100%.
2. Melhoria de Recursos Computacionais: O serviço agora opera em recursos computacionais mais avançados, oferecendo assim uma performance otimizada.
Próximos Passos
Para garantir que a solução seja eficaz e monitore qualquer reocorrência:
- Monitoramento Contínuo: A operação do serviço será observada de perto pelos próximos dias.
- Análise de Desempenho: Análises regulares de desempenho serão realizadas para garantir que o sistema continue a operar eficientemente.
Conclusão
Através da investigação detalhada e das medidas corretivas implementadas, estamos confiantes de que a solução implantada resolverá o problema identificado. Continuaremos a monitorar a situação e estaremos preparados para agir rapidamente, caso novos problemas se apresentem.
Agradecemos a compreensão e paciência de todos os usuários afetados durante este período. Estamos comprometidos em oferecer um serviço robusto e confiável.
Atenciosamente,
Time de Produto da 3C Plus
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 21 at 03:52pm GMT-3
Visão Geral do Incidente
Nos dias recentes, a plataforma 3C Plus experienciou instabilidades significativas que resultaram em DOWNTIME. Foi observado um grande volume de chamadas sendo abandonadas, apesar da disponibilidade de agentes para atender a essas chamadas. Este relatório visa documentar as causas, impactos e medidas corretivas adotadas para resolver a situação.
Descrição do Incidente
- Datas dos Incidentes: Dois dias consecutivos (Data não especificada)
- Horários dos Picos: 15h19 no primeiro dia e 15h27 no segundo dia
- Sintoma Principal: Abandono de chamadas, mesmo com agentes disponíveis
Investigação
Após profundo exame, identificamos que o problema teve origem no serviço de armazenamento temporário conhecido como RealTime. Este serviço é responsável por manter informações cruciais sobre os estados dos agentes e ligações e sofreu um pico de processamento nos horários mencionados. Este pico coincidiu com o horário de maior uso da plataforma, devido ao aumento do volume de usuários e chamadas simultâneas.
Causa Identificada
- Uso Máximo de CPU: O microsserviço atingiu seu limite máximo de CPU, causando uma saturação.
- Processos Em Fila: Devido à saturação, o serviço começou a enfileirar processos, resultando em lentidão na conexão de agentes ociosos com ligações prontas.
- Tempo de Espera Excedido: Devido à lentidão, as ligações eram abandonadas automaticamente após exceder o tempo máximo de espera configurado no sistema.
Medidas Corretivas
Para resolver o problema, foram implementadas as seguintes ações:
1. Aumento de Capacidade: A capacidade máxima do serviço RealTime foi incrementada em 100%.
2. Melhoria de Recursos Computacionais: O serviço agora opera em recursos computacionais mais avançados, oferecendo assim uma performance otimizada.
Próximos Passos
Para garantir que a solução seja eficaz e monitore qualquer reocorrência:
- Monitoramento Contínuo: A operação do serviço será observada de perto pelos próximos dias.
- Análise de Desempenho: Análises regulares de desempenho serão realizadas para garantir que o sistema continue a operar eficientemente.
Conclusão
Através da investigação detalhada e das medidas corretivas implementadas, estamos confiantes de que a solução implantada resolverá o problema identificado. Continuaremos a monitorar a situação e estaremos preparados para agir rapidamente, caso novos problemas se apresentem.
Agradecemos a compreensão e paciência de todos os usuários afetados durante este período. Estamos comprometidos em oferecer um serviço robusto e confiável.
Atenciosamente,
Time de Produto da 3C Plus
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 21 at 03:48pm GMT-3
Procedimento de limpeza executado, estamos realizando testes para verificar se a plataforma foi totalmente recuperada após a correção.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 21 at 03:43pm GMT-3
Após diagnóstico, identificamos que um dos componentes responsáveis pelo armazenamento realtime das informações de chamadas apresentou queda. Estamos iniciando a limpeza das chamadas presas e reinicialização dos componentes para normalização emergencial.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Created
Jan 21 at 03:40pm GMT-3
Estamos investigando uma instabilidade causando problemas na conexão de agentes e ligações na plataforma 3C Plus, nos serviços que envolvem a telefonia.
Previsão de normalização estimada em 10 minutos.
Novas atualizações à qualquer momento.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações