Abandono indevido de ligações
Resolvido
28 Jan, 05:10pm GMT-3
POSTMORTEM: Abandono Indevido de Ligações - 28 de Janeiro
Resumo do Incidente
- Incidente: Abandono Indevido de Ligações
- Primeira Identificação: 28 Jan, 10:06am GMT-3
- Serviços Afetados:
- Socket Realtime
- Controle de Telefonia
- Telefonia - Agentes
- Telefonia - Ligações
- Socket Realtime
- Resolução Final: 28 Jan, 04:31pm GMT-3
Indisponibilidades Totais Durante o Período
- 28 Jan, 10:06am - 10:10am → 4 minutos
- 28 Jan, 11:18am - 11:34am → 16 minutos
- 28 Jan, 11:47am - 11:52am → 5 minutos
- 28 Jan, 11:18am - 11:34pm → 16 minutos
- 28 Jan, 02:50pm - 03:16pm → 26 minutos
- 28 Jan, 04:18pm - 04:24pm → 6 minutos
Total de Tempo de Indisponibilidade: 1 hora e 13 minutos
Além desse período, também foram registrados momentos de degradação de performance, nos quais a plataforma permaneceu operacional, porém não com desempenho pleno.
Descrição do Problema
O incidente foi causado por uma distribuição inadequada de componentes críticos em alguns nós da infraestrutura após uma atualização do cluster na noite anterior. Essa configuração resultou em competição por recursos, impactando diretamente a performance de serviços essenciais, como o processamento em tempo real do estado das ligações e agentes conectados.
Adicionalmente, as instâncias de KeyDB, um recurso essencial para o armazenamento em memória de estados em tempo real, enfrentaram sobrecarga devido a um aumento inesperado na demanda, o que amplificou os impactos da falha.
Apesar de esforços imediatos com ações emergenciais e ajustes incrementais, a complexidade da situação e as reincidências exigiram uma reavaliação completa da arquitetura envolvida.
Dificuldades na Correção Antecipada
- Redistribuição em Horário Comercial: A redistribuição dos serviços durante o horário comercial teria causado interrupções ainda mais extensas, impactando diretamente a operação dos clientes.
- Demanda Intermitente: As reincidências dificultaram a estabilização, pois os ajustes aplicados inicialmente não resolveram completamente a origem do problema.
- Dependências Complexas: Componentes críticos, como a controladora de telefonia e as instâncias de KeyDB, apresentaram comportamento inesperado, necessitando de análises aprofundadas e múltiplos ajustes na infraestrutura.
Ações Realizadas
Redistribuição Estratégica:
- Realocação das instâncias de e demais componentes críticos em diferentes nós do cluster para eliminar competição por recursos.
- Realocação das instâncias de e demais componentes críticos em diferentes nós do cluster para eliminar competição por recursos.
Melhoria nas Regras de Afinidade:
- Implementação de configurações avançadas para garantir alocação eficiente e evitar que serviços críticos compartilhem os mesmos nós.
- Implementação de configurações avançadas para garantir alocação eficiente e evitar que serviços críticos compartilhem os mesmos nós.
Expansão de Recursos:
- Incremento na capacidade máxima dos componentes críticos, assegurando suporte a picos de demanda inesperados.
- Incremento na capacidade máxima dos componentes críticos, assegurando suporte a picos de demanda inesperados.
Testes e Monitoramento Intensivo:
- Realização de testes contínuos após cada ajuste, validando os resultados antes da liberação total do sistema.
- Realização de testes contínuos após cada ajuste, validando os resultados antes da liberação total do sistema.
Medidas Finais para Garantir a Estabilidade
Para evitar que este incidente volte a ocorrer, implementamos as seguintes medidas definitivas:
Monitoramento Proativo:
- Configuração de alertas avançados para identificar e tratar padrões de uso anormais antes que afetem os serviços críticos.
- Configuração de alertas avançados para identificar e tratar padrões de uso anormais antes que afetem os serviços críticos.
Capacidade Reservada:
- Garantia de capacidade adicional para recursos afetados, protegendo a operação durante picos de demanda.
- Garantia de capacidade adicional para recursos afetados, protegendo a operação durante picos de demanda.
Auditoria Regular:
- Revisões programadas para validar as configurações de afinidade, balanceamento e distribuição, prevenindo novos desequilíbrios.
- Revisões programadas para validar as configurações de afinidade, balanceamento e distribuição, prevenindo novos desequilíbrios.
Compromisso e Conclusão
Entendemos profundamente a gravidade e o impacto desse incidente nas operações de nossos clientes. Todo o nosso time técnico foi mobilizado, alocando recursos e atenção máxima para identificar, mitigar e resolver a situação de forma definitiva.
Essa ocorrência nos levou a revisar e aprimorar significativamente nossa infraestrutura e processos. As correções implementadas representam nosso compromisso contínuo em entregar uma plataforma confiável, estável e de alta performance. Continuaremos monitorando de forma proativa para garantir que eventos similares não voltem a ocorrer.
Reforçamos nosso compromisso em proporcionar a melhor experiência possível, priorizando a continuidade e o sucesso das operações de nossos clientes.
Atenciosamente,
Diogo Hartmann, Founder & CTO @ 3C Plus
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Atualizado
28 Jan, 04:31pm GMT-3
Conforme ultima atualização, identificamos e reportamos uma nova instabilidade na plataforma. Como previsto, aproveitamos esta oportunidade para realizar todas as manobras planejadas, aplicando mudanças significativas que acreditamos solucionar a raiz do problema de forma definitiva.
Ações realizadas:
Redistribuição estratégica das instâncias de Socket, KeyDB e demais componentes de telefonia em diferentes nós da infraestrutura para evitar competição por recursos;
Implementação de melhorias nas regras de afinidade, garantindo uma alocação mais eficiente e estável dos serviços críticos.
Entendemos a importância e a criticidade dessas falhas para as operações de todos os nossos clientes e parceiros, reafirmamos nosso compromisso em oferecer uma plataforma confiável e performática.
Seguiremos monitorando de perto a performance do sistema para assegurar que os ajustes realizados entreguem os resultados esperados e que não haja reincidência do problema.
Nosso time permanece totalmente dedicado para garantir a estabilidade e a continuidade das suas operações.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Atualizado
28 Jan, 04:24pm GMT-3
Testes e monitoramento inicial indicam normalidade. Plataforma restabelecida.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Atualizado
28 Jan, 04:22pm GMT-3
Procedimentos em concluídos neste momento. Novos testes em execução.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Atualizado
28 Jan, 04:18pm GMT-3
Infelizmente estamos identificando reincidência neste instante.
Iniciaremos o procedimento de correção final, já aplicando a correta distribuição de todos os serviços a seguir afetados: Socket Realtime, Controle de Telefonia, Telefonia - Agentes e Ligações.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Atualizado
28 Jan, 03:45pm GMT-3
Após uma análise aprofundada, identificamos a causa principal da falha. Durante a atualização do cluster realizada na noite anterior, houve uma concentração indevida de componentes críticos em alguns nós da infraestrutura. Isso resultou em competição por recursos, impactando diretamente a performance e ocasionando falhas no processamento de informações em tempo real, como o estado das ligações e dos agentes conectados.
Apesar de termos aplicado correções emergenciais e realizado ajustes na capacidade de recursos, as instabilidades persistiram, indicando um problema relacionado à distribuição inadequada dos componentes de telefonia no cluster. Já implementamos novas configurações e estamos monitorando o comportamento da plataforma após liberar gradualmente o fluxo de chamadas. Testes realizados indicam uma melhora significativa.
Para evitar novas indisponibilidades durante o horário comercial, optamos por não realizar a redistribuição completa neste momento, já que isso acarretaria desconexões adicionais. No entanto, todas as configurações para garantir uma redistribuição eficiente estão sendo preparadas e serão aplicadas fora do horário de expediente, ou de forma emergencial, caso qualquer nova instabilidade seja detectada nas próximas horas.
Seguimos monitorando de forma contínua e analisando os logs para garantir que a causa raiz do problema seja completamente eliminada.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 03:16pm GMT-3
Os serviço foram restabelecidos. Seguimos monitorando.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 03:10pm GMT-3
Testes realizados com sucesso. Estamos liberando gradativamente o fluxo de chamadas enquanto monitoramos a performance das novas configurações aplicadas.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 03:07pm GMT-3
Novas configurações aplicadas, procedimentos de reinicialização em conclusão. Realizaremos cuidadosamente alguns testes antes de liberar o fluxo de ligações da plataforma. Previsão 3 minutos.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 03:00pm GMT-3
Procedimentos não finalizaram com sucesso, estamos atuando.
Previsão de 5 minutos para normalização.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 02:50pm GMT-3
Monitoramento já identificou o problema reincidindo novamente.
Estamos iniciando mais uma vez os procedimentos aplicando nova alteração nas configurações.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 01:53pm GMT-3
Seguimos monitorando a performance e o comportamento dos serviços após os ajustes realizados as 11h45. Seguimos também analisando os logs para identificação da causa raiz do problema.
Logo que tenhamos novas informações, reportaremos neste incidente.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 12:48pm GMT-3
Atualização sobre as investigações:
Identificamos que a falha ocorre logo após um aumento repentino na demanda de processamento de um recurso crítico para o correto funcionamento da plataforma: as instâncias de KeyDB, onde são armazenados em memória os registros de estado das ligações e dos agentes conectados.
Embora este recurso já tenha passado por um aumento significativo em sua capacidade máxima, realizamos um novo incremento para atender à demanda atual.
No entanto, acreditamos que o problema pode estar relacionado à controladora de telefonia, que parece estar gerando um aumento inesperado na carga deste recurso. Para entender a causa raiz, estamos conduzindo uma análise aprofundada dos logs, buscando identificar os fatores que levaram às falhas, que hoje ocorreram três vezes consecutivas.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:52am GMT-3
Testes mostram normalização novamente.
Estamos monitorando o comportamento após ajuste realizado.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:51am GMT-3
Processo concluído. Iniciando novamente os testes e monitoramentos.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:48am GMT-3
Estamos iniciando novamente o procedimento de reinicialização e desta vez aplicando mais uma nova configuração de expansão de recursos. Nossas investigações apontaram que a falha que estamos enfrentando é a mesma da semana passada.
Previsão de retorno de 5 minutos.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:47am GMT-3
Identificamos reincidência da falha mais uma vez.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:34am GMT-3
Testes demonstraram normalização. Seguimos monitorando.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:29am GMT-3
Durante os procedimentos identificamos distribuição incorreta das instancias de controladora de telefonia nos nós do Cluster. Aplicamos a correção para este problema e estamos iniciando novos testes neste instante.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:22am GMT-3
Realizando novamente o procedimento emergencial para correção. Todos os agentes serão desconectados e todas ligações serão encerradas.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 11:18am GMT-3
Identificamos reincidência do problema.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 10:13am GMT-3
Nosso time está investigando a causa do incidente e reportaremos assim que tivermos mais informações.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 10:09am GMT-3
Procedimento concluído. Estamos monitorando a performance da plataforma.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Atualizado
28 Jan, 10:07am GMT-3
Identificamos a falha ocorrendo em larga escala nos componentes de armazenamento realtime do estado de agentes e ligações.
Estamos iniciando procedimento emergencial de limpeza e reinicialização do controle de telefonia para restabelecimento do sistema.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Criado
28 Jan, 10:06am GMT-3
Estamos investigando uma falha causando abandono de chamadas na plataforma.
Serviços afetados
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações