Abandono indevido de ligações
Resolved
Jan 28 at 05:10pm GMT-3
POSTMORTEM: Abandono Indevido de Ligações - 28 de Janeiro
Resumo do Incidente
- Incidente: Abandono Indevido de Ligações
- Primeira Identificação: 28 Jan, 10:06am GMT-3
- Serviços Afetados:
- Socket Realtime
- Controle de Telefonia
- Telefonia - Agentes
- Telefonia - Ligações
- Socket Realtime
- Resolução Final: 28 Jan, 04:31pm GMT-3
Indisponibilidades Totais Durante o Período
- 28 Jan, 10:06am - 10:10am → 4 minutos
- 28 Jan, 11:18am - 11:34am → 16 minutos
- 28 Jan, 11:47am - 11:52am → 5 minutos
- 28 Jan, 11:18am - 11:34pm → 16 minutos
- 28 Jan, 02:50pm - 03:16pm → 26 minutos
- 28 Jan, 04:18pm - 04:24pm → 6 minutos
Total de Tempo de Indisponibilidade: 1 hora e 13 minutos
Além desse período, também foram registrados momentos de degradação de performance, nos quais a plataforma permaneceu operacional, porém não com desempenho pleno.
Descrição do Problema
O incidente foi causado por uma distribuição inadequada de componentes críticos em alguns nós da infraestrutura após uma atualização do cluster na noite anterior. Essa configuração resultou em competição por recursos, impactando diretamente a performance de serviços essenciais, como o processamento em tempo real do estado das ligações e agentes conectados.
Adicionalmente, as instâncias de KeyDB, um recurso essencial para o armazenamento em memória de estados em tempo real, enfrentaram sobrecarga devido a um aumento inesperado na demanda, o que amplificou os impactos da falha.
Apesar de esforços imediatos com ações emergenciais e ajustes incrementais, a complexidade da situação e as reincidências exigiram uma reavaliação completa da arquitetura envolvida.
Dificuldades na Correção Antecipada
- Redistribuição em Horário Comercial: A redistribuição dos serviços durante o horário comercial teria causado interrupções ainda mais extensas, impactando diretamente a operação dos clientes.
- Demanda Intermitente: As reincidências dificultaram a estabilização, pois os ajustes aplicados inicialmente não resolveram completamente a origem do problema.
- Dependências Complexas: Componentes críticos, como a controladora de telefonia e as instâncias de KeyDB, apresentaram comportamento inesperado, necessitando de análises aprofundadas e múltiplos ajustes na infraestrutura.
Ações Realizadas
Redistribuição Estratégica:
- Realocação das instâncias de e demais componentes críticos em diferentes nós do cluster para eliminar competição por recursos.
- Realocação das instâncias de e demais componentes críticos em diferentes nós do cluster para eliminar competição por recursos.
Melhoria nas Regras de Afinidade:
- Implementação de configurações avançadas para garantir alocação eficiente e evitar que serviços críticos compartilhem os mesmos nós.
- Implementação de configurações avançadas para garantir alocação eficiente e evitar que serviços críticos compartilhem os mesmos nós.
Expansão de Recursos:
- Incremento na capacidade máxima dos componentes críticos, assegurando suporte a picos de demanda inesperados.
- Incremento na capacidade máxima dos componentes críticos, assegurando suporte a picos de demanda inesperados.
Testes e Monitoramento Intensivo:
- Realização de testes contínuos após cada ajuste, validando os resultados antes da liberação total do sistema.
- Realização de testes contínuos após cada ajuste, validando os resultados antes da liberação total do sistema.
Medidas Finais para Garantir a Estabilidade
Para evitar que este incidente volte a ocorrer, implementamos as seguintes medidas definitivas:
Monitoramento Proativo:
- Configuração de alertas avançados para identificar e tratar padrões de uso anormais antes que afetem os serviços críticos.
- Configuração de alertas avançados para identificar e tratar padrões de uso anormais antes que afetem os serviços críticos.
Capacidade Reservada:
- Garantia de capacidade adicional para recursos afetados, protegendo a operação durante picos de demanda.
- Garantia de capacidade adicional para recursos afetados, protegendo a operação durante picos de demanda.
Auditoria Regular:
- Revisões programadas para validar as configurações de afinidade, balanceamento e distribuição, prevenindo novos desequilíbrios.
- Revisões programadas para validar as configurações de afinidade, balanceamento e distribuição, prevenindo novos desequilíbrios.
Compromisso e Conclusão
Entendemos profundamente a gravidade e o impacto desse incidente nas operações de nossos clientes. Todo o nosso time técnico foi mobilizado, alocando recursos e atenção máxima para identificar, mitigar e resolver a situação de forma definitiva.
Essa ocorrência nos levou a revisar e aprimorar significativamente nossa infraestrutura e processos. As correções implementadas representam nosso compromisso contínuo em entregar uma plataforma confiável, estável e de alta performance. Continuaremos monitorando de forma proativa para garantir que eventos similares não voltem a ocorrer.
Reforçamos nosso compromisso em proporcionar a melhor experiência possível, priorizando a continuidade e o sucesso das operações de nossos clientes.
Atenciosamente,
Diogo Hartmann, Founder & CTO @ 3C Plus
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Updated
Jan 28 at 04:31pm GMT-3
Conforme ultima atualização, identificamos e reportamos uma nova instabilidade na plataforma. Como previsto, aproveitamos esta oportunidade para realizar todas as manobras planejadas, aplicando mudanças significativas que acreditamos solucionar a raiz do problema de forma definitiva.
Ações realizadas:
Redistribuição estratégica das instâncias de Socket, KeyDB e demais componentes de telefonia em diferentes nós da infraestrutura para evitar competição por recursos;
Implementação de melhorias nas regras de afinidade, garantindo uma alocação mais eficiente e estável dos serviços críticos.
Entendemos a importância e a criticidade dessas falhas para as operações de todos os nossos clientes e parceiros, reafirmamos nosso compromisso em oferecer uma plataforma confiável e performática.
Seguiremos monitorando de perto a performance do sistema para assegurar que os ajustes realizados entreguem os resultados esperados e que não haja reincidência do problema.
Nosso time permanece totalmente dedicado para garantir a estabilidade e a continuidade das suas operações.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Updated
Jan 28 at 04:24pm GMT-3
Testes e monitoramento inicial indicam normalidade. Plataforma restabelecida.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Updated
Jan 28 at 04:22pm GMT-3
Procedimentos em concluídos neste momento. Novos testes em execução.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Updated
Jan 28 at 04:18pm GMT-3
Infelizmente estamos identificando reincidência neste instante.
Iniciaremos o procedimento de correção final, já aplicando a correta distribuição de todos os serviços a seguir afetados: Socket Realtime, Controle de Telefonia, Telefonia - Agentes e Ligações.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Socket Realtime
Updated
Jan 28 at 03:45pm GMT-3
Após uma análise aprofundada, identificamos a causa principal da falha. Durante a atualização do cluster realizada na noite anterior, houve uma concentração indevida de componentes críticos em alguns nós da infraestrutura. Isso resultou em competição por recursos, impactando diretamente a performance e ocasionando falhas no processamento de informações em tempo real, como o estado das ligações e dos agentes conectados.
Apesar de termos aplicado correções emergenciais e realizado ajustes na capacidade de recursos, as instabilidades persistiram, indicando um problema relacionado à distribuição inadequada dos componentes de telefonia no cluster. Já implementamos novas configurações e estamos monitorando o comportamento da plataforma após liberar gradualmente o fluxo de chamadas. Testes realizados indicam uma melhora significativa.
Para evitar novas indisponibilidades durante o horário comercial, optamos por não realizar a redistribuição completa neste momento, já que isso acarretaria desconexões adicionais. No entanto, todas as configurações para garantir uma redistribuição eficiente estão sendo preparadas e serão aplicadas fora do horário de expediente, ou de forma emergencial, caso qualquer nova instabilidade seja detectada nas próximas horas.
Seguimos monitorando de forma contínua e analisando os logs para garantir que a causa raiz do problema seja completamente eliminada.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 03:16pm GMT-3
Os serviço foram restabelecidos. Seguimos monitorando.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 03:10pm GMT-3
Testes realizados com sucesso. Estamos liberando gradativamente o fluxo de chamadas enquanto monitoramos a performance das novas configurações aplicadas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 03:07pm GMT-3
Novas configurações aplicadas, procedimentos de reinicialização em conclusão. Realizaremos cuidadosamente alguns testes antes de liberar o fluxo de ligações da plataforma. Previsão 3 minutos.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 03:00pm GMT-3
Procedimentos não finalizaram com sucesso, estamos atuando.
Previsão de 5 minutos para normalização.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 02:50pm GMT-3
Monitoramento já identificou o problema reincidindo novamente.
Estamos iniciando mais uma vez os procedimentos aplicando nova alteração nas configurações.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 01:53pm GMT-3
Seguimos monitorando a performance e o comportamento dos serviços após os ajustes realizados as 11h45. Seguimos também analisando os logs para identificação da causa raiz do problema.
Logo que tenhamos novas informações, reportaremos neste incidente.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 12:48pm GMT-3
Atualização sobre as investigações:
Identificamos que a falha ocorre logo após um aumento repentino na demanda de processamento de um recurso crítico para o correto funcionamento da plataforma: as instâncias de KeyDB, onde são armazenados em memória os registros de estado das ligações e dos agentes conectados.
Embora este recurso já tenha passado por um aumento significativo em sua capacidade máxima, realizamos um novo incremento para atender à demanda atual.
No entanto, acreditamos que o problema pode estar relacionado à controladora de telefonia, que parece estar gerando um aumento inesperado na carga deste recurso. Para entender a causa raiz, estamos conduzindo uma análise aprofundada dos logs, buscando identificar os fatores que levaram às falhas, que hoje ocorreram três vezes consecutivas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:52am GMT-3
Testes mostram normalização novamente.
Estamos monitorando o comportamento após ajuste realizado.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:51am GMT-3
Processo concluído. Iniciando novamente os testes e monitoramentos.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:48am GMT-3
Estamos iniciando novamente o procedimento de reinicialização e desta vez aplicando mais uma nova configuração de expansão de recursos. Nossas investigações apontaram que a falha que estamos enfrentando é a mesma da semana passada.
Previsão de retorno de 5 minutos.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:47am GMT-3
Identificamos reincidência da falha mais uma vez.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:34am GMT-3
Testes demonstraram normalização. Seguimos monitorando.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:29am GMT-3
Durante os procedimentos identificamos distribuição incorreta das instancias de controladora de telefonia nos nós do Cluster. Aplicamos a correção para este problema e estamos iniciando novos testes neste instante.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:22am GMT-3
Realizando novamente o procedimento emergencial para correção. Todos os agentes serão desconectados e todas ligações serão encerradas.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 11:18am GMT-3
Identificamos reincidência do problema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 10:13am GMT-3
Nosso time está investigando a causa do incidente e reportaremos assim que tivermos mais informações.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 10:09am GMT-3
Procedimento concluído. Estamos monitorando a performance da plataforma.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Updated
Jan 28 at 10:07am GMT-3
Identificamos a falha ocorrendo em larga escala nos componentes de armazenamento realtime do estado de agentes e ligações.
Estamos iniciando procedimento emergencial de limpeza e reinicialização do controle de telefonia para restabelecimento do sistema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Created
Jan 28 at 10:06am GMT-3
Estamos investigando uma falha causando abandono de chamadas na plataforma.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações