Downtime

Abandono indevido de ligações

Jan 28 at 10:06am GMT-3

Affected services

Socket Realtime

Controle de Telefonia

Telefonia - Agentes

Telefonia - Ligações

Resolved
Jan 28 at 05:10pm GMT-3

POSTMORTEM: Abandono Indevido de Ligações - 28 de Janeiro

Resumo do Incidente

Incidente: Abandono Indevido de Ligações
Primeira Identificação: 28 Jan, 10:06am GMT-3
Serviços Afetados:
- Socket Realtime
- Controle de Telefonia
- Telefonia - Agentes
- Telefonia - Ligações
Resolução Final: 28 Jan, 04:31pm GMT-3

Indisponibilidades Totais Durante o Período

28 Jan, 10:06am - 10:10am → 4 minutos
28 Jan, 11:18am - 11:34am → 16 minutos
28 Jan, 11:47am - 11:52am → 5 minutos
28 Jan, 11:18am - 11:34pm → 16 minutos
28 Jan, 02:50pm - 03:16pm → 26 minutos
28 Jan, 04:18pm - 04:24pm → 6 minutos

Total de Tempo de Indisponibilidade: 1 hora e 13 minutos

Além desse período, também foram registrados momentos de degradação de performance, nos quais a plataforma permaneceu operacional, porém não com desempenho pleno.

Descrição do Problema

O incidente foi causado por uma distribuição inadequada de componentes críticos em alguns nós da infraestrutura após uma atualização do cluster na noite anterior. Essa configuração resultou em competição por recursos, impactando diretamente a performance de serviços essenciais, como o processamento em tempo real do estado das ligações e agentes conectados.

Adicionalmente, as instâncias de KeyDB, um recurso essencial para o armazenamento em memória de estados em tempo real, enfrentaram sobrecarga devido a um aumento inesperado na demanda, o que amplificou os impactos da falha.

Apesar de esforços imediatos com ações emergenciais e ajustes incrementais, a complexidade da situação e as reincidências exigiram uma reavaliação completa da arquitetura envolvida.

Dificuldades na Correção Antecipada

Redistribuição em Horário Comercial: A redistribuição dos serviços durante o horário comercial teria causado interrupções ainda mais extensas, impactando diretamente a operação dos clientes.
Demanda Intermitente: As reincidências dificultaram a estabilização, pois os ajustes aplicados inicialmente não resolveram completamente a origem do problema.
Dependências Complexas: Componentes críticos, como a controladora de telefonia e as instâncias de KeyDB, apresentaram comportamento inesperado, necessitando de análises aprofundadas e múltiplos ajustes na infraestrutura.

Ações Realizadas

Redistribuição Estratégica:
- Realocação das instâncias de e demais componentes críticos em diferentes nós do cluster para eliminar competição por recursos.
Melhoria nas Regras de Afinidade:
- Implementação de configurações avançadas para garantir alocação eficiente e evitar que serviços críticos compartilhem os mesmos nós.
Expansão de Recursos:
- Incremento na capacidade máxima dos componentes críticos, assegurando suporte a picos de demanda inesperados.
Testes e Monitoramento Intensivo:
- Realização de testes contínuos após cada ajuste, validando os resultados antes da liberação total do sistema.

Medidas Finais para Garantir a Estabilidade

Para evitar que este incidente volte a ocorrer, implementamos as seguintes medidas definitivas:

Monitoramento Proativo:
- Configuração de alertas avançados para identificar e tratar padrões de uso anormais antes que afetem os serviços críticos.
Capacidade Reservada:
- Garantia de capacidade adicional para recursos afetados, protegendo a operação durante picos de demanda.
Auditoria Regular:
- Revisões programadas para validar as configurações de afinidade, balanceamento e distribuição, prevenindo novos desequilíbrios.

Compromisso e Conclusão

Entendemos profundamente a gravidade e o impacto desse incidente nas operações de nossos clientes. Todo o nosso time técnico foi mobilizado, alocando recursos e atenção máxima para identificar, mitigar e resolver a situação de forma definitiva.

Essa ocorrência nos levou a revisar e aprimorar significativamente nossa infraestrutura e processos. As correções implementadas representam nosso compromisso contínuo em entregar uma plataforma confiável, estável e de alta performance. Continuaremos monitorando de forma proativa para garantir que eventos similares não voltem a ocorrer.

Reforçamos nosso compromisso em proporcionar a melhor experiência possível, priorizando a continuidade e o sucesso das operações de nossos clientes.

Atenciosamente,
Diogo Hartmann, Founder & CTO @ 3C Plus

Updated
Jan 28 at 04:31pm GMT-3

Conforme ultima atualização, identificamos e reportamos uma nova instabilidade na plataforma. Como previsto, aproveitamos esta oportunidade para realizar todas as manobras planejadas, aplicando mudanças significativas que acreditamos solucionar a raiz do problema de forma definitiva.

Ações realizadas:

Redistribuição estratégica das instâncias de Socket, KeyDB e demais componentes de telefonia em diferentes nós da infraestrutura para evitar competição por recursos;
Implementação de melhorias nas regras de afinidade, garantindo uma alocação mais eficiente e estável dos serviços críticos.

Entendemos a importância e a criticidade dessas falhas para as operações de todos os nossos clientes e parceiros, reafirmamos nosso compromisso em oferecer uma plataforma confiável e performática.

Seguiremos monitorando de perto a performance do sistema para assegurar que os ajustes realizados entreguem os resultados esperados e que não haja reincidência do problema.

Nosso time permanece totalmente dedicado para garantir a estabilidade e a continuidade das suas operações.

Updated
Jan 28 at 04:24pm GMT-3

Testes e monitoramento inicial indicam normalidade. Plataforma restabelecida.

Updated
Jan 28 at 04:22pm GMT-3

Procedimentos em concluídos neste momento. Novos testes em execução.

Updated
Jan 28 at 04:18pm GMT-3

Infelizmente estamos identificando reincidência neste instante.
Iniciaremos o procedimento de correção final, já aplicando a correta distribuição de todos os serviços a seguir afetados: Socket Realtime, Controle de Telefonia, Telefonia - Agentes e Ligações.

Updated
Jan 28 at 03:45pm GMT-3

Após uma análise aprofundada, identificamos a causa principal da falha. Durante a atualização do cluster realizada na noite anterior, houve uma concentração indevida de componentes críticos em alguns nós da infraestrutura. Isso resultou em competição por recursos, impactando diretamente a performance e ocasionando falhas no processamento de informações em tempo real, como o estado das ligações e dos agentes conectados.

Apesar de termos aplicado correções emergenciais e realizado ajustes na capacidade de recursos, as instabilidades persistiram, indicando um problema relacionado à distribuição inadequada dos componentes de telefonia no cluster. Já implementamos novas configurações e estamos monitorando o comportamento da plataforma após liberar gradualmente o fluxo de chamadas. Testes realizados indicam uma melhora significativa.

Para evitar novas indisponibilidades durante o horário comercial, optamos por não realizar a redistribuição completa neste momento, já que isso acarretaria desconexões adicionais. No entanto, todas as configurações para garantir uma redistribuição eficiente estão sendo preparadas e serão aplicadas fora do horário de expediente, ou de forma emergencial, caso qualquer nova instabilidade seja detectada nas próximas horas.

Seguimos monitorando de forma contínua e analisando os logs para garantir que a causa raiz do problema seja completamente eliminada.

Updated
Jan 28 at 03:16pm GMT-3

Os serviço foram restabelecidos. Seguimos monitorando.

Updated
Jan 28 at 03:10pm GMT-3

Testes realizados com sucesso. Estamos liberando gradativamente o fluxo de chamadas enquanto monitoramos a performance das novas configurações aplicadas.

Updated
Jan 28 at 03:07pm GMT-3

Novas configurações aplicadas, procedimentos de reinicialização em conclusão. Realizaremos cuidadosamente alguns testes antes de liberar o fluxo de ligações da plataforma. Previsão 3 minutos.

Updated
Jan 28 at 03:00pm GMT-3

Procedimentos não finalizaram com sucesso, estamos atuando.
Previsão de 5 minutos para normalização.

Updated
Jan 28 at 02:50pm GMT-3

Monitoramento já identificou o problema reincidindo novamente.
Estamos iniciando mais uma vez os procedimentos aplicando nova alteração nas configurações.

Updated
Jan 28 at 01:53pm GMT-3

Seguimos monitorando a performance e o comportamento dos serviços após os ajustes realizados as 11h45. Seguimos também analisando os logs para identificação da causa raiz do problema.
Logo que tenhamos novas informações, reportaremos neste incidente.

Updated
Jan 28 at 12:48pm GMT-3

Atualização sobre as investigações:

Identificamos que a falha ocorre logo após um aumento repentino na demanda de processamento de um recurso crítico para o correto funcionamento da plataforma: as instâncias de KeyDB, onde são armazenados em memória os registros de estado das ligações e dos agentes conectados.

Embora este recurso já tenha passado por um aumento significativo em sua capacidade máxima, realizamos um novo incremento para atender à demanda atual.

No entanto, acreditamos que o problema pode estar relacionado à controladora de telefonia, que parece estar gerando um aumento inesperado na carga deste recurso. Para entender a causa raiz, estamos conduzindo uma análise aprofundada dos logs, buscando identificar os fatores que levaram às falhas, que hoje ocorreram três vezes consecutivas.

Updated
Jan 28 at 11:52am GMT-3

Testes mostram normalização novamente.
Estamos monitorando o comportamento após ajuste realizado.

Updated
Jan 28 at 11:51am GMT-3

Processo concluído. Iniciando novamente os testes e monitoramentos.

Updated
Jan 28 at 11:48am GMT-3

Estamos iniciando novamente o procedimento de reinicialização e desta vez aplicando mais uma nova configuração de expansão de recursos. Nossas investigações apontaram que a falha que estamos enfrentando é a mesma da semana passada.

Previsão de retorno de 5 minutos.

Updated
Jan 28 at 11:47am GMT-3

Identificamos reincidência da falha mais uma vez.

Updated
Jan 28 at 11:34am GMT-3

Testes demonstraram normalização. Seguimos monitorando.

Updated
Jan 28 at 11:29am GMT-3

Durante os procedimentos identificamos distribuição incorreta das instancias de controladora de telefonia nos nós do Cluster. Aplicamos a correção para este problema e estamos iniciando novos testes neste instante.

Updated
Jan 28 at 11:22am GMT-3

Realizando novamente o procedimento emergencial para correção. Todos os agentes serão desconectados e todas ligações serão encerradas.

Updated
Jan 28 at 11:18am GMT-3

Identificamos reincidência do problema.

Updated
Jan 28 at 10:13am GMT-3

Nosso time está investigando a causa do incidente e reportaremos assim que tivermos mais informações.

Updated
Jan 28 at 10:09am GMT-3

Procedimento concluído. Estamos monitorando a performance da plataforma.

Updated
Jan 28 at 10:07am GMT-3

Identificamos a falha ocorrendo em larga escala nos componentes de armazenamento realtime do estado de agentes e ligações.

Estamos iniciando procedimento emergencial de limpeza e reinicialização do controle de telefonia para restabelecimento do sistema.

Created
Jan 28 at 10:06am GMT-3

Estamos investigando uma falha causando abandono de chamadas na plataforma.