Incidente no Cluster 3C plus
Resolved
Oct 17 at 12:42am GMT-3
Após uma extensa investigação que se estendeu por várias horas, conseguimos identificar a causa raiz do incidente, que ocorreu na estrutura de roteamento de rede interna do nosso cluster Google Kubernetes Engine. Devido à natureza inédita do problema, sua identificação se mostrou verdadeiramente complexa, resultando na mais longa indisponibilidade de nossos serviços até o momento.
Realizamos uma varredura completa em nosso cluster e procedemos com a atualização e recriação de todos os nós. Além disso, estamos em contato com nosso parceiro de infraestrutura, o Google Cloud, para entender quais medidas adicionais podem ser tomadas para prevenir esse tipo de falha no futuro.
É importante destacar que, embora assumamos total responsabilidade pelo ocorrido, queremos reforçar nosso compromisso com a transparência junto aos nossos clientes. A falha, infelizmente, ocorreu no âmbito da infraestrutura e não foi causada por nenhum bug ou atualização de versão em nosso software.
Affected services
Back-end API
Gravação de Ligações
Monitoramento Heartbeat
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Detecção de Caixas Postais
Updated
Oct 16 at 10:44pm GMT-3
Concluímos a manutenção do cluster de forma antecipada. A plataforma 3C Plus já encontra-se totalmente disponível. Vários testes já foram realizados para garantir o pleno funcionamento após todas as alterações realizadas.
Em nome de todo o time da 3C Plus, queremos expressar nosso profundo agradecimento por sua paciência e compreensão neste momento crítico. Durante as próximas 24h, seguiremos monitorando de perto o funcionamento da plataforma para garantir que as modificações e manutenções realizadas tiveram resultados positivos.
Agradecemos imensamente pela sua compreensão e apoio contínuo. Continuaremos trabalhando incansavelmente para resolver essas situações sempre o mais rápido possível e manteremos você atualizado.
Affected services
Back-end API
Gravação de Ligações
Monitoramento Heartbeat
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Detecção de Caixas Postais
Updated
Oct 16 at 10:01pm GMT-3
A manutenção emergencial do cluster está em curso neste momento. Os serviços estarão indisponíveis durante o processo. A previsão de conclusão é até 01h00 desta terça-feira (17), podendo concluir antes do previsto.
Affected services
Back-end API
Gravação de Ligações
Monitoramento Heartbeat
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Detecção de Caixas Postais
Updated
Oct 16 at 07:47pm GMT-3
Identificamos a causa raiz do problema.
Alguns dos nós essenciais do cluster Google Kubernetes Engine onde roda a plataforma 3C Plus apresentaram problema de conectividade, fazendo com que múltiplos microsserviços da infra-estrutura deixassem de se comunicar corretamente.
A falha foi completamente identificada por nossa equipe as 19h47. Os nós onde o problema ocorria foram isolados da infra-estrutura.
Uma manutenção emergencial terá que ser executada na madrugada de hoje, a partir das 21h40 (Seg 16 de out. 2023) com previsão de plena normalização às 01h00 (Ter 17 de out. 2023).
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Created
Oct 16 at 04:01pm GMT-3
Estamos investigando uma falha generalizada em nossa plataforma que está afetando a conexão das instâncias de agentes e ligações. Impedindo que agentes conecte, ligações sejam realizadas e encerradas.
Nosso time está 100% voltado à esta falha com máxima prioridade.
No momento ainda não identificamos a causa do problema.
Affected services
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações