Voltar para visão geral
Tempo de inatividade

Incidente no Cluster 3C plus

16 Out, 04:01pm GMT-3
Serviços afetados
Back-end API
Monitoramento Heartbeat
Gravação de Ligações
Controle de Telefonia
Telefonia - Agentes
Telefonia - Ligações
Detecção de Caixas Postais

Resolvido
17 Out, 12:42am GMT-3

Após uma extensa investigação que se estendeu por várias horas, conseguimos identificar a causa raiz do incidente, que ocorreu na estrutura de roteamento de rede interna do nosso cluster Google Kubernetes Engine. Devido à natureza inédita do problema, sua identificação se mostrou verdadeiramente complexa, resultando na mais longa indisponibilidade de nossos serviços até o momento.

Realizamos uma varredura completa em nosso cluster e procedemos com a atualização e recriação de todos os nós. Além disso, estamos em contato com nosso parceiro de infraestrutura, o Google Cloud, para entender quais medidas adicionais podem ser tomadas para prevenir esse tipo de falha no futuro.

É importante destacar que, embora assumamos total responsabilidade pelo ocorrido, queremos reforçar nosso compromisso com a transparência junto aos nossos clientes. A falha, infelizmente, ocorreu no âmbito da infraestrutura e não foi causada por nenhum bug ou atualização de versão em nosso software.

Atualizado
16 Out, 10:44pm GMT-3

Concluímos a manutenção do cluster de forma antecipada. A plataforma 3C Plus já encontra-se totalmente disponível. Vários testes já foram realizados para garantir o pleno funcionamento após todas as alterações realizadas.

Em nome de todo o time da 3C Plus, queremos expressar nosso profundo agradecimento por sua paciência e compreensão neste momento crítico. Durante as próximas 24h, seguiremos monitorando de perto o funcionamento da plataforma para garantir que as modificações e manutenções realizadas tiveram resultados positivos.

Agradecemos imensamente pela sua compreensão e apoio contínuo. Continuaremos trabalhando incansavelmente para resolver essas situações sempre o mais rápido possível e manteremos você atualizado.

Atualizado
16 Out, 10:01pm GMT-3

A manutenção emergencial do cluster está em curso neste momento. Os serviços estarão indisponíveis durante o processo. A previsão de conclusão é até 01h00 desta terça-feira (17), podendo concluir antes do previsto.

Atualizado
16 Out, 07:47pm GMT-3

Identificamos a causa raiz do problema.

Alguns dos nós essenciais do cluster Google Kubernetes Engine onde roda a plataforma 3C Plus apresentaram problema de conectividade, fazendo com que múltiplos microsserviços da infra-estrutura deixassem de se comunicar corretamente.

A falha foi completamente identificada por nossa equipe as 19h47. Os nós onde o problema ocorria foram isolados da infra-estrutura.

Uma manutenção emergencial terá que ser executada na madrugada de hoje, a partir das 21h40 (Seg 16 de out. 2023) com previsão de plena normalização às 01h00 (Ter 17 de out. 2023).

Criado
16 Out, 04:01pm GMT-3

Estamos investigando uma falha generalizada em nossa plataforma que está afetando a conexão das instâncias de agentes e ligações. Impedindo que agentes conecte, ligações sejam realizadas e encerradas.

Nosso time está 100% voltado à esta falha com máxima prioridade.

No momento ainda não identificamos a causa do problema.