Back to overview
Downtime

Instabilidade no 3C+

Sep 18 at 01:13pm GMT-3
Affected services
Back-end API
Vox - Back-end CLI
Vox - Back-end Organizer
Front-end 3C+
Socket Realtime
Monitoramento Heartbeat
Gravação de Ligações
Controle de Telefonia
Telefonia - Agentes
Telefonia - SBC Agentes
Telefonia - Ligações
Detecção de Caixas Postais
Omni - Back-end API
Omni - Recebimento de Mensagens
CRM - Back-end API

Resolved
Sep 19 at 05:03pm GMT-3

Post-Mortem: Incidentes de Sistema - 18-19 de Setembro de 2025

Período dos Incidentes: 18-19 de setembro de 2025

Duração Total Combinada: 4h31min

Status: AMBOS INCIDENTES RESOLVIDOS

Manutenção Preventiva: ID 727380 - 21/09/2025 23h30-07h30


Resumo Executivo

Entre 18 e 19 de setembro de 2025, nossa plataforma enfrentou dois incidentes críticos completamente independentes com causas raiz distintas. Após investigação rigorosa, ambas as situações foram resolvidas com implementação de medidas preventivas abrangentes.


INCIDENTE 1 - 18 de Setembro de 2025

Duração: 3h50min (13:13 - 19:52 GMT-3)

Causa Raiz: Manutenção de infraestrutura do provedor cloud

Status:RESOLVIDO

O que aconteceu

Durante uma manutenção automática não programada da infraestrutura cloud, um dos componentes críticos do nosso banco de dados foi migrado automaticamente, causando uma cascata de falhas que afetou a performance geral da plataforma.

Como resolvemos

  • Investigação complexa para identificação da causa raiz
  • Isolamento e correção do componente afetado
  • Recuperação completa de todos os serviços
  • Abertura de caso prioritário com o provedor cloud

INCIDENTE 2 - 19 de Setembro de 2025

Duração: 41min (09:50 - 10:31 GMT-3)

Causa Raiz: Sobrecarga de recursos durante teste interno

Status:RESOLVIDO

O que aconteceu

Durante testes de uma nova versão de emissão de eventos via socket, ocorreu acúmulo anômalo de dados em memória que impactou a conectividade entre componentes do sistema, causando instabilidade generalizada.

Como resolvemos

  • Detecção da anomalia (10:28)
  • Isolamento imediato do componente causador
  • Restabelecimento completo em 3 minutos
  • Implementação de medidas internas corretivas

Confirmação de Independência

Investigação confirmou que os incidentes são completamente independentes:

Aspecto Incidente 1 (18/09) Incidente 2 (19/09)
Causa Manutenção externa do provedor Teste interno
Duração 3h20min 41min
Origem Externa Interna

Medidas Preventivas

Já Implementadas ✅

  • Isolamento total de ambientes de teste
  • Novos protocolos de desenvolvimento
  • Monitoramento intensificado
  • Procedimentos internos aprimorados

Programadas - Manutenção ID 727380

21 de setembro de 2025, 23h30-07h30 GMT-3

  • Configurações preventivas contra manutenções automáticas não programadas
  • Sistema de alertas avançado para detecção precoce de anomalias
  • Melhorias de arquitetura para maior resiliência

Status Atual

Ambos os incidentes definitivamente resolvidos

Sistema operando com total estabilidade desde 19/09 às 10:31

Manutenção preventiva programada para implementar melhorias finais

Monitoramento contínuo ativo

Updated
Sep 19 at 11:18am GMT-3

Atualização da Investigação

Análise das Ocorrências

Após investigação detalhada, confirmamos que a falha registrada hoje é independente da ocorrência de ontem, tratando-se de incidentes distintos com causas diferentes.

Status da Resolução

A intervenção realizada hoje às 10h28 apresenta resultados positivos até o momento. Continuamos monitorando os indicadores para validar a eficácia completa da solução implementada.

Próximos Passos

Nossa equipe mantém investigação aprofundada para:
- Identificar e eliminar possíveis causas adicionais
- Garantir a estabilidade completa do sistema
- Prevenir futuras ocorrências similares

Relatório Final

Ao término da investigação, será emitido relatório técnico completo contendo análise detalhada, causas identificadas e medidas preventivas implementadas.

Nosso Compromisso

Este caso está sendo tratado com máxima prioridade por nossa equipe especializada, com foco na resolução definitiva e implementação de medidas que assegurem a estabilidade do serviço.

Status atual:

Desde as 10h31 a plataforma está operando dentro da normalidade.

Updated
Sep 19 at 10:43am GMT-3

Informamos que durante investigações, que ainda estão em curso, nossa equipe identificou um ofensor, que foi isolado as 10h28, antes do restabelecimento dos serviços. Estamos monitorando o comportamento a partir do retorno para verificar se tudo está resolvido a partir de agora.

Updated
Sep 19 at 10:31am GMT-3

Todos os serviços foram restabelecidos após procedimentos emergenciais.

Updated
Sep 19 at 09:55am GMT-3

Identificamos novo travamento.

Updated
Sep 18 at 04:20pm GMT-3

Monitoramento preliminar ok. Seguimos acompanhando

Updated
Sep 18 at 04:16pm GMT-3

Serviços restabelecidos. Monitorando.

Updated
Sep 18 at 04:03pm GMT-3

Novas falhas identificadas. Abandono de chamadas.

Updated
Sep 18 at 03:50pm GMT-3

Nossa equipe está investigando a causa raiz do problema. No momento a causa raiz prévia identificada foi degradação de disco em um dos shardings conforme mencionado. Quando confirmado, lançaremos atualizações.

Updated
Sep 18 at 03:46pm GMT-3

Serviços restabelecidos. Estamos monitorando.

Updated
Sep 18 at 03:44pm GMT-3

Estamos realizando os procedimentos finais para normalização dos serviços. Previsão de 5 minutos.

Updated
Sep 18 at 03:39pm GMT-3

Identificamos um possível problema em um dos nodes onde roda uma das sharding replicas do database de histórico de ligações. Estamos removendo-o da estrutura e executando procedimentos de recuperação para normalização.

Updated
Sep 18 at 03:23pm GMT-3

Estamos atuando com máxima urgência e prioridade na correção e recuperação da falha.

Created
Sep 18 at 01:13pm GMT-3

Identificamos uma instabilidade em nosso sistema que pode causar travamentos/delay na tela do operador e afetar o volume de ligações. Nossa equipe já está investigando a causa.