Back to overview
Downtime

Instabilidade no 3C+

Sep 18, 2025 at 4:13pm UTC
Affected services
Back-end API
Vox - Back-end CLI
Vox - Back-end Organizer
Front-end 3C+
Socket Realtime
Monitoramento Heartbeat
Gravação de Ligações
Controle de Telefonia
Telefonia - Agentes
Telefonia - SBC Agentes
Telefonia - Ligações
Detecção de Caixas Postais
Omni - Back-end API
Omni - Recebimento de Mensagens
CRM - Back-end API

Resolved
Sep 19, 2025 at 8:03pm UTC

Post-Mortem: Incidentes de Sistema - 18-19 de Setembro de 2025

Período dos Incidentes: 18-19 de setembro de 2025

Duração Total Combinada: 4h31min

Status: AMBOS INCIDENTES RESOLVIDOS

Manutenção Preventiva: ID 727380 - 21/09/2025 23h30-07h30


Resumo Executivo

Entre 18 e 19 de setembro de 2025, nossa plataforma enfrentou dois incidentes críticos completamente independentes com causas raiz distintas. Após investigação rigorosa, ambas as situações foram resolvidas com implementação de medidas preventivas abrangentes.


INCIDENTE 1 - 18 de Setembro de 2025

Duração: 3h50min (13:13 - 19:52 GMT-3)

Causa Raiz: Manutenção de infraestrutura do provedor cloud

Status:RESOLVIDO

O que aconteceu

Durante uma manutenção automática não programada da infraestrutura cloud, um dos componentes críticos do nosso banco de dados foi migrado automaticamente, causando uma cascata de falhas que afetou a performance geral da plataforma.

Como resolvemos

  • Investigação complexa para identificação da causa raiz
  • Isolamento e correção do componente afetado
  • Recuperação completa de todos os serviços
  • Abertura de caso prioritário com o provedor cloud

INCIDENTE 2 - 19 de Setembro de 2025

Duração: 41min (09:50 - 10:31 GMT-3)

Causa Raiz: Sobrecarga de recursos durante teste interno

Status:RESOLVIDO

O que aconteceu

Durante testes de uma nova versão de emissão de eventos via socket, ocorreu acúmulo anômalo de dados em memória que impactou a conectividade entre componentes do sistema, causando instabilidade generalizada.

Como resolvemos

  • Detecção da anomalia (10:28)
  • Isolamento imediato do componente causador
  • Restabelecimento completo em 3 minutos
  • Implementação de medidas internas corretivas

Confirmação de Independência

Investigação confirmou que os incidentes são completamente independentes:

Aspecto Incidente 1 (18/09) Incidente 2 (19/09)
Causa Manutenção externa do provedor Teste interno
Duração 3h20min 41min
Origem Externa Interna

Medidas Preventivas

Já Implementadas ✅

  • Isolamento total de ambientes de teste
  • Novos protocolos de desenvolvimento
  • Monitoramento intensificado
  • Procedimentos internos aprimorados

Programadas - Manutenção ID 727380

21 de setembro de 2025, 23h30-07h30 GMT-3

  • Configurações preventivas contra manutenções automáticas não programadas
  • Sistema de alertas avançado para detecção precoce de anomalias
  • Melhorias de arquitetura para maior resiliência

Status Atual

Ambos os incidentes definitivamente resolvidos

Sistema operando com total estabilidade desde 19/09 às 10:31

Manutenção preventiva programada para implementar melhorias finais

Monitoramento contínuo ativo

Updated
Sep 19, 2025 at 2:18pm UTC

Atualização da Investigação

Análise das Ocorrências

Após investigação detalhada, confirmamos que a falha registrada hoje é independente da ocorrência de ontem, tratando-se de incidentes distintos com causas diferentes.

Status da Resolução

A intervenção realizada hoje às 10h28 apresenta resultados positivos até o momento. Continuamos monitorando os indicadores para validar a eficácia completa da solução implementada.

Próximos Passos

Nossa equipe mantém investigação aprofundada para:
- Identificar e eliminar possíveis causas adicionais
- Garantir a estabilidade completa do sistema
- Prevenir futuras ocorrências similares

Relatório Final

Ao término da investigação, será emitido relatório técnico completo contendo análise detalhada, causas identificadas e medidas preventivas implementadas.

Nosso Compromisso

Este caso está sendo tratado com máxima prioridade por nossa equipe especializada, com foco na resolução definitiva e implementação de medidas que assegurem a estabilidade do serviço.

Status atual:

Desde as 10h31 a plataforma está operando dentro da normalidade.

Updated
Sep 19, 2025 at 1:43pm UTC

Informamos que durante investigações, que ainda estão em curso, nossa equipe identificou um ofensor, que foi isolado as 10h28, antes do restabelecimento dos serviços. Estamos monitorando o comportamento a partir do retorno para verificar se tudo está resolvido a partir de agora.

Updated
Sep 19, 2025 at 1:31pm UTC

Todos os serviços foram restabelecidos após procedimentos emergenciais.

Updated
Sep 19, 2025 at 12:55pm UTC

Identificamos novo travamento.

Updated
Sep 18, 2025 at 7:20pm UTC

Monitoramento preliminar ok. Seguimos acompanhando

Updated
Sep 18, 2025 at 7:16pm UTC

Serviços restabelecidos. Monitorando.

Updated
Sep 18, 2025 at 7:03pm UTC

Novas falhas identificadas. Abandono de chamadas.

Updated
Sep 18, 2025 at 6:50pm UTC

Nossa equipe está investigando a causa raiz do problema. No momento a causa raiz prévia identificada foi degradação de disco em um dos shardings conforme mencionado. Quando confirmado, lançaremos atualizações.

Updated
Sep 18, 2025 at 6:46pm UTC

Serviços restabelecidos. Estamos monitorando.

Updated
Sep 18, 2025 at 6:44pm UTC

Estamos realizando os procedimentos finais para normalização dos serviços. Previsão de 5 minutos.

Updated
Sep 18, 2025 at 6:39pm UTC

Identificamos um possível problema em um dos nodes onde roda uma das sharding replicas do database de histórico de ligações. Estamos removendo-o da estrutura e executando procedimentos de recuperação para normalização.

Updated
Sep 18, 2025 at 6:23pm UTC

Estamos atuando com máxima urgência e prioridade na correção e recuperação da falha.

Created
Sep 18, 2025 at 4:13pm UTC

Identificamos uma instabilidade em nosso sistema que pode causar travamentos/delay na tela do operador e afetar o volume de ligações. Nossa equipe já está investigando a causa.