Downtime

Instabilidade no 3C+

Sep 18, 2025 at 4:13pm UTC

Affected services

Back-end API

Vox - Back-end CLI

Vox - Back-end Organizer

Front-end 3C+

Socket Realtime

Monitoramento Heartbeat

Gravação de Ligações

Controle de Telefonia

Telefonia - Agentes

Telefonia - SBC Agentes

Telefonia - Ligações

Detecção de Caixas Postais

Omni - Back-end API

Omni - Recebimento de Mensagens

CRM - Back-end API

Resolved
Sep 19, 2025 at 8:03pm UTC

Post-Mortem: Incidentes de Sistema - 18-19 de Setembro de 2025

Período dos Incidentes: 18-19 de setembro de 2025

Duração Total Combinada: 4h31min

Status: AMBOS INCIDENTES RESOLVIDOS

Manutenção Preventiva: ID 727380 - 21/09/2025 23h30-07h30

Resumo Executivo

Entre 18 e 19 de setembro de 2025, nossa plataforma enfrentou dois incidentes críticos completamente independentes com causas raiz distintas. Após investigação rigorosa, ambas as situações foram resolvidas com implementação de medidas preventivas abrangentes.

INCIDENTE 1 - 18 de Setembro de 2025

Duração: 3h50min (13:13 - 19:52 GMT-3)

Causa Raiz: Manutenção de infraestrutura do provedor cloud

Status: ✅ RESOLVIDO

O que aconteceu

Durante uma manutenção automática não programada da infraestrutura cloud, um dos componentes críticos do nosso banco de dados foi migrado automaticamente, causando uma cascata de falhas que afetou a performance geral da plataforma.

Como resolvemos

Investigação complexa para identificação da causa raiz
Isolamento e correção do componente afetado
Recuperação completa de todos os serviços
Abertura de caso prioritário com o provedor cloud

INCIDENTE 2 - 19 de Setembro de 2025

Duração: 41min (09:50 - 10:31 GMT-3)

Causa Raiz: Sobrecarga de recursos durante teste interno

Status: ✅ RESOLVIDO

O que aconteceu

Durante testes de uma nova versão de emissão de eventos via socket, ocorreu acúmulo anômalo de dados em memória que impactou a conectividade entre componentes do sistema, causando instabilidade generalizada.

Como resolvemos

Detecção da anomalia (10:28)
Isolamento imediato do componente causador
Restabelecimento completo em 3 minutos
Implementação de medidas internas corretivas

Confirmação de Independência

Investigação confirmou que os incidentes são completamente independentes:

Aspecto	Incidente 1 (18/09)	Incidente 2 (19/09)
Causa	Manutenção externa do provedor	Teste interno
Duração	3h20min	41min
Origem	Externa	Interna

Medidas Preventivas

Já Implementadas ✅

Isolamento total de ambientes de teste
Novos protocolos de desenvolvimento
Monitoramento intensificado
Procedimentos internos aprimorados

Programadas - Manutenção ID 727380

21 de setembro de 2025, 23h30-07h30 GMT-3

Configurações preventivas contra manutenções automáticas não programadas
Sistema de alertas avançado para detecção precoce de anomalias
Melhorias de arquitetura para maior resiliência

Status Atual

✅ Ambos os incidentes definitivamente resolvidos

✅ Sistema operando com total estabilidade desde 19/09 às 10:31

✅ Manutenção preventiva programada para implementar melhorias finais

✅ Monitoramento contínuo ativo

Updated
Sep 19, 2025 at 2:18pm UTC

Atualização da Investigação

Análise das Ocorrências

Após investigação detalhada, confirmamos que a falha registrada hoje é independente da ocorrência de ontem, tratando-se de incidentes distintos com causas diferentes.

Status da Resolução

A intervenção realizada hoje às 10h28 apresenta resultados positivos até o momento. Continuamos monitorando os indicadores para validar a eficácia completa da solução implementada.

Próximos Passos

Nossa equipe mantém investigação aprofundada para:
- Identificar e eliminar possíveis causas adicionais
- Garantir a estabilidade completa do sistema
- Prevenir futuras ocorrências similares

Relatório Final

Ao término da investigação, será emitido relatório técnico completo contendo análise detalhada, causas identificadas e medidas preventivas implementadas.

Nosso Compromisso

Este caso está sendo tratado com máxima prioridade por nossa equipe especializada, com foco na resolução definitiva e implementação de medidas que assegurem a estabilidade do serviço.

Status atual:

Desde as 10h31 a plataforma está operando dentro da normalidade.

Updated
Sep 19, 2025 at 1:43pm UTC

Informamos que durante investigações, que ainda estão em curso, nossa equipe identificou um ofensor, que foi isolado as 10h28, antes do restabelecimento dos serviços. Estamos monitorando o comportamento a partir do retorno para verificar se tudo está resolvido a partir de agora.

Updated
Sep 19, 2025 at 1:31pm UTC

Todos os serviços foram restabelecidos após procedimentos emergenciais.

Updated
Sep 19, 2025 at 12:55pm UTC

Identificamos novo travamento.

Updated
Sep 18, 2025 at 7:20pm UTC

Monitoramento preliminar ok. Seguimos acompanhando

Updated
Sep 18, 2025 at 7:16pm UTC

Serviços restabelecidos. Monitorando.

Updated
Sep 18, 2025 at 7:03pm UTC

Novas falhas identificadas. Abandono de chamadas.

Updated
Sep 18, 2025 at 6:50pm UTC

Nossa equipe está investigando a causa raiz do problema. No momento a causa raiz prévia identificada foi degradação de disco em um dos shardings conforme mencionado. Quando confirmado, lançaremos atualizações.

Updated
Sep 18, 2025 at 6:46pm UTC

Serviços restabelecidos. Estamos monitorando.

Updated
Sep 18, 2025 at 6:44pm UTC

Estamos realizando os procedimentos finais para normalização dos serviços. Previsão de 5 minutos.

Updated
Sep 18, 2025 at 6:39pm UTC

Identificamos um possível problema em um dos nodes onde roda uma das sharding replicas do database de histórico de ligações. Estamos removendo-o da estrutura e executando procedimentos de recuperação para normalização.

Updated
Sep 18, 2025 at 6:23pm UTC

Estamos atuando com máxima urgência e prioridade na correção e recuperação da falha.

Created
Sep 18, 2025 at 4:13pm UTC

Identificamos uma instabilidade em nosso sistema que pode causar travamentos/delay na tela do operador e afetar o volume de ligações. Nossa equipe já está investigando a causa.