Voltar para visão geral
Instável

Instabilidade no sistema

26 Ago, 03:27pm GMT-3
Serviços afetados
Back-end API

Resolvido
28 Ago, 05:19pm GMT-3

📑 Post-Mortem – Instabilidades 3C Plus

1. Contexto

Nos últimos dias, a plataforma 3C Plus apresentou uma sequência de instabilidades que impactaram a disponibilidade dos serviços de originação de chamadas, operação de agentes e acesso ao sistema.

Durante todo o período, nosso time esteve 100% focado na identificação, diagnóstico e solução dos problemas. Não medimos esforços: investigamos profundamente cada sintoma, revisamos logs, métricas de sistema e infraestrutura, e aplicamos ajustes até que todos os serviços fossem plenamente restabelecidos.

2. Linha do Tempo dos Últimos Eventos

21/08 – Lentidão de acesso ao Front-end 3C Plus.
22/08 – Oscilação na discadora causada por sobrecarga em banco de dados.
25/08 – Alta ociosidade em operadores devido a degradação no roteamento de chamadas.
26/08 (manhã) – Degradação intermitente no volume de chamadas originadas.
26/08 (tarde) – Instabilidade no Back-end API.

3. Diagnóstico

Após análise detalhada, identificamos duas causas principais que atuaram de forma sequencial:

Problema 1 – Oscilação do banco de dados de mailing

O banco de dados NoSQL que armazena listas de mailing da discadora apresentou limitações severas de performance.

Causas identificadas:

  • Configurações inadequadas de parâmetros de memória.
  • Índices insuficientes para consultas em grande escala.
  • Tipo de máquina subdimensionado em CPU e IOPS.

Impacto: degradação significativa das rotinas de originação de chamadas, gerando oscilações e intermitências.

Problema 2 – Limitação na camada de roteamento de telefonia

  • Após resolver o primeiro problema, a discadora passou a atingir níveis de performance maiores.

  • Esse aumento de tráfego expôs um gargalo na infraestrutura de proxy/softswitch responsável pela conexão do 3C Plus às operadoras de telefonia.

Impacto: aumento da ociosidade de operadores e chamadas recusadas com status "Falha - Recusada pela operadora"

4. Correções Aplicadas

Para o Banco de Dados de Mailing

  • Criação de índices adequados para otimizar as rotinas de leitura.
  • Ajustes finos em parâmetros de memória e cache.
  • Migração para máquinas mais robustas, com maior capacidade de CPU e IOPS.

Para a Infraestrutura de Telefonia

  • Escalonamento imediato da camada de proxy/softswitch.
  • Ampliação de limites de conexões simultâneas e rotas de saída.
  • Monitoração de carga adicional para validar a estabilidade.

5. Resultado

O problema 1 (banco de dados) exigiu vários dias de investigação e testes, mas foi solucionado de forma definitiva após a aplicação combinada dos ajustes.

O problema 2 (infra de telefonia) foi solucionado em cerca de 6 horas após o aumento da capacidade.

Desde a aplicação das correções, os serviços seguem estáveis, com níveis de performance superiores aos anteriores.

6. Compromisso

Disponibilidade é prioridade absoluta. Não descansamos enquanto os problemas não foram solucionados e não poupamos esforços ou recursos para devolver a normalidade à plataforma.

Reforçamos nosso compromisso em manter a confiança de nossos clientes, implementando melhores práticas de resiliência, escalabilidade e monitoramento contínuo.

✅ Conclusão

As instabilidades representaram um desafio técnico complexo, mas também uma oportunidade de evolução. Hoje, a plataforma 3C Plus encontra-se mais robusta, escalável e resiliente, pronta para sustentar os próximos níveis de crescimento de nossos clientes.

Atualizado
26 Ago, 03:40pm GMT-3

Identificamos que o sistema voltou ao seu estado normal. Nossa equipe segue investigando.

Criado
26 Ago, 03:27pm GMT-3

Identificamos uma instabilidade que está impedindo o uso adequado do sistema. Nossa equipe está investigando a causa para normalizar o serviço o quanto antes.