Instabilidade no sistema
Resolved
Aug 28 at 05:19pm GMT-3
📑 Post-Mortem – Instabilidades 3C Plus
1. Contexto
Nos últimos dias, a plataforma 3C Plus apresentou uma sequência de instabilidades que impactaram a disponibilidade dos serviços de originação de chamadas, operação de agentes e acesso ao sistema.
Durante todo o período, nosso time esteve 100% focado na identificação, diagnóstico e solução dos problemas. Não medimos esforços: investigamos profundamente cada sintoma, revisamos logs, métricas de sistema e infraestrutura, e aplicamos ajustes até que todos os serviços fossem plenamente restabelecidos.
2. Linha do Tempo dos Últimos Eventos
21/08 – Lentidão de acesso ao Front-end 3C Plus.
22/08 – Oscilação na discadora causada por sobrecarga em banco de dados.
25/08 – Alta ociosidade em operadores devido a degradação no roteamento de chamadas.
26/08 (manhã) – Degradação intermitente no volume de chamadas originadas.
26/08 (tarde) – Instabilidade no Back-end API.
3. Diagnóstico
Após análise detalhada, identificamos duas causas principais que atuaram de forma sequencial:
Problema 1 – Oscilação do banco de dados de mailing
O banco de dados NoSQL que armazena listas de mailing da discadora apresentou limitações severas de performance.
Causas identificadas:
- Configurações inadequadas de parâmetros de memória.
- Índices insuficientes para consultas em grande escala.
- Tipo de máquina subdimensionado em CPU e IOPS.
Impacto: degradação significativa das rotinas de originação de chamadas, gerando oscilações e intermitências.
Problema 2 – Limitação na camada de roteamento de telefonia
Após resolver o primeiro problema, a discadora passou a atingir níveis de performance maiores.
Esse aumento de tráfego expôs um gargalo na infraestrutura de proxy/softswitch responsável pela conexão do 3C Plus às operadoras de telefonia.
Impacto: aumento da ociosidade de operadores e chamadas recusadas com status "Falha - Recusada pela operadora"
4. Correções Aplicadas
Para o Banco de Dados de Mailing
- Criação de índices adequados para otimizar as rotinas de leitura.
- Ajustes finos em parâmetros de memória e cache.
- Migração para máquinas mais robustas, com maior capacidade de CPU e IOPS.
Para a Infraestrutura de Telefonia
- Escalonamento imediato da camada de proxy/softswitch.
- Ampliação de limites de conexões simultâneas e rotas de saída.
- Monitoração de carga adicional para validar a estabilidade.
5. Resultado
O problema 1 (banco de dados) exigiu vários dias de investigação e testes, mas foi solucionado de forma definitiva após a aplicação combinada dos ajustes.
O problema 2 (infra de telefonia) foi solucionado em cerca de 6 horas após o aumento da capacidade.
Desde a aplicação das correções, os serviços seguem estáveis, com níveis de performance superiores aos anteriores.
6. Compromisso
Disponibilidade é prioridade absoluta. Não descansamos enquanto os problemas não foram solucionados e não poupamos esforços ou recursos para devolver a normalidade à plataforma.
Reforçamos nosso compromisso em manter a confiança de nossos clientes, implementando melhores práticas de resiliência, escalabilidade e monitoramento contínuo.
✅ Conclusão
As instabilidades representaram um desafio técnico complexo, mas também uma oportunidade de evolução. Hoje, a plataforma 3C Plus encontra-se mais robusta, escalável e resiliente, pronta para sustentar os próximos níveis de crescimento de nossos clientes.
Affected services
Updated
Aug 26 at 03:40pm GMT-3
Identificamos que o sistema voltou ao seu estado normal. Nossa equipe segue investigando.
Affected services
Created
Aug 26 at 03:27pm GMT-3
Identificamos uma instabilidade que está impedindo o uso adequado do sistema. Nossa equipe está investigando a causa para normalizar o serviço o quanto antes.
Affected services