Previous incidents
Falha nas discagens da plataforma
Resolved Apr 23 at 08:31am GMT-3
Falha corrigida.
1 previous update
Interrupções na conexão websocket com a plataforma
Resolved Apr 22 at 09:55am GMT-3
Correção realizada. Plataforma normalizada.
3 previous updates
Desconexões de usuários na plataforma
Resolved Apr 14 at 03:37pm GMT-3
📝 Post-mortem — Desconexões de Usuários na Plataforma
Data: 14/04/2025
Horário: 15:09 – 15:14 (GMT-3)
Resumo do Incidente
No dia 14/04, entre 15h09 e 15h14, identificamos desconexões inesperadas de usuários em nossa plataforma, impactando os seguintes serviços:
- Back-end API
- Vox - Back-end CLI
- Controle de Telefonia
- Telefonia - Agentes
- Telefonia - Ligações
Causa Identificada
Durante a investigação, constatamos que o limite de conexões simu...
3 previous updates
Degradação de performance na velocidade de discagem do sistema
Resolved Apr 14 at 10:33am GMT-3
Processo concluído. Estamos monitorando para garantir normalização completa.
2 previous updates
Demora no recebimento de mensagens no omnichannel
Resolved Mar 24 at 03:45pm GMT-3
O recebimento de mensagens e as atualizações de status das mensagens enviadas (ACK) foram normalizados.
1 previous update
Abandono de ligações
Resolved Mar 28 at 11:31am GMT-3
Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.
18 previous updates
Abandono de ligações
Resolved Mar 19 at 02:46pm GMT-3
Estamos monitorando e iniciando processo de investigação mais profundo neste momento.
3 previous updates
Instabilidade detectada
Resolved Mar 18 at 03:21pm GMT-3
Confirmamos após monitoramento que todos os serviços foram completamente restabelecidos. A causa raiz do problema foi solucionada. Além do monitoramento contínuo, nenhuma ação futura será necessária para este incidente.
4 previous updates
Omnichannel - Falha em carregar tela de chats
Resolved Mar 17 at 11:38am GMT-3
Foi identificado a causa raiz do problema e corrigido.
Tela de chats normalizado.
1 previous update
Chamadas presas impedindo discagem
Resolved Mar 01 at 09:17am GMT-3
Postmortem – Falha na Geração de Ligações
Data do incidente: 01 de março de 2025
Duração: 07:59 – 08:39 GMT-3
Status: Resolvido
Resumo do Incidente
Na manhã do dia 01 de março, identificamos uma falha que impedia a geração de ligações na plataforma. As chamadas que foram iniciadas não foram corretamente processadas, impactando a operação.
Causa Raiz
A investigação apontou que o problema teve origem nas atualizações automáticas do Google Kubernetes Engine (GKE), onde nosso cluster e...
4 previous updates
Atraso no recebimento de mesagens
Resolved Feb 28 at 03:50pm GMT-3
A capacidade de processamento da infraestrutura foi aumentada, os eventos acumulados foram processados e o tempo de recebimento de mensagens, assim como a atualização do status das mensagens enviadas, foi normalizado.
1 previous update
Incidente de abandono de ligações
Resolved Feb 24 at 03:48pm GMT-3
Post-mortem – Incidente de abandono de ligações (24/fev)
A seguir apresentamos um resumo cronológico do incidente, as ações tomadas e o tempo total de indisponibilidade identificado.
Tempo total de indisponibilidade
Somando os três períodos identificados de efetiva indisponibilidade:
- 1º Período 11h20–11h29: 9 minutos
- 2º Período 11h42–11h46: 4 minutos
- 3º Período 15h22–15h26: 4 minutos
Total: ~17 minutos de indisponibilidade.
Causa raiz e ...
11 previous updates
Omnichannel 3C+: Falha no envio e listagem de chats
Resolved Feb 20 at 11:24am GMT-3
Concluímos a correção para normalização da falha.
Estamos agora iniciando testes e monitorando o sistema para garantir que está tudo solucionado.
3 previous updates
Instabilidade na plataforma
Resolved Feb 12 at 03:19pm GMT-3
Após investigações, encontramos uma possível causa para o problema enfrentado. Estamos atuando nela neste momento. As correções serão aplicadas ao ambiente sem impactos previstos.
6 previous updates
Instabilidade no serviço de Back-end API
Resolved Feb 05 at 10:36am GMT-3
Enfrentamos uma instabilidade em nosso sistema decorrente de um súbito aumento no tráfego de usuários. Este incremento inesperado de acessos não permitiu tempo hábil para a escalabilidade dos componentes necessários, culminando na ocorrência de um erro 500 em nossa plataforma.
O incidente foi prontamente identificado e as medidas necessárias foram tomadas para mitigar o impacto aos nossos usuários. Nossa equipe técnica está empenhada em monitorar continuamente o ambiente, a fim de assegurar ...
2 previous updates
Instabilidade no serviço de Back-end API
Resolved Feb 04 at 02:20pm GMT-3
As instabilidades no processamento de requisições da API foram totalmente resolvidas. Após uma investigação detalhada, identificamos a causa raiz do problema, relacionada a limitações nas configurações que impactavam o processamento de grandes volumes de requisições paralelas.
Realizamos ajustes específicos nessas configurações, o que permitiu otimizar a capacidade de processamento do microsserviço de back-end. As melhorias foram aplicadas com sucesso e, desde então, o sistema opera de forma...
3 previous updates