Incidentes anteriores

Abril 2025
23 Abr 2025
1 incidente

Falha nas discagens da plataforma

Instável

Resolvido 23 Abr, 08:31am GMT-3

Falha corrigida.

1 atualização anterior

22 Abr 2025
1 incidente

Interrupções na conexão websocket com a plataforma

Instável

Resolvido 22 Abr, 09:55am GMT-3

Correção realizada. Plataforma normalizada.

3 atualizações anteriores

14 Abr 2025
2 incidentes

Desconexões de usuários na plataforma

Tempo de inatividade

Resolvido 14 Abr, 03:37pm GMT-3

📝 Post-mortem — Desconexões de Usuários na Plataforma

Data: 14/04/2025

Horário: 15:09 – 15:14 (GMT-3)

Resumo do Incidente

No dia 14/04, entre 15h09 e 15h14, identificamos desconexões inesperadas de usuários em nossa plataforma, impactando os seguintes serviços:

  • Back-end API
  • Vox - Back-end CLI
  • Controle de Telefonia
  • Telefonia - Agentes
  • Telefonia - Ligações

Causa Identificada

Durante a investigação, constatamos que o limite de conexões simu...

3 atualizações anteriores

Degradação de performance na velocidade de discagem do sistema

Instável

Resolvido 14 Abr, 10:33am GMT-3

Processo concluído. Estamos monitorando para garantir normalização completa.

2 atualizações anteriores

Março 2025
24 Mar 2025
1 incidente

Demora no recebimento de mensagens no omnichannel

Instável

Resolvido 24 Mar, 03:45pm GMT-3

O recebimento de mensagens e as atualizações de status das mensagens enviadas (ACK) foram normalizados.

1 atualização anterior

21 Mar 2025
1 incidente

Abandono de ligações

Tempo de inatividade

Resolvido 28 Mar, 11:31am GMT-3

Informamos que nosso monitoramento após ajustes aplicados mostra normalização completa de todos os serviços. Nossa equipe segue monitorando tudo em tempo real.

18 atualizações anteriores

19 Mar 2025
1 incidente

Abandono de ligações

Tempo de inatividade

Resolvido 19 Mar, 02:46pm GMT-3

Estamos monitorando e iniciando processo de investigação mais profundo neste momento.

3 atualizações anteriores

18 Mar 2025
1 incidente

Instabilidade detectada

Tempo de inatividade

Resolvido 18 Mar, 03:21pm GMT-3

Confirmamos após monitoramento que todos os serviços foram completamente restabelecidos. A causa raiz do problema foi solucionada. Além do monitoramento contínuo, nenhuma ação futura será necessária para este incidente.

4 atualizações anteriores

17 Mar 2025
1 incidente

Omnichannel - Falha em carregar tela de chats

Instável

Resolvido 17 Mar, 11:38am GMT-3

Foi identificado a causa raiz do problema e corrigido.
Tela de chats normalizado.

1 atualização anterior

01 Mar 2025
1 incidente

Chamadas presas impedindo discagem

Tempo de inatividade

Resolvido 01 Mar, 09:17am GMT-3

Postmortem – Falha na Geração de Ligações

Data do incidente: 01 de março de 2025
Duração: 07:59 – 08:39 GMT-3
Status: Resolvido

Resumo do Incidente

Na manhã do dia 01 de março, identificamos uma falha que impedia a geração de ligações na plataforma. As chamadas que foram iniciadas não foram corretamente processadas, impactando a operação.

Causa Raiz

A investigação apontou que o problema teve origem nas atualizações automáticas do Google Kubernetes Engine (GKE), onde nosso cluster e...

4 atualizações anteriores

Fevereiro 2025
28 Fev 2025
1 incidente

Atraso no recebimento de mesagens

Instável

Resolvido 28 Fev, 03:50pm GMT-3

A capacidade de processamento da infraestrutura foi aumentada, os eventos acumulados foram processados e o tempo de recebimento de mensagens, assim como a atualização do status das mensagens enviadas, foi normalizado.

1 atualização anterior

24 Fev 2025
1 incidente

Incidente de abandono de ligações

Instável

Resolvido 24 Fev, 03:48pm GMT-3

Post-mortem – Incidente de abandono de ligações (24/fev)

A seguir apresentamos um resumo cronológico do incidente, as ações tomadas e o tempo total de indisponibilidade identificado.


Tempo total de indisponibilidade

Somando os três períodos identificados de efetiva indisponibilidade:

  • 1º Período 11h20–11h29: 9 minutos
  • 2º Período 11h42–11h46: 4 minutos
  • 3º Período 15h22–15h26: 4 minutos

Total: ~17 minutos de indisponibilidade.


Causa raiz e ...

11 atualizações anteriores

20 Fev 2025
1 incidente

Omnichannel 3C+: Falha no envio e listagem de chats

Instável

Resolvido 20 Fev, 11:24am GMT-3

Concluímos a correção para normalização da falha.
Estamos agora iniciando testes e monitorando o sistema para garantir que está tudo solucionado.

3 atualizações anteriores

12 Fev 2025
1 incidente

Instabilidade na plataforma

Tempo de inatividade

Resolvido 12 Fev, 03:19pm GMT-3

Após investigações, encontramos uma possível causa para o problema enfrentado. Estamos atuando nela neste momento. As correções serão aplicadas ao ambiente sem impactos previstos.

6 atualizações anteriores

05 Fev 2025
1 incidente

Instabilidade no serviço de Back-end API

Instável

Resolvido 05 Fev, 10:36am GMT-3

Enfrentamos uma instabilidade em nosso sistema decorrente de um súbito aumento no tráfego de usuários. Este incremento inesperado de acessos não permitiu tempo hábil para a escalabilidade dos componentes necessários, culminando na ocorrência de um erro 500 em nossa plataforma.

O incidente foi prontamente identificado e as medidas necessárias foram tomadas para mitigar o impacto aos nossos usuários. Nossa equipe técnica está empenhada em monitorar continuamente o ambiente, a fim de assegurar ...

2 atualizações anteriores

04 Fev 2025
1 incidente

Instabilidade no serviço de Back-end API

Instável

Resolvido 04 Fev, 02:20pm GMT-3

As instabilidades no processamento de requisições da API foram totalmente resolvidas. Após uma investigação detalhada, identificamos a causa raiz do problema, relacionada a limitações nas configurações que impactavam o processamento de grandes volumes de requisições paralelas.

Realizamos ajustes específicos nessas configurações, o que permitiu otimizar a capacidade de processamento do microsserviço de back-end. As melhorias foram aplicadas com sucesso e, desde então, o sistema opera de forma...

3 atualizações anteriores