Crise finalizada
Foi constatada a degradação de performance no ambiente por meio das ferramentas de monitoramento. Concomitantemente ao sintoma, recebeu-se os primeiros acionamentos vindos de clientes, reportando a degradação no ambiente.
A equipe técnica foi mobilizada de imediato e iniciado o protocolo de crise, tendo em vista escopo, urgência e impacto do evento. Paralelamente à realização do troubleshooting pela equipe interna e também dos fornecedores alocados, providenciou-se a comunicação dos eventos na página de status do produto.
Em primeira análise foi identificado uma degradação na comunicação dos serviços que realizam o roteamento de mensagens.
O problema, de difícil diagnóstico, começou a escalar horizontalmente e verticalmente ainda na parte da manhã, envolvendo os times de SRE, plataforma, SI, além de contar também com o envolvimento de especialistas do nosso provedor de nuvem que estava impactado, a Microsoft.
O incidente foi escalado dentro da Microsoft e em paralelo continuou-se com as análises e tratativas internas.
Durante as ações internas para tratativa do incidente, embora sem sucesso permanente, foram identificados erros de Failover no banco de dados não relacional do provedor de nuvem, utilizado pelo BLiP. Com o assunto já escalado para as maiores instâncias do nosso provedor, recebemos a comunicação da Microsoft que havia ocorrido uma atualização de emergência no nível do SO e que teve impacto confirmado. Tratou-se de um patch de segurança que afetou o comportamento em um dos nossos banco de dados não relacionais. A partir de então foi descartada hipótese de um problema gerado pela Plataforma.
Diante disto, foi realizado rollback das ações internas realizadas durante o dia para que o ambiente voltasse ao estado inicial. Como medida de continuidade de negócio, passou-se a atuar no chaveamento do tráfego para outro serviço de banco não relacional. Isso gerou alguns comportamentos não performáticos específicos para certos casos e fez com que a percepção de normalização tenha levado mais algum tempo para esses clientes específicos, chegando na hora de término registrada.
Contexto:
Atualmente existem opções de configuração no bot que permitem que a sessão do usuário com o bot expire e o mesmo volte ao início do fluxo. Quando o usuário encontra-se no Desk e ocorre esta expiração, temos mensagem de “Falha ao enviar mensagem”, uma vez que apesar do ticket estar aberto, o usuário não se encontra mais no bloco de atendimento.
O que causou o cenário reportado:
Com o cenário ocorrido ontem (25/05/2020), onde tivemos degradação da Plataforma afetando o atendimento no Desk, ocorreram casos de expiração da sessão do usuário com o bot. Ela segue a regra de expiração configurada no próprio bot, deixando de ser possível interagir com o usuário no Desk.
Justificativa:
Dado que tivemos uma degradação no ambiente em um período maior, sentimos em informar que o cenário mencionado trata-se de um reflexo do incidente, uma vez que usuários que encontram-se com tickets abertos de fato não receberão as mensagens enviadas no Desk pelo atendentes. Diante disso, orientamos que os tickets que estejam com esse comportamento sejam finalizados para que, quando o usuário interagir novamente com Bot, o fluxo siga normalmente.
Lamentamos muito os transtornos provocados pela experiência ruim e nos colocamos à disposição para tirar todas as dúvidas que julguem necessárias.
Contexto:
Visando dar uma boa experiência aos usuários, alguns canais de mensageria, como Facebook Messenger e WhatsApp, impõem regras no envio de mensagens. Em resumo, essas políticas dizem que empresas e desenvolvedores, que usam esses canais para construção de bots, têm até 24 horas para responder a uma mensagem enviada por um usuário. O limite de 24 horas será reiniciado sempre que um usuário enviar uma mensagem ao bot.
O que causou o cenário reportado:
Com o cenário ocorrido ontem (25/05/2020), onde tivemos degradação da Plataforma, uma das ações realizadas como tentativa de sanar o problema foi realizar a limpeza da sessão do usuário. Infelizmente isso causou o cenário de mensagens com o erro “Unauthorized active message. Messages outside the response window are not allowed for the current sender”.
Orientações:
Sentimos em informar que o cenário mencionado trata-se de uma consequência das manobras de contenção da falha, uma vez que usuários que encontram-se com tickets abertos não receberam as mensagens enviadas no Desk pelo atendentes. Diante disso, orientamos que os tickets que estejam com esse comportamento sejam finalizados para que, quando o usuário interagir novamente com Bot, o fluxo siga normalmente.
Ticket interno #70100 para acompanhamento das ações internas.
Ticket na Microsoft 120052524001937 análise de causa raiz.
Estão sendo mapeadas ações para evitar que este cenário volte a ocorrer Ticket interno #70100.