Incidente:
Após recebermos alertas das nossas monitorias e relatos de alguns clientes, identificamos uma intermitência ao acessar algumas lojas e em outras o cenário era de lentidão no carregamento.
Impacto:
Alguns consumidores destas lojas não conseguiam navegar na mesma de maneira geral e consequentemente não podiam finalizar pedidos, normalmente o acesso era interrompido com uma mensagem de Loja em Manutenção.
Causa:
Identificamos que nosso componente que armazena e retorna o cache das páginas e assim evita sobrecarga nos servidores, reiniciou diversas vezes em um período de aproximadamente 25 minutos, ou seja, o serviço reiniciava mas não conseguia ficar operante e reiniciava novamente como processo de resiliência e desta forma a aplicação foi sobrecarregada por muito tempo tendo que atender as requisições diretamente com o núcleo da nossa aplicação, ao invés de atende-las com a estrutura cacheada, e isso sobrecarregou os servidores.
Solução:
Depois de aproximadamente 25 minutos e algumas manobras da nossa equipe, o componente conseguiu iniciar e ficar operante novamente, as páginas foram cacheadas e a operação voltou ao normal.
Próximos passos: