Le 16/03/2021, entre 18h45 et 19h20, l’ensemble de la plateforme Fasterize a subi des ralentissements avec des temps de réponse possiblement élevés quelque soit le site.
Entre 18h49 et 18h59, la plateforme a automatiquement basculé le trafic vers les origines clients afin d’assurer la continuité du trafic.
A partir de 18h58, de nouvelles machines ont été ajoutées et ont commencé à prendre du trafic pour mitiger l’impact en attendant de trouver la root cause.
A 19h, le trafic est à nouveau routé sur la plateforme Fasterize et seules quelques requêtes sont ralenties.
A 19h18, la cause est identifiée et conduit à bloquer 10 minutes plus tard une adresse IP effectuant des requêtes surchargeant la plateforme.
A partir de 8h23, un serveur hébergé chez GCP a lancé plusieurs centaines de requêtes sur des fichiers volumineux transitant par nos proxys (fichiers XML > 1Go). Jusqu’alors, ce serveur faisait quelques dizaines de requêtes par jour.
La bande passante sur les fronts et les proxys a progressivement augmenté sur toute la journée (jusqu’à un facteur x2.5 par rapport à la veille et à la semaine précédente) :
A partir de 18h45, les temps de réponse globaux ont commencé à se dégrader sans qu’il y ait plus de bande passante utilisée/
Cela peut s’expliquer par l’augmentation soudaine du load des frontaux qui jusque là était stable. L’augmentation du load reste cependant inexpliquée à cette heure.
Niveaux de sévérité de l'incident :
Temps de détection : 5 minutes (18h45 ⇢ 18h49)
Temps de résolution : 35 minutes (18h45 ⇢ 19h20)
Durée de l’incident : 35 minutes
Court terme :
Moyen terme :
English version
On 16/03/2021, between 18:45 and 19:20, the entire Fasterize platform experienced slowdowns with possibly high response times regardless of the site.
Between 18:49 and 18:59, the platform automatically switched the traffic to the customer origins to ensure the continuity of traffic.
From 18:58, new machines were added and started to take traffic to mitigate the impact until the root cause is found.
At 7:00 pm, the traffic is again routed on the Fasterize platform and only a few requests are slowed down.
At 7:18pm, the cause is identified and leads to blocking 10 minutes later an IP address making requests overloading the platform.
From 8:23 am, a server hosted by GCP started several hundred requests on large files transiting through our proxies (XML files > 1GB). Until then, this server made a few dozen requests per day.
The bandwidth on the fronts and proxies has progressively increased throughout the day (up to a factor x2.5 compared to the day before and the week before)
Starting at 6:45pm, overall response times started to degrade without more bandwidth being used.
This can be explained by the sudden increase of the load of the front-ends, which until then had been stable. The increase in load remains unexplained at this time.
Incident severity levels:
Detection time: 5 minutes (18h45 ⇢ 18h49)
Resolution time: 35 minutes (18h45 ⇢ 19h20)
Duration of the incident: 35 minutes
[ ] planned, [-] doing, [x] done