Acceleration is disabled.
Incident Report for Fasterize
Postmortem

Description

Le 16/03/2021, entre 18h45 et 19h20, l’ensemble de la plateforme Fasterize a subi des ralentissements avec des temps de réponse possiblement élevés quelque soit le site.

Entre 18h49 et 18h59, la plateforme a automatiquement basculé le trafic vers les origines clients afin d’assurer la continuité du trafic.

A partir de 18h58, de nouvelles machines ont été ajoutées et ont commencé à prendre du trafic pour mitiger l’impact en attendant de trouver la root cause.

A 19h, le trafic est à nouveau routé sur la plateforme Fasterize et seules quelques requêtes sont ralenties.

A 19h18, la cause est identifiée et conduit à bloquer 10 minutes plus tard une adresse IP effectuant des requêtes surchargeant la plateforme.

Faits et timeline

  • A partir de 8h23, augmentation du nombre de requêtes vers des fichiers volumineux (> 1 Go) d’un site client
  • A partir de 14h, seconde augmentation du nombre de requêtes vers ces fichiers volumineux
  • 18h49, alerte sur un nb élevé de requêtes annulées par les internautes (499)
  • 18h50, alerte sur l’indispo de nos fronts, le trafic est rerouté automatiquement sur les origines client
  • 18h55, ajout de machines dans le pool
  • 18h58, les nouvelles machines répondent au trafic
  • 18h59, la plateforme est de nouveau vue comme up, le trafic est rerouté chez Fasterize, quelques ralentissements
  • 19h18, débranchement du site client après identification de la surcharge de trafic
  • 19h20, retour à la normale (plus de ralentissements)
  • 19h27, blocage de l’adresse IP incriminée

Analyse

A partir de 8h23, un serveur hébergé chez GCP a lancé plusieurs centaines de requêtes sur des fichiers volumineux transitant par nos proxys (fichiers XML > 1Go). Jusqu’alors, ce serveur faisait quelques dizaines de requêtes par jour.

La bande passante sur les fronts et les proxys a progressivement augmenté sur toute la journée (jusqu’à un facteur x2.5 par rapport à la veille et à la semaine précédente) :

A partir de 18h45, les temps de réponse globaux ont commencé à se dégrader sans qu’il y ait plus de bande passante utilisée/

Cela peut s’expliquer par l’augmentation soudaine du load des frontaux qui jusque là était stable. L’augmentation du load reste cependant inexpliquée à cette heure.

Métriques

  • Niveaux de sévérité de l'incident :

    • Sévérité 2 : dégradation du site, problème de performance et/ou feature cassée avec difficulté de contourner impactant un nombre significatif d'utilisateur
  • Temps de détection : 5 minutes (18h45 ⇢ 18h49)

  • Temps de résolution : 35 minutes (18h45 ⇢ 19h20)

  • Durée de l’incident : 35 minutes

Impacts

  • Débranchement automatique de l’ensemble des clients pdt 10 minutes.
  • Aucun ticket au support
  • Débranchement manuel de quelques sites par un client

Contre mesures

Actions pendant l’incident

  • Ajout de frontaux
  • Débranchement du site web incriminé
  • Blocage de l’adresse incriminée

Plan d'actions

Court terme : 

  • Ajustement des alertes sur la bande passante
  • Ajustement des alertes sur le ping-fstrz-engine
  • Détection des objets les plus volumineux pour les bypasser

Moyen terme : 

  • Rate limiting sur les objets volumineux

English version

Description

On 16/03/2021, between 18:45 and 19:20, the entire Fasterize platform experienced slowdowns with possibly high response times regardless of the site.

Between 18:49 and 18:59, the platform automatically switched the traffic to the customer origins to ensure the continuity of traffic.

From 18:58, new machines were added and started to take traffic to mitigate the impact until the root cause is found.

At 7:00 pm, the traffic is again routed on the Fasterize platform and only a few requests are slowed down.

At 7:18pm, the cause is identified and leads to blocking 10 minutes later an IP address making requests overloading the platform.

Facts and timeline

  • From 8:23 am, increase in the number of requests to large files (> 1 GB) from a client site
  • From 2pm, second increase in the number of requests to these large files
  • 18h49, alert on a high number of requests cancelled by users (499)
  • 18h50, alert route53 on the availability of our fronts, the traffic is rerouted automatically on the client origins
  • 18h55, addition of machines in the pool
  • 18h58, the new machines respond to traffic
  • 18h59, the platform is again seen as up, traffic is rerouted to Fasterize, some slowdowns
  • 19h18, disconnection of the customer site after identification of the traffic overload
  • 19h20, back to normal (no more slowdowns)
  • 19h27, blocking of the IP address in question

Analysis

From 8:23 am, a server hosted by GCP started several hundred requests on large files transiting through our proxies (XML files > 1GB). Until then, this server made a few dozen requests per day.

The bandwidth on the fronts and proxies has progressively increased throughout the day (up to a factor x2.5 compared to the day before and the week before)

Starting at 6:45pm, overall response times started to degrade without more bandwidth being used.

This can be explained by the sudden increase of the load of the front-ends, which until then had been stable. The increase in load remains unexplained at this time.

Metrics

  • Incident severity levels:

    • Severity 2: degradation of the site, performance problem and/or broken feature with difficulty to bypass impacting a significant number of users
  • Detection time: 5 minutes (18h45 ⇢ 18h49)

  • Resolution time: 35 minutes (18h45 ⇢ 19h20)

  • Duration of the incident: 35 minutes

Impacts

  • Automatic disconnection of all customers for 10 minutes.
  • No ticket to support
  • Manual disconnection of some sites by a customer

Countermeasures

Actions during the incident

  • Addition of front ends
  • Disconnection of the offending website
  • Blocking of the incriminated address

Action plan

[ ] planned, [-] doing, [x] done

Short term :

  • [x] Adjustment of the alerts on the bandwidth
  • [-] Adjustment of alerts on ping-fstrz-engine
  • [-] Detection of the most voluminous objects to bypass them

Medium term :

  • [ ] Rate limiting on large objects
Posted Mar 19, 2021 - 00:05 CET

Resolved
Incident is now closed. Sorry for the inconvenience. A post-mortem will follow.
Posted Mar 16, 2021 - 19:39 CET
Monitoring
Fix has been deployed, acceleration has been enabled and everything is back to normal. We're still monitoring.
Posted Mar 16, 2021 - 19:33 CET
Identified
Issue has been identified
Mitigation is being deployed.
Posted Mar 16, 2021 - 19:20 CET
Investigating
We currently have some issues on our european infrastructure. Being fixed. Speeding-up is disabled but trafic is ok.
Posted Mar 16, 2021 - 19:01 CET
This incident affected: API, Dashboard, Acceleration, and Website.