Les retards ont affecté les clients en Europe pendant trois jours à partir du 24 mars. Cependant, au début, alors que les clients se débattaient avec des services Azure extra-lents, Microsoft a largement manqué son objectif de 10 minutes pour reconnaître les problèmes sur sa plate-forme de cloud computing.

Dans un post de blog, Chad Kimes, directeur de l'ingénierie chez Azure, admet que la communication de Microsoft "pendant cet incident a également été problématique" et s'excuse pour la frustration et la confusion que cela a causées aux 6136 clients concernés.





publicité

Des contraintes de capacité des machines virtuelles

Le problème technique lui-même a été causé par des contraintes de capacité des machines virtuelles dues à une forte demande de ressources de calcul sur Azure. Ce qui a entraîné des retards de 21 minutes affectant le service Pipelines DevOps de Microsoft pour la publication de nouvelles versions ciblant les agents Windows et Linux sur Azure. Le délai le plus long a été de neuf heures, selon M. Kimes.

"Le problème est que nos processus sur site ont une lacune pour ce type d'incidents", a déclaré M. Kimes.

"Lorsque les incidents impliquent des défaillances côté demande client ou des impacts sur les performances, nous disposons d'un outil automatisé qui lance un incident et communique avec un responsable dans ce que nous appelons un PIM (gestionnaire d'incident primaire)", ajoute-t-il.





Microsoft dit qu'il prévoit d'améliorer ses processus

"Les retards de pipeline sont détectés par différents outils, et le PIM n'est actuellement pas fait pour ce type d'incidents. Par conséquent, alors que le responsable s'efforçait de comprendre les problèmes techniques et de chercher des solutions pour les atténuer, le PIM était encore en sommeil. Ce n'est que lorsque le PIM a été alerté que l'incident a finalement été reconnu".

Microsoft dit qu'il prévoit d'améliorer ses processus pour "s'assurer que la communication initiale des incidents de retard de pipeline se déroule selon le même calendrier que les autres types d'incidents".

L'entreprise procède également à des modifications architecturales afin d'atténuer les goulets d'étranglement.