Depuis ce jeudi soir, des dizaines de milliers de sites Web dont le point commun est d'être hébergé par OVH sont inaccessibles. En cause une panne majeure qui frappe l'infrastructure du leader français, un incident d'une grande ampleur qui ne s'était pas vu depuis 2006.

publicité

Concrètement, c'est une baie de stockage d'EMC qui est tombée, impactant les sites qui ont opté pour une offre d'hébergement mutualisé, soit 50.000 sur un total de 3 millions hébergés par OVH. Cette offre particulière est hébergée dans deux datacentres, l’un à Gravelines, l’autre à Paris. C’est dans la capitale que cette baie de 96 disques SSD fournie par EMC a planté.

"Il ne veut plus redémarrer, Nous avons contacté le constructeur et essayons de trouver une solution pour récupérer les données hébergées sur cette baie", se lamente Octave Klaba, fondateur et CTO d'OVH. La panne tombe au pire moment : celui des soldes et de nombreux sites marchands sont aujourd'hui paralysés, laissant s'échapper des millions d'euros de chiffre d'affaires.

Cette nuit, OVH a commencé à restaurer les données à partir de la dernière sauvegarde sur d’autres machines pour permettre aux sites Web touchés d’être de nouveau accessibles. Cette restauration prend du temps mais elle avance et dépasse désormais les 30%. On peut suivre l'avancée des travaux ici. OVH espère une restauration totale avant minuit.

Dans un message, Octave Klaba donne quelques détails sur la panne et notamment le matériel incriminé. "Il s'agit d'une solution que nous avons mis en place en 2012 pour palier aux problèmes de performances de stockage que nous avons eu en 2012 sur les bases de données. Depuis nous avons fixé la performance sur nos NAS-HA et sur GRA nous n'utilisons plus que nos solutions interne. Le jeudi 29 juin à 18h30, nous avons eu un incident sur l'une de baies de stockage EMC VNX 5400 que nous utilisons pour stocker une partie de bases de données de hébergement mutualisé à P19. L'ensemble ne veut plus redémarrer".

Et de poursuivre : "Nous avons contacté le constructeur et nous essayons de trouver une solution pour récupérer les données hébergés sur cette baie. Cette baie de stockage est utilisée pour héberger les bases de données d'hébergement mutualisé. Aussi toutes les bases de données sont backupé tous les 24 heures sur d'autres systèmes de stockage qui sont dans un autre DC à Roubaix: RBX1".

"Nous avons lancé la restauration de bases de données à partir de backup. Cette restauration a commencé vers minuit du matin. Ce matin à 9h, environ 15% de bases de données ont été remises en route en mode "lecture seule"c'est à dire que les sites web peuvent lire les données dans les bases de données mais ne peuvent pas encore les modifier. Nous continuons la restauration qui va prendre jusqu'à environ ce soir 20h. L'ensemble de process est désormais automatisé et nous avons assez de stockage pour déployer toutes ces bases de données sur P19".

"Nous sommes sincèrement désolés pour cette panne. La dernière panne de cette ampleur date de 2006 et à l’époque nous avons remis en question toutes les technologies de stockage que nous utilisons chez Ovh. Cette panne est une leçon de plus et nous allons vous communiquer les changements qui vont s’opérer dés la fin de cet incident pour éviter de revivre la prochaine panne de cette ampleur dans 10 ans encore", conclut amer le fondateur. EMC risque d'avoir quelques sueurs froides...