3
cf7form shortcode key error, unable to find form, did you update your form key?

Incident Oxito

Incident Oxito

MAJ le 02.07.2021 à 15.45

Vendredi 02/07

Une grande partie de nos services est aujourd’hui rétablie. Quelques perturbations subsistent sur le services de messagerie. Nos équipes sont aujourd’hui fortement sollicitées, c’est pourquoi les résolutions de tickets peuvent prendre plus de temps qu’ à l’accoutumée.

Mercredi 30/06

Une grande partie des sites web est disponible. En cas de dysfonctionnement (indisponibilité, fichier manquant, etc.) merci de nous contacter à info@oxito.com. Nous rencontrons également des perturbations avec la messagerie, principalement au niveau de la réception. Les emails peuvent être réceptionnés avec du délais.

Lundi 28/06

Une grande partie des sites web est disponible. En cas de dysfonctionnement (indisponibilité, fichier manquant, etc.) merci de nous contacter à info@oxito.com. Nous rencontrons également des perturbations avec la messagerie, principalement au niveau de la réception. Les emails peuvent être réceptionnés avec du délais.

Lundi 21/06

Une grande partie des sites web est disponible. En cas de dysfonctionnement (indisponibilité, fichier manquant, etc.) merci de nous contacter à info@oxito.com.

Vendredi 18/06

Le flux Oxito est de nouveau disponible depuis hier, 15h. Nous vous prions de prendre en compte le fait que cette réouverture pourrait inclure encore quelques dysfonctionnements le temps de la phase de stabilisation :

– Certificats SSL manquants (corrigé sous 24h)
– Latences sur la plateforme
– Fichiers manquants (nous prévenir si c’est le cas)
– Prestations suspendues
– Perturbation de la messagerie

D’ores et déjà, nous vous prions de nous en excuser et de nous prévenir de toute anomalie constatée en nous envoyant un email à : info@oxito.com. Nous vous remercions de votre compréhension et de votre patience.

Jeudi 17/06

Chère Cliente, Cher Client,

Le flux Oxito sera à nouveau disponible ce jeudi 17.06.2021 à partir de 15h00. Nous vous prions de prendre en compte le fait que cette réouverture pourrait inclure encore quelques dysfonctionnements le temps de la phase de stabilisation :

– Certificats SSL manquants (corrigé sous 48h)
– Latences sur la plateforme
– Fichiers manquants (nous prévenir si c’est le cas)
– Prestations suspendues
– Perturbation de la messagerie

Il est possible que des prestations soient suspendues, que l’envoi de factures et rappels soient retardés. D’ores et déjà, nous vous prions de nous en excuser et de nous prévenir de toute anomalie constatée en nous envoyant un email à : info@oxito.com. Nous vous remercions de votre compréhension et de votre patience.

Mercredi 16/06

Les tests manuels et automatisés réalisés ce jour s’avèrent concluants. Demain matin, un échange aura lieu avec les différentes parties prenantes dans le but de valider la conformité de la plateforme, et potentiellement décider de la remise en ligne des services.
Si cette option est validée, des perturbations pourraient avoir lieu pendant la phase de stabilisation. Une liste exhaustive des perturbations possibles sera alors communiquée demain.

Mardi 15/06

Suite aux résultats des tests fonctionnels, nous avons pris la décision de relancer de nouvelles restaurations.

Ces dernières sont actuellement en cours. Elles nous permettront demain de réaliser 2 niveaux de tests :

– Une recette fonctionnelle, notamment de la console

– Des tests automatisés afin de mesurer le temps de réponse et de disponibilité des sites

Lundi 14/06
Suivi du plan d’action. Toutes les problématiques identifiées devraient être corrigées d’ici demain. Une phase de recette fonctionnelle (dernière étape) pourra ensuite démarrer. Nous pensons pouvoir communiquer la date de rétablissement des services rapidement.

Dimanche 13/06
Poursuite de la phase de recette technique, diagnostic et plan d’action pour réaliser la correction des dysfonctionnements identifiés.

Samedi 12/06
La phase de recette technique a été réalisée comme prévu. Celle-ci a toutefois permis d’identifier quelques problématiques de fonctionnement et de performance (standard suite à une phase de déploiement).

Sont prévus ce weekend :  recette technique et fonctionnelle. Nous prévoyons de communiquer une date de rétablissement dès début de semaine prochaine.

Vendredi 11/06
Journée : le déploiement de la solution de management de cloud mutualisé et la restauration des données clients sont terminés. Nous entrons dans une phase de tests et recettes.

Jeudi 10/06

Journée : La majorité des déploiements sont effectués et une grande partie des données clients sont restaurées. Ces étapes doivent être finalisées avant de démarrer la phase de tests et de recette. Nous avons bon espoir que cette phase puisse être entamée d’ici demain soir.

Mercredi 9/06 :  

Matin :
Restauration de certains serveurs. La relance de ces derniers a déclenché un envoi de mails automatiques sur des sujets de facturation ou autres services à certains de nos clients. Nous invitons nos clients à les ignorer et confirmons que la prestation sera belle et bien rétablie dès le rétablissement complet de nos services. Des mesures ont été prises pour que cela ne se reproduise pas.

Mardi 08/06 : 
Journée : poursuite des restaurations et travail sur les prérequis afin que notre prestataire de solution de management de cloud mutualisé puisse intervenir dès demain, mercredi.
A noter : une fois que le prestataire commence à travailler : le rétablissement du services est estimé à une dizaine de jours.

Lundi 07/06 : 

Matin : Lancement des restaurations des sauvegardes des premières machines d’infrastructure pour le prestataire de solution de management de cloud mutualisé
Echange sur le plan d’action de la semaine et des prérequis techniques avec le prestataire

Après-midi : le prestataire confirme avoir accès à la première machine (puppet master), début des opérations de configuration en vue du prochain déploiement

A noter : une fois que le prestataire commence à travailler : le rétablissement du services est estimé à une dizaine de jours.

Dimanche 06/06 :

Matin : La réinstallation d’OpenStack est terminée, cependant des problèmes réseau sont détectés à l’intérieur du cluster
Début des investigations du problème réseau

Après-midi et soirée : Suite des investigations et résolution des problèmes réseau ont été identifiés et corrigés. Ceux-ci étaient dus à des problème de gestion des VLAN par l’outil réseau déployé par défaut sur OpenStack).

Samedi 05/06 :

Matin : Déplacement d’un technicien sur site afin d’effectuer la réinstallation des noeuds physiques du cluster OpenStack
Après-midi : Fin de la réinstallation des nœuds physiques
Début de la réinstallation d’OpenStack sur les nœuds. Fin de l’installation d’Openstack sur les nœuds par notre technicien à 05:00 le lendemain matin

Sont prévus ce week-end :

  • Préparation et création des Machines virtuelles (VM) en vue de l’intervention du prestataire de solution de management de cloud mutualisé (le prestataire interviendra dès mardi 8)
  • Création des accès aux différents environnements pour le prestataire
  • Configuration du réseau
  • Lancement des restaurations des données systèmes et données clients

A noter : une fois que le prestataire commence à travailler : le rétablissement du services est estimé à une dizaine de jours.

Vendredi 04/06

Matin : Fin de l’installation du SAN dans le datacenter
Après-midi : Configuration du SAN dans le datacenter
Soirée : création des clusters dans le but d’héberger la solution de management de Cloud mutualisé

Jeudi 03/06

Matin : Préparation du SAN par le fournisseur de disques.
Après-midi : Réception du SAN dans le datacenter. Début de l’installation en binôme entre nos équipes et le fournisseur.

Mercredi 02/06

Matin : Préparation du SAN par le fournisseur de disques
Après-midi : Préparation du SAN par le fournisseur de disque Confirmation par le fournisseur que le SAN sera livré demain.

Mardi 01/06

Matin : Alignement sur le périmètre d’intervention avec le fournisseur de la solution de management de plateforme cloud mutualisée
Prise de décision sur l’option à choisir avec notre fournisseur de disque en CODIR Exceptionnel : le choix de partir sur un nouveau SAN afin d’assurer la reconstruction sans nouvelle casse de disques.

Nous sommes évidemment conscients de la gêne que cela vous occasionne et vous remercions pour votre patience.
Nous vous remercions d’avance de votre compréhension et vous transmettons nos salutations les meilleures.

Lundi 31/05

Matin : échange avec le fournisseur. L’option 2 n’a pas été concluante pour l’instant. Demande de chiffrage pour les autres options.
Après-midi : Prise de contact avec le fournisseur de la solution de management de plateforme cloud mutualisée et réception de leurs proposition technique et tarifaire
Echange avec le fournisseur de disques : fin du test en LAB, présentation des options possibles. Point de situation avec la Direction Oxito
Soirée : Réception du chiffrage des options par le fournisseur de disques

Samedi 29/05

Matin : Le fournisseur continue les investigations
Après-midi : le fournisseur propose 2 options :
• La reconstruction complète du DC -> implique une reconstruction compète et l’intervention de différents prestataires
• Poursuivre les investigations en LAB -> sans garantie de résultat mais beaucoup moins chronophage si efficace.
Oxito confirme l’option 2. Nous partirons sur l’option 1 si celle-ci ne fonctionne pas
Dimanche 30/05 Journée : travail sur l’option 2 par le fournisseur

Vendredi 28/05

Matin : le fournisseur diagnostique des problématiques de configurations. Ils demandent un temps supplémentaire pour investiguer et proposer un plan d’action.
Après-midi : le fournisseur transmet son rapport : des informations (segments) doivent être récupérées sur certains disques préalablement remplacés. Oxito et le fournisseur travaille en binôme tout l’après-midi
Soirée : Le binôme ne parvient pas à reconstruire le système

Jeudi 27/05

Matin : intervention sur site pour installation des disques et restauration
Après-midi : rétablissement du service Winbiz. Oxito prévient le fournisseur de disques que le dernier disque est remplacé. Investigation du côté du fournisseur.
Nuit : prise en main à distance du système par le fournisseur

Mardi 25/05

Journée : Suivi des restaurations en cours et coordination des différentes parties prenantes
Mercredi 26/05 Matin : Commande de 39 disques supplémentaires pour prévenir le cas où d’autres disques céderaient à la suite de l’incident du 20/05
Soirée : livraison du disque spécifique de la part du fournisseur (commandé le 24.05)

Lundi 24/05

Matin : Le fournisseur de disque nous confirme qu’un disque spécifique est endommagé
Après-midi : le fournisseur nous indique que le disque ne pourra pas être livré avant mercredi 26
Les restaurations continuent de se faire

Dimanche 23/05

Matin : la reconstruction continue
Après-midi : 2 nouveaux disques cèdent après avoir été fragilisés à cause du gaz et sont remplacés.
Nous recommandons 4 nouveaux disques afin d’avoir du stock.
Nuit : Tous les disques sont reconstruits mais l’outil de diagnostic annonce une erreur sévère que seul le support du fournisseur de disque peut prendre en charge. Investigation du fournisseur

Samedi 22/05

Matin : Notre fournisseur de disque intervient au DC mais est en mesure de nous fournir uniquement 2 disques.
Poursuite des investigations avec notre partenaire fournisseur de disques : mise en œuvre de plans d’actions qui s’avèrent infructueuses car besoin du matériel commandé.
Le fournisseur nous confirme qu’en raison de la pénurie, il peut nous livrer 4 disques le 25/05 puis 5 autres le 27/05.
Après-midi : Oxito réussit à obtenir quelques disques auprès d’un autre fournisseur et va au datacenter pour l’installation.
Nuit : Le fournisseur de disque réussit à faire venir des disques depuis Paris. Ils sont réceptionnés par Oxito au DC. Les disques sont installés et la reconstruction est lancée.

Vendredi 21/05

Matin : préparation d’une machine temporaire pour accueillir le stockage de machines critiques
Après-midi : Redémarrage de certains composants dans le DC.
Analyse des canaux d’approvisionnement : nos partenaires ne sont pas en mesure de fournir le nombre de disques nécessaires à cause de la pénurie de composants informatiques
Installation de la machine temporaire sur place
Validation de la configuration de la machine et début des restaurations de certains machines mutualisées
Soirée : Restauration de certaines machines mutualisées

Jeudi 20/05

Matin : Le fournisseur de datacenter dans lequel nous opérons déclenche par erreur le système anti-incendie. Le gaz à haute pression a été projeté dans tout l’étage du datacenter et a abîmé les disques de notre SAN.
Nous contactons notre fournisseur de disque en urgence et lui demandons des disques de remplacement. Nos techniciens vont sur place.
Après-midi : Rétablissement du service monitoring.
Le fournisseur de disques nous explique qu’il sera difficile d’obtenir rapidement les disques à cause de la pénurie de composants informatiques actuelle.
Soirée/Nuit : Analyse précise des dégâts et impacts.

Inscrivez vous à la newsletter Oxito

Suivez-nous !

OXITO évolue tous les jours,

Inscrivez-vous à notre newsletter et soyez les premiers informés des nouveautés.