Réponse - Informaticien.be

Poster une réponse à un sujet: Une histoire de fou [RAID Inside]

Attention, ce sujet est un sujet ancien (6089 jours sans réponse)

Vector

Voilà, on s'est sorti d'affaire jusque ici ... la base se met à jour avec les données quotidiennes ... ça devrait être 100% à jour samedi, mais au moins, les gens peuvent travailler. Les Cubes Cognos sont en cours de mise à jour également

Le backup disque à mis 3h ... au lieu des 17h sur bande, suffit maintenant de les copier su bande mais on souffle ...

But du jeu aujourd'hui, relancer tous les backup jobs et les vérifier. Mise à jour des procédures et autre ...

Tout roule :auto13:

!!!

Rapport envoyé au top management ... la réaction ne devrait pas être longue à tomber :oh:

Vector

Citation de: Dr_Dan

C'est pas de bol en effet.
Les disques d'une même série ne doivent jamais faire partie du même RAID :spamafote:

2 machines/storages répliqués dans 2 batiments différents aurait pu vous éviter tout ce stress. Et en cas de désastre (incendie dans la salle,etc) de pouvoir redémarrer la production presque instantanément.
Ca coûte plus cher à l'achat, mais c'est vite amorti dès qu'un problème de ce genre survient :grin:

Philfr> En général , c'est 1 disque spare par RAID, ça laisse de temps de remplacer le disque défectueux.

Ok 1 point ...

On a deux bâtiments, séparé par 12 paires de fibres de 100m ... le problème c'est que la redondance avec le second SAN n'a jamais marché ... et un EVA c'est au dessus de nos moyens ... :sad:

Comme je disais plus haut, les désastres justifient les investissements !

Vector

Citation de: philfr

sphinx> +1

Vector> Le point faible dans ton histoire, c'est la notification de la panne de RAID. Un RAID qui ne prévient pas qu'il lâche, ça sert à rien, la preuve...

Le deuxième point faible aurait sans doute été la disponibilité immédiate de pluseurs disque spare. En général on en prévoit un, mais c'est une bonne leçon à tirer...

Finalement on a analysé les logs et les disques 3 et 4 on crashé dans la même seconde ... ça pue de chez pue ....

Vector

Citation de: sphinx

question, les disques venaient tous du même lot ?

car cela augmente le risque de claquage en cascade il me semble

C'est ce que HP a dit ... même batch avec numéro de série consécutifs = plus grande chance de problème ...

Mais faut pas exagéré !

Vector

Citation de: zion

Bon repos

On a tous (quasi) connu quelques jours de crise, chacun à son niveau, faudra bien quelques semaines pour t'en remettre :joce:

Le tout représente quoi, 300GB de données? Vous avez pas pensé à une réplication sur un système moins performant?

Parce que la crainte est forte dans notre profession vis à vis des disques, mais il n'y a pas que les disques qui claquent, un deuxième système répliqué en temps réel ou synchronisé une fois par jour peut être intéressant et pas trop coûteux, non? :smile:

En fait on envisage depuis quelques temps déjà de faire un environnement stand-by ... mais vu les couts ... personne n'a encore donné sont feu vert.

Je pense que ce genre d'incident aussi stressant et critique soit-il nous servira pour justifier ce système redondant !

(Oracle RAC et mirroring)

Dr_Dan

C'est pas de bol en effet.
Les disques d'une même série ne doivent jamais faire partie du même RAID :spamafote:

2 machines/storages répliqués dans 2 batiments différents aurait pu vous éviter tout ce stress. Et en cas de désastre (incendie dans la salle,etc) de pouvoir redémarrer la production presque instantanément.
Ca coûte plus cher à l'achat, mais c'est vite amorti dès qu'un problème de ce genre survient :grin:

Philfr> En général , c'est 1 disque spare par RAID, ça laisse de temps de remplacer le disque défectueux.

philfr

sphinx> +1

Vector> Le point faible dans ton histoire, c'est la notification de la panne de RAID. Un RAID qui ne prévient pas qu'il lâche, ça sert à rien, la preuve...

Le deuxième point faible aurait sans doute été la disponibilité immédiate de pluseurs disque spare. En général on en prévoit un, mais c'est une bonne leçon à tirer...

sphinx

question, les disques venaient tous du meme lot ?

car cela augmente le risque de claquage en cascade il me semble

zion

Bon repos

On a tous (quasi) connu quelques jours de crise, chacun à son niveau, faudra bien quelques semaines pour t'en remettre :joce:

Le tout représente quoi, 300GB de données? Vous avez pas pensé à une réplication sur un système moins performant?

Parce que la crainte est forte dans notre profession vis à vis des disques, mais il n'y a pas que les disques qui claquent, un deuxième système répliqué en temps réel ou synchronisé une fois par jour peut être intéressant et pas trop coûteux, non? :smile:

Vector

Bon, l'histoire se termine bien. Mais voici la suite :

Application de tous les archive logs terminé aujourd'hui à 6h35. Manque de bol ... il nous en manquait un !!!

Re-restore depuis la bande, re-application ... depuis 8h30 la base tourne et nos développeurs font les cross check. Dès que c'est validé : BACKUP SUR DISQUE et ensuite backup file système sur bande.

L'histoire avec HP est loin d'être terminée mais ... mon cœur a reprit un rythme normal et mon près hypotécaire sur 30 ans sera remboursé ... :wink:

jusque ici ... dedjeu ... quel stress pendant une semaine je vous raconte pas !!!

:wink:

Ovh> ne t'en fait pas trop ... mais la leçon à tirer est : ça n'arrive pas qu'aux autres

Zion> Clair que la politique de backup va changer, je dis NON à toutes les intégrations, rien ne vaut un bon file système backup.

Sphynx> Oui j'ai aussi perdu des photos lors d'un crash disque perso ... mais perde toutes les données qui servent à facturer nos clients c'est pire que tout ... on facture 4 millions d'USD par mois ... c'est vraiment pas le truc où il faut se louper :oh:

J'espère que mon expérience servira à d'autres. Ne faites jamais de RAID trop grand ... même si vous êtes convaincu des performances (plus le RAID est grand, plus il y a d'IO plus c'est rapide ...). Par contre quand ça plante ... c'est CATA :wink:

Sur ce je vais voir où en sont les autres ... j'ai bossé une semaine jour et nuit ... ils peuvent travailler un peu maintenant :wink: