Poster une réponse à un sujet: Une histoire de fou [RAID Inside]
Attention, ce sujet est un sujet ancien (6089 jours sans réponse)
Gras [b]Texte[/b] Italique [i]Italique[/i] Souligné [u]Souligné[/u] Barré [strike]Barré[/strike]
Courriel [email=nobody@nobody.org]Nom[/email] Lien [url=http://www.website.com]Texte[/url] Ancre [anchor]Nom[/anchor] Image [img]http://www.website.com/image.jpg[/img] Insérer une image en provenance du site
Aligné à gauche [align=left]Texte[/align] Centré [align=center]Texte[/align] Aligné à droite [align=right]Texte[/align] Toute la largeur [align=justify]Texte[/text]
Couleur [color=#000000]Text[/color] Mise en forme [highlight=pascal]Texte[/highlight] Widgets Emoticons :code: [:code] Convertisseur HTML vers BBCode Convertisseur Word vers BBCode
Prévisualisation Vérification de l'orthographe

Copier Coller Couper Tout sélectionner
Tout effacer Insérer la date Insérer l'heure Insérer la date et heure Insérer votre IP
Liste [list=square][item]BlaBla[/item][/list] Liste Numérotée [list=decimal][item]BlaBla[/item][/list]
Citation [quote=name]Texte[/quote] Spoiler [spoiler]James est le meurtrier![/spoiler]
Tout en majuscules [uppercase]Texte[/uppercase] Tout en minuscules [lowercase]Texte[/lowercase] l33t [l33t]Je suis un nerd[/l33t] Texte en indice [sub]Texte[/sub] Texte en exposant [sup]Texte[/sup] Taille du texte [size=8]Texte[/size]
 
Vector
Voilà, on s'est sorti d'affaire jusque ici ... la base se met à jour avec les données quotidiennes ... ça devrait être 100% à jour samedi, mais au moins, les gens peuvent travailler. Les Cubes Cognos sont en cours de mise à jour également

Le backup disque à mis 3h ... au lieu des 17h sur bande, suffit maintenant de les copier su bande mais on souffle ...

But du jeu aujourd'hui, relancer tous les backup jobs et les vérifier. Mise à jour des procédures et autre ...

Tout roule :auto13: !!!

Rapport envoyé au top management ... la réaction ne devrait pas être longue à tomber :oh:
Vector
C'est pas de bol en effet.
Les disques d'une même série ne doivent jamais faire partie du même RAID :spamafote:
2 machines/storages répliqués dans 2 batiments différents aurait pu vous éviter tout ce stress. Et en cas de désastre (incendie dans la salle,etc) de pouvoir redémarrer la production presque instantanément.
Ca coûte plus cher à l'achat, mais c'est vite amorti dès qu'un problème de ce genre survient :grin:

Philfr> En général , c'est 1 disque spare par RAID, ça laisse de temps de remplacer le disque défectueux.


Ok 1 point ...

On a deux bâtiments, séparé par 12 paires de fibres de 100m ... le problème c'est que la redondance avec le second SAN n'a jamais marché ... et un EVA c'est au dessus de nos moyens ... :sad:

Comme je disais plus haut, les désastres justifient les investissements !
Vector
sphinx> +1

Vector> Le point faible dans ton histoire, c'est la notification de la panne de RAID. Un RAID qui ne prévient pas qu'il lâche, ça sert à rien, la preuve...

Le deuxième point faible aurait sans doute été la disponibilité immédiate de pluseurs disque spare. En général on en prévoit un, mais c'est une bonne leçon à tirer...


Finalement on a analysé les logs et les disques 3 et 4 on crashé dans la même seconde ... ça pue de chez pue ....
Vector
question, les disques venaient tous du même lot ?

car cela augmente le risque de claquage en cascade il me semble


C'est ce que HP a dit ... même batch avec numéro de série consécutifs = plus grande chance de problème ...

Mais faut pas exagéré !
Vector
Bon repos :smile:

On a tous (quasi) connu quelques jours de crise, chacun à son niveau, faudra bien quelques semaines pour t'en remettre :joce:

Le tout représente quoi, 300GB de données? Vous avez pas pensé à une réplication sur un système moins performant?

Parce que la crainte est forte dans notre profession vis à vis des disques, mais il n'y a pas que les disques qui claquent, un deuxième système répliqué en temps réel ou synchronisé une fois par jour peut être intéressant et pas trop coûteux, non? :smile:


En fait on envisage depuis quelques temps déjà de faire un environnement stand-by ... mais vu les couts ... personne n'a encore donné sont feu vert.

Je pense que ce genre d'incident aussi stressant et critique soit-il nous servira pour justifier ce système redondant !

(Oracle RAC et mirroring)
Dr_Dan
C'est pas de bol en effet.
Les disques d'une même série ne doivent jamais faire partie du même RAID :spamafote:
2 machines/storages répliqués dans 2 batiments différents aurait pu vous éviter tout ce stress. Et en cas de désastre (incendie dans la salle,etc) de pouvoir redémarrer la production presque instantanément.
Ca coûte plus cher à l'achat, mais c'est vite amorti dès qu'un problème de ce genre survient :grin:

Philfr> En général , c'est 1 disque spare par RAID, ça laisse de temps de remplacer le disque défectueux.
philfr
sphinx> +1

Vector> Le point faible dans ton histoire, c'est la notification de la panne de RAID. Un RAID qui ne prévient pas qu'il lâche, ça sert à rien, la preuve...

Le deuxième point faible aurait sans doute été la disponibilité immédiate de pluseurs disque spare. En général on en prévoit un, mais c'est une bonne leçon à tirer...
sphinx
question, les disques venaient tous du meme lot ?

car cela augmente le risque de claquage en cascade il me semble
zion
Bon repos :smile:

On a tous (quasi) connu quelques jours de crise, chacun à son niveau, faudra bien quelques semaines pour t'en remettre :joce:

Le tout représente quoi, 300GB de données? Vous avez pas pensé à une réplication sur un système moins performant?

Parce que la crainte est forte dans notre profession vis à vis des disques, mais il n'y a pas que les disques qui claquent, un deuxième système répliqué en temps réel ou synchronisé une fois par jour peut être intéressant et pas trop coûteux, non? :smile:
Vector
Bon, l'histoire se termine bien. Mais voici la suite :

Application de tous les archive logs terminé aujourd'hui à 6h35. Manque de bol ... il nous en manquait un !!!

Re-restore depuis la bande, re-application ... depuis 8h30 la base tourne et nos développeurs font les cross check. Dès que c'est validé : BACKUP SUR DISQUE et ensuite backup file système sur bande.

L'histoire avec HP est loin d'être terminée mais ... mon cœur a reprit un rythme normal et mon près hypotécaire sur 30 ans sera remboursé ... :wink: jusque ici ... dedjeu ... quel stress pendant une semaine je vous raconte pas !!!

:wink:

Ovh> ne t'en fait pas trop ... mais la leçon à tirer est : ça n'arrive pas qu'aux autres

Zion> Clair que la politique de backup va changer, je dis NON à toutes les intégrations, rien ne vaut un bon file système backup.

Sphynx> Oui j'ai aussi perdu des photos lors d'un crash disque perso ... mais perde toutes les données qui servent à facturer nos clients c'est pire que tout ... on facture 4 millions d'USD par mois ... c'est vraiment pas le truc où il faut se louper :oh:

J'espère que mon expérience servira à d'autres. Ne faites jamais de RAID trop grand ... même si vous êtes convaincu des performances (plus le RAID est grand, plus il y a d'IO plus c'est rapide ...). Par contre quand ça plante ... c'est CATA :wink:

Sur ce je vais voir où en sont les autres ... j'ai bossé une semaine jour et nuit ... ils peuvent travailler un peu maintenant :wink:
Catégorie:  






Ada
CSS
Cobol
CPP
HTML
Fortran
Java
JavaScript
Pascal
Perl
PHP
Python
SQL
VB
XML
Anon URL
DailyMotion
eBay
Flickr
FLV
Google Video
Google Maps
Metacafe
MP3
SeeqPod
Veoh
Yahoo Video
YouTube
6px
8px
10px
12px
14px
16px
18px
Informaticien.be - © 2002-2024 AkretioSPRL  - Generated via Kelare
The Akretio Network: Akretio - Freedelity - KelCommerce - Votre publicité sur informaticien.be ?