Bonjour,
J'ai un gros problème sur un serveur d'un client...
(décidément ce client-là ne m'aura apporté que des ennuis
)
Le serveur : machine installée en Debian AMD64 stable, 2 disques SATA en RAID-1 (mirroring) logiciel (mdadm), une seule partition qui contient système + données sur le RAID (les swap ne sont pas raidés
).
Le problème : mail reçu cette nuit :
Subject: Fail event on /dev/md0:tuxmail
This is an automatically generated mail message from mdadm
running on tuxmail
A Fail event had been detected on md device /dev/md0.
It could be related to component device /dev/sda1.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1]
md0 : active raid1 sda1[2](F) sdb1[1]
311524352 blocks [2/1] [_U]
unused devices: <none>
Et de fait ça ne va pas, car si je compare l'output de mdstat par rapport à une autre machine ayant une config identique, mais saine, j'ai :
Personalities : [raid1]
md0 : active raid1 hda1[0] hdb1[1]
159862656 blocks [2/2] [UU]
unused devices: <none>
Après consultation des logs /var/log/messages je découvre l'horreur :
Jan 3 06:04:05 tuxmail kernel: ata1: EH complete
Jan 3 06:04:05 tuxmail last message repeated 4 times
Jan 3 06:04:05 tuxmail kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Jan 3 06:04:05 tuxmail kernel: sda: Current: sense key: Medium Error
Jan 3 06:04:05 tuxmail kernel: Additional sense: Unrecovered read error - auto reallocate failed
Jan 3 06:04:05 tuxmail kernel: end_request: I/O error, dev sda, sector 475830751
Jan 3 06:04:05 tuxmail kernel: ata1: EH complete
Jan 3 06:04:05 tuxmail kernel: SCSI device sda: 625142448 512-byte hdwr sectors (320073 MB)
Jan 3 06:04:05 tuxmail kernel: sda: Write Protect is off
Jan 3 06:04:05 tuxmail kernel: ata1: EH complete
Jan 3 06:04:05 tuxmail last message repeated 4 times
Jan 3 06:04:05 tuxmail kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Jan 3 06:04:05 tuxmail kernel: sda: Current: sense key: Medium Error
Jan 3 06:04:05 tuxmail kernel: Additional sense: Unrecovered read error - auto reallocate failed
Jan 3 06:04:05 tuxmail kernel: end_request: I/O error, dev sda, sector 475830759
Jan 3 06:04:05 tuxmail kernel: ata1: EH complete
Jan 3 06:04:05 tuxmail kernel: SCSI device sda: drive cache: write back
Jan 3 06:04:05 tuxmail kernel: SCSI device sda: 625142448 512-byte hdwr sectors (320073 MB)
Jan 3 06:04:05 tuxmail kernel: sda: Write Protect is off
Jan 3 06:04:05 tuxmail kernel: SCSI device sda: drive cache: write back
Jan 3 06:04:05 tuxmail kernel: raid1:md0: read error corrected (8 sectors at 475830696 on sda1)
Jan 3 06:25:23 tuxmail syslogd 1.4.1#18: restart.
Jan 4 06:25:26 tuxmail syslogd 1.4.1#18: restart.
Jan 5 06:25:29 tuxmail syslogd 1.4.1#18: restart.
Jan 6 01:06:02 tuxmail kernel: md: syncing RAID array md0
Jan 6 01:06:02 tuxmail kernel: md: minimum _guaranteed_ reconstruction speed: 1000 KB/sec/disc.
Jan 6 01:06:02 tuxmail kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reconstruction.
Jan 6 01:06:02 tuxmail kernel: md: using 128k window, over a total of 311524352 blocks.
Jan 6 02:25:04 tuxmail kernel: ata1: EH complete
Jan 6 02:25:04 tuxmail last message repeated 4 times
Jan 6 02:25:04 tuxmail kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Jan 6 02:25:04 tuxmail kernel: sda: Current: sense key: Medium Error
Jan 6 02:25:04 tuxmail kernel: Additional sense: Unrecovered read error - auto reallocate failed
Jan 6 02:25:04 tuxmail kernel: end_request: I/O error, dev sda, sector 485673663
Jan 6 02:25:04 tuxmail kernel: ata1: EH complete
Jan 6 02:25:04 tuxmail kernel: SCSI device sda: 625142448 512-byte hdwr sectors (320073 MB)
Jan 6 02:25:04 tuxmail kernel: sda: Write Protect is off
Jan 6 02:25:04 tuxmail kernel: SCSI device sda: drive cache: write back
Jan 6 02:25:04 tuxmail kernel: ^IOperation continuing on 1 devices
Jan 6 02:25:04 tuxmail kernel: blk: request botched
Jan 6 02:25:04 tuxmail last message repeated 2 times
Jan 6 02:25:04 tuxmail kernel: SCSI device sda: 625142448 512-byte hdwr sectors (320073 MB)
Jan 6 02:25:04 tuxmail kernel: blk: request botched
Jan 6 02:25:04 tuxmail last message repeated 3 times
Jan 6 02:25:04 tuxmail kernel: md: md0: sync done.
Jan 6 02:25:04 tuxmail kernel: ata1.00: WARNING: zero len r/w req
Jan 6 02:25:04 tuxmail last message repeated 5 times
Jan 6 02:25:04 tuxmail kernel: RAID1 conf printout:
Jan 6 02:25:04 tuxmail kernel: --- wd:1 rd:2
Jan 6 02:25:04 tuxmail kernel: disk 0, wo:1, o:0, dev:sda1
Jan 6 02:25:04 tuxmail kernel: disk 1, wo:0, o:1, dev:sdb1
Jan 6 02:25:04 tuxmail kernel: sda: Write Protect is off
Jan 6 02:25:04 tuxmail kernel: SCSI device sda: drive cache: write back
Jan 6 02:25:04 tuxmail kernel: RAID1 conf printout:
Jan 6 02:25:04 tuxmail kernel: --- wd:1 rd:2
Jan 6 02:25:04 tuxmail kernel: disk 1, wo:0, o:1, dev:sdb1
Comme c'est la première fois que j'ai des problèmes avec du RAID, j'avoue que je stresse un max...
Est-ce que le disque sda est mort et que le serveur fonctionne pour le moment uniquement avec sdb ?
Est-ce que l'erreur sur sda est grave et nécessite le remplacement immédiat du disque ?
Comment faire ce remplacement : éteindre la machine, débrancher l'ancien disque, remplacer par un nouveau SATA de taille équivalente (de préférence le même modèle mais bon), redémarrer et linux mdadm fait tout tout seul ou bien il y a une manip à faire, si oui laquelle ?
Question subsidiaire : comment savoir physiquement quel disque est sda dans la machine ?...
On peut considérer que le premier connecteur SATA utilisé sera celui-là ?...
Bref voilà au secouuuuuuuuurs
Merci beaucoup de vos conseils avisés