Возможно, только что облажался, пытаясь следовать инструкциям в другом потоке, чтобы сжать мой RAID

325
Klober

Я использовал инструкции @Paul ( https://superuser.com/users/89018/paul ) в его ответе на Shrink RAID, удалив диск? но я думаю, что, возможно, совершил ужасную ошибку. Вот низкий ...

Я обновлял 4 ТБ накопителя в моем DS1813 + один за другим с накопителями Seagate Ironwolf 10 ТБ. У меня остался один диск для обновления, но я решил вместо того, чтобы пройти день + процесс перестройки массива после обновления диска и затем выполнить процесс Пола, который вместо этого я просто удалил бы диск 4 ТБ из массива во время процесса сжатия I ' был бы в состоянии потерпеть неудачу; к сожалению, это было не так, и я боюсь, что сейчас может быть слишком поздно для моих 22 ТБ данных. Вот моя сессия PuTTY:

ash-4.3# pvdisplay -C PV VG Fmt Attr PSize PFree /dev/md2 vg1 lvm2 a-- 25.44t 50.62g ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 27316073792 blocks super 1.2 level 5, 64k chunk, algorithm 2 [8/8] [UUUUUUUU]  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# exit exit Rob@Apophos-DS:~$ df -h Filesystem Size Used Avail Use% Mounted on /dev/md0 2.3G 940M 1.3G 43% / none 2.0G 4.0K 2.0G 1% /dev /tmp 2.0G 656K 2.0G 1% /tmp /run 2.0G 9.8M 2.0G 1% /run /dev/shm 2.0G 4.0K 2.0G 1% /dev/shm none 4.0K 0 4.0K 0% /sys/fs/cgroup cgmfs 100K 0 100K 0% /run/cgmanager/fs /dev/vg1/volume_3 493G 749M 492G 1% /volume3 /dev/vg1/volume_1 3.4T 2.3T 1.1T 69% /volume1 /dev/vg1/volume_2 22T 19T 2.4T 89% /volume2 Rob@Apophos-DS:~$ pvdisplay -C WARNING: Running as a non-root user. Functionality may be unavailable. /var/lock/lvm/P_global:aux: open failed: Permission denied Unable to obtain global lock. Rob@Apophos-DS:~$ sudo su Password: ash-4.3# pvdisplay -C PV VG Fmt Attr PSize PFree /dev/md2 vg1 lvm2 a-- 25.44t 50.62g ash-4.3# mdadm --grow -n5 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: this change will reduce the size of the array. use --grow --array-size first to truncate array. e.g. mdadm --grow /dev/md2 --array-size 15609185024 ash-4.3# mdadm --grow /dev/md2 --array-size 15609185024 ash-4.3# pvdisplay -C PV VG Fmt Attr PSize PFree /dev/md2 vg1 lvm2 a-- 25.44t 50.62g ash-4.3# mdadm --grow -n6 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 2240K of critical section.. mdadm: /dev/md2: Cannot grow - need backup-file ash-4.3# mdadm --grow -n5 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 1792K of critical section.. mdadm: /dev/md2: Cannot grow - need backup-file ash-4.3# mdadm --grow -n5 /dev/md2 --backup-file /root/mdadm.md0.backup mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 1792K of critical section.. ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.0% (216708/3902296256) finish=3000.8min speed=21670K/sec  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.0% (693820/3902296256) finish=3230.3min speed=20129K/sec  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.0% (1130368/3902296256) finish=6500.6min speed=10001K/sec  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.0% (1442368/3902296256) finish=6667.7min speed=9750K/sec  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md2 : active raid5 sdf3[13] sdh3[7] sdb3[9] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.4% (18826624/3902296256) finish=6706.8min speed=9650K/sec  md1 : active raid1 sdf2[5] sda2[1] sdb2[7] sdc2[2] sdd2[3] sde2[4] sdg2[6] sdh2[0] 2097088 blocks [8/8] [UUUUUUUU]  md0 : active raid1 sdf1[5] sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> ash-4.3# Broadcast message from root@Apophos-DS (unknown) at 22:16 ...  The system is going down for reboot NOW! login as: Rob Rob@192.168.81.181's password: Could not chdir to home directory /var/services/homes/Rob: No such file or directory Rob@Apophos-DS:/$ sudo su Password: ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md1 : active raid1 sdh2[7] sdg2[6] sdf2[5] sde2[4] sdd2[3] sdc2[2] sdb2[1] sda2[0] 2097088 blocks [8/8] [UUUUUUUU] [=====>...............] resync = 26.8% (563584/2097088) finish=2.4min speed=10314K/sec  md2 : active raid5 sdh3[7] sdb3[9] sdf3[13] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 0.5% (19578240/3902296256) finish=10384.2min speed=6231K/sec  md0 : active raid1 sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdf1[5] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> 

Теперь, с предысторией истории и показаниями моего PuTTY, я надеюсь, что кто-нибудь подскажет мне, как открутить себя. Я полагаю, что моя проблема - после запуска процесса без достаточного предвидения, рассмотрения и полного понимания самого процесса - имеет два аспекта: я не провалил окончательный оставшийся накопитель на 4 ТБ заранее, поэтому программное обеспечение основывалось на вычислениях с диска наименьшего размера - 4 ТБ (вероятно, не принимая во внимание 70 ТБ свободного места между остальными 7 дисками) и, возможно, мои команды mdadm --grow с разными ключами -n #.

 ash-4.3# mdadm --grow -n5 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: this change will reduce the size of the array. use --grow --array-size first to truncate array. e.g. mdadm --grow /dev/md2 --array-size 15609185024 ash-4.3# mdadm --grow /dev/md2 --array-size 15609185024 ash-4.3# pvdisplay -C PV VG Fmt Attr PSize PFree /dev/md2 vg1 lvm2 a-- 25.44t 50.62g ash-4.3# mdadm --grow -n6 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 2240K of critical section.. mdadm: /dev/md2: Cannot grow - need backup-file ash-4.3# mdadm --grow -n5 /dev/md2 mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 1792K of critical section.. mdadm: /dev/md2: Cannot grow - need backup-file ash-4.3# mdadm --grow -n5 /dev/md2 --backup-file /root/mdadm.md0.backup mdadm: max_devs [384] of [/dev/md2] mdadm: Need to backup 1792K of critical section.. 

Вот текущий вывод команды cat / proc / mdstat - я заметил, что / dev / md2 показывает только 5 Us по сравнению с 8U других mds, и это пугает меня, так как они все тома в одной группе RAID из 8 дисков:

ash-4.3# cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] md1 : active raid1 sdh2[7] sdg2[6] sdf2[5] sde2[4] sdd2[3] sdc2[2] sdb2[1] sda2[0] 2097088 blocks [8/8] [UUUUUUUU]  md2 : active raid5 sdh3[7] sdb3[9] sdf3[13] sdg3[6] sde3[12] sdd3[11] sdc3[10] sda3[8] 15609185024 blocks super 1.2 level 5, 64k chunk, algorithm 2 [5/5] [UUUUU] [>....................] reshape = 1.2% (48599680/3902296256) finish=6495.2min speed=9888K/sec  md0 : active raid1 sda1[1] sdb1[7] sdc1[2] sdd1[3] sde1[4] sdf1[5] sdg1[6] sdh1[0] 2490176 blocks [8/8] [UUUUUUUU]  unused devices: <none> 

По крайней мере, мне нужно сохранить / dev / vg1 / volume_1. Я надеюсь, что поскольку я не коснулся этого тома, это будет возможно, но на данный момент я не знаю, так как все три тома перечислены в списке как «Сбой» в DSM. Я надеюсь (но не надеюсь), что после завершения проверки согласованности все будет в порядке.

Любой, кто знает mdadm, я остро нуждаюсь в вашей помощи! Пол, если ты там, мне нужна твоя помощь! Я знаю, что облажался, и есть большая вероятность, что я потерял все, но если есть что-то, что вы можете предложить, у которого есть шанс спасти мой бекон, пожалуйста, помогите!

Обновление (5/5/17): без изменений, за исключением того, что изменение формы продолжается до 17,77%. DSM по-прежнему отображает все тома как «Сбой (проверка согласованности четности 17,77%)», а группа дисков сообщает «Проверка жестких дисков в фоновом режиме (проверка согласованности четности 17,77%)». Вот образ группы дисков:

Image of the disk group

Я считаю, что критический шаг, который я пропустил, был либо бегом mdadm /dev/md2 --fail /dev/sdf3 --remove /dev/sdf3 или ручное извлечение диска - это привело бы к отказу оставшегося диска объемом 4 ТБ и его удалению из массива, в результате чего у меня был бы массив RAID 5 с повреждением 7 x 10 ТБ. Мой вопрос сейчас - я должен ждать, пока массив не закончится, изменяя форму, чтобы удалить диск 4TB? Или я должен пойти дальше и потерпеть неудачу / удалить это сейчас? Мое чувство паука говорит, что удаление диска во время перестройки / изменения формы будет плохо, так как меня этому всегда учили, но я не знаю, действительно ли это верно в этой ситуации, когда mdadm пытается собрать 7 дисков стоимостью пространство на 5 дисков зависит только от размера оставшегося 4 ТБ диска.

Кроме того, в случае, если это полезно, вот результат mdadm -D /dev/md2:

/dev/md2: Version : 1.2 Creation Time : Wed Mar 5 22:45:07 2014 Raid Level : raid5 Array Size : 15609185024 (14886.08 GiB 15983.81 GB) Used Dev Size : 3902296256 (3721.52 GiB 3995.95 GB) Raid Devices : 5 Total Devices : 8 Persistence : Superblock is persistent  Update Time : Tue Dec 5 17:46:27 2017 State : clean, recovering Active Devices : 8 Working Devices : 8 Failed Devices : 0 Spare Devices : 0  Layout : left-symmetric Chunk Size : 64K  Reshape Status : 18% complete Delta Devices : -3, (5->2)  Name : DS:2 (local to host DS) UUID : UUID Events : 153828  Number Major Minor RaidDevice State 7 8 115 0 active sync /dev/sdh3 8 8 3 1 active sync /dev/sda3 10 8 35 2 active sync /dev/sdc3 11 8 51 3 active sync /dev/sdd3 12 8 67 4 active sync /dev/sde3  6 8 99 5 active sync /dev/sdg3 9 8 19 7 active sync /dev/sdb3 13 8 83 6 active sync /dev/sdf3 

Меня беспокоит то, что размер массива указан как 16 ТБ, когда общий размер данных в массиве превышает 20 ТБ. Я не уверен, что я должен делать на этом этапе. Любые мысли или опыт будут с благодарностью!

3
Да, ты облажался. Если у вас все еще есть оригинальные диски, в зависимости от того, достаточно ли их у вас, вы можете повторить процесс, перестроив исходный raid (т.е. с вашего исходного диска). Однако вы должны клонировать каждый диск, прежде чем сделать это. Вы никогда не должны извлекать диск во время восстановления RAID Ramhound 6 лет назад 0
К счастью, я начал процесс с RAID 5 в нормальной работе с 7 дисками по 10 ТБ и 1 диском по 4 ТБ (конфигурация 10/10/10/10/10/10/4/10), и я не удалил ни одного диска ни в одном из них. кстати (даже высовывать их и сразу обратно), так как я начал процесс. К сожалению, я не знаю достаточно о преобразовании, чтобы точно знать, что он делает. Как бы мне поменять команды, которые я запускал (конечно, после завершения процесса)? Klober 6 лет назад 0
Вы должны оставить это в покое. Подождите, пока он не закончит делать то, что делает. Удаление привода на этом этапе не оставит вас ни с чем. Ramhound 6 лет назад 0
Спасибо за подтверждение, @Ramhound. Я не буду ничего трогать, пока не закончится процесс изменения формы. На данный момент я нахожусь в режиме сбора информации. Я хочу узнать как можно больше о том, что я только что сделал, в том числе о том, какие шаги мне необходимо предпринять после завершения процесса, чтобы я мог тщательно изучить и понять их, прежде чем предпринять какие-либо другие, возможно, катастрофические шаги. Любая помощь в этом направлении очень ценится! Klober 6 лет назад 0
Хорошее правило RAID 5, чтобы жить мигающим миганием (красным или желтым) без обидчивости. Ramhound 6 лет назад 0
К сожалению, основываясь на исследованиях, которые я проводил, я SOL. Согласно man-странице mdadm все было обратимо до тех пор, пока не была введена команда `mdadm --grow -n5 / dev / md2 --backup-file / root / mdadm.md0.backup`. Если кто-то знает что-то против этого заключения, пожалуйста, дайте мне знать! Klober 6 лет назад 0

0 ответов на вопрос

Похожие вопросы