Raid 6 Неисправный диск не перестраивается, но работает на другом сервере

225
Frédéric Harvey

У меня был сервер с неисправным диском в массиве Raid 6. Вытащил и обратно на диск не началось восстановление.

Этот же диск был заменен другим на резервном сервере (в той же конфигурации, что и на первом сервере), и на резервном сервере началось восстановление.

Диск, удаленный с сервера резервного копирования, теперь установлен на первом сервере, и оба сервера Raid успешно восстановлены и работают до тех пор (месяц).

Вопрос в том, почему и как первый контроллер Server Raid распознал плохой диск, а резервный сервер принял его без проблем?

Информация о плохом диске записана где-то на стороне контроллера?

Неисправный диск действительно неисправен? Или какая-то «программная» ошибка вызвала ошибку?

Фред

0
Пожалуйста, отредактируйте вопрос с этими ответами: какой контроллер на первом сервере, какой контроллер на втором? Какая прошивка на каждой? В общем, когда жесткий диск выходит из строя при малейшем сбое, я предлагаю никогда больше не использовать его в производственном или производственном резервном копировании, потому что вероятность его повторного сбоя в ближайшее время высока. Вы все еще можете использовать его на неважном компьютере или переработать. Christopher Hostage 5 лет назад 1
«Вытащил и обратно на диск не начать восстановление». Это плохая практика. Положитесь на свои системы оповещения, чтобы сообщить вам, когда что-то не так, и не вставляйте диск с проблемой обратно. Christopher Hostage 5 лет назад 1
@ChristopherHostage Спасибо за ваш отзыв. Оба сервера имеют контроллер PERC H710P. У меня нет информации об установленной версии прошивки, но я уверен, что они используют то же самое. Frédéric Harvey 5 лет назад 0

1 ответ на вопрос

0
Robert

Со временем магнитные носители дисков жесткого диска стираются. Это означает, что он менее чувствителен к индуцированным изменениям магнетизма, а это означает, что в конечном итоге накопитель больше не сможет использовать носитель для хранения информации. Скорость износа носителя зависит от многих факторов, и, поскольку некоторые области диска используются чаще других, не все области диска будут изнашиваться с одинаковой скоростью. Это означает, что в конечном итоге есть «плохие сектора», которые больше не нужны. Обычно данные перемещаются в хороший сектор до того, как их невозможно восстановить, и плохой сектор больше не используется.

Диск поддерживает список поврежденных секторов в своих журналах SMART (в частности, «Список выращенных дефектов» или GLIST) и сообщает об этих значениях микропрограмме контроллера RAID. Микропрограмма контроллера, скорее всего, имеет произвольный порог плохих секторов, необходимый для того, чтобы диск считался «плохим». Таким образом, вполне вероятно, что накопитель преодолел порог в одной машине, но не в другой. К сожалению, я не могу дать более конкретную обратную связь, не зная больше о контроллерах.

Однако, как только плохие сектора начнут появляться, они будут появляться все чаще и чаще по мере дальнейшего ухудшения медиа. По этой причине рекомендуется заменить диск, как только появится один плохой сектор.

Редактировать: опечатки