Ищете фактический опыт сбоя диска RAID 5 2?

9173
Brian

Мне интересно, есть ли у кого-нибудь личный опыт сбоя диска RAID 5 2 на больших дисках?

Насколько я понимаю, теория состоит в том, что на больших дисках объемом 1-2 ТБ, если один из дисков выходит из строя в наборе raid, ему необходимо все перестроить, поэтому он очень сильно бьет по всем остальным дискам, и вероятность другого сбоя возрастает, особенно если диски были из той же партии производства. И если вы потеряете другой диск, вы потеряете все данные.

Обычно это объясняется после утверждения «RAID не является резервной копией», с которым я согласен.

Теория этого имеет смысл, и я понимаю, но так ли это на самом деле?

15
К сожалению, мы только что получили новый вопрос с живым опытом этого. :( http://superuser.com/questions/516844/degraded-raid5-and-no-md-superblock-on-one-of-remaining-drive Hennes 11 лет назад 0

10 ответов на вопрос

15
Paul McMillan

Да, со мной это случилось. Набор из 4 (потребительских) накопителей WD 500 вышел из строя в течение недели. Я не спешил заменять первый, не переводил массив в автономный режим и терял все свои данные, когда второй выходил из строя. Я повторно использовал оставшиеся два хороших, и один из них потерпел неудачу в течение следующего месяца. Все они были должным образом охлаждены и заботились. Я могу только сказать, что теперь я верю риторике "плохой партии".

В отдельном инциденте у меня было 3 отдельных привода разных марок, и модели выходили из строя в течение месяца друг от друга, хотя я почти уверен, что причина их отказа - неправильная вентиляция. Не готовьте свои диски!

Как следствие, имейте запасное сидение вокруг, когда двигатель действительно портится. Кроме того, остерегайтесь тихого повреждения ... легко потерять данные на диске, который только притворяется, что работает. Paul McMillan 15 лет назад 3
Это еще одна причина, по которой вам не следует устанавливать диски, которые принадлежат к одному и тому же пакету, в массиве RAID - у них коррелированные времена отказов (как, например, ставки по умолчанию траншевых ипотечных ценных бумаг с субстандартным обеспечением). Andrew Mao 10 лет назад 0
4
AdamB

Это на самом деле произошло со мной, хотя это был не самый распространенный способ отказа диска. В raid 5 у меня было 4 внешних диска SATA по 500 ГБ. Они были подключены к дешевому старому серверу IBM, смонтированному в стойке. Вся установка была спрятана под лестницей и однажды, крыса или кролик, но что-то разжевано через некоторые кабели питания и два привода были замкнуты. Все диски были в дешевых внешних корпусах, поэтому я не должен был удивляться.

3
Troggy

Вы спрашиваете, можете ли вы потерять 2 диска подряд? Конечно, все может случиться. Raid 5 позволяет значительно увеличить доступность и производительность для доступа к данным, но raid 5 ничего не делает для резервного копирования. Это просто помогает предотвратить использование ваших данных из-за потери оборудования одного диска. Это не копия ваших данных. Вы не можете восстановить старую копию, старую ревизию или просто копию вашей текущей работы. Кроме того, не защищает от повреждения данных. Есть больше вещей, которые могут пойти не так, как просто потеря двигателя. Вирус может испортить все ваши данные, младшая сестра любит смотреть, как мусорная корзина на вашем рабочем столе становится полной и пустой, когда она бросает в нее файлы, глупый друг бросает газировку на ваш компьютер и т. Д.

Кроме того, помните, вы можете потерять контроллер рейда жесткого диска. И вы не можете просто переместить массив в другой случайный контроллер. Вы обычно должны использовать точно такой же, и все же, что-то может пойти не так. Некоторые контроллеры рейда хранят информацию на борту, а другие отправляют информацию о конфигурации в прикрепленный массив. Это азартная игра, когда возникает такая ситуация.

Тот же вопрос в SF: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

Нужно больше причин?

РЕДАКТИРОВАТЬ: Ваша идея верна и может случиться с кем угодно. Лично я не видел более одного отказа диска, но я видел, как некоторые умирают очень близко друг к другу. Никто из них не был в этом окне восстановления, но это технический риск. Но у вас есть резервная копия на случай, если что-то случится, верно? ха-ха. Некоторые люди учатся на этом сложном пути иногда. Raid 6 выводит его на следующий уровень с двойной четностью и может потерять до 2 дисков. При любой настройке рейда вероятность сбоя возрастает с увеличением размера (количества дисков) и сложности массива. Больше дисков = больше точек возможного отказа

извини, я все это понимаю, просто спрашиваю, случилось ли это с кем-нибудь и каков был сценарий? Brian 15 лет назад 0
3
David Mackintosh

Вы правы, в сценарии RAID-5, если вы потеряете один диск, а затем восстановите систему, система должна успешно прочитать каждый сектор всех выживших дисков в наборе RAID. NetApp утверждает, что в некоторых ситуациях (они могут использовать RAID-наборы из 28 дисков разных типов) ваши шансы на повторный сбой могут быть до одного из десяти. Таким образом, они делают «Dual-Parity», который, я считаю, связан с RAID-6.

Очевидно, что чем больше дисков у вас в наборе RAID, и чем они больше, тем больше вероятность возникновения проблемы. Для небольшого набора RAID (3-5 дисков) шансы, вероятно, не слишком сильно изменились по сравнению с использованием RAID-5.

Но я всегда делаю Raid-DP в NetApps, где могу.

+1 Я никогда не думал о том, что «должен успешно прочитать каждый сектор всех выживших дисков». AaronLS 15 лет назад 0
2
Stephen Veiss

Никакого личного опыта, но я слушал крики тех, у кого это случилось с ними. Любая система хранения - будь то отдельный диск, USB-накопитель, магнитная лента, огромная установка RAID или Amazon S3 - в конечном итоге выйдет из строя любым удобным для вас способом. Второй сбой при восстановлении набора RAID 5 - это только один из способов, которым это может произойти.

Кроме того, поддержка RAID с тройным контролем четности была интегрирована в OpenSolaris пару дней назад, поэтому, по крайней мере, один поставщик считает, что учет двух дополнительных сбоев во время перестроения RAID с контролем четности стоит инженерных усилий.

1
Axxmasterr

Это действительно происходит на самом деле. Вот почему решения NetApp для хранения данных имеют реализацию RAID 6. Это на тот случай, если вы потеряете второй диск во время восстановления.

Вы можете рассчитать вероятность сбоя, используя стандартные формулы, перечисленные в тексте ссылки на следующей странице. При масштабировании все большего и большего количества дисков с данными вероятность только такого сбоя возрастает. Если у вас достаточно дисков, вы можете поместить это число в зону беспокойства, если вы используете RAID 5 с огромным количеством томов данных.

По личному опыту могу сказать, что у вас наверняка могут быть два отказа дисков в одном массиве в течение одного критического периода времени. Raid 6 избавил меня от необходимости восстановления из резервной копии.

Надеюсь это поможет

1
camster342

Вот сценарий: на вашем RAID5-массиве произошел сбой диска, но ваш запасной уже находился или сидел без дела, или наконец-то поступил заказ на новый жесткий диск. Вы (или, возможно, какой-нибудь удаленный миньон) идете с новым диском в руке, чтобы заменить неисправный. Из-за плохой маркировки, усталости или просто глупости один из оставшихся хороших дисков извлекается вместо неисправного ... и вот ваш второй сбой.

1
Jared

Я видел это несколько раз, когда занимаюсь восстановлением данных. И да, они часто терпят неудачу в одно и то же время, однако я не верю, что это имеет какое-либо отношение к тому моменту, когда они были собраны обязательно, поскольку я также видел, что это происходит с несовпадающими дисками. Чаще всего этот тип отказа происходит вскоре после грозы, скачка напряжения или отключения питания.

Обычно скачок приводит к повреждению дисков или RAID-контроллера, и в течение нескольких дней они начинают выходить из строя. На самом деле я сейчас работаю над восстановлением массива, в котором два диска перестали работать после отключения питания. (сейчас выглядит безнадежно)

Небольшой совет: сетевые фильтры не защищают ваше оборудование. Всегда подключайте ваш рейд 5 к хорошему ИБП. Я никогда не видел, чтобы это случилось, когда массив был на ИБП.

1
Sfynx

Случайное извлечение второго хорошего диска из набора с одним контролем четности не должно разрушать массив с хорошей реализацией RAID. Я знаю, что ZFS RAID-Z просто замораживает любые операции ввода-вывода в массиве, пока вы не подключите его снова.

0
Mathias

Другой сценарий: удаленному миньону приказывают извлечь резервную ленту из магнитофона. Она идет к стойке и не вытаскивает ленту из накопителя на магнитной ленте ... но 2 (два) жестких диска из дисковых отсеков одновременно и вуаля: 2 сбоя накопителя.

Ты думаешь это надумано? Что ж, я сейчас нахожусь у клиента, который сделал именно это, а теперь смотрит на перестройку сервера.

Удачи, она не сожгла ленту, которая была на самом деле в тапрайвере или еще много чего ;-)