Как контролировать внешний жесткий диск для качества данных / здоровья

381
Lance Pollard

Не зная ничего о жестких дисках, мне интересно, как поставщик облачных услуг контролирует свои жесткие диски на наличие проблем (повреждение данных, потеря данных, сбой жесткого диска и т. Д.). Поиск в Google не раскрывает ничего, кроме как "скачать комплект для ремонта вашего жесткого диска и нажать кнопку ремонта". Я хотел бы знать, что происходит в этом процессе восстановления, а еще лучше, как поставщик облачных услуг регулярно контролирует качество своих жестких дисков. Я где-то читал, что BackBlaze ежедневно проводит анализ статистики SMART, чтобы увидеть, как работают их жесткие диски, но я не совсем уверен, что это значит.

Мы используем Smartmontools для захвата данных SMART.

Репо здесь, но я хотел бы знать, что делает этот Smartmontools. Не обязательно в деталях, но краткий обзор. Не могу сказать из репо, что он делает.

То, что я думаю, произойдет (для мониторинга жесткого диска), это. Создайте базу данных с MD5-хешами каждого файла. Периодически сканируйте весь жесткий диск и делайте контрольную сумму каждого файла с сохраненным хешем MD5. Но похоже, что это будет очень медленно, особенно на терабайтных жестких дисках. Я не совсем уверен, какие сбои вы можете иметь, и какие уведомления вы можете получить. Может быть, вы можете использовать события файловой системы, но я не уверен, как это будет работать на внешнем диске, а не на основной машине. Но даже если бы он работал на внешнем жестком диске, я не уверен, что он получит уведомление, когда данные будут повреждены из-за старения устройства. Таким образом, кажется, что единственный способ проверить правильность данных - это сравнить текущие данные со старыми. Но кроме контрольной суммы я не совсем уверен, какой эффективный способ можно сделать, чтобы сделать это.

Главное, что вы хотели бы видеть в процессе мониторинга, это знать, когда диск начинает работать не так хорошо, чтобы вы могли подготовиться к его замене. Ремонт диска - это совсем другое, и я не знаю, как он работает, но я не буду спрашивать об этом здесь. Я просто хотел бы знать, как вы обычно наблюдаете за внешним жестким диском и как вы знаете, когда он начинает работать некорректно (т.е. как вы знаете, были ли данные повреждены / потеряны эффективным способом, и тому подобное) ,

Это, кажется, предлагает некоторую информацию.

Вместо того, чтобы просто знать «просто применять технологию x», я хотел бы знать, как на самом деле реализовать ее как приложение или что-то еще, по крайней мере, основы для начала.

0
Одной SMART-вещью, которую нужно отслеживать, является ECC или число исправлений ошибок, выполненных жестким диском. Первоначально он будет равен 0, но по мере старения жесткого диска он будет увеличиваться и даже достигать сотен миллионов (в этот момент накопитель очень медленный и болезненный (поверьте мне, я испытал это на собственном опыте)). Каждый ECC замедляет цикл чтения / записи, поэтому скорость будет снижаться со временем. cybernard 5 лет назад 1

1 ответ на вопрос

1
Yorik

«Мне интересно, как поставщик облачных услуг контролирует свои жесткие диски на наличие проблем»

Они не совсем. Диски обычно выходят из строя внезапно. Ответ заключается в создании систем, которые выживают после отказа. Большие облачные сервисы используют огромные кластеры серверов в нескольких зданиях, имеют серверы, которые используют зеркальные RAID-массивы (которые избыточно хранят данные), и имеют серверы, которые зеркально отражают другие серверы.

Таким образом, избыточные места, избыточные серверы, избыточные диски в серверах.

Google опубликовал исследования об их частоте отказов дисков и т. Д., И в основном: SMART в основном бесполезен, а сбои дисков занимают большой скачок примерно за 3 года.

Получите второй диск в миксе, отразите их (robocopy (часть окон) - отличный выбор для потребителей) и заменяйте их каждые три года. Если вы можете получить копию своих данных за пределами сайта, сделайте это.

Починка дисков хороша только для того, чтобы избавиться от них, для которых у вас нет резервных копий. Вы не можете больше доверять им, и они должны быть отброшены. Если у вас есть зеркальная резервная копия, вы просто заменяете сбойный диск зеркальным отображением существующих данных и продолжаете.

Я использую устройство с низким энергопотреблением в качестве сервера в своей локальной сети с двумя соответствующими внешними дисками (я ищу что-то большое около $ 100). Я помещаю резервные копии на диск сервера, и сервер планирует обычную операцию зеркалирования для дублирования резервной копии на другой диск. Я также время от времени создаю образ своей важной машины, чтобы при необходимости восстановить операционную систему.

Я заменяю внешние диски каждые несколько лет, и обычно заканчиваю тем, что извлекаю диск из корпуса и использую его для массового хранения некритических данных, например игр на одной из моих основных машин, до следующего раунда.

Похожие вопросы