ZFS scrub находит ошибки контрольной суммы, а badblocks и smartctl - нет
560
taneli
Я настроил пул ZFS с двумя дисками в качестве зеркала. Операционная система - Ubuntu 16.04, и я использую zfs 0.6.5, поставляемую поставщиком. Диски 3T WD Green и 3T WD Red (вероятно, не оптимальны для производительности, но это не имеет значения), которые имеют одинаковый размер в байтах и секторах. Я не использую разделы, но zpool createсделал два на каждом диске для меня, как обычно. По умолчанию ОС выполняет очистку пула раз в месяц, и я несколько раз запускал очистку вручную.
Несколько раз процесс очистки обнаруживал ошибки контрольной суммы на диске WD Red, но не при каждом запуске. Они были отремонтированы автоматически и, насколько я знаю, не вызвали проблем. Число, показанное в столбце CKSUM, указывает 3, 5 и 9, и теперь, после недавнего обновления до предстоящей Ubuntu 18.04 и ZFS 0.7.5, также 31 (с дополнительной информацией «слишком много ошибок», если я правильно помню сообщение ).
Встревоженный, я отделил диск от пула и экспортировал пул. Не импортируя диск, я запустил badblocks -b 4096 -s -v -wна нем, но он сообщил об (0/0/0)ошибках. Также не smartctl -a /dev/sdaуказано ничего необычного, если я правильно понимаю ( | grep -i error):
Я повторно подключил диск к пулу, и в настоящее время он снова серебрен. Но я остаюсь в замешательстве: что могло вызвать повторяющиеся ошибки очистки? Что мне делать в будущем, чтобы лучше понять, в чем проблема, или вообще ее избежать? Я не особенно заинтересован в покупке сменных дисков, тем более что WD Red выпускается только в 2016 году.
(Я не уверен, что это уместно, но в какой-то момент ошибка оператора или ошибка программного обеспечения привели к повреждению не проблемной таблицы разделов диска WD Green. Я не смог найти никакого другого действия, чтобы вернуть его в пул, кроме отсоединения очистка таблицы разделов и ее повторное присоединение. Во время процесса повторного серебрения не удалось прочитать некоторые блоки с диска WD Red, и я восстановил один поврежденный файл из резервных копий. Очистка обнаруженных ошибок контрольной суммы как до, так и после этого инцидента.)
1 ответ на вопрос
1
Dan
Нет простого способа определить причину сбоев контрольной суммы, поскольку они происходят независимо от файловой системы (если только они не вызваны ошибками в самой FS, но я не думаю, что это происходит здесь). smartctlИ badblocksуспехи заставляют меня надежду, что этот вопрос не является неисправным диск.
For example, the following cases will all produce errors that do not indicate potential device failure: - A network attached device lost connectivity but has now recovered - A device suffered from a bit flip, an expected event over long periods of time - An administrator accidentally wrote over a portion of the disk using another program
Я думаю, что на этом этапе проверка подключения к дискам и запуск Resilver - правильный путь.
Благодарю. Я отключил диски по крайней мере дважды и одновременно переключил кабели SATA. Я сомневаюсь, что неисправный кабель или их плохое подключение могут быть причиной проблем.
taneli 6 лет назад
0