Как интерпретировать результаты SMART и Badblocks

583
AlexOnLinux

Я купил использованный SSHD (ноутбук Seagate SSHD - ST500LM000-1EJ162) на Ebay. Что касается SMART, диск может быть как-то поврежден, я не уверен. Чтобы правильно интерпретировать значения SMART, мне нужна ваша помощь.

Что касается SMART, у меня есть огромное количество ошибок Raw-Read-Error и Seek-Error, До сих пор я читал много разных тем на эту тему, и я обнаружил, что эти два упомянутых значения почти не имеют значения, потому что не существует стандартизации того, какая ошибка должна возникать, чтобы допустить эти два значения ( Ошибка чтения и поиска ошибки). Это производитель, который решает это - в общем и целом: Seagate, как правило, имеет высокие значения RAW для необработанных считываний и ошибок поиска, в то время как Western Digital, как правило, имеют низкие значения RAW в этом сегменте. Из-за этого я читал, что было бы бесполезно пытаться интерпретировать RAW-значения этих двух атрибутов, вместо этого я должен сравнивать названия с именем VALUE с WORST и THRESHOLD. И тут возникает следующая проблема. Теперь все наоборот: предпочтительнее более высокое значение, чем TRESHOLD.

Чтобы сделать вещи более понятными, взгляните на smartctl -a /dev/sdb/фрагмент ниже

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 120 099 006 Пред-сбой Всегда - 237676480 

Что касается SMART, у меня есть Raw_Read_Error_Rate с RAW-значением 237676480. Во-первых, это выглядит опасно. А вот по поводу колломов VALUE WORST THRESHу меня актуально? ЗНАЧЕНИЕ 120. У худшего случая был 099, и если он падает ниже THRESH 006, диск следует считать сломанным.

То же самое касается перераспределенного сектора. Чем ниже значения collom по сравнению со значением THRESH, тем хуже состояние диска.

Что касается приведенного ниже фрагмента SMART, мой диск никогда ничего не перераспределял.

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 010 Пред-сбой Всегда - 0 

Теперь давайте посмотрим на Reported-Uncorrect-Error . Насколько я понимаю, эти ошибки подсчитываются всякий раз, когда на диске не удается перераспределить поврежденный сектор, в результате чего данные, хранящиеся в таком секторе, теряются.

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1 

Что касается приведенного выше фрагмента SMART, то на диске был один неисправленный сектор за время существования. Что касается значений VALUE и WORST, не нужно бояться любого сбоя диска.

Другим атрибутом является Airflow-Temperature-Cel . Сначала я установил диск в свой 12-летний ноутбук и побежал badblocksпроверять мой диск. Во время badblocksработы в течение нескольких часов я проверил значение температуры SMART и увидел, что значение VALUE в столбце равно WORST, и оба упали ниже THRESH. В качестве RAW_VALUE у меня было утверждение типа: DISK IS FAILING. Поэтому я решил выключить свой ноутбук и установить тот SSHD на моем домашнем сервере, у которого улучшился поток воздуха, и перезапустить badblocks. Таким образом, при проверке этого атрибута SMART сейчас столбец WORST описывает случай, который произошел накануне в моем ноутбуке, в то время как столбец VALUE показывает фактическую температуру. Сравнивая VALUE с THRESH, температура в порядке. Попытка интерпретировать RAW_VALUE - это то, с чем у меня проблемы. Здесь фрагмент

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 190 Airflow_Tempera__el 0x0022 068 037 045 Old_age Always In_the_past 32 (0 120 37 26 0 

И последнее, но не менее важное: есть некоторая информация SMART, которую я никогда не читал ни в одном из выходов SMART за всю свою жизнь, и я абсолютно не понимаю, как их интерпретировать:

Ошибка 4 произошла при включении диска: 521 час (21 день + 17 часов) Когда произошла команда, вызвавшая ошибку, устройство было активным или бездействующим.  После выполнения команды регистры были: ER ST SC SN CL CH DH - - - - - - - 04 71 03 80 04 11 40  Команды, приводящие к команде, которая вызвала ошибку, были: CR FR SC SN CL CH DH DC Powered_Up_Time Command / Feature_Name - - - - - - - - ---------------- ------------------ - 00 00 00 00 00 00 00 00: 13: 30.508 FLUSH CACHE EXT 61 00 08 00 09 9c 40 00 00: 13: 30.507 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 78 e1 42 40 00 00: 13: 30.507 НАПИСАТЬ FPDMA QUEUED 61 00 28 f0 44 9d 40 00 00: 13: 30.507 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 00 6f 71 47 00 00: 13: 29.805 ЗАПИСАТЬ FPDMA QUEUED  Ошибка 3 произошла при включении диска: 519 часов (21 день + 15 часов) Когда произошла команда, вызвавшая ошибку, устройство было активным или бездействующим.  После выполнения команды регистры были: ER ST SC SN CL CH DH - - - - - - - 04 51 00 a0 25 e7 06  Команды, приводящие к команде, которая вызвала ошибку, были: CR FR SC SN CL CH DH DC Powered_Up_Time Command / Feature_Name - - - - - - - - ---------------- ------------------ - 00 00 00 00 00 00 00 00: 11: 47.000 FLUSH CACHE EXT 61 00 08 88 c4 a0 40 00 00: 11: 45.863 ЗАПИСЬ FPDMA ВЫПОЛНЕНА 60 00 08 40 d4 08 49 00 00: 11: 45.863 READ FPDMA QUEUED 61 00 08 00 09 9c 40 00 00: 11: 45.863 ЗАПИСАТЬ FPDMA QUEUED 60 00 12 19 47 5a 40 00 00: 11: 45.863 READ FPDMA QUEUED  Ошибка 2 произошла при включении диска: 519 часов (21 день + 15 часов) Когда произошла команда, вызвавшая ошибку, устройство было активным или бездействующим.  После выполнения команды регистры были: ER ST SC SN CL CH DH - - - - - - - 40 51 00 40 d4 08 09 Ошибка: WP на LBA = 0x0908d440 = 151573568  Команды, приводящие к команде, которая вызвала ошибку, были: CR FR SC SN CL CH DH DC Powered_Up_Time Command / Feature_Name - - - - - - - - ---------------- ------------------ - 61 00 08 78 e1 42 40 00 00: 10: 28.019 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 e0 96 a0 40 00 00: 10: 27.914 ЗАПИСЬ FPDMA УДАЛЕНО 61 00 08 98 95 a0 40 00 00: 10: 27.914 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 70 95 a0 40 00 00: 10: 27.914 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 58 95 a0 40 00 00: 10: 27.914 ЗАПИСАТЬ FPDMA QUEUED  Ошибка 1 произошла при включении диска: 426 часов (17 дней + 18 часов) Когда произошла команда, вызвавшая ошибку, устройство было активным или бездействующим.  После выполнения команды регистры были: ER ST SC SN CL CH DH - - - - - - - 04 71 03 80 04 11 40  Команды, приводящие к команде, которая вызвала ошибку, были: CR FR SC SN CL CH DH DC Powered_Up_Time Command / Feature_Name - - - - - - - - ---------------- ------------------ - ea 00 00 00 00 00 00 00 00: 35: 26,857 FLUSH CACHE EXT 61 00 08 00 09 9c 40 00 00: 35: 26.856 ЗАПИСАТЬ FPDMA QUEUED 61 00 08 ff ff ff 4f 00 00: 35: 26.161 ЗАПИСАТЬ FPDMA С ОГРАНИЧЕННОЙ 61 00 08 ff ff ff 4f 00 00: 35: 26.161 ЗАПИСАТЬ FPDMA С ОГРАНИЧЕННОЙ 61 00 08 ff ff ff 4f 00 00: 35: 26.160 ЗАПИСАТЬ FPDMA QUEUED  

Судя по сообщениям, которые я читал на разных форумах, люди склонны советовать заменять диски, прежде чем все станет хуже. Также я прочитал, как несколько человек комментируют, что им удалось использовать такие диски в течение нескольких лет, прежде чем они умерли до смерти. Для меня это новая земля. У меня никогда не было диска с таким количеством ошибок. Вероятно, владелец раньше плохо справлялся с этим диском. Например, сильно трясло его ноутбук, или разъемы sata не подходили идеально, что также приводило к ошибкам. Как я уже сказал, я понятия не имею, как интерпретировать эти параметры. Это как эксперимент, который я собираюсь провести с этим диском.

Я проверил диск с badblocks -wvs -b 4096 -o badblox.result /dev/sdbи не было ошибок - НЕ КОПИРУЙТЕ И ВСТАВЛЯЙТЕ, ЧТО КОМАНДА BADBLOCKS !!! , Но при сравнении результатов smartctl -a /dev/sdbдо и после запуска badblocksчисло Raw_Read_Error_Rate и Seek_Error_Rate значительно увеличилось, в то время как все остальные значения атрибутов остались прежними. Проверьте фрагмент ниже:

Перед запуском badblocks.

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 104 099 006 Пред-сбой Всегда - 6995776 7 Seek_Error_Rate 0x000f 059 055 030 Pre-fail Always - 107395771838 

После того, babdblocksкак закончил.

ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 120 099 006 Пред-сбой Всегда - 237676480 7 Seek_Error_Rate 0x000f 059 055 030 Pre-fail Always - 107395783395 

Весь SMART Output можно просмотреть на PasteBin:

Итак, мои вопросы:

  • Какой серьезный ущерб имеет этот диск?
  • Правильна ли моя интерпретация относительно Raw-Read и Seek-Error?
  • Ноль перераспределенных секторов - это хорошо?
  • Наличие только одной не перераспределенной ошибки не так уж плохо?
  • Ноль ошибок при запуске badblocksозначает, что диск в хорошем состоянии?
  • Как мне интерпретировать ошибку 1 к ошибке 4 ?
  • Любой другой тест, который я должен сделать, кроме самопроверки, smartctl -t long /dev/sdbкоторая на самом деле выполняется?
0

1 ответ на вопрос

2
dirkt

Очень быстро:

  • Необработанные значения ничего не значат. Они могут варьироваться от прошивки к прошивке, и, если вы не знаете точно, что означает ваше сырое значение для вашего конкретного оборудования, не пытайтесь их интерпретировать. Иногда это очевидно (температура в градусах Цельсия), часто это не так.

  • Значения нормированы до 100, чем ниже, тем хуже. Если это 100 или выше, не нужно беспокоиться. Если он ниже 100, жесткий диск немного изнашивается. Если он приближается к порогу или под ним, начинайте беспокоиться.

  • Все жесткие диски имеют грубые ошибки чтения. Это является следствием высокой плотности современных накопителей, и именно для этого предназначена встроенная коррекция ошибок.

  • Итак: ваша скорость чтения выглядит нормально. Ваша перераспределенная доля сектора превосходна, что означает, что ничего серьезного еще не произошло. Несколько перераспределенных секторов не о чем беспокоиться.

  • Ваша температура по какой-то причине слишком высокая, убедитесь, что жесткий диск охлажден должным образом. Частота ошибок поиска слишком высока, это может быть следствием слишком высокой температуры, что приводит к небольшому расширению металла, что может привести к смещению положения головки из-за спекуляции.

Поэтому вам нужно беспокоиться о правильном охлаждении. Если вы можете сделать это, ошибки поиска должны исчезнуть, и на вашем месте я бы оставил жесткий диск. (Но, конечно, вы делаете резервные копии, не так ли?)

редактировать

Ошибки 1-4 происходят из журнала пяти самых последних ошибок, которые были переданы на уровне ATA. Обычно вы получаете заголовок, как

SMART Error Log Version: 1 ATA Error Count: xxx (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] 

Таким образом, можно посмотреть значения команд и функций в стандарте ATA, чтобы узнать больше подробностей о том, что произошло. Но наличие ошибок время от времени само по себе не о чем беспокоиться: встроенный контроллер сложен, взаимодействие с хостом сложное, время - сложное; если происходят какие-то странные обстоятельства, это один из способов получить ошибку. Другими способами являются ошибки во встроенном программном обеспечении встроенного контроллера, которые срабатывают только в этих нечетных обстоятельствах.

Только когда ошибки происходят часто, прямо сейчас и продолжают возникать, пора беспокоиться, особенно если это всегда одна и та же ошибка.

У вас есть три ошибки, которые произошли после очистки кэша, и одна после записи (LBA = адрес логического блока). Два случая произошли вместе, вероятно, как следствие одной и той же проблемы, и один до и один после произошли независимо из-за этого. На вашем месте я бы полностью проигнорировал это: все, что их вызвало, прошло, и это больше не повторится.

Привет, спасибо за ваш быстрый ответ. Хорошо знать, что моя интерпретация была не так уж и плоха. Можете ли вы также дать мне ответ о том, как понимать * Error1 * to * Error 4 *? AlexOnLinux 6 лет назад 0