Нужны идеи для диагностики / исправления спонтанного сброса

532
Sam Dark

У меня проблема, которая длится почти полгода. Время от времени ПК жестко сбрасывается прямо в BIOS POST (без BSOD). ПК не разогнан (по крайней мере, намеренно). Не похоже, что он связан с какой-либо конкретной деятельностью, т. Е. Может сбрасываться при простом просмотре Интернета, игре в игру или даже в режиме ожидания на рабочем столе. ПК может работать стабильно в течение нескольких дней, а затем выполнять его полную перезагрузку пять раз в день.

Моя текущая ОС - Windows 10. Первым делом я отключил автоматический перезапуск и включил запись мини-дампов. Затем проверил логи: https://pastebin.com/PPavraJZ

Не ясно, в чем проблема, кроме того, что это может быть связано с потерей мощности.

Затем я взял мини-дамп и поместил его в http://www.osronline.com/ . Получил https://pastebin.com/3aqeQNXi :

WHEA_UNCORRECTABLE_ERROR (124) Произошла фатальная аппаратная ошибка.

Я не уверен, как все это интерпретировать, но для меня это выглядело как аппаратная проблема.

Поэтому, думая, что это может быть проблема с оборудованием, я сделал следующее:

  • Заменил старый БП.
  • Вышел из памяти. Очистить все слоты с помощью баллона со сжатым воздухом. Положил его обратно.
  • Заменен термопаста на CPU (используется mx-2). Температура упала на 5-6 градусов. При максимальной нагрузке он теперь остается на уровне около 70 градусов.
  • Обновлен до последней версии BIOS.
  • Сбросьте все настройки BIOS на AUTO или по умолчанию.
  • Установлены последние драйверы чипсета AMD. Выбран оптимизированный профиль мощности Ryzen.
  • Удалено все программное обеспечение MSI ... на всякий случай, если что-то разгоняется.
  • Пробежал мемтест за пол дня без проблем.
  • Пробежал Prime95 час без проблем.

Мое текущее оборудование:

  • Seasonic Titanium Prime 750 Вт.
  • AMD Ryzen 1700 со стандартным RGB кулером Wraith Spire.
  • MSI B350 TOMAHAWK (MS-7A34). Последний BIOS (1.90 от 19.09.2017)
  • 16 ГБ оперативной памяти DDR4 (8 + 8). 1600,0 МГц (DDR4-3200 / PC4-25600) Corsair CMK16GX4M2B3200C16.
  • MSI GeForce GTX 1080 Aero OC 8 ГБ DDR5X.
  • OCZ-VERTEX4 в качестве основного SSD. Здоровый.
  • Samsung SSD 960 PRO 512GB в качестве вторичного SSD. Здоровый.
  • ASUS Xonar D2X.
  • USB клавиатура и мышь.
  • KX-MB1500RU Panasonic Принтер подключен через USB.
  • Чехол Thermaltake Tsunami Dream.

У меня нет идей, поэтому я прошу вашей помощи в дальнейшей диагностике и устранении неполадок. Спасибо.

0
Посмотрите на [этот ответ] (https://superuser.com/a/1282026/213131) для некоторых идей. Twisty Impersonator 6 лет назад 1
Да. Это то, что я делаю более или менее. Однако есть две проблемы: большая часть оборудования была доставлена ​​из Германии, поэтому замена его обойдется дороже, чем покупка нового (стоимость доставки + время). Поскольку проблема не решена, Ubuntu из LiveCD следует использовать в течение нескольких дней или недель, и я должен использовать этот компьютер для работы. Думал, что приведенная выше информация может вызвать некоторые воспоминания о возможных причинах, но все равно спасибо. По крайней мере, я уверен, что нет более легкого пути :) Sam Dark 6 лет назад 0
используйте Windbg и команду [! errrec] (https://superuser.com/a/1163779/174557) со значением arg2, чтобы увидеть, почему вы получаете сбой 0x124 magicandre1981 6 лет назад 1
Вот оно: https://pastebin.com/1LMkbT5T Sam Dark 6 лет назад 0
хорошо, у вас проблема с кэшем L1 при чтении данных. Ryzen относительно новый, поэтому у вас есть гарантия magicandre1981 6 лет назад 1
Да. RMA возможна, но сложна. Потребуется около 2 месяцев, чтобы вернуть процессор в немецкий онлайн-магазин и т. Д., А пока я должен купить другой процессор в местном магазине, чтобы иметь работающий ПК. Насколько вы уверены, что это неисправный процессор и что-то еще, например, не может автоматически установить напряжение материнской платой, графическим процессором или памятью, вызывающим его? Sam Dark 6 лет назад 0
преобразуйте значение 0xbe802800000c0135 из состояния в двоичное и посмотрите, можно ли найти в любой документации AMD, что означает каждый бит. у вас есть друг с совместимым процессором Ryzen, который вы можете проверить? если этот процессор работает, то ваш неисправен. magicandre1981 6 лет назад 1
Нашел документы. http://support.amd.com/TechDocs/54945_PPR_Family_17h_Models_00h-0Fh.pdf, стр. 181. Банк ссылается на единицу загрузки хранилища. Ошибка является неисправимой ошибкой ECC, которая не была исправлена ​​аппаратным обеспечением. Из спецификации, я полагаю, память относится к кэшу процессора, а не к обычной памяти. Есть идеи, если я прав? Sam Dark 6 лет назад 0
Кстати, отправил письмо в службу поддержки AMD с указанием этой информации. Они предложили сделать `sfc / scannow` и после того, как я подтвердил, что ошибок нет, предложили вернуть процессор. Я надеялся, что они хотя бы чуть-чуть углубятся в это :( Sam Dark 6 лет назад 0
К сожалению, у нас нет друзей с Райзеном, поэтому мне придется купить еще один, чтобы попробовать ... Sam Dark 6 лет назад 0
Нашел и запустил https://github.com/corngood/kill-ryzen-win. Разбился. Скорее всего, это процессор. Sam Dark 6 лет назад 0
что делает этот инструмент? magicandre1981 6 лет назад 0
Параллельно запускает множество компиляторов Си, выдает правильный код и ожидает исключения. Это не происходит в нормальных процессорах, но происходит в неисправных. Sam Dark 6 лет назад 0
Кстати, после представления всей этой информации AMD, они договорились о предварительном RMA, так что я работаю на этом неисправном процессоре, пока не прибудет новый, затем заменю его на ОК и отправлю обратно им. Правильный способ сделать RMA. Sam Dark 6 лет назад 0
хорошо, спасибо за отзыв. ответь снова, когда получишь новый. Кстати, сообщите мне с @ myusername. в настоящее время я должен проверить тему самостоятельно, чтобы увидеть, ответили вы или нет. magicandre1981 6 лет назад 1
@ magicandre1981 установлен процессор, полученный от AMD. Конечно, недостаточно, но пока все работает хорошо. Протестировал его с помощью kill-ryzen-win и prime95 в течение нескольких часов. Sam Dark 6 лет назад 0
хорошо, спасибо за отзыв, так что процессор был неисправен. magicandre1981 6 лет назад 0
@ magicandre1981 OMG, с новым процессором просто сбрасывается :( Дамп сбоя похож. Весь RMA кажется бесполезным, кроме исправления редкой ошибки, воспроизводимой с помощью kill-ryzen. Я снова потерян. Sam Dark 6 лет назад 0
у вас есть другая материнская плата, которую вы можете проверить? magicandre1981 6 лет назад 0
Никакого дополнительного оборудования под рукой. Проблема настолько расстраивает, что я не возражаю тратить дополнительные деньги на новый MB, если это может решить ее. Какой MB вы бы предложили, чтобы не было проблем? Sam Dark 6 лет назад 0
Несколько дней назад у пользователя также произошел сбой 0x124, и он исправил это, отключив быстрый запуск Windows 10. Используете ли вы это? если да, также отключите его в панели управления-> настройки питания magicandre1981 6 лет назад 0
@ magicandre1981 вытащил ASUS Xonar D2X из корпуса. Пока стабильно. Есть сообщения об этом, вызывающие BSOD с картами Nvidia, так что, возможно, кэш CPU L1 каким-то образом вызван BSOD, несмотря на то, как странно это звучит ... Sam Dark 6 лет назад 0

0 ответов на вопрос