Как найти причину частых зависаний системы и BSOD?

471
Dims

Что может быть причиной частых зависаний системы и BSOD при следующих обстоятельствах?

1) BSOD часто не отображаются, и дамп не сохраняется, компьютер просто зависает.

2) Когда он сохранен, он сообщает NTOSKRNL со случайным кодом ошибки.

3) Долгий тест памяти на много часов (со стандартными инструментами диагностики памяти) показал все ок.

4) Свежая переустановка Windows на-для очистки нового жесткого диска не помогла.

Что еще может быть плохим? Я не знаю ... процессор? системная шина? Без разницы? Как узнать?

ОБНОВИТЬ

Сегодня я получил новый BSOD на совершенно новую установку: https://1drv.ms/u/s!AkjSY7WYaKo6ljq-wBFKjcGsJ-m2

ОБНОВЛЕНИЕ 2

Загрузка некоторого аварийного дампа в WinDbg дала следующее:

******************************************************************************* * * * Bugcheck Analysis * * * *******************************************************************************  Use !analyze -v to get detailed debugging information.  BugCheck 1A,   *** ERROR: Symbol file could not be found. Defaulted to export symbols for win32k.sys -  Probably caused by : memory_corruption  Followup: memory_corruption ---------  6: kd> !analyze -v ******************************************************************************* * * * Bugcheck Analysis * * * *******************************************************************************  MEMORY_MANAGEMENT (1a) # Any other values for parameter 1 must be individually examined. Arguments: Arg1: 0000000000005012, The subtype of the bugcheck. Arg2: fffff18010804310 Arg3: 0000000000000c73 Arg4: 0000000000000c70  Debugging Details: ------------------   DUMP_CLASS: 1  DUMP_QUALIFIER: 400  BUILD_VERSION_STRING: 10.0.14393.447 (rs1_release_inmarket.161102-0100)  SYSTEM_MANUFACTURER: Gigabyte Technology Co., Ltd.  SYSTEM_PRODUCT_NAME: B85M-D3H  SYSTEM_SKU: To be filled by O.E.M.  SYSTEM_VERSION: To be filled by O.E.M.  BIOS_VENDOR: American Megatrends Inc.  BIOS_VERSION: F13  BIOS_DATE: 06/19/2014  BASEBOARD_MANUFACTURER: Gigabyte Technology Co., Ltd.  BASEBOARD_PRODUCT: B85M-D3H  BASEBOARD_VERSION: x.x  DUMP_TYPE: 2  BUGCHECK_P1: 5012  BUGCHECK_P2: fffff18010804310  BUGCHECK_P3: c73  BUGCHECK_P4: c70  BUGCHECK_STR: 0x1a_5012  CPU_COUNT: 8  CPU_MHZ: da4  CPU_VENDOR: GenuineIntel  CPU_FAMILY: 6  CPU_MODEL: 3c  CPU_STEPPING: 3  CPU_MICROCODE: 6,3c,3,0 (F,M,S,R) SIG: 1E'00000000 (cache) 1E'00000000 (init)  CUSTOMER_CRASH_COUNT: 1  DEFAULT_BUCKET_ID: CODE_CORRUPTION  PROCESS_NAME: msiexec.exe  CURRENT_IRQL: 2  ANALYSIS_SESSION_HOST: LAGRANGIAN  ANALYSIS_SESSION_TIME: 11-30-2016 19:21:21.0450  ANALYSIS_VERSION: 10.0.14321.1024 amd64fre  LAST_CONTROL_TRANSFER: from fffff80215394944 to fffff80215357510  STACK_TEXT:  ffffc681`ad47c768 fffff802`15394944 : 00000000`0000001a 00000000`00005012 fffff180`10804310 00000000`00000c73 : nt!KeBugCheckEx ffffc681`ad47c770 fffff802`1525ff11 : ffff8003`c3ab1d00 ffff8003`c3ab1d00 00000000`00000000 fffff180`10804310 : nt! ?? ::FNODOBFM::`string'+0x2dfa4 ffffc681`ad47c830 fffff802`156723b1 : 00000000`00000000 ffff8003`c3ab1d00 ffff8003`c3ab1d00 ffff8003`c3ab1800 : nt!MiCleanWorkingSet+0x45 ffffc681`ad47c860 fffff802`15672107 : 00000000`00040000 ffff8003`cedc8680 00000000`00000001 ffff8003`c3ab1800 : nt!MmCleanProcessAddressSpace+0x185 ffffc681`ad47c8d0 fffff802`156c9590 : ffff8003`c3ab1800 ffffb002`c303f060 ffffc681`ad47c9c0 00000000`00000000 : nt!PspRundownSingleProcess+0x117 ffffc681`ad47c950 fffff802`15620fa2 : ffff8003`00000000 ffff8003`c3ab1800 ffff8003`c3ab1800 ffff8003`cedc8680 : nt!PspExitThread+0x508 ffffc681`ad47ca90 fffff802`15362193 : ffff8003`c3ab1800 ffff8003`cedc8680 ffffc681`ad47cb80 ffffffff`ffffffff : nt!NtTerminateProcess+0xde ffffc681`ad47cb00 00007ff9`049b53e4 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiSystemServiceCopyEnd+0x13 000000b9`acc7f758 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ff9`049b53e4   STACK_COMMAND: kb  CHKIMG_EXTENSION: !chkimg -lo 50 -d !nt fffff8021531ae6d-fffff8021531ae6e 2 bytes - nt!MiPurgeZeroList+6d [ 80 fa:00 aa ] 2 errors : !nt (fffff8021531ae6d-fffff8021531ae6e)  MODULE_NAME: memory_corruption  IMAGE_NAME: memory_corruption  FOLLOWUP_NAME: memory_corruption  DEBUG_FLR_IMAGE_TIMESTAMP: 0  MEMORY_CORRUPTOR: LARGE  FAILURE_BUCKET_ID: MEMORY_CORRUPTION_LARGE  BUCKET_ID: MEMORY_CORRUPTION_LARGE  PRIMARY_PROBLEM_CLASS: MEMORY_CORRUPTION_LARGE  TARGET_TIME: 2016-11-30T15:39:26.000Z  OSBUILD: 14393  OSSERVICEPACK: 447  SERVICEPACK_NUMBER: 0  OS_REVISION: 0  SUITE_MASK: 272  PRODUCT_TYPE: 1  OSPLATFORM_TYPE: x64  OSNAME: Windows 10  OSEDITION: Windows 10 WinNt TerminalServer SingleUserTS  OS_LOCALE:   USER_LCID: 0  OSBUILD_TIMESTAMP: 2016-11-02 13:17:03  BUILDDATESTAMP_STR: 161102-0100  BUILDLAB_STR: rs1_release_inmarket  BUILDOSVER_STR: 10.0.14393.447  ANALYSIS_SESSION_ELAPSED_TIME: 1139  ANALYSIS_SOURCE: KM  FAILURE_ID_HASH_STRING: km:memory_corruption_large  FAILURE_ID_HASH:   Followup: memory_corruption --------- 

ОБНОВЛЕНИЕ 3

CPU-Z сообщает: (удалено)

ОБНОВЛЕНИЕ 4

DSIM сообщает:

C:\WINDOWS\system32>dism /Online /Cleanup-Image /CheckHealth  Deployment Image Servicing and Management tool Version: 10.0.14393.0  Image Version: 10.0.14393.0  No component store corruption detected. The operation completed successfully.  C:\WINDOWS\system32>dism /Online /Cleanup-Image /ScanHealth  Deployment Image Servicing and Management tool Version: 10.0.14393.0  Image Version: 10.0.14393.0  [==========================100.0%==========================] No component store corruption detected. The operation completed successfully. 
0
Вы используете какой-либо уровень RAID случайно? Narzard 7 лет назад 0
поделитесь полученными дампами, чтобы мы могли их отладить magicandre1981 7 лет назад 0
@ magicandre1981 посмотрите мое обновление, пожалуйста Dims 7 лет назад 0
Ответ magicandre1981 превосходен. Я просто хотел бы добавить: да, кабели SATA могут вызывать такие вещи. То же самое можно сказать и о материнских платах или оборудовании, которое может работать со сбоями из-за неисправности блока питания в настоящее время или ранее (сломанный блок питания, плохое питание от стены). Его предложения более вероятны, но есть и другие возможности. Это сильно пахнет, как аппаратная проблема, поэтому замена оборудования на аналогичные (идентичные предпочтительные) компоненты может изолировать отдельные неисправные компоненты (хотя, конечно, возможны многочисленные неисправные компоненты). TOOGAM 7 лет назад 0
@TOOGAM можно ли найти причину явно? Dims 7 лет назад 0

1 ответ на вопрос

2
magicandre1981

У вас есть повреждение памяти ядра (NT). chkimg сравнивает исполняемый файл из дампа с чистым исполняемым файлом, который он загружает с сервера символов.

CHKIMG_EXTENSION: !chkimg -lo 50 -d !nt fffff8021531ae6d-fffff8021531ae6e 2 bytes - nt!MiPurgeZeroList+6d [ 80 fa:00 aa ] 2 errors : !nt (fffff8021531ae6d-fffff8021531ae6e) 

В вашем случае у вас 2 промаха, и это приводит к сбоям.

Это может произойти, если у вас есть проблемы с диском (плохие сектора, проблемы файловой системы NTFS) или если ваша RAM повреждена.

Шаги для отладки:

  • Запустите memtest86 + для каждой оперативной памяти (удалите остальные), чтобы проверить ошибки. если вы получаете ошибки, удалите поврежденную оперативную память.
  • если ОЗУ в порядке, проверьте, что время ОЗУ в порядке. Запустите CPU-Z и посмотрите на вкладку памяти и SPD, если значения совпадают.
  • если с памятью все в порядке, запустите средство диагностики от поставщика жесткого диска, чтобы проверить проблемы с диском
  • если с диском все в порядке, запустите chkdsk C: /fдля обнаружения проблем NTFS. Теперь также запустите DISM для восстановления поврежденных файлов.
Я провел тесты памяти и жесткого диска. Также я заменил подозрительный SSD на новый HDD, и ситуация сохраняется. Единственное, что я до сих пор подозреваю, это кабели SATA. Возможно ли плохой кабель SATA, вызывающий это? Dims 7 лет назад 0
Большое спасибо, похоже, у меня есть прогресс. Но я не понял, что должно совпадать в CPU-Z? Dims 7 лет назад 0
Возможно ли, что MemTest не показывает никаких ошибок, потому что я не вынимал DIMM? Dims 7 лет назад 0
Время ОЗУ в порядке. Для 666 МГц время составляет 9-9-9-24, и ваши значения в порядке. плохие кабели действительно могут вызвать повреждения. попробуйте другой кабель. magicandre1981 7 лет назад 0
удаление другого RAm и проверка каждой палки в отдельности - лучший способ узнать, какой баран поврежден, если вы видите ошибки в memtest86 + magicandre1981 7 лет назад 0
Я запускал memtest всю ночь несколько раз, но ошибок не было. Значит ли это, что проблемы с памятью исключены? Dims 7 лет назад 0
возможно. Теперь сосредоточьтесь на кабеле HDD и попробуйте другой. также запустите chkdsk и DISM, чтобы обнаружить и исправить проблемы файловой системы magicandre1981 7 лет назад 0
DSIM сообщает об отсутствии коррупции. Кроме того, у меня было больше BSOD с той же коррупцией. Означает ли это снова проблему ОЗУ? :() Dims 7 лет назад 0
проверить наличие проблем с диском (кабели, запустить chkdsk для устранения проблем с NTFS) magicandre1981 7 лет назад 0
«Я запускал memtest всю ночь несколько раз, но ошибок не было. Значит ли это, что проблемы с памятью исключены?» Нет, гораздо менее вероятно. Но Memtest иногда обнаруживает через несколько дней (у меня такое было), и тогда есть, по крайней мере, теоретическая вероятность ошибки, которую memtest просто не вызывает. Похоже, вы провели базовые тесты, которые обычно (но не всегда) указывают на проблему. К сожалению, в тех немногих случаях, когда основные шаги не решают проблему хорошо, не может быть простого, определенного, дешевого пути. Сожалею. TOOGAM 7 лет назад 0

Похожие вопросы