Управление температурой процессора, обнаружение неисправного поведения

299
Dohn Joe

Процессоры имеют функцию динамического замедления в зависимости от их температуры, чтобы избежать перегрева. На работе у меня есть два сервера, один из которых показывает плохое поведение (случайные перезагрузки).

Следующий фрагмент ниже - это то, что я вижу в системных журналах обеих машин. Является ли это следствием нормальной работы динамического масштабирования частоты процессора, или это признак некоторой ошибки (например, неправильное применение термопасты)?

Я ожидаю, что что-то столь же обыденное, как динамическое масштабирование частоты современного процессора, не будет отображаться в системных журналах.

В качестве примечания: в любой момент времени с нами сервер не выполнял и не пытался разгоняться.

The kernel log indicates that hardware errors were detected. System log may have more information. The last 20 mcelog lines of system log are: ========================================== Jan 31 17:13:12 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error. Feb 2 15:07:50 apollo3 mcelog: MCE 0 Feb 2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247053fc Feb 2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb 2 15:05:29 2017 Feb 2 15:07:50 apollo3 mcelog: Processor 1 heated above trip temperature. Throttling enabled. Feb 2 15:07:50 apollo3 mcelog: Please check your system cooling. Performance will be impacted Feb 2 15:07:50 apollo3 mcelog: STATUS 88000bcb MCGSTATUS 0 Feb 2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0 Feb 2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79 Feb 2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error. Feb 2 15:07:50 apollo3 mcelog: MCE 1 Feb 2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247241ad Feb 2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb 2 15:05:29 2017 Feb 2 15:07:50 apollo3 mcelog: Processor 1 below trip temperature. Throttling disabled Feb 2 15:07:50 apollo3 mcelog: STATUS 88010a8a MCGSTATUS 0 Feb 2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0 Feb 2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79 
0
Это довольно явно говорит вам, что есть условие ошибки. Также просто посмотрите [документацию для этого журнала] (http://www.mcelog.org/thermal.html)? Seth 7 лет назад 0

1 ответ на вопрос

0
hulaq

Как говорится - процессор перегревается.

  1. Очистите и проверьте все вентиляторы, если они работают правильно

  2. Переключите термопасту (или, если она все еще находится на гарантии, перейдите к C)

  3. Обратитесь к производителю, если проблема все еще возникает