Хорошо. Я нашел довольно тривиальное решение этой проблемы, хотя я не думаю, что оно будет работать всегда.
Чтобы устранить такой процесс зомби, выполните следующие действия:
- Запустите менеджер учетной записи SLURM через
sacctmgr
пользователя сOperator
учетной записью (илиroot
). - Поиск сбежавших рабочих мест, выдав
list runawayjobs
вsacctmgr
подсказке. - Если система распознает одно или несколько заданий без конечной даты, т. Е. Потерянных (сбежавших) заданий, она запросит, хотите ли вы это исправить. Подтвердите с помощью
Y
.
Эти шаги позволили решить мою проблему после того, как в sacct
отчетах было 9 дней безудержной работы .