Как использовать SLURM's --dependency = expand:<jobid> правильно </jobid>

262
hepcat72

У меня есть 1 незавершенное задание из 5, которое выполняется 19 часов, и я обеспокоен тем, что оно настанет до наступления рабочего дня. Я не администратор, и сейчас выходные, поэтому я хотел бы попробовать использовать эту функцию, которую я обнаружил недавно, показанную в этом примере:

$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash salloc: Granted job allocation 65543 

Однако, когда я пытаюсь это сделать, я получаю сообщение об ошибке:

$ salloc --qos=1wk --dependency=expand:14602965 salloc: error: Job submit/allocate failed: Job dependency problem 

Что я делаю неправильно?

ОБНОВИТЬ:

Мне удалось добиться успешного выполнения команды, когда я только пытался редактировать настенное время:

$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965 salloc: Granted job allocation 14604022 

Однако я заметил, что salloc - это запущенный процесс в моей текущей оболочке:

$ ps PID TTY TIME CMD 43140 pts/1 00:00:00 tcsh 43284 pts/1 00:00:00 salloc 43286 pts/1 00:00:00 tcsh 43321 pts/1 00:00:00 ps 

Поэтому я предположил, что мне нужно запустить его с nohup (или внутри screen / tmux), чтобы я мог выйти из системы. Я свернул и убил процесс и переделал его с nohup. Тем не менее, без возможности изменить QOS, я ожидаю, что моя работа будет убита. Я пробовал и с -t и --qos, но получил ту же ошибку. Я подозреваю, что, поскольку я не указал явно --qos, я не могу использовать --dependency = expand для изменения задания. Я использовал qos по умолчанию ("1day").

Мой дополнительный вопрос: нужно ли мне использовать screen / tmux / nohup, когда я пытаюсь изменить работу?

Кроме того, есть ли какая-либо информация в этом выводе squeue, которая говорит мне, удастся ли ей продлить работу?

 JOBID PARTITION MIN_MEMOR TIME CPUS PRIORITY START_TIME QOS TIME_LIMIT NAME 14602965 main 387000 20:05:37 3 0.0000038153 2018-11-02T13:36:30 1day 1-00:00:00 freebayes.commands3 14604022 main 387000 2:53 3 0.0000018135 2018-11-03T09:39:14 1day 3:57:00 freebayes.commands3-extend 
0

0 ответов на вопрос

Похожие вопросы