`qsub` оставляет" NotQueued "в" заблокированных заданиях "
Я работаю над удаленным кластером ( westgrid> bugaboo ), на котором я отправляю процессы через .pbs
файл. Моя .pbs
выглядит так
#!/bin/bash #PBS -l procs=1 #PBS -l walltime=100:00:00 #PBS -N SimulationName #PBS -m ea #PBS -M myname@gmail.com #PBS -l pmem=3000mb #PBS -t 1-100 echo "Starting run at: `date`" R --vanilla --args $ < /Path/To/code.R echo "Job finished with exit code $? at: `date`"
где PBS_ARRAYID
будут принимать значения от 1 до 100 для каждой конкретной работы. /Path/To/code.R
является R - оболочкой для некоторого двоичного файла, записанного в C
. Когда я отправляю работу
$ qsub mypbs.pbs
Кажется, все работает нормально. Симуляции запускаются, как и ожидалось, и я получил результаты. Проблема в том, что в какой-то момент во время симуляции я часто вижу странные задания в «заблокированных заданиях».
$ showq -u myName active jobs------------------------ JOBID USERNAME STATE PROCS REMAINING STARTTIME 0 active jobs 0 of 4516 processors in use by local jobs (0.00%) 428 of 436 nodes active (98.17%) eligible jobs---------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME 0 eligible jobs blocked jobs----------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME 30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27 30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16 2 blocked jobs Total jobs: 2
Идентификатор задания действительно такой же, как и у тех, кто выполнял (или выполнял раньше), но эти два заблокированных задания не PBS_ARRAYID
заключены в квадратные скобки. Эти работы остаются там надолго, и я не могу их удалить
$ qdel 30004048[] qdel: nonexistent job id: 30004048[]
Кроме того, я не могу отправить новую работу (что является основной проблемой), когда я получаю сообщение
$ qsub mypbs.pbs qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
хотя я НЕ нарушаю этот лимит сервера. В конечном итоге эти задания "NotQueued" в конечном итоге исчезают, но только через относительно длительное время.
Эта проблема случалась со мной несколько раз в прошлом, и среди всех пользователей этого кластера я, похоже, единственный, кто столкнулся с этой проблемой. Обращаясь в службу поддержки, они обычно в итоге каким-то образом удаляют две работы, но пока я не получил никакого долгосрочного решения этой проблемы.
- У вас есть представление о том, что происходит?
- Могу ли я удалить эти две странные работы?
- Как я могу избежать повторения подобных вещей?
0 ответов на вопрос
Похожие вопросы
-
9
В чем разница между командами "su -s" и "sudo -s"?
-
4
Требуется хороший бесплатный образ Ubuntu Server VMWare
-
4
Каковы различия между основными дистрибутивами Linux? Я замечу?
-
-
2
Ограничить использование процессора для Flash в Firefox?
-
2
Как мне заставить мой микрофон работать под Debian GNOME?
-
2
Конки установки - образцы / идеи?
-
3
Каковы различия между оконными менеджерами Linux?
-
2
ThunderBird / Синхронизация освещения с SE k770i
-
4
Файловая система Linux
-
6
Полноэкранная медленная вспышка в KDE 4