Сбой инициализации слёрма
412
Bub Espinja
Я пытаюсь настроить Slurm в кластере малины с Raspbian 9.4. Я могу запустить slurmctld, но когда я пытаюсь запустить slurmd, я получаю следующий вывод:
pi@node1:~ $ slurmd -Dvvvc slurmd: debug: Log file re-opened slurmd: error: Domain socket directory /SHARED/slurm/var/slurmd.node1: No such file or directory slurmd: Message aggregation disabled slurmd: topology NONE plugin loaded slurmd: route default plugin loaded slurmd: debug2: Gathering cpu frequency information for 4 cpus slurmd: debug: Resource spec: No specialized cores configured by default on this node slurmd: debug: Resource spec: Reserved system memory limit not configured for this node slurmd: debug2: read_slurm_cgroup_conf: No cgroup.conf file (/SHARED/slurm/confdir/cgroup.conf) slurmd: debug2: _file_read_content: unable to open '(null)/freezer//release_agent' for reading : No such file or directory slurmd: debug2: xcgroup_get_param: unable to get parameter 'release_agent' for '(null)/freezer/' slurmd: error: cgroup namespace 'freezer' not mounted. aborting slurmd: error: unable to create freezer cgroup namespace slurmd: error: Couldn't load specified plugin name for proctrack/cgroup: Plugin init() callback failed slurmd: error: cannot create proctrack context for proctrack/cgroup slurmd: error: slurmd initialization failed
Мой файл конфигурации:
ClusterName=Cluster ControlMachine=node1 SlurmUser=pi SlurmdUser=pi AuthType=auth/none CryptoType=crypto/openssl JobCredentialPrivateKey = /SHARED/slurm/confdir/slurm.key JobCredentialPublicCertificate = /SHARED/slurm/confdir/slurm.cert SlurmctldDebug=3 SlurmdDebug=3 StateSaveLocation=/SHARED/slurm/var SlurmdSpoolDir=/SHARED/slurm/var/slurmd.%n SlurmctldPidFile=/SHARED/slurm/var/slurmctld.pid SlurmdPidFile=/SHARED/slurm/var/slurmd.%n.pid FastSchedule=2 SlurmctldLogFile=/SHARED/slurm/var/slurmctld.log SlurmdLogFile=/SHARED/slurm/var/slurmd.%n.log NodeName=node1 CPUs=4 SocketsPerBoard=4 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=976 TmpDisk=8212 PartitionName=main Nodes=node1 Default=YES MaxTime=INFINITE State=UP
Что я теряю?
Вы пытались запустить `slurmd` с привилегиями` sudo`?
Fanatique 5 лет назад
0
Да, те же результаты
Bub Espinja 5 лет назад
0
0 ответов на вопрос
Похожие вопросы
-
0
удалить команду slurm sacct двойные записи: "extern"
-
1
Конфигурация SLURM: cons_res с CR_Core либо не могут выделить ресурс, либо задания оказываются в сос...
-
1
slurm позволяет аутентификацию без выделения
-
-
1
Ansys Remote Solver с кластером SLURM
-
0
Как использовать SLURM's --dependency = expand:<jobid> правильно </jobid>
-
0
Ansys RSM с кластером SLURM
-
1
Прекращение работы зомби SLURM