Ошибка SSH: временный сбой в разрешении имени при запуске mpi

18190
PVGM

У меня есть 6 компьютеров (4 ядра каждое и идентичные по аппаратному обеспечению) со статическими IP-адресами, и мне нужно параллельно запускать программное обеспечение для вычислительной химии NAMD с использованием OpenMPI. Так что я

  1. установлены SSH и OpenMPI (на монетном дворе 18)
  2. поместите исполняемый файл в / bin на всех компьютерах
  3. установить SSH без пароля (я могу получить доступ ко всем 4 подчиненным компьютерам без пароля с главного компьютера)

Однако он работает на 3 компьютерах, а для других он дает

 mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log  ssh: Could not resolve hostname slave32: Temporary failure in name resolution ssh: Could not resolve hostname slave27: Temporary failure in name resolution  [master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch  [master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages  

мой / etc / hosts на главном компьютере выглядит так

127.0.0.1 localhost  #127.0.1.1 master  172.18.112.78 master  #Cluster Host Names  172.18.112.75 slave25  172.18.112.76 slave26  172.18.112.77 slave27  172.18.112.82 slave32  172.18.112.81 slave31  

ssh slavexx работает отлично

мой mpi-hostfile выглядит так

localhost slots=4  slave25 slots=4  slave26 slots=4  slave27 slots=4  slave31 slots=4  slave32 slots=4  

slave25 и slave26 работают нормально (максимум 12 процессоров, mpiexec -np 16), но более того дают ssh: Could not resolve hostname slavexx: Temporary failure in name resolutionошибку. это так устало, так как я могу пинговать все 5 компьютеров без проблем.

У кого-нибудь есть идея, чтобы решить эту проблему?

и еще одна вещь, эти машины клонированы. поэтому я недавно изменил имя хоста компьютера и переустановил SSH и OpenMPI.

ОБНОВЛЕНИЕ: только сейчас я выяснил, что только первые три из них mpi-hostfileиспользуются для запуска MPI. для других выше ошибка выскакивает!

0
Можете ли вы пинговать других хостов, с которыми у вас проблемы? Вы должны быть уверены, что их имена хостов могут быть разрешены. Можете ли вы также проверить наличие файла /etc/resolv.conf. Попробуйте удалить DNS-сервер, чтобы использовался только файл hosts. Tim Connor 8 лет назад 0
Да, я могу пинговать других и нашел решение! Мне нужно включить ssh без пароля на всех машинах, включая подчиненные. Это решает проблему. PVGM 8 лет назад 0

0 ответов на вопрос

Похожие вопросы