在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法
ssh终端 nohup 后台进程不终止
下班前使用终端通过SSH登陆服务器,用nohup命令后台训练了一个pytorch模型。第二天来公司上班发现模型训练终止,报如下问题。
WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting down workers
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478002 closing signal SIGHUP
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478003 closing signal SIGHUP
一查原来是因为SSH终端与服务器之间建立的是临时的交互会话,如果一段时间没有交互,或者关闭窗口,会话就结束,那么会话内部的进程也终止,所以训练任务就结束了。
知识点补充:
1、 会话与进程
命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。
会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。
一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。
为了解决这个问题,会话与窗口可以"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。
2、如何保持SSH会话不结束
我们使用Linux终端的方法来让SSH会话保持足够长的时间,足够保证我们的训练任务进程完成。
2.1 Linux client 配置
对于 Linux client ,我们在home目录下修改 ~/.ssh/config
文件(如果没有就创建)
vim ~/.ssh/config
下面是配置
Host *
ServerAliveInterval 120
ServerAliveCountMax 720
Host
:配置仅对 “Host” 关键字后面列出的主机生效。由于使用了通配符 (*),因此它们适用于所有主机ServerAliveInterval
:设置超时间隔(以秒为单位),如果没有从 server 接收到数据,SSH 将通过加密通道发送消息,请求 server 响应。默认值为 0,表示不会将这些消息发送到 serverServerAliveCountMax
:设置在 SSH 没有收到任何消息的情况下向 server 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 server 的连接,终止会话(默认值为 3)
表示 client 每 120s 向 server 发送 keepalive 消息,一共发送 720 次,也就是 120 * 720 = 86400 s(24小时),在这24小时内 SSH 会话会一直保持。
2.2 Linux server 配置
上面介绍的是 client 端的配置,我们接下来介绍 server 端的配置
修改 /etc/ssh/sshd_config
文件
sudo vi /etc/ssh/sshd_config
TCPKeepAlive yes
ClientAliveInterval 120
ClientAliveCountMax 720
TCPKeepAlive
:是否应该向 client 发送 TCP keepalive 信息ClientAliveInterval
:设置超时间隔(以秒为单位),如果没有从 client 接收到数据,SSH 将通过加密通道发送消息,请求 client 响应。默认值为 0,表示不会将这些消息发送到 clientClientAliveCountMax
:设置在 SSH 没有收到任何消息的情况下向 client 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 client 的连接,终止会话(默认值为 3)
与前面讲到的 Linux client 配置一样,server 将保持 SSH 会话24小时(120 * 720 = 86400s)
配置之后重启 SSH 服务
systemctl restart sshd
2.3 使用Tmux
https://www.cnblogs.com/gy77/p/16746769.html
https://www.ruanyifeng.com/blog/2019/10/tmux.html
# Mac安装 tmux
$ brew install tmux
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)