SLURM 系统入门使用指南_qosmaxgresperuser-程序员宅基地

技术标签: 云计算  

简介

  • SLURM (Simple Linux Utility for Resource Management)
  • 一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统

常用命令

  • sacct:查看历史作业信息
  • salloc:分配资源
  • sbatch:提交批处理作业
  • scancel:取消作业
  • scontrol:系统控制
  • sinfo:查看节点与分区状态
  • squeue:查看队列状态
  • srun:执行作业

系统实体

SLURM 资源管理系统的管理对象包括

  • 分区partition:节点的逻辑分组
  • 节点node:计算节点
  • 作业job:在一个分区内分配若干资源完成特定任务
  • 作业步jobstep: 多个可并发的作业步组成作业

作业的运行模式

  • 交互模式:可I/O或信号交互,srun命令
  • 批处理模式:编写提交作业脚本,sbathc命令
  • 分配模式:预分配资源,可交互salloc命令

状态查看

查看各分区和节点的状态

$ sinfo
关键词 含义
PARTITION 分区名,大型集群为了方便管理,会将节点划分为不同的分区设置不同权限
AVAIL 可用状态:up 可用;down 不可用
TIMELIMIT 该分区的作业最大运行时长限制, 30:00 表示30分钟,如果是2-00:00:00表示2天,如果是infinite表示不限时间
NODES 数量
STATE 状态:drain: 排空状态,表示该类结点不再分配到其他;idle: 空闲状态;alloc: 被分配状态;mix:部分被占用,但是仍有可用资源

查看分区的状态信息

$ scontrol show partition [PARTITION_NAME]

查看节点的状态信息

$ scontrol show node [NODE_NAME]

查看任务队列信息

$ squeue
关键词 含义
JOBID job的id号,每个成功提交的任务都会有唯一的id
PARTITION 计算分区名
NAME 任务名,默认以提交脚本的名称当作任务名
USER 用户名,提交该任务的用户名
ST 任务状态:PD排队;R运行;S挂起;CG正在退出
TIME 任务运行时间
NODES 任务作占节点数
NODELIST(REASON) 任务所占节点列表,如果是排队状态的任务,则会给出排队原因

配置运行环境

基本的在自己目录下的module使用

# 查看可用的module模块
$ module avail

# 加载module模块
$ module load [MODULE_NAME]

# 查看加载的模块
$ module list

# 卸载模块
$ module unload [MODULE_NAME]

定制conda环境

在运算节点上定制conda环境

# 新建交互式作业,先占用资源,成功后返回任务JOBID
$ salloc -p gpu --gres=gpu:1 bash

# 查看队列信息,可以在USER或JOBID中找到刚刚提交的任务
$ squeue

# 通过队列可以看到任务分配的节点,进入节点
$ ssh [NODE_ID]

# 在任务运算节点上加载anaconda模块
$ module load anaconda3

# 加载成功后可以检查Python版本
$ which python
$ python -V

# 查看conda环境信息
$ conda env list
# 查看conda包
$ conda liat

# 回到自己的目录
$ exit

# 新建conda配置文件
$ vim ~/.condarc

添加下面内容,主要更改自己的用户名:

channels:
- defaults
ssl_verify: true
envs_dirs:
- /gs/home/zzlzoro/anaconda/envs
pkgs_dirs:
- /gs/home/zzlzoro/anaconda/pkgs

# 添加清华源
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
# 回到任务的计算节点
$ ssh [NODE_ID]

# 创建自己的conda环境,并命名,从返回信息environment location可以看到,创建的环境自动指向我们的Home目录
$ conda create --quiet --yes --name [ENV_NAME]

# 初始化conda的bash
$ conda init bash

# 重启bash
$ exit
$ ssh [NODE_ID]

# 查看conda环境
$ conda env list

# 激活自定义的conda环境
$ conda activate [ENV_NAME]

# 查看conda包
$ conda list

# 安装包
$ conda install --quiet --yes scipy
$ conda install --quiet --yes numpy

上传文件

安装ftp服务

sudo apt-get install vsftpd

修改配置文件

sudo gedit /etc/vsftpd.conf

主要做以下修改

anonymous_enable=NO
local_enable=YES
write_enable=YES

重启服务,使得修改生效

sudo /etc/init.d/vsftpd restart

安装ssh服务

sudo apt-get install openssh-server
sudo apt-get install openssh-client

查看ssh端口,验证

ps -e | grep sshd

通过scp命令上传文件

# 上传
scp 本地的需上传的文件路径 用户名@服务器ip:服务器中文件的保存路径

# 下载
scp 用户名@服务器ip:服务器中需下载的文件路径 文件的本地保存路径

输入密码即可看到文件传输过程和成功的提示。

提交任务

交互式任务

使用 salloc 命令来分配交互式任务所需的资源

$ $ salloc -N 1 --cpus-per-task=4 -t 5:00 -p cpu

可选参数包括:

-N <节点数量>
--cpus-per-task=<单进程 CPU 核心数>
--gres=gpu:<单节点 GPU 卡数>
-t <最长运行时间>
-p <使用的分区>
--qos=<使用的 QoS>

批处理任务

推荐使用批处理方式提交任务,批处理任务模式的核心在编写一个 SLURM 脚本,模板如下:

#!/bin/bash
#SBATCH -J test                   # 指定作业名
#SBATCH -o test.out               # 屏幕上的输出文件重定向到 test.out
#SBATCH -p gpu                    # 作业提交的分区为 cgpu
#SBATCH -N 1                      # 作业申请 1 个节点
#SBATCH --cpus-per-task=4         # 单任务使用的 CPU 核心数为 4
#SBATCH -t 1:00:00                # 任务运行的最长时间为 1 小时
#SBATCH --gres=gpu:1              # 单个节点使用 1 块 GPU 卡

# 加载运行环境
module load anaconda3

# conda初始化bash
conda init bash

# 重新进入conda环境
source activate

# conda激活自定义环境
conda activate wfenv

# 运行程序
python /gs/home/zzlzoro/test/abc.py

其中第一行表示使用 /bin/bash 来执行脚本,下面通过 #SBATCH 前缀设置服务的各个属性,没有指定的属性将使用默认值,其他属性见官方文档。可以根据自己的需要申请适当的资源。
提交任务

sbatch [BATCH_NAME].slurm

任务执行的结果可以通过test.out查看,也可以通过提示的错误消息更改脚本,重新提交。

分配式任务

通过salloc执行创建分配式任务

salloc [options] command

如果后面的 command 为空,则执行 slurm 的配置 slurm.conf 中通过 SallocDefaultCommand 设定的命令。如果 SallocDefaultCommand 没有设置,则将执行用户默认的 shell。
salloc主要参数包括:

--core-per-socke=cores
分配的节点需要至少每颗 CPU 核
-I, --immediate=seconds
在 seconds 秒内资源未满足的情况下立即退出。
-J, --job-name=job name
设定作业名
-N, --nodes=minnodes[-maxnodes]
请求为作业至少分配 minnodes 个结点。
-n, --ntasks=number
指定要运行的任务数。请求为 number 个任务分配资源,默认为每个任务一个处理器核。
-p, --partitions=partition name
在指定分区中分配资源。如未指定,则由控制进程在系统默认分区中分配资源。
-w, --nodelist=node name
请求指定的结点名字列表。
-x, --exclude=node name
不要将指定的节点分配作业。

任务状态

在提交任务后,可以查看任务状态

$ squeue

正常情况下任务的状态为“R”,代表任务正在运行,但是经常会因为各种原因作业未被运行,我们需要继续等待或者修改任务脚本才能够正常运行计算,其中常见原因包括:

原因代码 详细说明
BeginTime 未到用户所指定的任务开始时间
Dependency 该作业所依赖的作业尚未完成
InvalidAccount 用户的 SLURM 账号无效
InvalidQOS 用户指定的 QoS 无效
ParitionTimeLimit 用户申请的时间超过该分区时间上限
QOSMaxCpuPerUserLimit 超过当前 QoS 用户最大 CPU 限制
QOSMaxGRESPerUser 超过当前 QoS 用户最大 GRES(GPU) 限制
Priority 存在一个或多个更高优先级的任务,该任务需要等待
ReqNodeNotAvail 所申请的部分节点不可用
Resources 暂无闲置资源,该任务需等待其他任务完成

其中InvalidAccount,InvalidQOS,ParitionTimeLimit属于异常原因,应该再次确认脚本的正确性和账户情况。

Ref.

  1. MrZhengGang: slurm作业管理系统怎么用?
  2. slurm Documentation
  3. pku_工作站使用指南

更多文章见我的博客:LittlePeanut

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_33275276/article/details/105060613

智能推荐

5个超厉害的资源搜索网站,每一款都可以让你的资源满满!_最全资源搜索引擎-程序员宅基地

文章浏览阅读1.6w次,点赞8次,收藏41次。生活中我们无时不刻不都要在网站搜索资源,但就是缺少一个趁手的资源搜索网站,如果有一个比较好的资源搜索网站可以帮助我们节省一大半时间!今天小编在这里为大家分享5款超厉害的资源搜索网站,每一款都可以让你的资源丰富精彩!网盘传奇一款最有效的网盘资源搜索网站你还在为找网站里面的资源而烦恼找不到什么合适的工具而烦恼吗?这款网站传奇网站汇聚了4853w个资源,并且它每一天都会持续更新资源;..._最全资源搜索引擎

Book类的设计(Java)_6-1 book类的设计java-程序员宅基地

文章浏览阅读4.5k次,点赞5次,收藏18次。阅读测试程序,设计一个Book类。函数接口定义:class Book{}该类有 四个私有属性 分别是 书籍名称、 价格、 作者、 出版年份,以及相应的set 与get方法;该类有一个含有四个参数的构造方法,这四个参数依次是 书籍名称、 价格、 作者、 出版年份 。裁判测试程序样例:import java.util.*;public class Main { public static void main(String[] args) { List <Book>_6-1 book类的设计java

基于微信小程序的校园导航小程序设计与实现_校园导航微信小程序系统的设计与实现-程序员宅基地

文章浏览阅读613次,点赞28次,收藏27次。相比于以前的传统手工管理方式,智能化的管理方式可以大幅降低学校的运营人员成本,实现了校园导航的标准化、制度化、程序化的管理,有效地防止了校园导航的随意管理,提高了信息的处理速度和精确度,能够及时、准确地查询和修正建筑速看等信息。课题主要采用微信小程序、SpringBoot架构技术,前端以小程序页面呈现给学生,结合后台java语言使页面更加完善,后台使用MySQL数据库进行数据存储。微信小程序主要包括学生信息、校园简介、建筑速看、系统信息等功能,从而实现智能化的管理方式,提高工作效率。

有状态和无状态登录

传统上用户登陆状态会以 Session 的形式保存在服务器上,而 Session ID 则保存在前端的 Cookie 中;而使用 JWT 以后,用户的认证信息将会以 Token 的形式保存在前端,服务器不需要保存任何的用户状态,这也就是为什么 JWT 被称为无状态登陆的原因,无状态登陆最大的优势就是完美支持分布式部署,可以使用一个 Token 发送给不同的服务器,而所有的服务器都会返回同样的结果。有状态和无状态最大的区别就是服务端会不会保存客户端的信息。

九大角度全方位对比Android、iOS开发_ios 开发角度-程序员宅基地

文章浏览阅读784次。发表于10小时前| 2674次阅读| 来源TechCrunch| 19 条评论| 作者Jon EvansiOSAndroid应用开发产品编程语言JavaObjective-C摘要:即便Android市场份额已经超过80%,对于开发者来说,使用哪一个平台做开发仍然很难选择。本文从开发环境、配置、UX设计、语言、API、网络、分享、碎片化、发布等九个方面把Android和iOS_ios 开发角度

搜索引擎的发展历史

搜索引擎的发展历史可以追溯到20世纪90年代初,随着互联网的快速发展和信息量的急剧增加,人们开始感受到了获取和管理信息的挑战。这些阶段展示了搜索引擎在技术和商业模式上的不断演进,以满足用户对信息获取的不断增长的需求。

随便推点

控制对象的特性_控制对象特性-程序员宅基地

文章浏览阅读990次。对象特性是指控制对象的输出参数和输入参数之间的相互作用规律。放大系数K描述控制对象特性的静态特性参数。它的意义是:输出量的变化量和输入量的变化量之比。时间常数T当输入量发生变化后,所引起输出量变化的快慢。(动态参数) ..._控制对象特性

FRP搭建内网穿透(亲测有效)_locyanfrp-程序员宅基地

文章浏览阅读5.7w次,点赞50次,收藏276次。FRP搭建内网穿透1.概述:frp可以通过有公网IP的的服务器将内网的主机暴露给互联网,从而实现通过外网能直接访问到内网主机;frp有服务端和客户端,服务端需要装在有公网ip的服务器上,客户端装在内网主机上。2.简单的图解:3.准备工作:1.一个域名(www.test.xyz)2.一台有公网IP的服务器(阿里云、腾讯云等都行)3.一台内网主机4.下载frp,选择适合的版本下载解压如下:我这里服务器端和客户端都放在了/usr/local/frp/目录下4.执行命令# 服务器端给执_locyanfrp

UVA 12534 - Binary Matrix 2 (网络流‘最小费用最大流’ZKW)_uva12534-程序员宅基地

文章浏览阅读687次。题目:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=93745#problem/A题意:给出r*c的01矩阵,可以翻转格子使得0表成1,1变成0,求出最小的步数使得每一行中1的个数相等,每一列中1的个数相等。思路:网络流。容量可以保证每一行和每一列的1的个数相等,费用可以算出最小步数。行向列建边,如果该格子是_uva12534

免费SSL证书_csdn alphassl免费申请-程序员宅基地

文章浏览阅读504次。1、Let's Encrypt 90天,支持泛域名2、Buypass:https://www.buypass.com/ssl/resources/go-ssl-technical-specification6个月,单域名3、AlwaysOnSLL:https://alwaysonssl.com/ 1年,单域名 可参考蜗牛(wn789)4、TrustAsia5、Alpha..._csdn alphassl免费申请

测试算法的性能(以选择排序为例)_算法性能测试-程序员宅基地

文章浏览阅读1.6k次。测试算法的性能 很多时候我们需要对算法的性能进行测试,最简单的方式是看算法在特定的数据集上的执行时间,简单的测试算法性能的函数实现见testSort()。【思想】:用clock_t计算某排序算法所需的时间,(endTime - startTime)/ CLOCKS_PER_SEC来表示执行了多少秒。【关于宏CLOCKS_PER_SEC】:以下摘自百度百科,“CLOCKS_PE_算法性能测试

Lane Detection_lanedetectionlite-程序员宅基地

文章浏览阅读1.2k次。fromhttps://towardsdatascience.com/finding-lane-lines-simple-pipeline-for-lane-detection-d02b62e7572bIdentifying lanes of the road is very common task that human driver performs. This is important ..._lanedetectionlite

推荐文章

热门文章

相关标签