资源管理软件TORQUE与作业调度软件Maui的
安装、设置及使用
李会民(hmli@ustc.edu)
中国科学技术大学网络信息中心
2008年1月
cpf什么意思目录
1资源管理软件TORQUE的安装与设置2
1.1服务节点安装TORQUE (2)
1.2服务节点初始化并设置TORQUE (2)
1.3计算节点上安装TORQUE (4)
1.4计算节点配置TORQUE (4)
2安装与配置作业调度软件:Maui5
2.1服务节点上安装Maui (5)
2.2服务节点上配置Maui (5)
3作业运行6
3.1串行作业 (7)
3.2并行作业 (8)
3.3常用作业管理命令 (8)
3.3.1查看队列中的作业状态:qstat (9)
3.3.2挂起作业:qhold (10)
3.3.3取消挂起:qrls (10)
3.3.4终止作业:qdel和canceljob (10)
3.3.5查看作业状态:checkjob (11)
3.3.6交换两个作业的排队顺序:qorder (12)
3.3.7选择符合特定条件的作业的作业号:qlect (12)
3.3.8显示队列中作业的信息:showq (13)
3.3.9显示节点信息:pbsnodes和qnodes (13)
1资源管理软件TORQUE的安装与设置
TORQUE和Maui可以从上下载。以下仅是粗略配置,详细配置请参考相关手册:
•TORQUE:/torquedocs21/
•Maui:/products/maui/docs/
关于国庆节的英语作文mauiurs.shtml
1.1服务节点安装TORQUE
这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.
root@kd50#cd torque-2.2.1
root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcpvrrp
handspring上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。利用rcp或者scp传输需要配置节点间无须密码访问,具体请参看相关文档。
root@kd50#make
root@kd50#make install
1.2服务节点初始化并设置TORQUE
将TORQUE的可执行文件所在的目录放入系统的路径中,修改/etc/profile:
§
TORQUE=/opt/torque−2.2.1
MAUI=/opt/maui−3.2.6p20editortools
方巾气
if[”`id−u`”−eq0];then
PATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:”
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
el
PATH=”/usr/local/bin:/usr/bin:/bin:/usr/games:$TORQUE/bin:$MAUI/bin”
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi
¦¥上面将同时设置Maui的路径,如在这里已经设置了,并且Maui安装路径为上面的话,后面就无需再设置Maui的路径。
修改后使设置的环境变量生效:
source/etc/profile
将root设置为TORQUE的管理帐户:
root@kd50#./torque tup root
在/var/spool/torque/rver priv/nodes中添加计算节点的机器名,类似:
§
kd50
hummingbirdnode0101
¦¥如果服务节点不参与计算的话,需要将服务节点的机器名去掉。如果node0101上有两个处理单元,就设置为node0101np=2。
如果/var/spool/torque下的目录spool和undelivered的权限不是drwxrwxrwt的话,需要chmod1777spool undelivered。
创建作业队列:
root@kd50#pbs rver-t create
root@kd50#qmgr
输入下面Qmgr:后的内容,将设置一个默认队列dque:
§
Qmgr:create queue dque queue type=execution
Qmgr:t rver default queue=dque
Qmgr:t queue dque started=true
Qmgr:t queue dque enabled=true
Qmgr:t rver scheduling=true
¦¥可以通过下面的代码来检查pbs rver是否正常运行,若pbs rver没有运行,
则首先运行该程序,然后执行下面的代码:
§
#shutdown rver
qterm−t quick
#start rver
pbs rver
#verify all queues are properly configured
qstat−q
#view additional rver configuration
妈的英文怎么说qmgr−c'p s'
#verify all nodes are correctly reporting
pbsnodes−a
#submit a basic job
echo”sleep30”|qsub
#verify jobs display
qstat
¦¥1.3计算节点上安装TORQUE
先在服务节点上的编译TORQUE的目录下执行下面命令生成所需要的包:
root@kd50#make packages求职意向英文
该命令执行之后一共产生五个包,分别为:
•torque-package-clients-linux-i686.sh
alliances
•torque-package-devel-linux-i686.sh
•torque-package-doc-linux-i686.sh
•torque-package-mom-linux-i686.sh
•torque-package-rver-linux-i686.sh
然后将这些包传送给机群中的所有计算节点并在各计算节点上执行安装,比如:root@node0101#./torque-package-clients-linux-i686.sh–install
1.4计算节点配置TORQUE
/var/spool/torque是TORQUE的配置目录,只要在该目录下创建一个文件rver name,其内容是服务节点的机器名。
对于NFS文件共享系统来说,还必须告诉TORQUE这种共享的用户目录,编
辑/var/spool/torque/mom priv/config,其内容类似:
§
$pbsrver kd50#note:hostname running pbs rver
$logevent255#bitmap of which events to log
$ucp kd50:/home/home
¦¥其中$pbsrver后指定服务节点的主机名,$ucp后面的表示的共享home。