跳转至

关于 Slurm

Warning

本文档由 GPT-5.3-Codex 生成,可能存在错误,请结合实际环境与管理员通知核对。

目前集群已支持通过 Slurm 提交作业。请先使用注册的用户名登录网关:

ssh username@cls1-gateway.s.tiankaima.dev -p 2022

登录节点的名字统一使用 login,建议在本地配置 ~/.ssh/config

~/.ssh/config
1
2
3
4
Host login
    HostName cls1-gateway.s.tiankaima.dev
    Port 2022
    User username

配置后可直接登录:

ssh login

常用命令

# 查看分区和节点状态
sinfo

# 查看自己的作业队列
squeue -u $USER

# 查看作业详情
scontrol show job <jobid>

# 查看历史作业
sacct -u $USER

交互式作业示例(GPU)

我们是 GPU 集群,请使用 cls1 分区,并通过 --gpus N 指定显卡数量。

1
2
3
4
5
6
7
srun \
  --partition=cls1 \
  --gpus 1 \
  --cpus-per-task 8 \
  --mem 32G \
  --time 04:00:00 \
  --pty bash

批处理作业示例(GPU)

cat > job.slurm <<'EOF'
#!/bin/bash
#SBATCH --job-name=demo
#SBATCH --partition=cls1
#SBATCH --gpus=1
#SBATCH --cpus-per-task=8
#SBATCH --mem=32G
#SBATCH --time=04:00:00
#SBATCH --output=%x-%j.out

nvidia-smi
python train.py
EOF

sbatch job.slurm

取消作业

1
2
3
4
5
# 取消单个作业
scancel <jobid>

# 取消自己所有作业
scancel -u $USER