Slurm Workload Manager – Comandos

Comandos úteis de usuário:

ComandoDescriçãoExemplo de Input
sinfoExibe o estado atual das partições (filas) e dos nós do cluster.sinfo -N -l (visão detalhada por nó)
squeueLista os jobs atualmente na fila de execução ou pendentes.squeue -u <NomeDoUsuario>
sbatchSubmete um script de job para execução em background.sbatch meu_script.sh
srunAloca recursos e executa comandos interativamente.srun --ntasks=1 --cpus-per-task=4 --pty /bin/bash
scancelCancela um ou mais jobs em execução ou pendentes.scancel <JobID> (ex: scancel 12345)
sacctConsulta o histórico e estatísticas de uso de jobs finalizados.sacct -j <JobID> --format=JobID,JobName,State,ExitCode
sallocAloca recursos em tempo real para execução de múltiplos comandos via srun.salloc --nodes=1 --tasks=4 --time=01:00:00

Comandos de administração:

ComandoDescriçãoInput / Parâmetros
sudo scontrol update JobID=<P1> Nice=-100000Aumenta a prioridade de um job reduzindo o seu valor de Nice.<P1>: JobID, valores separados por vírgula, ou array (ex: 1-10)
sudo scontrol update NodeName=<P1> State=DOWN Reason="<P2>"Drena um nó e o marca como indisponível (DOWN) para manutenção.<P1>: Nome do nó (ex: node01)
<P2>: Motivo (ex: manutencao_gpu)
sudo scontrol update NodeName=<P1> State=RESUMERetorna um nó em manutenção (DOWN/DRAIN) para o estado ativo (IDLE).<P1>: Nome do nó
scontrol show node <P1>Exibe configurações completas e o estado detalhado de um nó específico.<P1>: Nome do nó
scontrol show job <P1>Exibe as variáveis de ambiente, requisições de recursos e status de um job.<P1>: JobID
sudo scontrol hold <P1>Coloca um job pendente em estado de pausa (Hold), impedindo sua execução.<P1>: JobID
sudo scontrol release <P1>Libera um job que estava pausado, permitindo que volte à fila normal.<P1>: JobID
sacctmgr show clusterExibe as informações e o status geral do banco de dados de accounting (SlurmDBD).Nenhum (comando direto)
sacctmgr show qos format=Name,Priority,MaxWall,MaxTRESPerNode,MaxTRESPerUserLista todos os níveis de QoS com seus respectivos limites de recursos e prioridade.Nenhum (comando direto)
sacctmgr show association format=Cluster,Account,User,QOSExibe as contas de usuários e quais níveis de QoS estão liberados para cada um.Opcional (filtro): user=<NomeDoUsuario>
sudo sacctmgr add qos <P1>Cria um novo nível de QoS no banco de dados do Slurm.<P1>: Nome do novo QoS (ex: high_priority)
sudo sacctmgr modify qos <P1> set Priority=<P2> MaxTRESPerUser=cpu=<P3>Altera os parâmetros de um QoS existente (neste exemplo, mudando prioridade e limite de CPUs por usuário).<P1>: Nome do QoS
<P2>: Valor numérico
<P3>: Quantidade de cores
sudo sacctmgr modify user <P1> set qos=<P2>Sobrescreve e define exatamente quais níveis de QoS um usuário pode acessar.<P1>: Nome do usuário
<P2>: Nomes de QoS separados por vírgula
sudo sacctmgr modify user <P1> set qos+=<P2>Adiciona um novo nível de QoS à lista de permissões já existente de um usuário.<P1>: Nome do usuário
<P2>: Nome do QoS a ser adicionado
sudo sacctmgr modify user <P1> set qos-=<P2>Remove um nível de QoS específico da conta de um usuário.<P1>: Nome do usuário
<P2>: Nome do QoS a ser removido
sudo sacctmgr delete qos <P1>Exclui um nível de QoS do cluster.<P1>: Nome do QoS