Comandos úteis de usuário:
| Comando | Descrição | Exemplo de Input |
sinfo | Exibe o estado atual das partições (filas) e dos nós do cluster. | sinfo -N -l (visão detalhada por nó) |
squeue | Lista os jobs atualmente na fila de execução ou pendentes. | squeue -u <NomeDoUsuario> |
sbatch | Submete um script de job para execução em background. | sbatch meu_script.sh |
srun | Aloca recursos e executa comandos interativamente. | srun --ntasks=1 --cpus-per-task=4 --pty /bin/bash |
scancel | Cancela um ou mais jobs em execução ou pendentes. | scancel <JobID> (ex: scancel 12345) |
sacct | Consulta o histórico e estatísticas de uso de jobs finalizados. | sacct -j <JobID> --format=JobID,JobName,State,ExitCode |
salloc | Aloca recursos em tempo real para execução de múltiplos comandos via srun. | salloc --nodes=1 --tasks=4 --time=01:00:00 |
Comandos de administração:
| Comando | Descrição | Input / Parâmetros |
sudo scontrol update JobID=<P1> Nice=-100000 | Aumenta a prioridade de um job reduzindo o seu valor de Nice. | <P1>: JobID, valores separados por vírgula, ou array (ex: 1-10) |
sudo scontrol update NodeName=<P1> State=DOWN Reason="<P2>" | Drena um nó e o marca como indisponível (DOWN) para manutenção. | <P1>: Nome do nó (ex: node01)<P2>: Motivo (ex: manutencao_gpu) |
sudo scontrol update NodeName=<P1> State=RESUME | Retorna um nó em manutenção (DOWN/DRAIN) para o estado ativo (IDLE). | <P1>: Nome do nó |
scontrol show node <P1> | Exibe configurações completas e o estado detalhado de um nó específico. | <P1>: Nome do nó |
scontrol show job <P1> | Exibe as variáveis de ambiente, requisições de recursos e status de um job. | <P1>: JobID |
sudo scontrol hold <P1> | Coloca um job pendente em estado de pausa (Hold), impedindo sua execução. | <P1>: JobID |
sudo scontrol release <P1> | Libera um job que estava pausado, permitindo que volte à fila normal. | <P1>: JobID |
sacctmgr show cluster | Exibe as informações e o status geral do banco de dados de accounting (SlurmDBD). | Nenhum (comando direto) |
sacctmgr show qos format=Name,Priority,MaxWall,MaxTRESPerNode,MaxTRESPerUser | Lista todos os níveis de QoS com seus respectivos limites de recursos e prioridade. | Nenhum (comando direto) |
sacctmgr show association format=Cluster,Account,User,QOS | Exibe as contas de usuários e quais níveis de QoS estão liberados para cada um. | Opcional (filtro): user=<NomeDoUsuario> |
sudo sacctmgr add qos <P1> | Cria um novo nível de QoS no banco de dados do Slurm. | <P1>: Nome do novo QoS (ex: high_priority) |
sudo sacctmgr modify qos <P1> set Priority=<P2> MaxTRESPerUser=cpu=<P3> | Altera os parâmetros de um QoS existente (neste exemplo, mudando prioridade e limite de CPUs por usuário). | <P1>: Nome do QoS<P2>: Valor numérico<P3>: Quantidade de cores |
sudo sacctmgr modify user <P1> set qos=<P2> | Sobrescreve e define exatamente quais níveis de QoS um usuário pode acessar. | <P1>: Nome do usuário<P2>: Nomes de QoS separados por vírgula |
sudo sacctmgr modify user <P1> set qos+=<P2> | Adiciona um novo nível de QoS à lista de permissões já existente de um usuário. | <P1>: Nome do usuário<P2>: Nome do QoS a ser adicionado |
sudo sacctmgr modify user <P1> set qos-=<P2> | Remove um nível de QoS específico da conta de um usuário. | <P1>: Nome do usuário<P2>: Nome do QoS a ser removido |
sudo sacctmgr delete qos <P1> | Exclui um nível de QoS do cluster. | <P1>: Nome do QoS |