SLURM: O Gerenciamento Eficiente de Tarefas em Supercomputadores! · LuC45m4Th3u5

Introdução

Com o avanço da computação de alto desempenho (HPC), a administração eficiente de processos e recursos tornou-se essencial para o funcionamento otimizado de supercomputadores. O SLURM (Simple Linux Utility for Resource Management) é um dos principais sistemas de gerenciamento de workload, amplamente utilizado para orquestrar tarefas, alocar recursos e otimizar o uso de grandes clusters e supercomputadores. Neste artigo, exploraremos como o SLURM gerencia tarefas e processos e garante a eficiência do ambiente de supercomputação.

O que é o SLURM?

SLURM é um sistema de gerenciamento de workload open-source projetado para distribuir, agendar e monitorar tarefas em ambientes de HPC. Ele permite a alocação dinâmica de recursos, como CPUs, GPUs, memória e nós, assegurando que as tarefas sejam realizadas de forma eficiente e organizada.

Supercomputadores modernos, compostos por milhares de nós, precisam de um sistema robusto para gerenciar o fluxo de trabalho e evitar gargalos de performance. É aí que entra o SLURM, garantindo que cada tarefa receba os recursos apropriados e que o cluster funcione de forma otimizada.

Como Funciona o Gerenciamento de Tarefas e Processos

SLURM se destaca por sua arquitetura modular e por seu mecanismo distribuído de alocação de recursos e tarefas. O sistema divide-se em três componentes principais:

SLURM

Controlador (Slurm Controller ou slurmctld)
Este é o componente principal responsável por gerenciar e monitorar o status dos recursos e tarefas no cluster. Ele recebe solicitações dos usuários, organiza as filas e decide quais tarefas serão executadas com base em políticas definidas, como prioridade e disponibilidade de recursos.
Daemons nos Nós (Slurmd)
Cada nó de processamento executa um daemon chamado slurmd, responsável por receber, iniciar e monitorar as tarefas atribuídas a ele. Esse daemon se comunica com o controlador para garantir a execução correta dos jobs e para reportar o status das operações.
Banco de Dados (SlurmDBD)
Esse componente armazena informações históricas e métricas das tarefas executadas. Isso é importante para a auditoria, otimização de recursos e análise de desempenho ao longo do tempo.

Políticas de Prioridade

O escalonador do SLURM oferece suporte a várias políticas de priorização, como:

FIFO (First-In-First-Out): Jobs são executados na ordem em que são recebidos.
Fair-Share: Recursos são distribuídos de maneira equilibrada entre os usuários.
Backfilling: Jobs menores são executados à frente de outros maiores, se houver recursos ociosos.

Comandos

Comando	Descrição
sinfo	Visualize as informações das partições e nós do supercomputador.
sprio	Visualize as informações dos fatores que compõem a prioridade na fila de cada job.
squeue	Visualize as informações gerais dos Job's que estão na fila ou executando.
sbatch	Submeta um Job para o supercomputador.
scancel	Cancele um Job que está na fila ou em execução.

sinfo

sinfo exibe as informações das partições e nós do supercomputador.

Exemplo: sinfo

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
cluster*     up 20-00:00:0      1  down* r1i2n14
cluster*     up 20-00:00:0     18  alloc r1i0n[1-2,4-7,11-12,14-16],r1i1n[7,9,15],r1i2n[1-2,11],r1i3n1
cluster*     up 20-00:00:0     13    mix r1i0n[0,3,9],r1i1n[4-6,10,14],r1i2n[3-4,10,13],r1i3n2
cluster*     up 20-00:00:0     19   idle r1i0n[10,17],r1i1n[0-3,11-13,16],r1i2n[0,5-7,9,12,15-16],r1i3n0
service      up 20-00:00:0      3    mix service[1,3-4]
service      up 20-00:00:0      1  alloc service2
test         up      30:00      1  down* r1i2n14
test         up      30:00     19  alloc r1i0n[1-2,4-7,11-12,14-16],r1i1n[7,9,15],r1i2n[1-2,11],r1i3n1,service2
test         up      30:00     16    mix r1i0n[0,3,9],r1i1n[4-6,10,14],r1i2n[3-4,10,13],r1i3n2,service[1,3-4]
test         up      30:00     19   idle r1i0n[10,17],r1i1n[0-3,11-13,16],r1i2n[0,5-7,9,12,15-16],r1i3n0
intel-512    up 20-00:00:0      6    mix r1i3n[11-16]
intel-256    up 20-00:00:0      6    mix r1i3n[3-6,9-10]
intel-256    up 20-00:00:0      1   idle r1i3n7
gpu          up 2-00:00:00      2   idle gpunode[0-1]

A lista abaixo mostra o que representa cada campo de saída do comando sinfo.

PARTITION: Partições do supercomputador
- cluster: Partição padrão indicada pelo asterisco, composta por 64 nós
  computacionais em lâmina.
  
  r1i0n[0-7, 9-12, 14-17], r1i1n[0-7, 9-16], r1i2n[0-7, 9-16] e r1i3n[0-7,
  9-16]
- test: Partição para testes rápidos, composta por 72 (todos) nós
  computacionais. Jobs rodados na partição teste tem o valor de prioridade
  aumentado em 15000.
  
  r1i0n[0-7, 9-12, 14-17], r1i1n[0-7, 9-16], r1i2n[0-7, 9-16], r1i3n[0-7,
  9-16], service[1-4, 8-11]
- service: Partição composta por 4 nós computacionais.
  
  service[1-4]
- knl: Partição composta por 2 nós computacionais com grande número de
  núcleos.
  
  service[8,9]
- gpu: Partição composta por 2 nós computacionais com 8 GPUs cada.
  
  service[10,11]
- full: Partição composta por todos os 72 nós computacionais.
  
  r1i0n[0-7, 9-12, 14-17], r1i1n[0-7, 9-16], r1i2n[0-7, 9-16], r1i3n[0-7,
  9-16], service[1-4, 8-11]
Mais detalhes sobre o hardware podem ser vistos em
Hardware
AVAIL: Disponibilidade de cada partição (Available)
TIMELIMIT: Tempo limite de execução do job na partição correspondente.
Todas as partições possuem o tempo limite de 20 dias para execução do job.
Exceto a partição teste, cujo o tempo limite é de 30 minutos com ganho na
prioridade para execução.
Formato do timelimit no comando sinfo: Dias - horas : minutos
: segundos, exemplo: 20-13:22:21 significa 20 dias, 13 horas, 22 minutos e
21 segundos
NODES: Número de nós de cada partição
STATE: Campo mais relevante dado como resposta do comando sinfo. Seu
resultado pode ter significados diferentes, dependendo da saída fornecida,
conforme é possível verificar abaixo.
- alloc: Indica que um conjunto de nós está em uso
- idle: Indica que um conjunto de nós está ocioso
- down/drain: Indica que um conjunto de nós se encontra indisponível
- maint/resv: Indica que um conjunto de nós está reservados
- mix: Indica que um conjunto de nós está sendo compartilhados por mais de
  um job
NODELIST: Representa as listas de nós correspondentes a cada par
partição/estado