Segundo Workshop de Administradores HPC

Los contenidos que revisaremos serán los siguientes:

  • Software
    • ¿Qué es un gestor de recursos?
    • Instalación y configuración del gestor de recursos Slurm.
      • Particiones.
      • QOS.
      • Nodos.
      • Recursos.
      • HA.
      • BD.
  • Uso y administración de gestor de recursos Slurm
    • Uso básico de Slurm:
      • Uso del comando srun y sus parámetros.
      • Uso del comando sbatch.
        • Script básico.
        • Encolar, monitorear, cancelar y otras tareas básicas.
    • Administrando SLURM:
      • Monitoreo de tareas.
      • Definición y uso de accounts.
      • Definición y uso de assoc.
      • Reservando recursos.
      • Asignación de prioridades.
      • Extensión de tiempos de trabajos.
      • Asignación de QOS y particiones.
      • Documentación y otros recursos.
  • Monitoreo de utilización de recursos:
    • Pestat.
    • Subutilización de recursos y cancelación automatizada.
    • Ejemplos.
  • Troubleshooting:
    • Monitoreo de logs.
    • Desactivar firewall y SELinux.
    • Sincronización de hora entre nodos.
    • Problemas típicos con tareas en SLURM.

La duración total del curso será de 2 horas con un break de 15 minutos. Para poder seguir el curso y los comandos que ejecutará el profesor se requieren conocimientos de Linux intermedio-avanzado y conocimientos de lenguaje bash script.

Date: Apr 17, 2020 at 10:00:00 h
Venue: Dictado por a través de la plataforma de streaming Zoom.
Speaker: Eugenio Guerra
Affiliation: CMM-NLHPC, U. de Chile
Coordinator: Laboratorio NLHPC
More info at:
Event website
Abstract:
PDF

Posted on May 13, 2020 in HPCLab, Seminars