NIIF szuperszámítógépek használata

Window/Translation

scp USER@login.SITE.hpc.niif.hu:FILE FILE
scp FILE USER@login.SITE.hpc.niif.hu:FILE

rsync -a -e ssh DIRECTORY USER@login.budapest.hpc.niif.hu:/home/USER
rsync -a -e ssh USER@login.budapest.hpc.niif.hu:/home/USER/DIRECTORY

              rövid CWD
                   |
   BUDAPEST[login] ~ (0)$
       |      |       |
  HPC állomás |       |
        rövid gép név |
              előző parancs exit kódja

# a home könyvtár beállítása
# user1 user számára belépsi engedély: u:user1:x 
$ setfacl -m u:user1:x $HOME
$ getfacl $HOME
# file: user2/user2
# owner: user2
# group: user2
user::rwx
user:user1:--x
group::r-x
mask::r-x
other::---
# Shared könyvtár megosztása
# user1 számára minden unix jog
$ cd
$ mkdir Shared
$ setfacl -m u:user1:rwx $HOME/Shared
$ getfacl Shared
# file: Shared
# owner: user2
# group: user2
user::rwx
user:user1:rwx
group::rwx
mask::rwx
other::r-x

$ module load python 
$ pip install --user mercurial

cd; mkdir shared; ln -s /mnt/fhgfs/home/$USER shared/$USER 

$NCE_SHARED 

rsync -avuP $HOME/data $NCE_SHARED

rsync -avuP --delete $HOME/data $NCE_SHARED

Scheduler Account Balance
---------- ----------- + ---------------- ----------- + ------------- -----------
User             Usage |          Account       Usage | Account Limit   Available (CPU hrs)
---------- ----------- + ---------------- ----------- + ------------- -----------
alice                0 |           foobar           0 |             0           0
bob *                0 |           foobar           0 |             0           0

bob *                7 |           barfoo           7 |         1,000         993
alice                0 |           barfoo           7 |         1,000         993

sestimate -N 2 -t 2-10:00:00

Estimated CPU hours: 2784

Resources/AssociationResourceLimit - Erőforrásra vár
AssociationJobLimit - Nincs elég CPU idő vagy a maximális CPU szám le van foglalva
Piority - Alacsony prioritás miatt várakozik

squeue -l

Wed Oct 16 08:30:07 2013              
     JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
591_[1-96]    normal    array    alice  PENDING       0:00     30:00      1 (None)
       589    normal      mpi      bob  RUNNING      25:55   2:00:00      4 cn[05-08]
       590    normal      omp    alice  RUNNING       0:25   1:00:00      1 cn09

smemory 430

 MaxVMSize  MaxVMSizeNode  AveVMSize     MaxRSS MaxRSSNode     AveRSS
---------- -------------- ---------- ---------- ---------- ----------
10271792K           cn06  10271792K   6544524K       cn06   6544524K   
10085152K           cn07  10085152K   6538492K       cn07   6534876K 

Hostname                     LOAD                       CPU              Gexec  
 CPUs (Procs/Total) [     1,     5, 15min] [  User,  Nice, System, Idle, Wio]
cn08    24 (   25/  529) [ 24.83, 24.84, 20.98] [  99.8,   0.0,   0.2,   0.0,   0.0] OFF
cn07    24 (   25/  529) [ 24.93, 24.88, 20.98] [  99.8,   0.0,   0.2,   0.0,   0.0] OFF
cn06    24 (   25/  529) [ 25.00, 24.90, 20.97] [  99.9,   0.0,   0.1,   0.0,   0.0] OFF
cn05    24 (   25/  544) [ 25.11, 24.96, 20.97] [  99.8,   0.0,   0.2,   0.0,   0.0] OFF

#!/bin/bash
#SBATCH -A ACCOUNT
#SBATCH --job-name=NAME
#SBATCH --time=TIME

Submitted batch job JOBID

#SBATCH --no-requeue

#SBATCH --partition=test

#SBATCH --qos=fast

#SBATCH --qos=lowpri

#SBATCH --mem-per-cpu=MEMORY

#SBATCH --mail-type=ALL
#SBATCH --mail-user=EMAIL

#!/bin/bash
#SBATCH -A foobar
#SBATCH --time=24:00:00
#SBATCH --job-name=array
#SBATCH --array=1-96
srun envtest.sh

#!/bin/bash
#SBATCH --job-name=serial
#SBATCH --time=24:30:00
#SBATCH -n 3
#SBATCH --partition=test
srun -n 1 program input1 &
srun -n 1 program input2 &
srun -n 1 program input3
wait

#!/bin/bash
#SBATCH -A barfoo
#SBATCH --job-name=mpi
#SBATCH -N 2
#SBATCH --ntasks-per-node=24
#SBATCH --time=12:00:00
#SBATCH -o slurm.out
mpirun ./a.out

#!/bin/bash
#SBATCH -A barfoo
#SBATCH --job-name=omp
#SBATCH -n 48
#SBATCH --time=03:00:00
#SBATCH -o slurm.out
/opt/nce/bin/numainfo
OMP_NUM_THREADS=$SLURM_NTASKS ./a.out

#!/bin/bash
#SBATCH -A barfoo
#SBATCH --job-name=omp
#SBATCH -n 48
#SBATCH --time=03:00:00
#SBATCH -o slurm.out
/opt/nce/bin/numainfo
mpirun $SLURM_NTASKS ./a.out

smonitor -n <JOBID>

smonitor -m <JOBID>

sinfo_uv

#!/bin/bash
#SBATCH -A barfoo
#SBATCH --job-name=mpi
#SBATCH -N 2
#SBATCH --ntasks-per-node=12
#SBATCH --time=12:00:00
#SBATCH -o slurm.out
source /opt/nce/bin/machines
export MPI_OPT="${MACHINES} -np ${SLURM_NTASKS_PER_NODE}"
mpirun ${MPI_OPT} ./a.out

#!/bin/bash
#SBATCH -A barfoo
#SBATCH --job-name=mpi
#SBATCH -N 2
#SBATCH --ntasks-per-node=12
#SBATCH --time=12:00:00
#SBATCH -o slurm.out
source /opt/nce/bin/machines
export MPI_OPT="${MACHINES} -np ${SLURM_NTASKS_PER_NODE}"
mpirun ${MPI_OPT} perfboost -ompi ./a.out

Indítási parancs: mpirun --bind-to-core --bycore

[cn05:05493] MCW rank 0 bound to socket 0[core 0]: [B . . . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05493] MCW rank 1 bound to socket 0[core 1]: [. B . . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05493] MCW rank 2 bound to socket 0[core 2]: [. . B . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05493] MCW rank 3 bound to socket 0[core 3]: [. . . B . . . . . . . .][. . . . . . . . . . . .]

Indítási parancs: mpirun --bind-to-core --bysocket

[cn05:05659] MCW rank 0 bound to socket 0[core 0]: [B . . . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05659] MCW rank 1 bound to socket 1[core 0]: [. . . . . . . . . . . .][B . . . . . . . . . . .]
[cn05:05659] MCW rank 2 bound to socket 0[core 1]: [. B . . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05659] MCW rank 3 bound to socket 1[core 1]: [. . . . . . . . . . . .][. B . . . . . . . . . .]

Indítási parancs: mpirun --bind-to-core --bynode

[cn05:05904] MCW rank 0 bound to socket 0[core 0]: [B . . . . . . . . . . .][. . . . . . . . . . . .]
[cn05:05904] MCW rank 2 bound to socket 0[core 1]: [. B . . . . . . . . . .][. . . . . . . . . . . .]
[cn06:05969] MCW rank 1 bound to socket 0[core 0]: [B . . . . . . . . . . .][. . . . . . . . . . . .]
[cn06:05969] MCW rank 3 bound to socket 0[core 1]: [. B . . . . . . . . . .][. . . . . . . . . . . .]

#!/bin/bash
#SBATCH -A foobar
#SBATCH --job-name=omp
#SBATCH --time=06:00:00
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=10
OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK ./a.out

#!/bin/bash
#SBATCH -A foobar
#SBATCH --job-name=mpiomp
#SBATCH --time=08:00:00
#SBATCH -N 2
#SBATCH --ntasks=2
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=24
#SBATCH -o slurm.out
export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK
mpirun ./a.out

#!/bin/bash
#SBATCH -A foobar
#SBATCH --job-name=maple
#SBATCH -N 1
#SBATCH --ntasks-per-node=24
#SBATCH --time=06:00:00
#SBATCH -o slurm.out
#SBATCH --licenses=maplegrid:1

module load maple

${MAPLE}/toolbox/Grid/bin/startserver
${MAPLE}/toolbox/Grid/bin/joblauncher ${MAPLE}/toolbox/Grid/samples/Simple.mpl

#!/bin/bash

#SBATCH -A foobar
#SBATCH --job-name="Matlab test job"
#SBATCH -n 1
#SBATCH --licenses=matlabdce:1,matlabdct:1,matlab:1
#SBATCH -o slurm.out

matlab -nodisplay < job.m

#!/bin/bash
#SBATCH -A foobar
#SBATCH --job-name=GPU
#SBATCH --partition gpu
#SBATCH --gres gpu:4
#SBATCH --time=06:00:00

$PWD/gpu_burnout 3600

cd $HOME
mkdir local
(belépés az alklamazás könyvtárába)
./configure --prefix=$HOME/local
make; make install

java -Xmx512m -version
javac -J-Xmx512m -version

export _JAVA_OPTIONS="-Xms1g -Xmx1g"

NCE_OFLAGS - optimalizációs kapcsolók C és Fortran
NCE_FFLAGS - Fortran kapcsolók
NCE_CFLAGS - C kapcsolók
NCE_LDFLAGS - könyvtárak C és Fortran

FFLAGS=-openmp -I$(MKLROOT)/include
CFLAGS=-openmp -I$(MKLROOT)/include
LDFLAGS=$(MKLROOT)/lib/intel64/libmkl_scalapack_lp64.a \
  -Wl,--start-group \
  $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a \
  $(MKLROOT)/lib/intel64/libmkl_intel_thread.a \
  $(MKLROOT)/lib/intel64/libmkl_core.a \
  $(MKLROOT)/lib/intel64/libmkl_blacs_openmpi_lp64.a \
  -Wl,--end-group -lpthread -lm

   CFLAGS=-O2 -xSSE4.2
   FFLAGS=-O2 -xSSE4.2
   LDFLAGS=$(MKLROOT)/lib/intel64/libmkl_scalapack_lp64.a \
     -Wl,--start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a \
     $(MKLROOT)/lib/intel64/libmkl_sequential.a \
     $(MKLROOT)/lib/intel64/libmkl_core.a \
     $(MKLROOT)/lib/intel64/libmkl_blacs_sgimpt_lp64.a -Wl,--end-group \
     -lpthread -lm

   CFLAGS=-O2 -xSSE4.2 -openmp
   FFLAGS=-O2 -xSSE4.2 -openmp
   LDFALGS=$(MKLROOT)/lib/intel64/libmkl_scalapack_lp64.a \
     -Wl,--start-group $(MKLROOT)/lib/intel64/libmkl_intel_lp64.a \
     $(MKLROOT)/lib/intel64/libmkl_intel_thread.a \
     $(MKLROOT)/lib/intel64/libmkl_core.a \
     $(MKLROOT)/lib/intel64/libmkl_blacs_sgimpt_lp64.a -Wl,--end-group \
     -liomp5 -lpthread -lm -openmp

$ chmod +x slcs_unix_install.sh 
$ ./slcs_unix_install.sh 
$HOME/.globus/usercert.pem and $HOME/.globus/userkey.pem installed
NIIF HPC SLCS Root CA installed: $HOME/.globus/certificates/SLCSCA.pem
Default ARC client configuration created: $HOME/.arc/client.conf
NIIF Root CA 2 installed: $HOME/.globus/certificates/NIIFCA.pem
$ 

 apt-get install nordugrid-arc-client  

 yum install nordugrid-arc-client

 brew install nordugrid-arc

[common]

[computing/budapest] 
url=https://login.budapest.hpc.niif.hu:60000/arex
infointerface=org.nordugrid.wsrfglue2
submissioninterface=org.ogf.bes
default=yes

[computing/szeged]
url=https://login.szeged.hpc.niif.hu:60000/arex
infointerface=org.nordugrid.wsrfglue2
submissioninterface=org.ogf.bes
default=yes

[computing/debrecen]
url=https://login.debrecen.hpc.niif.hu:60000/arex
infointerface=org.nordugrid.wsrfglue2
submissioninterface=org.ogf.bes
default=yes

[computing/pecs]
url=https://login.pecs.hpc.niif.hu:60000/arex
infointerface=org.nordugrid.wsrfglue2
submissioninterface=org.ogf.bes
default=yes

# FastestQueue – ranks targets according to their queue length
brokername=FastestQueue

# Random – ranks targets randomly
#brokername=Random

# Data – ranks targets according the amount of megabytes of the requested input files that are already
# in the computing resources cache. 
#brokername=Data

# PythonBroker:<module>.<class>[:arguments] – ranks targets using any user-supplied custom
# Python broker module, optionally with broker arguments. Such module can reside anywhere in
# user’s PYTHONPATH
#brokername=PythonBroker

[alias]
pecs=computing:ARC1:https://login.pecs.hpc.niif.hu:60000/arex
szeged=computing:ARC1:https://login.szeged.hpc.niif.hu:60000/arex
debrecen=computing:ARC1:https://login.debrecen.hpc.niif.hu:60000/arex
budapest=computing:ARC1:https://login.budapest.hpc.niif.hu:60000/arex
hp=budapest szeged
sgi=pecs debrecen   

$ arcproxy 
Enter pass phrase for private key:
Your identity: /C=HU/O=NIIF/OU=SLCS/L=hpcteszt/CN=joe
Proxy generation succeeded
Your proxy is valid until: 2015-03-30 05:01:09
$    

$ arcinfo -c szeged  
$ arcinfo -c hp -l
$ arcinfo

$ cat job.xrsl 
&
(executable="matlab.sh")
(arguments="matlab.m")
(stdout="stdout.txt")
(stderr="stderr.txt")
(jobname="Matlab test")
(inputFiles=
("matlab.m" "")
)
(memory>="1000")
(gmlog="gm.log")
(wallTime="240")
(runTimeEnvironment="APPS/MATH/MATLAB-7.13")  

$ cat matlab.sh 
#!/bin/bash
echo
echo "Compute node: " `/bin/hostname -f`
echo
matlab -nodisplay < $1

$ cat matlab.m
2+3

$ cat job-openmp.xrsl 
&
(executable="omp_mm")
(stdout="stdout.txt")
(stderr="stderr.txt")
(jobname="OpenMP test")
(queue="test")
(executables="omp_mm")
(count="10")
(countpernode="10")
(environment=("OMP_NUM_THREADS" "10"))
(queue="test")
(inputFiles=
   ("omp_mm" "")
)
(memory>="2600")
(gmlog="gm.log")
(wallTime="20")

$ arcsub job-openmp.xrsl
Job submitted with jobid: https://login.debrecen.hpc.niif.hu:60000/arex/cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn

$ arcstat https://login.debrecen.hpc.niif.hu:60000/arex/cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn
Job: https://login.debrecen.hpc.niif.hu:60000/arex/cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn
 Name: OpenMP test
 State: Finished
 Exit Code: 0

Status of 1 jobs was queried, 1 jobs returned information

$ arcget https://login.debrecen.hpc.niif.hu:60000/arex/cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn
Results stored at: cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn
Jobs processed: 1, successfully retrieved: 1, successfully cleaned: 1
zion:~ joe $ cd cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn
zion:cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn joe $ ls -l
total 16
drwx------  12 joe  staff   408 Mar 29 21:24 gm.log
-rw-------   1 joe  staff     0 Mar 29 21:24 stderr.txt
-rw-------   1 joe  staff  6362 Mar 29 21:24 stdout.txt
zion:cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn joe $

zion:cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn joe $ head stdout.txt 
Starting matrix multiple example with 10 threads
Initializing matrices...
Thread 0 starting matrix multiply...
Thread=0 did row=0
Thread 9 starting matrix multiply...
Thread 6 starting matrix multiply...
Thread=0 did row=1
Thread 5 starting matrix multiply...
Thread=5 did row=50
Thread=5 did row=51
zion:cpbNDmLzXwlng5dCemyuQPMmABFKDmABFKDmyVNKDmWBFKDmDQBwOn joe$           

$ cat job-mpi.xrsl 
&
(executable="mpi.sh")
(stdout="stdout.txt")
(stderr="stderr.txt")
(jobname="MPI test")
(executables="connectivity" "mpi.sh")
(count="10")
(inputFiles=
    ("connectivity" "")
    ("mpi.sh" "")
)
(memory>="2600")
(gmlog="gm.log")
(wallTime="20")
(runTimeEnvironment>=ENV/GCC/MPI/OPENMPI-1.4.3)  

$ cat mpi.sh 
#!/bin/bash
mpirun -np 10 ./connectivity -v   

Forító	Soros	Párhuzamos
Intel Fortran	ifort	mpiif90
Intel C	icc	mpiicc
GNU Fortran	gfotran	mpif90
GNU C	gcc	mpicc

NIIF szuperszámítógépek használata

Tartalomjegyzék

A szuperszámítógépekről

Köszönetnyilvánítás

Hozzáférés a szuperszámítógépekhez

SSH belépés

Fájl másolás SCP segítségével

Adatátvitel rsync segítségével

Felhasználói felület

Modul környezet

Példa

Adatok megosztása projekt tagok számára

Python csomag telepítése a saját home könyvtárunkba

Közös home könyvtár használata

Biztonsági mentés, adatmegosztás

Alkalmazások lefordítása

SLURM ütemező használata

A gépidő becslése

Állapotinformációk

Slurm figyelmeztető üzenetek

CPU felhasználás ellenőrzése

Licenszek ellenőrzése

Karbantartás ellenőrzése

Összesített felhasználás

Teljes fogyasztás

Feladatok futtatása

Kötelező paraméterek

Nem újrainduló jobok

Feladat sorok

A szolgáltatás minősége (QOS)

Magas prioritás

Alacsony prioritás

Memória foglalás

Email értesítés

Tömbfeladatok (arrayjob)

Soros (serial) jobok

OpenMPI feladatok

SGI ccNUMA UV 1000 (Pécs)

OMP Példa

SGI MPT MPI Példa

Jobok monitorozása

SGI MPT MPI feladatok (Debrecen)

SGI PerfBoost egyéb MPI feladatokra (Debrecen)

CPU binding

Kötés CPU magonként

Kötés CPU foglalat szerint

Kötés node-ok szerint

OpenMP (OMP) feladatok

Hibrid MPI-OMP feladatok

Maple Grid feladatok

Matlab feladatok

GPU-k használata

Alkalmazások beállításai

Saját programok telepítése

Java JVM heap méret

Python Numpy és Scipy használat

HP Budapest

Fordítás

Párhuzamos környezet

OpenMP

MPI

SGI ICE Debrecen

MPI fordítási opciók

MPI és OpenMP fordítási opciók

ARC köztesréteg

Miért is használjuk?!

Grid tanúsítvány igénylése

ARC kliensek használatba vétele

Telepítés

Konfigurálás

Grid proxy készítése

Grid job készítése

OpenMP példa

MPI példa

Grafikus felületű ARC kliens

Navigációs menü

Keresés