如果mpi多机测试出现【pml/ucx】error,安装ucx并重新编译安装openmpi

安装ucx

git clone https://github.com/openucx/ucx.git

cd ucx

./autogen.sh

./configure --prefix=/tecofs/ycsc/support/pkgs/ucx1

make -j$(nproc)

sudo make install

重新安装openmpi

cd /path/to/openmpi/source

./configure --prefix=/tecofs/ycsc/support/soft/openmpi/3.1.0 --with-ucx=/tecofs/ycsc/support/pkgs/ucx1

make -j4

make install

/tecofs/ycsc/support/soft/openmpi/3.1.0/bin/mpirun --allow-run-as-root -n 4 --mca pml ucx --mca btl '^openib' --host tczc-nv19,tczc-nv20 --prefix /tecofs/ycsc/support/soft/openmpi/3.1.0 --oversubscribe -x LD_LIBRARY_PATH -x PATH ./xhpcg-3.1_gcc_485_cuda-10.0.130_ompi-3.1.0_sm_35_sm_50_sm_60_sm_70_sm75_ver_10_9_18

文章作者: Administrator
版权声明: 本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 IKKO
linux 软件
喜欢就支持一下吧