1硬件检测
1.1检查硬件是否安装
# 确认硬件已安装
lspci -tvm | grep Mellanox
# 查看OFED驱动版本命令: 如果没有驱动可以参考:https://km.sankuai.com/page/335338645 安装
rpm -qa | grep ofed
# 查看ib port
ibv_devinfo -v
# when using RoCE RDMA
# TensorFlow verbs team has published their function "set_gid" in tensorflow/contrib/verbs/rdma.cc to set gid_index automatically
show_gids
1.2.软件设备信息
ibv_devinfo
如果是双端口的网卡,能够看到两个设备。
1.3确认网卡带宽和网卡是否启用
ibstatus
state: 4: ACTIVE
phys state: 5: LinkUp
rate: 25 Gb/sec (1X EDR)
1.4 确认是否做了 bond
# 如果没做 bond,则找不到此文件
cat /proc/net/bonding/bond0
1.5 带宽测试
一台机器上面执行
# 开启 bond
ib_write_bw -d mlx5_bond_0 -R -p 2000 --report_gbits -D 60 -F
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)