服务器机房一周记

Published:

服务器机房一周记

上周由于大数据从子彬院搬走了, 机房也迁移到了计算中心, 于是我们的集群也搬到了计算中心机房. 感觉主要还是体力活, 不过自己和师姐动手一起从新搭建集群还是很有趣的, 毕竟我管了一年服务器, 一直都是在软件层面, 还没有看过硬件具体在机柜中的架构和网络配置.

集群具体情况

因为我们组不做大模型, 所以集群主要是cpu算力, gpu比较少.

我们的集群官网上有比较详细的介绍, 这里简单说一下硬件配置.

配置大概为:

  • router: 内网网关, 友善r4s, openwrt系统
  • switch: H3C huawei, 作为集群内部连接
  • login node: Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz 双路 + 2*GTX 1080ti 上古时代的垃圾, 至强这个型号淘宝上十几块钱一块…
  • node 0: Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz 双路 + 4*Tesla T4
  • node 1: Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz 双路 + 4*A30
  • node 2: Hygon C86 7285 32-core Processor(≈ AMD EPYC 7000 系列 32 核 Naples, Zen2架构的垃圾, 单核单精度算力大概只有E5的一半多一点点) 双路 + 1*Z100(AMD MI50, 32GB, gfx906, 套皮产品)
  • node 3: AMD EPYC 9754 128-core Processor 双路 (好东西, 整机256核, 双精度浮点性能20TFlops, 不过没卡)
  • node 4: Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz 双路

安装过程

和机房扯皮了半天, 才允许我们把机器都塞进同一个机柜, 我们的服务器上面gpu比较少, 根本没那么大功率, 只不过电源配的很足. 这个机柜是42u的, 供电功率12kW, 也太垃圾了, 前几天读别人博客一个AI机柜功率能做到160kW…

安装过程巨累, 感觉像是打螺丝, 塞线缆, 卡螺栓… 机房吵的要死, 全是风扇的声音.

安装完之后, 就是配置网络和集群管理软件了. 机房的网线都是预先布好的, 我们只需要插上去就行了. 为了管理方便, 我们只给router配置了一个学校的静态ip, 其他机器都是路由器dhcp分配内网ip. 然后就是router供电自启动, 所以有ipmi的机器都可以远程开机. 内网做了端口映射, 外部从router的某个端口可以ssh登录到每个节点

集群管理软件我们用的是slurm, slurm主要通过网络通信, 端口号是6817-6819. 配置slurm主要是配置slurm.conf和节点的hostfile, 以及munge认证.

上面都做好了之后服务器就直接上线了, 回去慢慢的装软件调试环境.

PS:

好想搞张H100, 想玩一下nvidia最新的架构和指令集, 不过似乎有钱也买不到… A30只能玩一下tensor core相关的东西.

组里好像只有一个师姐做AI, 还是做diffusion的, 其他人都是做传统的HPC模拟和数值代数相关的东西. 这些卡根本没人用, 不过快要该找实习了, 想着能不能用上这些卡做点东西, 卡不行但是好歹卡多, 11张卡也能体验一下分布式训练的感觉了. 最近可能会读一点大模型和强化学习相关的东西, 看看能不能用这些卡搞点东西玩玩.