Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Operational
Down
Down
Operational
Down
Operational
Operational
温馨提示,根据领导指示,鄙人运维代管集群至2024年12月31日截止. 此后,该页面会撤销.
厂家已经完成故障GPU维修,并抵达现场安装了GPU. 之前报修的四台故障GPU服务器,恢复工作.
硬件故障,频繁死机,已报修,等待维修.
荣联科技已经派人上门拆走了故障GPU. 当前依旧有四台GPU服务器无法工作.
部分GPU服务器由于GPU卡故障,已经从系统屏蔽.
故障信息已经报修,厂家至今未修理.
故障日志如下:
``` REASON USER TIMESTAMP NODELIST
gpuErr root 2024-11-11T09:03:34 gpu[22,28]
gpuErr root 2024-11-06T14:53:12 gpu[27,30] ```
GPU服务器在正常负载下频繁宕机,经过浪潮与荣联科技联合研究, 认为是硬件PCIe Switch问题,先刷新/升级PCIe Switch固件再看看效果. 荣联科技现场处置. 受此影响,部分GPU机器会停机,部分GPU任务可能会失败.
已经按照浪潮技术指引,完成Grand-RAM-GPU存储重启. 如发现存储依旧卡顿,请致电4008600011联系浪潮.
为便于区分CPU和GPU资源,可用分区名称有调整,
请登录集群后,输入指令sinfo查询PARTITION.
浪潮技术回复,BeeGFS存储卡顿故障,重启整个存储可以解决. 兹定于2024-Sep-20晚上20:00起暂停作业提交,2024-Sep-23上午9点开始处置浪潮技术说的重启集群存储的操作. 受限于当前集群架构,重启存储,意味着整个集群关机重开.
分区调整完毕,集群恢复使用.
应决策层要求,划分资源分区. 2024-Sep-09上午9时开始停机处置.