HPC Status

Current Status

sshGate/SSH网关

Operational

CPU-Farm登录

Operational

Grand-RAM-GPU登录

Operational

CPU-Farm管理

Operational

Grand-RAM-GPU管理

Operational

io01/万兆存储

Operational

mds01/BeeGFS主控

Operational

oss01/BeeGFS数据01

Operational

oss02/BeeGFS数据02

Operational

oss03/BeeGFS数据03

Operational

防火墙

Operational

ISPIM/浪潮监控

Operational

校园网

Operational

带外管理主控

Operational

IPMI管理

Operational

集群管理网

Operational

IBSW-01/IB交换机

Operational

万兆交换机01

Operational

万兆交换机02

Operational

万兆交换机03

Down

万兆交换机04

Down

IPMI交换机01

Operational

IPMI交换机02

Down

IPMI交换机03

Operational

IPMI交换机04

Operational

Incident History

2024-Dec-25

温馨提示,根据领导指示,鄙人运维代管集群至2024年12月31日截止. 此后,该页面会撤销.

2024-Dec-19

厂家已经完成故障GPU维修,并抵达现场安装了GPU. 之前报修的四台故障GPU服务器,恢复工作.

2024-Nov-21: GPU29故障

硬件故障,频繁死机,已报修,等待维修.

2024-Nov-18: GPU维修

荣联科技已经派人上门拆走了故障GPU. 当前依旧有四台GPU服务器无法工作.

2024-Nov-15: GPU Hardware Error

部分GPU服务器由于GPU卡故障,已经从系统屏蔽.

故障信息已经报修,厂家至今未修理.

故障日志如下:

``` REASON USER TIMESTAMP NODELIST

gpuErr root 2024-11-11T09:03:34 gpu[22,28]

gpuErr root 2024-11-06T14:53:12 gpu[27,30] ```

2024-Oct-09: Scheduled Maintenance

GPU服务器在正常负载下频繁宕机,经过浪潮与荣联科技联合研究, 认为是硬件PCIe Switch问题,先刷新/升级PCIe Switch固件再看看效果. 荣联科技现场处置. 受此影响,部分GPU机器会停机,部分GPU任务可能会失败.

2024-Sep-23: Status Update

已经按照浪潮技术指引,完成Grand-RAM-GPU存储重启. 如发现存储依旧卡顿,请致电4008600011联系浪潮.

为便于区分CPU和GPU资源,可用分区名称有调整, 请登录集群后,输入指令sinfo查询PARTITION.

2024-Sep-20: Scheduled Maintenance

浪潮技术回复,BeeGFS存储卡顿故障,重启整个存储可以解决. 兹定于2024-Sep-20晚上20:00起暂停作业提交,2024-Sep-23上午9点开始处置浪潮技术说的重启集群存储的操作. 受限于当前集群架构,重启存储,意味着整个集群关机重开.

2024-Sep-09: Scheduled Maintenance

分区调整完毕,集群恢复使用.

2024-Sep-09: Scheduled Maintenance

应决策层要求,划分资源分区. 2024-Sep-09上午9时开始停机处置.