超智融合算力的可持续运营运维论坛成功举办,探讨高算力场景下可持续化运维与运营实践
在智能化技术驱动下, 随着算力规模的不断扩大,超算及智算中心系统的运维管理复杂度呈指数级增长,运维领域正经历从“人工经验驱动”到“数据智能驱动”的范式变革。同时,超智融合算力的绿色可持续发展,成为运营运维面临的重要挑战。

5月8日,由上海市计算机学会、联想集团主办,上海市计算机学会高性能计算专委会、上海交通大学网络信息中心承办,益企研究院协办的“超智融合算力的可持续运营运维论坛”在上海交通大学李政道研究所举行。
本次论坛邀请了多位国内高校与业界专家共同参会,围绕超算和智算的可持续智能运维与运营在实践中面临的挑战及解决方案进行探讨,并就当前热点话题、最新科研成果和未来发展趋势进行了深入的交流。
上海超级计算中心主任李根国在论坛的开幕致辞中表示,智算与超算都是服务于大规模计算和特定应用的基础设施,二者的融合管理和可持续化运维,一直是各大高校和相关研究机构关心的话题,借助此次论坛的沟通和交流,希望能够为超智融合算力的未来发展提供更多的创新思路和实践经验。

上海超级计算中心主任李根国
产学研协同破局:
多维能效优化重塑超智算中心可持续化发展模式
在绿色数据中心发展的背景下,超智算数据中心的价值体现,不仅是提供高质量的算力,也要考虑能耗节省。在本次论坛上,上海交通大学网络信息中心副主任林新华与联想SSG GI&CHCS技术创新中心智能云高级经理吴众欣联合发布了双方在高算力场景下的智能运维、运营领域的合作创新成果。
从2023年起,基于杨元庆捐赠的思源一号超算集群,上海交通大学与联想集团联合创新,将高校的算法深度与企业的工程广度结合,通过可持续化运维、运营方法打破杰文斯悖论,找到高算力场景下体现超算/智算中心核心价值的优化方法及最佳实践。

联想集团联想智能云高级经理吴众欣
校方团队通过自底向上的四级调优方法——从作业脚本、服务器组件、队列调度到环境调控,构建了覆盖全链路的能效计算方法。联想xCloud团队通过精准采集作业/节点/机柜/机房四级能耗数据,结合数据分析、算力建模、智能预测与多维度动态调整,实现系统性优化方案落地,为超智算中心智能化运维与运营升级提供了可复制的校企合作范式。

上海交通大学网络信息中心副主任林新华
机房环境调优,是超算、智算集群运营运维任务量最大的环节之一。在传统数据中心运维中,一般都是独立地分别调整IT系统和制冷系统的能耗。根据上海交通大学网络信息中心的分享,他们设计了IT-制冷系统联合调优的智能体,其中IT系统负责核心级别的频率调控、分配作业到节点,制冷系统负责动态调节水温。在将智能体嵌入到上海交大的DCIM集群监控系统中之后,可以探索在智能化联合调控策略上构建IT、制冷联合优化模型,从而整体优化集群的能耗。
上海纽约大学的高性能计算集群运维之道
上海纽约大学信息技术部高级主任常潘,分享了上海纽约大学的高性能计算集群的运维管理经验。

上海纽约大学信息技术部高级主任常潘
上海纽约大学的超算集群具有29个机柜,包含用于GPU的14个高密度机柜、用于CPU的14个普通密度机柜。前者供电50KW,后者供电30KW。为更好地对高性能计算集群进行管理,上海纽约大学配置了专职的集群管理人员,以便从系统、网络、动力环境、用户服务等角度进行运维。
在身份认证方面,上海纽约大学采用Free IPA集成MS Active Directory的方式进行账户的集中管理、集中认证;在高性能计算的资源获取方面,上海纽约大学提供了一个集成的、单点登录的方式,方便校内外师生以Web的方式提交作业来使用资源;在资源和性能监控方面,上海纽约大学采用Splunk进行GPU、CPU、内存等数据的动态采集;在作业监控方面,上海纽约大学采用了XDMoD、Prometheus + Grafana + Alertmanager等,来监控相关的作业申请、执行与资源分配情况。
此外,上海纽约大学还分享了节点扩展、数据备份恢复以及智能体应用的情况。据常潘介绍,上海纽约大学目前已经应用了ChatBot、招生AI面试、写作评分、GPA计算、教室音视频设备诊断等多种智能体,为全校师生提供服务。
优化运维 南京大学保障算力基础服务的实践
随后,南京大学eScience中心负责人、信息化建设管理服务中心副主任姚舸分享了南京大学信息中心在优化运维、保障AI算力基础服务方面的进展。

南京大学eScience中心负责人、信息化建设管理服务中心副主任姚舸
南京大学的eScience中心提供云盘、超级计算、开源镜像、数据存储、网络授时等多种服务,实现助学、助教、助研、助管的多重职能。
此外,该中心处于测试阶段的AI服务小助手已经上线,并公开提供服务,能够帮助用户根据eScience中心文档解答用户提问。姚舸表示,该AI服务小助手采用了完全私有化的智能体和模型,通过纯本地化部署保障数据安全,结合知识库定制、提示词管理、参数微调等手段,是为垂直细分科研领域打造灵活高效的专属AI助手。
同时,姚舸介绍了南京大学信息化建设管理服务中心最新成立的AI赋能中心,该中心旨在推进人工智能与数据赋能平台建设,助力“智慧南大”建设。
南京大学信息化建设管理服务中心也完成了DeepSeek满血版南大专属版本、通义千问等AI大模型的本地化部署;与移动云、腾讯云、阿里云等主流云服务商建立了战略合作,为南京大学的师生科研创新提供弹性算力资源支持。
兰州大学的多数据中心超算平台实践
兰州大学超算中心主任工程师张洋也分享了兰州大学的超算平台创新实践。兰州大学在2020年6月建设了高性能计算平台一期,在2023年建设了高性能计算平台二期,加强了平台计算存储能力,并实现了两期资源的统一管理和整合。

兰州大学超算中心主任工程师张洋
据介绍,兰州大学的超算中心实现了大规模的科研支撑功能,支持了兰州大学150个研究方向、超过300个科研项目,支撑了兰州大学数百篇高水平SCI论文的发布,更是促进了多个学科之间的交叉研究,提升了兰州大学师生的高性能计算应用水平。
在DeepSeek大火之后,兰州大学也实现了DeepSeek的本地部署与应用,上线之后支持了兰州大学师生的学术研究、教学辅助、职业发展、行政工作等。
张洋也分享了兰州大学超算中心在国产ARM HPC生态建设、移动算力以及HPC+AI应用软件的部署与管理等方面的经验,并对超算中心未来作为科技创新平台、学科建设平台、人才培养平台的发展进行了展望。
北京大学的超智算融合平台实践
北京大学计算中心系统管理室副主任李若淼分享了北京大学超智算融合平台实践。

北京大学计算中心系统管理室副主任李若淼
据李若淼主任介绍,北京大学构筑了超智算一体化算力平台系统体系,覆盖应用层、平台层、调度层,对智算中心和超算中心的资源进行统一管理。在平台层,北京大学使用SCOW算力平台系统,对HPC算力和AI算力各种异构算力资源进行管理;在调度层,北京大学应用了鹤思算力调度系统实现了HPC和智能计算场景下的资源管理、作业管理、资源隔离等功能,这也是国内首个支持超智算领域的信创开源算力调度系统。
在超智算平台的运维方面,李若淼主任表示,北京大学在安全、监控等多个方面都设计了足够全面稳妥的方案,以确保平台的平稳运行;在超智算平台的运营方面,北京大学的SCOW系统能够实现统一运营,及时反馈超智算平台作业数量、机时数量等相关的数据。
在应用层,北京大学还部署了小蒜智能体平台和小蒜智能助手,能够提供知识检索、医疗咨询、法律援助等多样化服务。
联想集团的大模型弹性训练容错系统
联想集团联想研究院智能计算实验室研发经理李焱分享了大模型弹性训练容错系统的设计与优化。

联想集团联想研究院智能计算实验室研发经理李焱
李焱表示,大模型训练任务需要长时间占用大量硬件资源,软硬件故障发生频率高且类型多样,加之故障原因难以定位,导致训练中断时间较长,模型状态(Checkpoint)也会面临严峻的读写挑战。因此,李焱认为需提升大模型训练系统的容错能力,核心技术包括:故障诊断与精准定位、高效Checkpoint存取以及资源弹性时的快速恢复机制。
联想设计的容错系统针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障,提供高效自动的恢复机制。基于模型训练的并行策略与硬件存储层次特点,通过多层次优化检查点读写操作和即时检查点保存机制,针对千亿规模参数模型,可将端到端故障恢复时间缩短至10分钟以内,并将模型中断后的重训时间压缩至单次训练迭代时间。当集群资源弹性变化时,系统能够快速准确地获取大模型训练的最优并行策略配置,并与容错调度组件协同,确保系统的自适应能力,通过弹性调度训练资源提升作业训练效率及集群GPU资源利用率。
西湖大学的DeepSeek本地化部署实践与应用
西湖大学高性能计算中心主任李南分享了西湖大学的DeepSeek本地化部署实践与应用。

西湖大学高性能计算中心主任李南
据李南介绍,西湖大学的DeepSeek R1本地化部署经历了三个阶段,阶段一是单卡独立服务,阶段二是多卡并行服务,阶段三是优化多卡并行,最终达到总吞吐1054 tokens每秒,总输出524 tokens每秒,总并发在100进程每台。
此外,西湖大学还进行了更多的尝试,包括在2台8卡910B-64G上的国产平台部署、1台8卡H20-80G的Hopper平台部署,以及2台8卡H20-80G的FP8原始版部署。
李南表示,针对部署的各大模型进行了基准测试,包括MMLU、GPQA、MATH500、AIME2024以及LiveCodeBench等,发现国产平台GPQA得分为73.74 (论文数据71.5),AIME2024得分为83.33 (论文数据为79.8),算是测试中的意外收获。
西湖大学部署DeepSeek之后,也针对校内提供了服务,为为校内各项AI服务提供底层推理支撑。
小结
在此次论坛上,多位专家的分享内容翔实,为超智融合算力的运营运维提供了宝贵的实践经验和心得,并使得参会人员在随后的交流中大获裨益。
本次超智融合算力的可持续运营运维论坛的成功举办,为高算力场景下可持续化运维与运营实践提供了可贵的一线经验,必将有助于推动我国高校的超算、智算的进一步发展,为HPC、AI的深入应用建设更坚实的基础设施。
由联想CTO组织整体牵头的联想校企科研合作是联想技术创新生态的重要一环。当前,联想与高校的合作布局主要包括重点高校战略合作计划 (如上海交大、清华大学)、联合实验室计划、联想科学家计划,中国计算机学会—联想蓝海科研基金计划,以及中国人工智能学会-联想蓝天科研基金计划等。致力于联合联想政教行业架构师与业务部门打造新型产学研合作新范式。