本报讯 (记者 张伟) “政协委员提案不是‘一锤子买卖’,需要四处调研发现问题、写成提案指出问题,还要持续跟进解决问题。”3月4日上午,全国政协十四届三次会议开幕前,全国政协委员、中国科学院计算技术研究所研究员张云泉向记者道出他连续几年聚焦算力基础设施建设提交提案的初心与责任。
作为算力领域专家,张云泉今年仍围绕算力设施建设与智算产业发展,再次呼吁加快高端算力设施建设,提升算力使用效率,以应对人工智能大模型快速发展所带来的“算力围城”困局。
“前两年,我的提案关注‘东数西算’宏观布局,今年则要聚焦‘超智融合’趋势下的发展难题。”张云泉表示。
对于张云泉而言,写出一份好的提案,率先是要“跑”出来——在过去一年时间里,张云泉走访了众多算力中心及相关企业,对当下算力产业发展状况进行调查研究。
“我们可以看到,伴随DeepSeek等AI开源大模型涌现,在各个行业,大模型的应用不断增多,这对算力基础设施建设提出新需求。而当前算力市场存在供需矛盾:‘算力结构单一、高端算力紧缺’;算力基础设施与国际领先水平存在代际差异,制约了大模型迭代创新速度。”他说。
谈及算力建设短板问题,张云泉直言:“我认为这种供需失衡,首先反映在规模上。”他介绍说,目前国内公开的主要智算中心单体规模仅在100-1000Pflops(每秒钟所执行的浮点运算次数)之间。高端智算中心要求具备万卡级分布式训练能力,性能须达到10Eflops@BF16以上,且机架功率密度达到40-100kW。
此外,智算中心算力结构单一、基础工具链不完善、通用性不强、利用率不高进一步加剧了供需矛盾。
“部分智算中心往往只考虑低精度训练算力需求,未结合行业场景考虑混合精度融合算力需求,导致通用性不强;而国产高性能可扩展并行训推编程框架和优化工具链的缺失,导致国产大规模智算机群计算效率普遍偏低,可扩展性不高。”张云泉说。
张云泉还提及另一个产业痛点:大模型与产业应用脱节。“国内大模型百花齐放是好事。不过在此过程中,有些大模型研制单位只注重训练效果、参数规模,而忽视大模型落地到产业应用时的效率和不同场景应用效果,难以为实体产业发展服务。”
对于算力设施建设与智算产业发展的诸多痛点,张云泉呼吁,一方面从算力供给侧,引导高端算力发展走上“超智融合”技术路线,建设大算力、全精度、高互联的高端智算中心,并发展先进存力,促进产业界均衡配置算力与存力资源;另一方面从算力应用侧,重点支持头部基础大模型企业,打造世界领先开源开放主权级基础通用大模型,鼓励开放更多应用场景。
张云泉介绍说,超智融合技术也是近年来全球计算领域热点话题,其核心思想是将超算与智算的能力相结合,以满足在人工智能高速发展背景下的各行业多元算力需求。而如国家超算互联网等算力平台,正在成为国内“超智融合”技术演变的重要依托。对于如何走好“超智融合”技术以突破“算力围城”难题,张云泉提出了出台高端智算中心建设管理办法,集中资源,重点支持大模型领军企业等多项具体建议。
据悉,作为第十四届全国政协委员,张云泉连年建言算力设施建设,2023年,张云泉提出《关于合理规划算力网建设,确保东数西算健康发展》提案,建议建设国家级算力调度和交易平台,得到了相关部门的正式答复和办理。
为何对算力设施建设如此执着?他笑道:“提案就像种树,不能只播种不养护。既然成为政协委员,就得为数字中国栽种好算力这棵‘大树’。”