▶ 本报记者 张伟
作为人工智能(AI)的“发动机”和核心驱动力,算力逐渐成为稀缺资源和竞争新高地,而实现AI算力的高效利用与精准调配成为亟待解决的问题。
“在AI大模型迅速发展的今天,算力成为不可或缺的血液。”近日,在2025全球数字经济大会数字经济产业国际交流合作体验区,北京超级云计算中心(以下简称“北京超算”)CTO甄亚楠在接受记者采访时表示,在破解算力“供不上、用不起”问题上,北京超算目前正在为用户精准匹配算力资源,构建更加开放、高效和灵活的算力平台及生态系统,让算力资源获取、调度和使用变得更加容易,从而高效破解部分算力难题。
智能调度
让算力资源利用最大化
在当下大模型训练算力需求爆发期,如何实现算力资源的最大化利用,成为关键问题。
据甄亚楠介绍,北京超算推出按需构建算力资源的创新模式,旨在通过算力租赁,让用户依据业务需求获取弹性的计算资源,实现大规模的计算任务。
“用户只需支付实际使用所需的计算量与计算时间,即可大幅度降低运营成本,且适用于各种大规模计算需求场景。此外,还能够在用户业务运行中提升利用效率。”甄亚楠说。
甄亚楠举例道:“某14B参数的模型优化前,GPU利用率只有75%,经过我们的计算负载优化后,GPU利用率提升到97%,整体性能提升了30%。”
据介绍,为让算力资源利用率实现最大化,北京超算采用超算架构模式构建智算资源,将分布在国内的各大算力中心的资源加以整合,并利用成熟的算力网络进行调度,以满足大规模训练所需的海量算力需求。例如,在与某科研机构合作中,北京超算通过整合资源,成功地将大模型训练时间从原本的数月缩短至数周,切实帮助用户降本增效。
精准选型
让算力更好用
如何让算力更好用?“我们为用户提供的并非单一技术、单一资源,而是一套满足用户综合发展需求的行业解决方案。”甄亚楠说,北京超算具备万卡集群工程化能力,可有力保障大模型训练、推理业务的开展,实现算力资源从可用到好用再到降本。
甄亚楠举例道,北京智源人工智能研究院(以下简称“智源研究院”)推出的“悟界”系列大模型,多模态架构突破数字物理边界,引发全球关注。这背后,北京超算出了一份力。
智源研究院进行大模型研究工作,迫切需要大量的GPU算力资源进行模型训练。北京超算AI智算云服务在短期内快速为智源提供了基于超算架构的A100算力资源,同时提供了基础环境构建、模型部署、应用运行特征性能分析、7×24小时技术服务支持保障等服务,为智源打造了高效、稳定的智算云算力底座。
无独有偶。清华大学计算机系自然语言处理实验室的大模型课题组急需使用上百块高端GPU加速卡进行大语言模型训练,但受限于供给关系影响,课题组在短期内很难获得足够数量的高端GPU算力。为此,该实验室与北京超算展开深度合作,北京超算为其提供了上百块A100 GPU共享算力资源,有力地支持了该实验室的大语言模型训练需求。
共享算力+模型服务
帮用户节省成本
在2025全球数字经济大会“首发首秀”现场,北京超算发布汇集40多个主流大模型的MaaS平台。一位深入了解MaaS平台的AI产业链企业负责人表示:“通过这个平台,企业能一站式获取所需的大模型服务,随时随地实现API调用,无需自行购置硬件和部署AI模型,这将大幅度缩短产品开发周期和市场投放时间。”
“MaaS平台不仅集成了DeepSeek全系列模型,还整合了智谱GLM、Qwen、ERNIE-4.5等国产优秀模型。”在甄亚楠看来,这种多元化模型集成,使民营企业能够根据自身业务需求和算力预算,灵活选用最适合的AI能力,大幅度节省研发投入和时间成本。
MaaS平台强大的性能得益于其背后的算力支撑体系。据悉,北京超算拥有万卡级GPU集群,涵盖主流加速卡和国产自主芯片,通过智能调度系统实现算力资源的动态分配与高效利用。“这种强大的算力基础设施,可以保障企业在进行大规模模型训练或复杂推理任务时,能获得稳定、高性能的计算支持。”甄亚楠说。
“算力如同基石般支撑着人工智能不断前进。”甄亚楠说。
据悉,北京超算成立于2011年,是由北京市政府主导的院市共建北京超级云计算和国家重要信息化基础平台。目前该平台已累计服务超过1000家科研机构、高校及企业。