2026年06月22日
第A14版:新智能

AI正在叩响“触达实体世界”大门

  在第八届北京智源大会乒乓球人机对战体验区,观众与人形机器人切磋球技。本报记者 罗晓燕/摄

▶  本报记者  张伟

  在6月12-13日举行的第八届北京智源大会上,北京智源研究院(以下简称“智源”)发布“悟界”全栈技术体系,标志着人工智能(AI)正在完成从“理解语言”到“读懂真实物理世界”的范式跃迁,通用智能体、具身智能、生命科学等前沿成果同步落地,AI正在叩响“触达实体世界”的大门。

  智源全面亮出“悟界”全栈技术体系,包括悟界·Brainμ1.0、悟界·OpenComplex2.5、悟界·Physis-v0.1 等一系列创新成果。其中,悟界·Physis-v0.1是全球首个通用世界基座模型,以统一物理状态学习实现物理正确、动作因果可溯、长程一致、通用泛化,最终达到全垂类场景应用。

  预测下一个物理状态

  北京智源研究院院长王仲远表示,人工智能正经历一场重大范式变革,但火爆的世界模型仍处在早期形态,甚至现在世界模型领域夺冠的模型都还不是真正的世界模型。从大语言模型到登上《自然》正刊的多模态大模型“悟界·Emu3”,智源试图再次定义AI的下一站。

  世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,还能涵盖文本、视频、深度、力觉、感知等全模态数据,具备主动交互能力,能够支撑各种物理世界的下游应用。

  “人工智能的范式迭代,正从‘预测下一个词元’迈向‘预测下一个物理状态’。”王仲远表示,这是大模型发展至今水到渠成的必然方向。从早年的大语言模型处理文本,到多模态模型融合图像、音频,再到如今需要解决真实物理空间的时空规律、长时序理解等问题,人工智能正在跨越数字与物理的边界。

  王仲远将现有技术路线划分为四大类:以语言为中心的世界模型、以像素为中心的世界模型、以三维结构为中心的世界模型和以视觉表征为中心的世界模型。

  “世界模型是通往物理通用人工智能的必由之路。”王仲远认为,四大类模型距离真正面向物理世界的基座模型还有很大距离。他说,智源正在尝试一条可能被视为“第五类”的路径,即以语言为中心的分类和以视觉表征为中心的分类融合,也叫作潜空间表征。

  “将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径”。王仲远说。

  与会人士表示,2026年,人工智能领域正经历一场深刻的范式转移。随着大语言模型在数字文本处理上趋于成熟,行业的共识已清晰指向下一个核心赛场——物理世界。AI不再局限于屏幕内的对话与生成,而是开始通过具身智能、世界模型和自主智能体,真正“触达”并融入实体世界。

  需要海量数据训练

  北京智源研究院理事长黄铁军在“AI×神经科学”分论坛上阐述了“结构决定功能”与“功能塑造结构”的辩证关系:生命科学中的基本信条是“结构决定功能”,即DNA(脱氧核糖核酸)决定生命个体的身体、大脑和功能,但在生命进化过程中,环境塑造身体、DNA与大脑。个体出生后,后天环境训练神经突触,则属于“功能塑造结构”。当前人工智能以Transformer神经网络为结构,采用数据驱动训练神经连接权重,模仿了生命先天的结构决定功能和后天的功能塑造结构,未来的人工智能需要进一步优化乃至变革结构,并通过更真实的环境感知训练更高水平的智能。

  “智源一直围绕结构决定功能与功能塑造结构两个角度探索人工智能前沿。大模型就是采用Transformer结构、采用海量数据训练而成的。”黄铁军表示,从第一性原理出发,世界大模型必须“要有光”,突破图像视频的低速瓶颈。借鉴灵长类视网膜结构研制的脉冲视觉芯片和相机,实现单像素光强测量,能够仅在光发生变化的时空点进行必要计算,为世界大模型训练推理打开高速高效窗口提供高保真的物理观测数据。

  据悉,自2018年成立以来,智源构建全栈大模型开源技术体系。截至目前,智源开源模型超200个。

  从“悟道”到“悟界”跨越,智源正在推动人工智能、物理世界和生命科学“三体互动”,构建AGI(通用人工智能)的大脑、眼睛和身体闭环,让智能真正嵌入物理世界。

  新闻背景

  世界模型思想源自1943年认知心理学,1990年正式定名,2018年相关论文使其成为通用 AI 概念。后续形成 Meta JEPA 认知、Sora 视频生成两大路线,前者侧重物理因果推理,后者擅长画面仿真。2026年智源发布悟界· Physis-v0.1,推出国产通用物理世界基座,补齐实体智能底层能力。

2026-06-22 6 6 中国高新技术产业导报 content_170451.html 1 <p>AI正在叩响“触达实体世界”大门</p> /enpproperty-->