2025年11月24日
第A14版:人工智能

我国首个具身智能评测基准EIBench发布

XR-1模型通过测试

  本报讯 (记者 刘琴)近日,基于编制中的国家标准《人工智能具身智能大模型系统技术要求》,中国电子技术标准化研究院正式发布“求索”具身智能测评基准EIBench,同时邀请多家国内顶尖具身智能团队参与首次测评。

  在本次测评中,北京人形机器人创新中心的XR-1模型成为唯一通过测试的VLA(视觉-语言-动作)模型,获CESI-CTC-20251103具身智能测试证书,成为全国首个获此资质的VLA模型。

  据悉,“求索”具身智能测评基准EIBench,是针对具身智能数据难复用、模型泛化性差、安全难保障等产业痛点推出的首个具身智能领域评测基准,是聚焦数据格式、具身智能大模型、安全及可信赖度等形成基于国家标准的测评指标体系。该标准在模型侧主要面向VLA和VLM(视觉-语言模型)两类具身智能大模型,代表着我国具身智能行业发展在规范化和标准化方向上迈出关键一步。

  作为基于视觉、语言和动作等多模态数据集进行训练的大模型,VLA能够打破传统具身智能系统中“感知-决策-执行”的模块分离局限,实现端到端闭环,同时借助大规模基础模型的泛化能力,能够实现跨任务、跨机器人和零样本的适应能力;还由于VLA 模型能够理解自然语言指令,因而可以使人与具身智能体之间的交互更加自然、高效。

  据介绍,在数据格式方面,EIBench推动打造统一数据格式;在模型方面,形成了“三个一”测评准则:

  一条标准化流程,实现可复现的公平评测——建设了评测任务确定-训练数据采集-模型定向训练-任务真机测试-测试结果分析的标准化流程。

  一个综合任务库,覆盖多维度复杂场景——设置了“单臂操作”“双臂异步操作”和“双臂协同操作”3种难度等级,覆盖移动、放置、推、拉、倾斜、按压、插入、旋转等8类核心动作单元,全面考核模型基础物理交互能力。

  一套测试指标,量化模型综合性能——建立了多维度量化指标体系,包括任务成功率、平均执行用时、人工干预次数、危险操作次数及指令跟随率等,全面覆盖任务完成能力、执行效率、自主可控性及安全可靠性等核心要求,反映模型在实际场景中的综合性能表现。

  北京人形创新中心相关负责人告诉记者,在测试中,XR-1模型共在天工2.0、UR、Franka等3款机器人上针对取放、推拉、旋转、插入等双臂技能进行基础测试,以及对物体颜色、位置、姿态,环境亮度、色温,背景、干扰物等七大维度进行泛化测试。每项测试定量采集40-50条少量数据,在每个任务每项测试维度进行10次以上的真机测试,测试全程由中国电子技术标准化研究院专家参与,在流程设计和实际执行层面均做到标准化公平可复现。

  “本次XR-1成为唯一通过测试的具身VLA模型,具有里程碑式意义。标准确立后,能够推动具身智能产业生态的良性发展和可持续创新,创新中心未来将继续以技术突破与产业实践,推动具身智能加速迈向‘最聪明和最好用’的新高度。”北京人形机器人创新中心相关负责人说。

2025-11-24

XR-1模型通过测试

6 6 中国高新技术产业导报 content_160512.html 1 <p>我国首个具身智能评测基准EIBench发布</p> /enpproperty-->