本报讯(记者 李争粉)近日,国家数据局印发《推进行业高质量数据集建设行动的实施方案》(以下简称《方案》),围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放6个专项行动,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据“飞轮”,加快构建数据要素与人工智能协同演进的共生生态。
《方案》明确,到2028年年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。
在实施强基扩容行动方面,《方案》提出聚焦科学研究、工业制造、农业农村等19个重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。同时,夯实行业高质量数据集建设基础路径。梳理行业数据资源底数和应用场景,建立数据资源清单和数据集需求清单。以应用为牵引,持续推进行业高质量数据集建设先行先试,加快形成一批可复制、可推广的数据驱动型示范场景。
数据标注是将知识和经验注入到训练数据的过程,是行业高质量数据集建设不可或缺的关键环节。《方案》提出实施标注攻坚行动,引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。
在应用赋能行动方面,《方案》要求,坚持“以模引数、用数赋模”,打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,加速人工智能应用落地。推动形成“场景—数据—模型”协同发展的良性循环。发挥“人工智能+”场景牵引作用,推动数据供给和场景的精准匹配,以用促建,以实际需求吸引更多数据资源汇聚,推动行业高质量数据集有效供给和持续优化。
管理服务行动与价值释放行动则为数据要素流通提供制度保障。《方案》明确加强数据集管理,完善数据伦理和治理机制,推动落实数据权益相关制度,推进数据集建设体系更加规范有序。发挥数据集的应用价值,以行业高质量数据集赋能人工智能发展。释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。