2024年07月08日
第A6版:园区动态

天津滨海高新区5个数据集入选市高质量数据集

  本报讯  近日,天津市数据局发布天津市第一批行业高质量数据集,天津滨海高新区申报的5个数据集全部入选。

  首批共发布37家单位的80个行业数据集,天津滨海高新区全部入选的5家企业5个数据集包括慧医谷中医药科技(天津)股份有限公司的中医舌脉诊标注数据集、先进计算与关键软件(信创)海河实验室的儿科下颚智齿牙胚分割数据集(NKUT)、天津恒达文博科技股份有限公司的恒达文博文旅·科普基础数据集、天地伟业技术有限公司的人车结构化数据集、中广新型媒体研究院有限公司的多模态情感数据集(EMD_1)。

  高质量数据集是人工智能模型训练、推理和验证的关键基础,是按照特定标准,依次开展数据采集、数据清洗、数据归类和数据标注等智能化处理并具备更新和维护机制的数据集合。此次天津滨海高新区入选的5个数据集主要集中在医疗健康、文化旅游、交通运输与城市治理等领域,包含图形图像、文本、音频、视频、3D模型等多种模态。其中,恒达文博文旅·科普基础数据集为国内首次公开发布,数据集规模超300TB,已支撑训练了基于ChatGLM等先进架构的大语言模型,并应用于图像识别、古文字识别、文物病害识别等专用模型。

  为贯彻落实《“数据要素×”三年行动计划(2024-2026年)》,天津市数据局开展数据集征集工作。天津滨海高新区网信办按照天津市数据局、滨海新区数据局相关工作要求,第一时间发动各行业主管部门、联系重点企业,通过多种渠道的形式通知、动员、指导企事业单位积极参与申报。下一步,天津滨海高新区将进一步对接服务相关行业领域企事业单位,摸底区内各行业数据集资源,挖掘打造更多应用场景,促进相关企业、科研机构等围绕高质量数据集开展产业合作,加快数据要素深度赋能区域经济发展。甄晓倩 夏梦奇

2024-07-08 6 6 高新科技导报 content_134538.html 1 天津滨海高新区5个数据集入选市高质量数据集 /enpproperty-->