首页 > 新闻 > 大政

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

国家层面首次系统部署,六大行动引爆行业高质量数据集建设

第一财经 2026-06-09 10:12:07 听新闻

作者:祝嫣然    责编:计亚

高质量数据集成为数智化转型的“新型燃料”。

行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。

国家数据局8日印发《关于推进行业高质量数据集建设行动的实施方案》(下称《方案》)。这是国家层面首次对数据赋能人工智能发展作出的系统性部署。

国家数据发展研究院院长胡坚波表示,《方案》围绕数据集建设全链条,聚焦科学研究、工业制造、低空经济、具身智能等重点和创新领域,有针对性地推进数据集建设,同步推动数据标注转型升级,全面提升数据供给能力与水平。

部署六大专项行动

今年政府工作报告首次点名“建设高质量数据集”。行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。

国家数据局局长刘烈宏此前公开表示,高质量数据集成为数智化转型的“新型燃料”,就像经过精炼加工的“高标号燃油”,在很大程度上,决定着人工智能技术在制造业应用中能否跑得稳、跑得远、跑出效益。

《方案》明确,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。

中国信息通信研究院副院长魏亮认为,数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。数据集的质量影响人工智能的“智商”。

魏亮分析,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

《方案》聚焦国民经济发展重点行业和战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

为AI发展应用提供充足“燃料”

在强基扩容行动中,《方案》顺应人工智能加速向行业渗透,从对话向多模态生成、决策执行、具身智能、物理交互等范式跃迁的趋势,拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为人工智能发展和应用提供充足“燃料”。

《方案》明确,聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。

数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。《方案》引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。

2024年4月,全国数据工作会议首次提出“探索建设国家级数据标注基地”,同年5月,国家数据局公布了首批7个国家级数据标注基地名单。12月,国家发展改革委、国家数据局等联合发布《关于促进数据标注产业高质量发展的实施意见》,明确到2027年产业年均复合增长率超过20%的目标。

在价值释放方面,《方案》提出,释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化渠道。

词元是大模型处理文本、代码、图像、音频、视频等所有信息时采用的最小运算单元。AI应用落地的每一个场景,背后都是词元的海量调用。今年3月,我国日均词元的调用量,已经超过了140万亿,相比2024年初的1000亿增长了1000多倍;相比2025年底的100万亿,三个月时间又增长了40%多。

国家数据局日前召开词元经济座谈会,明确将把推动词元经济发展纳入工作体系,以行业高质量数据集建设和全国一体化算力网建设为着力点,深入推进数据要素市场化配置改革,推动词元经济高质量发展。

中国工业互联网研究院政策研究所高级工程师朱光认为,词元串联起智能经济的核心要素——数据、算法、算力“铁三角”,把算力消耗、模型运算、服务供给统一转化为可度量、可流通的价值单元,支撑智能服务从定制化“奢侈品”转变为普惠化“必需品”,并催生出模型服务、算力调度、数据运营、智能体应用等一系列原生新业态,将成为智能经济价值转化与商业闭环的核心纽带。

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部:banquan@yicai.com

文章作者

一财最热
点击关闭