
{{aisd}}
AI生成 免责声明
行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。
国家数据局8日印发《关于推进行业高质量数据集建设行动的实施方案》(下称《方案》)。这是国家层面首次对数据赋能人工智能发展作出的系统性部署。
国家数据发展研究院院长胡坚波表示,《方案》围绕数据集建设全链条,聚焦科学研究、工业制造、低空经济、具身智能等重点和创新领域,有针对性地推进数据集建设,同步推动数据标注转型升级,全面提升数据供给能力与水平。
部署六大专项行动
今年政府工作报告首次点名“建设高质量数据集”。行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。
国家数据局局长刘烈宏此前公开表示,高质量数据集成为数智化转型的“新型燃料”,就像经过精炼加工的“高标号燃油”,在很大程度上,决定着人工智能技术在制造业应用中能否跑得稳、跑得远、跑出效益。
《方案》明确,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。
中国信息通信研究院副院长魏亮认为,数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。数据集的质量影响人工智能的“智商”。
魏亮分析,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。
《方案》聚焦国民经济发展重点行业和战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。
为AI发展应用提供充足“燃料”
在强基扩容行动中,《方案》顺应人工智能加速向行业渗透,从对话向多模态生成、决策执行、具身智能、物理交互等范式跃迁的趋势,拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为人工智能发展和应用提供充足“燃料”。
《方案》明确,聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。
数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。《方案》引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。
2024年4月,全国数据工作会议首次提出“探索建设国家级数据标注基地”,同年5月,国家数据局公布了首批7个国家级数据标注基地名单。12月,国家发展改革委、国家数据局等联合发布《关于促进数据标注产业高质量发展的实施意见》,明确到2027年产业年均复合增长率超过20%的目标。
在价值释放方面,《方案》提出,释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化渠道。
词元是大模型处理文本、代码、图像、音频、视频等所有信息时采用的最小运算单元。AI应用落地的每一个场景,背后都是词元的海量调用。今年3月,我国日均词元的调用量,已经超过了140万亿,相比2024年初的1000亿增长了1000多倍;相比2025年底的100万亿,三个月时间又增长了40%多。
国家数据局日前召开词元经济座谈会,明确将把推动词元经济发展纳入工作体系,以行业高质量数据集建设和全国一体化算力网建设为着力点,深入推进数据要素市场化配置改革,推动词元经济高质量发展。
中国工业互联网研究院政策研究所高级工程师朱光认为,词元串联起智能经济的核心要素——数据、算法、算力“铁三角”,把算力消耗、模型运算、服务供给统一转化为可度量、可流通的价值单元,支撑智能服务从定制化“奢侈品”转变为普惠化“必需品”,并催生出模型服务、算力调度、数据运营、智能体应用等一系列原生新业态,将成为智能经济价值转化与商业闭环的核心纽带。

知情人士称美国政府考虑入股人工智能企业;全球海洋现象智能预报大模型“琅琊”2.0发布......
展示“十五五”时期现代产业成长结构,是第四届链博会展陈设计的主线。
AI进化速递丨国家发展改革委主任郑栅洁赴上海人工智能实验室调研
机构认为,“真成长”公司才能获得市场认可,维持“红利打底仓、科技博弹性”的配置思路。
人工智能快速发展,高质量、高安全的数据供给成为关键要素。