科技观察|国家高质量数据集标准体系发展的新趋势

科技观察 |  2025-07-04 10:39:19 原创

袁然来源:大众新闻

微信扫码扫码下载客户端

当前我国高质量数据集的发展呈现出“政策热、产业兴、瓶颈显、标准补”的总体态势。国家高质量数据集标准体系建设正当时。针对当前高质量数据集建设中存在的规范缺失、质量参差、效率不高等问题,由国家数据局筹建和业务指导的全国数据标准化技术委员会(SAC/TC609)正加快推进研制高质量数据集技术文件及系列标准,明确高质量数据集的建设路径、格式规范、分类要求、质量评测体系等,推动人工智能模型从能用向好用转变。①

1

在高质量数据集标准体系建设过程中,逐渐呈现出新的趋势。

一是合成数据技术标准将成为关键突破口。针对数据获取难、隐私保护严的问题,《数据合成技术要求》与《服务要求》被列为五星最高优先级。未来将加速构建合成数据的质量评估、真实性验证、场景适配性标准,推动合成数据在合规前提下规模化应用。

二是行业专精化标准需求爆发。行业应用数据集是高质量数据集标准体系建设的核心落地场景,当前数据要素市场化进入深水区,通用数据集难以解决行业复杂问题,必须用行业专精数据喂养大模型,所以未来将向更细分的场景、更专业的质量要求深化。聚焦于将通用数据标准与垂直领域需求深度结合,是释放行业数据价值的关键。

三是安全与合规标准持续强化。随着数据跨境、AI伦理、隐私计算等议题升温,安全标准将从基础要求。向更复杂的风险评估、可信环境、伦理治理扩展。

四是流通交易标准体系加速成熟。《产品设计》、《价值评估》、《交易指南》等标准将逐步填补空白,结合数据确权、登记、结算等配套机制,推动数据要素市场从“可流通”向“高效流通”演进。

五是标准与工具/平台深度耦合。《智能标注系统》、《质量评测系统》、《质量管理系统》等功能要求标准,将推动标准化能力内嵌到数据生产与管理工具中,提升标准的可操作性和落地效率。

六是“动态数据集”与“评测即服务”标准出现。随着模型持续学习需求增长,支持动态更新、版本管理的数据集标准,以及自动化、常态化的质量评测与监控标准将受到关注。

2

未来高质量数据集的发展,也呈现出不少新趋势。

一是合成数据集崛起。在隐私保护、长尾场景覆盖、成本控制方面优势显著,将成为解决数据短缺问题的主流方案之一,尤其在医疗、金融等敏感领域。

二是行业“专识”数据集成为核心竞争力。通用数据价值趋平,蕴含深度行业知识、复杂概念和关系的“行业专识数据集”将成为驱动垂直领域AI落地的稀缺资源和竞争壁垒。

三是强合规、可追溯数据集成标配。“内容真实性”、“安全规范性”成为硬性要求。数据集需具备来源、处理过程、授权等更完整的谱系、需要通过数据是否污染、隐私是否合规等严格安全评估。

四是动态化、持续更新的数据集。满足模型迭代和适应快速变化环境的需求,版本管理和更新机制标准化。

五是高“场景适配性”的数据集。数据集建设将更紧密围绕特定AI应用场景的需求,强调数据多样性、规模、标注精度与目标模型性能的直接关联。

六是流通友好型数据集。具备清晰的产品定义、价值评估依据(《价值评估》)、标准化元数据和安全合规保障,易于在数据要素市场交易流通。

高质量数据集标准体系的建设,是国家激活数据要素价值、发展数字经济的关键棋局。未来将朝着合成化、行业化、合规化、动态化、场景化、流通化方向深化。基于政策部署、技术演进及产业需求,我国数据集标准体系建设核心发展趋势将从“基础补缺”走向“生态赋能”。

注释:

①全国数标委.中央企业高质量数据集建设和标准化研讨会在京召开[EB/OL].2025-6-27.https://www.tc609.org.cn/portal/article/1/44414080839f49abbff16caff8151184

(大众新闻 袁然 策划 汤代禄)

责任编辑:袁然