乘两会东风夯实AI底座:高质量数据集建设的战略路径与数据堂实践

作者:数据堂发布时间:2026-03-23
在刚刚落幕的全国两会上,“人工智能”与“数据要素”毫无悬念地再次成为代表委员们建言献策的焦点。从“人工智能+”行动到新质生产力培育,高质量数据集作为数字经济的核心基础设施,是激活数据要素价值的关键载体。



从两会声音看国家高质量数据集战略重点


2026年两会期间,众多代表委员的发言深刻揭示了当前我国在推进人工智能与实体经济深度融合过程中,高质量数据集所面临的机遇与挑战,并明确指出了国家层面的战略着力点。


正视供给瓶颈,保障数据可用

全国人大代表、中国电气装备集团副总经理张帆指出当前高质量工业数据集供给严重不足,数据标准低、标注成本高、企业共享意愿不强,已成为制约“AI+制造”的突出短板。


全国政协委员、天娱数科董事长贺晗则关注到具身智能领域的特殊困境是需要大量“任务级、过程级”的交互数据,但获取成本高、标注难度大


这些声音表明国家战略的重心,正在从鼓励数据开放转向破解高质量数据的供给瓶颈。


强化基础支撑,推动治理有序

全国人大代表、华工科技董事长马新强则连续呼吁构建国家工业数据治理体系,建设国家级和行业级的数据服务平台,为企业提供数据确权、评估等基础公共服务。


全国政协委员、全联并购公会会长范树奎建议探索制定公共数据资源资产授权运营模式,解决权属与定价难题


国家正致力于夯实数据基础设施和制度保障,让数据要素的流通有章可循、有据可依。



聚焦流通安全,释放数据价值


全国人大代表、中国移动湖南公司董事长程伟建议加快完善数据安全可信流通体系,建设基于隐私计算、区块链等技术的第三方可信流通服务平台


全国人大代表张帆也提倡大力推广“数据可用不可见、用途可控可计量、全程可追溯可审计”的共享模式。


通过技术创新构建可信流通环境,从源头上解决企业的安全顾虑,让数据在保护中共享,在共享中增值。



高质量数据集的本质与建设路径


承接两会的高层指引,我们需要深入理解高质量数据集本身。它并非简单的数据堆砌,而是经过规范采集、专业加工、精准标注、严格质检等全流程处理后,可直接用于AI模型开发与训练的数据集合,其核心区别于传统数据的优势,集中体现为“规模大、安全牢、观点正、效果好、应用广”五大核心特征。



其建设路径是从数据到智能体的演进,呈现出从基础认知到场景理解、再到行动规划的递进层次,逐步推动人工智能从“能感知”向“能理解、能决策、能行动”升级。


基础治理先行: 基础认知层是数据集的核心基础价值,通过对原始数据进行清洗、格式转换等标准化处理,为后续加工奠定基础。


深度精标加工: 场景理解层是数据集的核心应用价值,依托精细化标注、语义丰富的数据,帮助AI模型解析复杂场景关系,满足深度理解需求。


迈向智能应用: 行动规划层是数据集的高阶价值体现,以推理链完整、决策明确的数据,最终支撑起能感知、会决策的智能体应用。



数据堂高质量数据集建设全栈能力


在多个行业高质量数据集建设实践项目中,数据堂凭借深厚的技术积累和全流程服务体系,构建了从“数据引接”到“数据清洗治理”、“数据管理平台”、再到“大模型能力评测”的完整闭环能力,成为高质量数据集建设领域的重要实践者。



全流程数据生产能力

数据堂拥有覆盖数据清洗、标注、质检的全流程生产能力。依托40余项专业工具,可对图像、文本、视频等多模态数据进行清洗、去重、脱敏及增强合成。同时,自动化探针与专业人工评审相结合的双重质检模式,可保障数据的准确性与一致性。


全生命周期管理能力
通过数据资产管理平台,对数据从入库到出库进行集中管控,实现产品创建、资产登记、订单交付各环节资产的追溯与监管。平台支持多项目并行运行,以统一流程和标准保障跨项目效率与交付稳定性。


大模型评测能力

具备从功能、性能、鲁棒性到隐私安全的多维度模型评测能力。依托标准库、模型库、用例库、方案库、工具库五大基础支撑,实现评测流程标准化与可重复验证,为模型迭代提供客观数据依据。


安全与合规保障能力
联邦数据服务平台支持“原始数据不出域、模型可训练”的安全计算模式,数据物理存储与访问范围始终受控于数据所有方。公司已通过ISO27701、ISO27001等安全认证,建立覆盖数据全生命周期的合规防护体系。


多行业深耕与经验沉淀

高质量数据集的价值释放,最终要落脚到具体行业场景中。在教育、电力、智慧交通、自动驾驶、具身智能、城市治理等多个关键领域,数据堂已成功服务众多央国企客户,积累了丰富的跨领域经验与个性化场景解决方案,将数据价值转化为行业发展动能。




数据堂“教育高质量数据集构建及应用”入选国家数据局优秀案例


背景

针对教育数据“多模态对齐难、大规模标注慢、高质量评测难”等问题,数据堂研发攻关多模态语义表征对齐、高效半自动数据智能标注、多维度数据集质量评测等关键技术,并配套建设自动化采集与智能化生产平台,旨在提升数据集构建速度与质量,促进教育大模型的开发效率与应用落地。



方案和成效

数据堂通过四项关键举措,在教育高质量数据集建设上成效显著:一是关键技术攻关,破解标注难题,实现“音-图-文”亿组级对齐,提升数据标注开发及标注效率;二是生产平台研发,全面智能标注,建成智能化生产平台,实现全流程自动化治理与评测;三是核心数据构建,加速模型研发,产出多模态预训练、调教、评测数据集,助企业缩短模型开发周期,节省成本;四是提升模型能力,助力应用落地,用高质量数据保障模型安全性与可靠性。


创新点

数据堂教育高质量数据集建设核心创新点主要体现在三个方面:自动化数据集构建保障教育数据供给能力、多维度评测体系确保数据集应用效果、全生态多模态数据集促进教育AI产业化,为教育大模型的研发与落地提供了坚实的数据支撑。



2026年两会为高质量数据集的建设按下了“加速键”。从代表的建言献策中,我们看到了国家对解决数据供给瓶颈、夯实基础设施、保障安全流通的战略决心。作为这一进程的深度参与者,数据堂将持续以全栈服务能力与多行业实践经验,携手政企伙伴共建高质量数据生态,为人工智能时代的数字中国筑牢坚实底座