2026中国生成式AI大会 | 数据堂期待与您相约北京,共话AGI数据未来!
作为国内首家上市的人工智能数据服务企业(股票代码:831428),数据堂此次将携全栈式AI数据解决方案重磅亮相。凭借深厚的行业积淀,数据堂目前已积累超1000万小时语音数据、800TB计算机视觉数据及PB级大模型数据,覆盖全球200余种语言和方言。
语言模型训练数据
覆盖基础与垂类大模型的多维度、高质量语言训练数据,涵盖图书教材、多学科试题、垂直领域语料及Agentic交互轨迹,满足大模型从预训练到微调的全阶段需求。
数据堂拥有超过1000万小时、覆盖200余种语言的语音数据集。这些高质量数据能够有效优化您的语音识别(ASR)与语音合成(TTS)模型的性能。
• 全双工多语种自然对话数据
• 多语种自然对话语音合成数据
• 无监督语音数据
• 多语种电话信道语音数据
图视文全类型覆盖,高精度对齐。赋能模型在内容生成、编辑与交互场景中实现语义理解与任务执行。数据涵盖OCR、GUI Agent、图像编辑、图文交织及具身智能,助力多模态大模型能力跃升。
• 多语种、多场景OCR数据
• GUI Agent数据
• 图像编辑、图文交织数据
• 具身智能数据
所有数据集均经严格标注与质量控制,知识产权归属清晰可溯。数据堂已通过ISO9001、ISO27701及ISO27001等多项权威认证,确保数据处理的全流程安全合规。
展位信息:B2号展台,诚邀莅临交流
在为期两天的盛会中,数据堂将在大会展览区设立B2号展台,全方位展示最新数据产品与技术解决方案。届时,数据堂的专业团队将在现场与参会嘉宾深入交流,共同探讨AI时代的数据新机遇。期待您的莅临!
奔赴AGI之路,数据为基。数据堂诚邀各界同仁莅临B2展台,共同见证高质量数据如何驱动生成式AI的无限可能。4月21日-22日,北京富力万丽酒店,数据堂与您不见不散!