百万量级的多模态数据集来了！涵盖大模型和数字人领域

作者：Datatang 发布时间：2024-01-03

到2025年，人工智能核心产业规模达到3000亿元，持续保持10%以上增长，辐射产业规模超过1万亿元。“以数据为中心的人工智能”逐渐成为人们聚焦人工智能产业未来的关键，即通过对训练数据集质量和数量的改进提升模型的准确性和鲁棒性，进而推动产业发展。

目前，数据堂成品数据集覆盖了驾驶、新零售、安防、家居、金融、教育、娱乐等各个行业，涵盖了计算机视觉、语音识别、自然语言处理、大模型等主流技术领域。数据产品分秒交付，版权清晰，超越普通数据质量要求，以低成本的方式助力企业提升AI模型准确率。

01 多模态成品数据集

数据堂自有多模态成品数据集同时囊括图像、语音、文本等多个模态，由3000人参与录制，采用多设备同步录制方式，通过脉冲信号进行精准对齐，准确性高。

例如，300小时唇形同步多模态数据集，由500人参与录制，包含中青年、中年、老年等多个年龄段，数据集男女性别分布均衡，涉及采集角度丰富，共包含15个角度的音视频数据。

再如，数据堂中文普通话多模态情感数据，覆盖多种音色，包括播音腔、正太音、总裁音、萝莉音、御姐音等；情感方面涵盖快乐、愤怒、悲伤、厌恶、恐惧等七大情感类别，结合多角度采集录制方式，实现高达98%准确率的多音色，多文本、多情感、多模态数据，满足各类多模态情感识别应用需求。

02 图像大模型成品数据集

数据堂大模型成品数据库涵盖3,000,000张各场景图像描述数据，覆盖自然、商场、展览、家庭、陈列等多个场景，帮助客户更高效的进行模型构建、训练和部署。

其中，为了更好的助力客户提升图像大模型的识别研究，数据堂自建1,500,000张场景图像描述数据，涵盖室内室外多个拍摄光线下的风景、动物、花卉树木、人物、汽车、运动、工业以及建筑等多种类别。适用于周期紧张的各场景技术上线需求。

此外，我们还构建了500,000组人体行为图像&视频描述数据，由白种人、黑色人种等多个人种采集，且年龄分布广泛；包含了不同季节、不同拍摄角度的多种人体行为。描述语言为中英双语，内容描述客观准确。版权清晰，量级丰富，可直接应用于大模型图像领域研究。

03 结语

数据堂现有自有版权数据集涵盖20万小时100+语种语音识别数据，800TB覆盖全领域计算机视觉数据，约20亿条自然语言理解数据，5TB无标注文本数据。分秒交付，即需即用，且覆盖场景和量级持续扩充中。

作为高质量的人工智能数据服务商，数据堂凭借丰富的实践经验，将持续坚持为行业提供更高质量的数据服务，通过不断扩充数据集的量级丰富度以及提升数据的质量精确度，积极推进行业发展。

联系小堂，即可免费获取我们的产品样例！

阅读更多内容

最近在各大社交媒体平台，时常见到AI扩图分享，#AI扩图#话题已有高达三千万的浏览量。该功能基于 AI 智能识别算法，可根据图像的上下文和纹理，预测、生成缺失的部分，能够为原始图片进行150%、200%、250%、300%等更大画幅、更广视角的扩图。

近日，清华大学与中汽创智科技有限公司共同发布了“4D成像毫米波雷达数据集Dual Radar”。该套数据集历经两年时间，开展关键技术攻关和数据采集，最终由数据堂完成专业的数据标注支持。