89007组日语阿拉伯语图文构造数据
本产品共89007组数据,每组数据包含一张图片和一个json文档,json文档为对图片的文字描述,或对图片的视觉问答,或对图片的OCR识别,或对OCR结果的视觉问答,语种涉及阿拉伯语和日语,领域覆盖①商业与金融②编程与计算机③法律、政务与政治学④数理、科学、工程与技术⑤社会、人文、文化与宗教学⑥体育、生活方式与休闲娱乐。图片所属领域准确率(张准)95%以上;图文描述匹配度大于95%;OCR识别准确率(句准)95%以上,以标点符号(逗号、分号、感叹号等)分界或以标题分界。本产品数据可用于多语种OCR识别任务,多模态大模型训练任务,图像文本生成任务,多语言视觉问答任务等。
数据规格
数据内容
一组数据包含一张图片和一个json文档,json文档内容为对图片的OCR文字识别结果,或对图片的文字描述,或对图片的视觉问答,或对图片的OCR识别结果的视觉问答,其中,视觉问答至少包含一轮问答
一组数据包含一张图片和一个json文档,json文档内容为对图片的OCR文字识别结果,或对图片的文字描述,或对图片的视觉问答,或对图片的OCR识别结果的视觉问答,其中,视觉问答至少包含一轮问答
数据规模
89007组,其中阿拉伯语42094组,日语46913组
类别分布
包含日语和阿拉伯语两个语种,每个语种下包含图片描述类(Caption)、视觉问答类(VQA)、文字识别类(OCR)、基于文字识别结果的视觉问答类(OCR_VQA)共计四个类别,每个类别下包含①商业与金融(Business_Finance)②编程与计算机(Coding_Computer)③法律、政务与政治学(Law_Government_Politics)④数理、科学、工程与技术(Science_Technology_Engineering_Mathematics)⑤社会、人文、文化与宗教学(Society_Culture_Humanity_Religion)⑥体育、生活方式与休闲娱乐(Sports_Lifestyle_Leisure)共计六个领域
包含日语和阿拉伯语两个语种,每个语种下包含图片描述类(Caption)、视觉问答类(VQA)、文字识别类(OCR)、基于文字识别结果的视觉问答类(OCR_VQA)共计四个类别,每个类别下包含①商业与金融(Business_Finance)②编程与计算机(Coding_Computer)③法律、政务与政治学(Law_Government_Politics)④数理、科学、工程与技术(Science_Technology_Engineering_Mathematics)⑤社会、人文、文化与宗教学(Society_Culture_Humanity_Religion)⑥体育、生活方式与休闲娱乐(Sports_Lifestyle_Leisure)共计六个领域
数据格式
jpg等图片格式,json格式文档
采集精度
图片所属领域准确率(张准)95%以上
标注精度
图文描述匹配度大于95%;OCR识别准确率(句准)95%以上,以标点符号(逗号、分号、感叹号等)分界或以标题分界