多场景长指令外呼对话质量评测数据集

本数据集包含45个真实外呼场景的4500组多轮对话质量评测样本,覆盖大家电、消费电子及线上线下零售行业,涉及售前咨询、售后回访、退换货等完整业务环节,涵盖逻辑判断、情感分析、数据统计、摘要生成、信息抽取等多维度任务。旨在通过高度贴合实际业务场景的复杂指令,有效提升大模型的复杂指令跟随与多维度质量评估能力。

数据规格

数据内容
本数据集为 45 个外呼场景的多轮对话质量评测,每场景包括一组质检标签+100组该场景下的真实多轮对话。其中复杂的 prompt 指令字数>1000 字,每个 prompt 中覆盖完整对话流程以及 5 个以上的质检标准;符合实际业务场景;
本数据集为 45 个外呼场景的多轮对话质量评测,每场景包括一组质检标签+100组该场景下的真实多轮对话。其中复杂的 prompt 指令字数>1000 字,每个 prompt 中覆盖完整对话流程以及 5 个以上的质检标准;符合实际业务场景;
数据量
4500 组
数据用途
用于训练提升基础/领域大模型的复杂指令跟随能力
类别
对话覆盖行业主要包括大家电、消费电子、线上零售、线下零售;场景覆盖售前咨询、邀约、新品推荐等;售后回访、退换货、调研等。质检标准涵盖逻辑判断类、情感分析类、数据统计类、摘要类、提取类(事件要素提取、观点提取、关键词提取、立场抽取、实体抽取)等;
对话覆盖行业主要包括大家电、消费电子、线上零售、线下零售;场景覆盖售前咨询、邀约、新品推荐等;售后回访、退换货、调研等。质检标准涵盖逻辑判断类、情感分析类、数据统计类、摘要类、提取类(事件要素提取、观点提取、关键词提取、立场抽取、实体抽取)等;
采集方式
专业人士编写
存储格式
JSON
语言
中文

样例展示