cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2024-08-05
大模型发展日新月异,其超强的内容生成能力已被广泛认可,日益成为人们日常生活和工作学习中名副其实的效率提升工具。
但有时面对专业领域的问题,大模型会出现“大模型幻觉”,生成不真实、虚构、不一致或无意义的内容。在近期OpenAI华人科学家翁荔发布的博文中,大模型幻觉也被定义为“不基于所提供的上下文或世界知识所输出的虚构内容”。
目前有许多种方法应对大模型幻觉。大致可分为五个方面:
一是数据增强,既包括无监督学习阶段训练数据质量、数量、多样性的增强,也包括后期监督学习阶段中SFT数据质量增强和强化学习数据质量的增强。
二是外部知识库检索及其他类似的验证方法,包括检索增强生成(RAG),即检索相关文档,然后利用额外的相关文档作为上下文进行生成;在没有外部检索知识的基础上,也可以设计一个利用模型本身进行验证和修订的过程,以减少幻觉。
三是特殊的采样方法,比如22年有学者提出基于假设的事实和采样算法;23年有学者提出Inference-Time Intervention(ITI),通过在每层上对激活进行线性探测,以区分真实与虚假的输出等。
四是对齐微调,既包括针对事实的微调,如目前必备的监督微调(SFT)和基于人类反馈的强化学习(RLHF),也包括针对归因的微调,比如,为避免低质量响应,将模型配置为拒绝使用预设答案 “I don't know” 进行回答。
在应对大模型幻觉问题的诸多触角中,数据堂作为全球知名的AI数据服务商,更长期专注于如何通过高质量数据来赋能大模型,以更好应对幻觉问题。
其中,就监督微调阶段的SFT数据质量增强而言,广为熟知的是SFT需要少量但高质量的数据集。但更具体地说,到底如何定义高质量的SFT数据?如何评估SFT数据的质量呢?
基于数据堂在SFT领域积累的诸多经验,我们形成了一套定义高质量监督微调数据的评估标准,以更好指导和校准实际的SFT数据服务工作。
高质量Prompt标注数据需要符合以下四点:
• 具体性:避免复杂或模棱两可的指令,文本直接,易于理解。
• 相关性:符合逻辑,多轮对话主题相同。例如,问题要符合给定的标签类别,同时要通过评估各个问题的相似度、常用性、合理性,筛选出高质量的问题文本。
• 精确性:避免太过广泛或开放的问题。问题文本要清晰、简洁,精确表达内容含义。
• 直接性:避免说不要做什么,问题文本要直截了当、简明达意。
高质量Output标注数据需要符合以下五点:
• 相关性:问题和答案之间要准确贴合,避免答非所问。其中要特别注意答案是否有对问题要点进行一一回应。
• 真实性:输出准确无误的信息,不可以误导用户。
• 连贯性:避免错别字、语法错误、语义不顺等表达问题,尽量口语化。
• 有益性(有帮助的):遵循用户意图并帮助解决问题,且答案简明扼要。
• 无害性:输出内容不应对用户造成身体、心理或社会伤害。
基于数百个大模型数据项目实施经验,数据堂通过制定一系列质量评估体系和标准,显著优化提升了包括SFT数据在内的数据质量和交付效率。
通过组建粗标、精标、专业等多级别标注团队,能有效满足不同特定任务、特定专业领域的高质量SFT数据需求,助力大模型快速提升逻辑推理、复杂指令跟随、敏感问题应答能力。
包含SFT数据服务在内,数据堂提供了一站式大模型解决方案。
在无监督学习阶段,我们的训练数据包括1PB大规模无标注文本数据、多语种平行语料数据,800TB图片-文本描述、1PB视频-文本描述数据集,即取即用,并在持续扩充覆盖场景和数据量级。也可根据客户领域数据类型特点,提供无监督数据清洗服务。
在监督学习阶段,除监督微调数据外,我们也在通过红队测试、强化学习(RLHF)等服务,切实帮助不同企业有效提升模型应用效果。