cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

给大模型投毒?数据堂独家发布大模型内容安全类数据集

作者:数据堂 发布时间:2023-12-12

想象一下:一个有毒的大模型会导致什么样的结果?

面对一个有自杀倾向的用户,它可能尝试说服或帮助对方结束自己的生命;在一些常规问题上可能输出含有种族或性别歧视的内容;甚至帮助黑客生成用于进行网络攻击、电信诈骗的代码或其他内容……

 

如何为大模型“解毒”?如何让大模型和人类的理念一致,降低在伦理和道德上的风险?现在有了答案。

 

01AI100瓶毒药-100PoisonMpts

 

6月初,阿里公布了一个100PoisonMpts大模型治理开源数据集,又称为“给AI100瓶毒药”。十多位来自多个领域的专家学者成为了首批标注工程师。标注工程师每人各提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。

 

从技术报告来看,两个基于百亿参数大模型的初步训练结果在原专家测试集和泛化测试集上,都能够⼤幅提升模型效果。在重点进行试验比对的领域中,⼈类价值观对齐在性别、职业、种族、无障碍领域有显著提升效果,但法律案例、专门病症等更依赖于细分专业知识的领域则还有较大效果提升空间。

 

“投毒”到“解毒”的攻防,离不开价值对齐。

 

 

02价值对齐的重要性-AI alignment

 

AI学会共情,让机器确保其能力和行为与人类的价值、真实意图以及伦理原则保持一致,这样的操作被称为“价值对齐”(value alignment,或AI alignment)。价值对齐被认为是AI安全的一个核心议题。

 

没有经过价值对齐的大模型,可能会存在以下问题:一是大模型会输出错误的或者不存在的事实,可能源于训练数据中的错误,或过度创造;二是歧视性,原因在于从训练数据种复制有害的社会偏见和刻板印象;三是潜在的能力或行为的失控问题;四是可能存在的恶意滥用以实现不法目的。

 

为确保大模型更加安全可靠、最大程度地防止模型产生有害输出,全球多个国家正在积极制定监管措施。2023年,国家网信办等七个部门联合发布了我国首部针对生成式人工智能服务领域的专门立法《生成式人工智能服务管理办法》(以下简称《办法》)。

 

社会主义核心价值观

 

*利用生成式人工智能生成的内容应当体现社会主义核心价值观

 

*不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容

 

防止歧视

 

*在计算设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、国别、地域、性别、年龄、职业等歧视

 

不得实施不公平竞争

 

*尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争

 

真实准确

 

*利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息

 

个人隐私保护

 

*尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密

 

 

《办法》鼓励优先采用安全可信的软件、工具、计算和数据资源,促进生成式人工智能技术健康发展和规范应用。基于此,由专家原则来指导模型实现价值对齐,被认为能够降低飞速发展的大模型在伦理和道德上的风险。

 

 

03如何使AI对齐人类价值观?

 

通过ChatGPT的成功,人类反馈的强化学习(RLHF)被证明是一个有效的方法,通过小量的人类反馈数据就可能实现比较好的效果。另外,高质量、干净的训练数据集也是重要的一环。对训练数据进行人工或自动化筛选、检测,使模型可以识别、消除有害偏见。

 

当然,红队测试的“投毒”也很重要。

 

数据堂的专业人员可以对模型发起各种对抗攻击,如试探性的或者危险性的问题,以发现潜在问题并予以解决。通过红队测试,帮助客户发现其模型在不准确信息(幻觉)、有害内容、虚假信息、歧视、语言偏见、涉及传统和非传统武器扩散的信息等方面的问题。

 

 

04 大模型内容安全类文本数据集

 

根据多领域大模型安全评测需求,数据堂独家发布大模型内容安全类文本数据集。该数据集从违反社会主义核心价值观内容、歧视性内容等20余个角度进行了考虑,由经验丰富的大模型安全测试员和多学科专家学者进行编写。

 

优势一:覆盖全类别、多领域

 

例如在歧视性内容的编写中,分别从民族歧视、信仰歧视、国别歧视、地域歧视、性别歧视、年龄歧视、职业歧视、健康歧视、性取向歧视、种族歧视、教育水平歧视、身体形态和外貌歧视以及其他歧视等多达13个领域进行内容细分。

 

优势二:output编写优化

 

为帮助大模型能更加得体、正面的应对更多问题,数据堂的专家根据问题类型进行output编写,类别涵盖“无法提供帮助类别”、“认识风险并谨慎回答且做出适当的免责声明”、“由于缺乏相关能力或不确定性而无法给出准确、具体的答案”、“遵循有风险的提示”等四大类别进行回答编纂。

 

优势三:prompt编写优化

 

不同于以往常见的对齐操作,该套数据集在规范多个内容类别的同时,针对prompt形式进行了多个维度的补充,例如从判断型问题、解释型问题、诱导类问题以及闲聊陈述型问题分别进行了prompt问题的全面编纂。

 

优势四:数据合规

 

数据堂最新发布的大模型内容安全类文本成品数据集在严格遵循《办法》条例的同时,针对规范中提及的类别做了更详细的展开与补充,帮助企业实现满足国家标准的价值对齐和安全。

 

05结语

 

AI向善。数据堂拥有12年以上AI数据处理经验,专业的大模型数据标注团队,在大模型飞速发展的今天,可以持续助力客户完成AI价值对齐的研究与实践,确保人工智能能够造福人类与社会。

口音英语语音识别技术研讨会暨挑战赛-数据堂