zh

数据解决方案

语音合成

首页>数据实验室>全部动态>直播还有哪些新想象?AI+直播打造更有趣的直播间

直播还有哪些新想象?AI+直播打造更有趣的直播间

来源:数据堂2021-05-17


一部手机、一位主播,成就了2020年消费领域最流行的新玩法——直播带货。除了薇娅、李佳琦等带货 KOL,很多明星、主播、甚至是企业 CEO 们也开始进入直播间带货。

在娱乐圈,直播为明星和粉丝提供了距离更近的互动平台,更是迎来了火爆的发展。例如近年来大火的歌手周深,在28岁生日当天直播唱歌,和粉丝一起过生。

2018年,国内所有直播平台的日活用户加在一起不到5000万,如今直播行业用户已达4.33亿。正如过去十年电商的崛起,离不开交通、物流等领域的持续投入,直播间经济的火爆,与人工智能、物联网等新技术的赋能密不可分。

直播中的AI技术

从主播进入直播间开始,人工智能技术就开始为人像、互动、内容监测等各个环节赋能。一场直播的顺利完成,离不开以下几项关键AI技术的支持:

人脸关键点定位与人脸分割

人脸关键点检测就是定位人脸特定位置,并通过关键点位置组合获得抽象的人脸姿态信息。而人脸分割技术可以实现从不同背景的图像中自动提取出人体目标,为后续处理算法提供基本的执行条件。

直播中的美颜功能是对人脸关键点检测+人脸分割的一个典型应用。

对主播进行美颜时,首先就需借助人脸关键点检测实现对人脸轮廓以及五官特征的精准定位。当人脸各个关键部分的精确位置已经确定,就可以将不同的美妆特效渲染到人脸图像上。

人脸关键点定位与人脸分割

表情识别技术支持在静态图像或动态视频序列中分离出特定的表情状态,以便确定被识别对象的心理情绪。

基于表情设计互动内容,是提升互动质量的重要途径,为人熟知的表情特效是人脸表情识别的典型应用。

去年,快手上线了一系列以“年龄渐变”为主题的魔法表情特效,利用生成式技术,一系列魔法特效可以让用户有极强的真实感体验从幼年到老年的全过程。


除了丰富互动的趣味性,表情识别技术的应用还有助于主播判断用户对商品或者直播内容的感兴趣程度。

手势识别

手势是一种人类的基本特征,手势识别技术的发展为主播和观众的互动以及对设备的无接触控制提供了可能。

在作业帮直播课“小组直播间”中,手势识别功能收获一众“粉丝”,成为学生互动满意度最高的功能:只要对着屏幕竖起拇指,不到 1 秒,屏幕上便会回应同样的手势,完成一次“点赞”。这就是“手势识别”AI 功能带给用户的互动体验。

人体行为识别

人工智能可以做到直播风控管理,实时检测主播人体姿态,判断其是否需要休息、动作是否具有危险性等。

行为识别有助于建立预警机制,提前向平台工作人员反馈信息,从而赋予直播平台感知能力。

内容识别

直播行业的弹幕审核、直播内容监管也有望通过AI技术持续改善。

当下,敏感信息审核已经广泛运用于文字和图片领域中。未来,随着视频信息审核技术和音频敏感检测技术的完善,直播视频和音频内容也有望做到实时审核。



在保证审核准确率达标的前提下,AI赋能内容识别将有助于改善巡管审核的不及时、人力不足、覆盖面不到位等问题。

数据助力“AI+直播”

直播的交互性和流畅感是这一互动方式爆火的重要原因之一,人工智能技术的支持更是提升了观众的体验感。数据堂在深刻理解直播场景的基础上,针对关键技术环节,推出了系列训练数据集,为“AI+直播”的发展提供助力。

数据堂严格遵守相关规定,建立了健全的安全合规体系,所采集的数据均已获得被采集人授权。

15万张人脸106关键点数据》

该数据覆盖了多人种、多年龄段的人脸数据,能够有效提升人脸关键点定位的准确性。


综合考虑了不同场景、不同难度下的人脸特征,为了增加数据集分布的多样性,采集人员采集了多个角度的完整人脸数据以及局部遮挡人脸数据(戴墨镜或其他佩饰)。

数据还包括嘟嘴、惊讶、愤怒、蔑视等复杂表情,是一套相对完备的人脸关键点检测数据集。

70,846张人脸抠图数据》

数据堂自有版权的《70,846张人脸抠图数据》涵盖了多人种、多年龄段的人脸五官、身体及佩饰的语义分割数据。


该数据集部分原始数据与《15万张人脸106关键点标注数据》重合,同样考虑了不同角度、不同表情、不同佩饰下的人脸数据分布。

在标注方面,该数据集主要侧重对于人脸五官、身体、佩饰等24个局部模块的语义分割标注,是一套高质量的人脸分割数据集。

26,129人多人种7种表情识别数据》

针对直播中表情识别的技术应用,数据堂推出了《26,129人多人种7种表情识别数据》。该数据由17,945位黄种人、3,546位白种人、3,727位黑种人、911位棕色人(墨西哥人)参与录制。



工作人员采集每位被采集者正常、高兴、惊奇、悲伤、愤怒、厌恶、恐惧的7种表情,数据多样性涵盖了不同脸部姿态、不同光照和不同场景。以表情准确度为准,精度超过97%,表情命名准确率也在97%以上。

314,178张18种手势识别数据》

该数据集包括静态手势83,013张和动态手势97,705张,采集多样性涵盖多种场景、41种静态手势、95种动态手势、多种拍摄角度和多种光照条件 


工作人员对21个关键点(每个关键点有可见不可见属性)、手势类别和手势属性(左手或右手)进行标注。在x,y方向上的点位置误差均控制在3个像素内,按关键点为单位,数据标注准确率超过95%。

AI+直播更多应用方向

AI与直播行业的结合实际上才刚刚开始,多家科技企业在扎实的基础上不断创新,紧跟潮流,挖掘了更多实用、有趣的应用。

AI合成主播

去年,新华社智能化编辑部与搜狗公司联合研发了新的智能产品——小微。她能随时变换发型,随时更改服装,穿梭于演播室的不同虚拟场景中……然而,小微却不是真人,她是全球首位人工智能驱动的3D版AI合成主播。

 

直播领域备受关注的AI合成主播技术,给直播平台带来了颠覆性的内容拓展思路。只要真人主播在镜头前说一段口播,AI技术就可以提取主播的声音、动作表情等行为特征,再结合算法的深度学习,便可诞生一个AI合成主播。

AI+直播个性化推荐

现在许多直播平台把AI技术实际运用到了直播之中,利用其进行内容分析,并作出智能优化,为观众提供更加优质的内容。

就比如拿目前最受欢迎的游戏之一绝地求生来说,虎牙直播运用AI技术建立了全新的观看模式,自动分析直播内容,让玩家更加直观的找到想看的内容。比如:决赛圈、单排、双排等功能。

依托AI技术赋能的直播产业,在内容拓展、用户体验和平台监管等方面有望再上台阶。随着AI技术与直播行业合作的不断深入,在未来,更多直播定制化的AI技术将逐步推出,并应用于各大直播平台,这将显著提高平台内容质量和服务效率。

 

欢迎联系客服小堂获取数据样例~

邮箱:services@datatang.com

咨询热线:13051623904


语音合成(TTS)_数据堂