cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

RCEP正式建群,中国的人工智能企业准备好了吗?

作者:数据堂 发布时间:2023-03-31

2020年11月15日,《区域全面经济伙伴关系协定》(RCEP)签署仪式以视频方式进行,15个成员国经贸部长正式签署该协定。

 

协定15个成员国将涵盖全球约23亿人口,占全球人口的30%,GDP总和超过25万亿美元。该协定不仅涵盖货物贸易、争端解决、服务贸易、投资等议题,也涉及到知识产权、数字贸易、金融、电信等新议题。

  

后疫情时代的经济生态离不开数字经济,人工智能、大数据、云计算、智能创造、无人机等新兴科技,这将会是备受各国欢迎的新基建”产能。

 

AI作为目前全球的热门行业,势必会在此次东风中爆发巨大需求。RCEP的签订,对中国人工智能企业出海亚太来说可谓是万世一时。

 

RCEP谈判期间,百度、科大讯飞、腾讯等多家知名企业就纷纷出海,人脸识别、语音识别、ORC识别等多项AI技术落地花开,中国人工智能企业在亚太市场显示出强大的优势。

 

RCEP为中国AI企业带来了重大的发展机遇,不过,若想实现海外合作空间的纵深拓展,企业自身也需要进一步提升产品质量、增加产品价值。


 

对于AI产品来说,训练数据的丰富性和匹配度是提高AI识别精准度的根本性保障。可以说,数据的质量决定了人工智能的学习质量。

 

训练数据是助力人工智能企业扎根亚太市场的基础抓手,数据堂从市场的实际应用场景出发,开发了外语语音识别数据、人脸识别数据和OCR转写数据等诸多产品。

 

数据堂的数据产品与实际应用场景中的数据高度匹配,能够有效提升跨境商务中智能客服、身份认证、信息录入与内容审核等场景下的服务质量和效率。

 


智能客服 

RCEP的签订必然会带动智能客服市场的又一次火爆爆发。如何识别不同语种中的一些敏感性词汇并加以筛选,成为智能客服场景下语音识别亟待解决的技术问题。

 

这对成员国官方语言的语音识别、语音合成技术提出了更高的要求。国内众多AI企业都在致力于开发支持多语种语音识别的人工智能产品。

 

例如,搜狗输入法10.8版本的AI语音翻译功能就支持中文与英、日、韩、法、西、俄、德等9种语言实时翻译。

 

语音识别能力+自然语言理解能力是语音识别的基础技术抓手。“掌握”多种语言,是智能客服在交互期间提升对话质量、实现机器人“无感化”的重要保障。

 

数据堂面向多语种对话的场景,设计并制作了马来语、泰语、越南语等语言的手机采集数据,可以有效提升外语语音识别的准确性。

 

数据堂自有版权多种语言手机采集语音数据

1

1,000小时印度尼西亚语手机采集语音数据

2

500小时马来语手机采集语音数据

3

100小时新加坡人说英语手机采集语音数据

4

300小时泰语手机采集数据

5

760小时越南语手机采集语音数据

6

1,000小时日语手机采集语音数据

7

200小时日本人说英语手机采集语音数据

8

1,000小时韩语手机采集语音数据

9

200小时韩国人说英语手机采集语音数据

10

200小时澳大利亚人说英语手机采集语音数据



身份认证 

随着跨境电子商务的快速发展,中国加强了对跨境业务的监管。

 

相关政策规定跨境电商企业不得利用他人真实身份信息,通过跨境信息交易平台进行“刷单”,应对交易真实性和消费者(订购人)身份信息真实性进行审核,对订购人和支付人不一致的,电商企业应协助海关对订购人身份信息进行认证,并向海关提供相关认证证明。

 

可以预见的是,随着合作深度和广度的扩展,各国都将加强参与跨境业务主体身份的监管,这不仅响应了RCEP相关条款的规定,更是为跨境业务的安全性提供保障。

 

针对这一应用场景,数据堂研发的人脸识别和活体检测数据能够助力成员国以及相关机构执行身份识别和认证任务。

 

数据堂自有版权人脸识别和活体检测数据集

1

23,349人多色人种人脸多姿态数据

2

25,976人多人种人脸识别数据

3

1,066人活体检测数据

4

26,129人多人种7种表情识别数据



信息录入与内容审核 


OCR技术出现之前,要把大量的卡证牌照、票据表单、纸质文档上的文字信息录入电脑,只能依赖人工,效率低下,而且极易出错。随着OCR技术的成熟,“人工数字化”的现状被打破。

 

使用OCR技术,实现对图像中文字内容的提取,结合文本审核技术识别违规内容,提示相应风险,协助进行违规处理,可应用于电商广告审核、舆情监管等场景,帮助用户有效规避业务风险。

 

此前,华为云推出了内容审核服务,主要涵盖了文本内容检测、涉政敏感检测、视频内容审核、图片内容检测、图像反黄检测等。

 

依托OCR技术,华为云为内容审核服务极大提升了工作效率,降低了人力成本。

 

数据堂依托自身的数据优势以及丰富的数据处理经验,推出了系列OCR标注及转写数据,为相关技术应更广泛的落地提供助力。

 

数据堂自有版权OCR标注和转写数据集

1

105,959张12种语言自然场景OCR数据

2

101人4538张日语手写体OCR数据

3

100人日韩手写体OCR数据

4

4,995张越南语OCR标注及转写数据

5

14,980张8种语言PPT OCR数据

 

可以预见,随着人工智能、大数据以及量子技术等新兴科技的发展,新技术、新业态的不断出现,在RCEP框架下,区域内的市场潜能将会得到进一步释放,区域成员国之间贸易额必然会出现快速增长,使得区域各成员国之间的经济联系更加紧密,对于推动区域内各成员国的经济增长具有积极意义。

口音英语语音识别技术研讨会暨挑战赛-数据堂