cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

推动数据飞轮,才能自动驾驶

作者:数据堂 发布时间:2021-05-17

刚刚过去的三月,雷军高调宣布再一次创业,小米集团继百度和阿里后也进军了智能电动汽车业务。为什么互联网巨头都纷纷挤入这个赛道?而去年疫情缓解后,小马智行、驭势科技立即拿到了融资。
除了原来的自动驾驶科技企业、Tier1、Tier2之外,像一汽、广汽、长城这些主机厂也开始亲自操刀自动驾驶技术。虽然我们不知道是否是疫情推动了自动驾驶的发展,但毫无疑问,自动驾驶 “再次”火了起来。
  两年前,自动驾驶进入冬天的报道还历历在目,资金撤出,部门分拆出售。那么这一次的“火”跟上一次的“火”有什么本质区别?这次还是要烧钱吗?

分析自动驾驶领域的资金投入,对于行外人来说,很难想到占七成的资金将花费在数据的采集和标注方面,只有三成真正花在人才和技术储备方面。

自动驾驶需要解决“感知”和“决策”两个方面的问题。感知是使用多种融合的传感器,通常包括摄像头、激光雷达、毫米波雷达、GPS/IMU等设备来感知路面、车辆和行人;决策则是使用感知到的信息来判断应该如何行动。所以有效的感知将是作出可靠决策的前提。

而当前解决感知问题的主要方式就是“堆数据”,通过监督学习的方法将大量各种情况的训练数据提供给算法,让生成的模型具备普适的感知能力。路面上的气球、假人、车身上的广告、建筑物的倒影等等我们可能很难设想到的场景,都需要一一灌输给算法,才能保证算法能正确的感知。

分析自去年开始资金流入到自动驾驶的逻辑,我们能清晰大家的选择从谷歌Waymo的路线,变成了特斯拉的路线,力图推动“数据飞轮”来构造自己在自动驾驶方面的门槛,这也是为什么互联网公司、主机厂要纷纷进入这个行业。

刚拿了一轮5亿美元融资的Momenta公司再次重申了公司的“飞轮”思路,也就是“量产数据、数据驱动的算法以及两者闭环自动化的不断积累和迭代”。

简而言之,本轮自动驾驶融资的特点不再是类似Waymo那样通过持续的资金投入来积累技术门槛,而是通过数据驱动量产,通过量产积累更多数据的“数据飞轮”逻辑。

通过一定量的数据积累达到一定程度的自动驾驶能力,比如L2或者L3辅助驾驶级别,然后加上互联网化的体验吸引用户购买,形成量产规模。在量产中结合车端的智能处理能力识别出不智能的场景,将数据回传,以此迭代算法,不断提高自动驾驶的能力,逐步构建自己的车辆规模和技术壁垒。
这就是特斯拉的玩法,这也是现在很多互联网公司和主机厂进入自动驾驶领域的玩法,这样才能有效利用他们在客户体验、互联网业务或者是车辆制造、销售方面的“既有优势”。

这种“数据飞轮”的方式不需要持续大量的投入,能通过量产补充前期投入的资金,又能在其后的数据收集和算法迭代中不断的优化,是更佳贴近他们的实现路径。

现在的人已经很少知道“飞轮”是一个什么玩意儿,在传统的工厂中,飞轮是一个惯性很大的轮子,要用很大的力气才能推动,但是一旦动起来,我们只需要很小的力气就能维持它的持续转动,给连接在其上的机械提供源源不断的动力。

“数据飞轮”也是如此,我们需要一些数据来推动,但一旦量产起来,只需要很少的数据,就能持续优化算法,而且会把其他竞争对手越拉越远。

“数据飞轮”战略已经比“持续投入”战略优化很多,而且今天来推动“数据飞轮”,相比疫情之前,又有了很大的便利,那就是在数据采集和标注方面的成本已经降低到一个合理的范围。

数据采集方面主要是得益于激光雷达等传感器设备价格的持续优化,而数据标注则得益于标注工具和平台的智能化程度不断加强。在后者方面,数据堂的工作很有代表性。

作为中国人工智能数据服务行业第一家上市企业,数据堂的核心业务便是为AI及大数据领域公司提供自有版权的训练数据产品、数据采集与标注定制服务、标注平台部署等一体化数据解决方案。

“通常来讲,数据标注需要大量人员做简单重复的工作,人力成本高昂。我们在人工智能领域摸爬滚打十多年,加上几位核心团队成员都来自于人工智能企业或科研机构,算法本身就是我们的专业。我们一直在不断寻求自动化标注的方式方法,前期可以通过自动化预标注、中期人工质检修正的方式来提高产能。”数据堂发言人表示。

据了解,数据堂研发了数十个可用在图像、视频、语音及文本等类型的自动处理及预标注算法,已成功应用在5000多个标注项目中。

为了更好地服务企业客户,帮助客户快速打通企业数据平台、数据处理、数据安全交付环节,除了上述的数据自动处理及标注算法外,数据堂基于多年服务经验,在2019年成功研发并推出了标注平台私有化解决案数加加Pro。


数加加Pro平台——定制化数据服务专家

从数据接入到结果数据交付,从项目进度到人员权限管理,数加加Pro覆盖了数据标注服务全生命周期,是数据堂多年数据服务经验锤炼的完美作品。

数加加Pro中集成了数据处理、自动化标注、机器质检等外部插件,拥有便利多样的部署形式和方便的接口,可以快速部署和集成。

针对每种数据类型下的不同标注任务,数加加Pro自研四十套标注模板工具,全都都是经过多年打磨及实战检验,高效满足语音、图片、文本、视频、点云的复杂需求。



 “我们提供的数据标注解决方案可以通过自动化处理、人工辅助标注和质检,整个项目及质量管控流程都是流程化的,数据质量值得客户依赖”。数据堂发言人表示。


据介绍,数加加pro平台标注流程中支持探针,通过机器质检规则把标注结果和答案进行对比实现机器质检,把探针通过的数据提交给质检。探针不通过的数据则会退回给原有标注员返修,以此提高质检员的工作效率。数据堂在数据质量控制方面,同样采用算法与人工质检综合,大大提升了交付效率。



在人工智能迅猛发展的今天,自动驾驶数据类型丰富、敏感度高,部分客户数据高度保密,为此,数加加Pro支持SaaS、云端独立部署、企业本地化部署等灵活方式,以从根源上保障客户的数据安全。


该平台可通过多租户权限分割、IP白名单、VPN登录、链路传输加密等方式,同时服务多家企业,真正做到“数据不出门”。

值得一提的是,数据堂在北京、保定、合肥、南京、深圳等地建有数据加工中心和服务基地。在安徽合肥数据服务基地中,还设有保密数据服务工作室,全程监控作业。


平台“神器”助力完美标注

在自动驾驶数据,激光雷达3D点云数据标注可以说是最具代表性的数据任务了,其标注质量将直接影响车辆的识别结果。概括来说,激光雷达3D点云数据标注的工作内容就是通过3D矩形框或者语义分割将激光雷达采集的点云图像按照客户的要求将目标物体精准标注出来,如车辆、建筑、树木、行人等。

不过,人工标注依然难以避免错误的发生。而激光雷达3D点云标注对于标注人员、项目经理、技术支持等相关人员的整体能力要求较其他类型任务要高出很多。


为了最大程度确保数据的准确性,数加加Pro拥有多套激光雷达3D点云数据标注模板工具,可以胜任如单帧标注、2D-3D联合单帧标注、3D追踪标注、2D-3D联合追踪、3D点云分割等常见任务。

模板中同时加入了部分预识别和智能处理算法,帮助标注人员在更快的时间内完成更多标注任务,无需担心质量问题。重要的是,模板工具中每个图标位置、每个功能、每个算法都经过了多个项目的实战,拒绝无效与冗余设计。

例如:

1. 加入了“默认放置地面”功能。激光雷达3D点云标注需要做到标注框放地面,因为所有的目标物不可能“飘”在空中。在标注过程中,待标注的物体底部都应该标在地面上,既不能包含激光雷达射到地面上的点,又需要跟地面贴合。

数加加Pro激光雷达3D点云模板中加入了“默认放置地面”功能,自动将3D框放置到地面,缩减标注时长。要知道,每节省一秒钟,对于一个自动驾驶项目来说,也许就帮客户节省了数十万至百万;

2. 加入了“地面检测算法+颜色自动渲染”功能。众所周知,在激光雷达3D数据标注中,漏标是非常严重的错误问题。数加加Pro激光雷达3D点云模板根据平面算法,计算点云地面坐标,根据距离地面的不同距离,渲染不同颜色。标注人员可根据颜色判断标注物体,减少漏标;

3. 加入了“插值算法+预标注”功能。在追踪任务中,需要在连续多帧中标注同一ID。为了提高标注效率,数加加Pro激光雷达3D点云模板内置了插值算法,简单来说,标注员如果在第一帧和第五帧中标注了目标ID,工具会自动计算第二、三、四帧中该ID的位置并进行标注。标注人员只需要点击查看或微调位置即可,极大程度减少了重复工作;



  4. 加入了“静态追踪算法”。比上述动态追踪技术更有优势,可避免标注效果不准确或追踪ID效率下降;

5. 加入了“目标物默认尺寸设置”功能。对于激光雷达照射不到的部分,标注人员需要根据图像的上下帧以及物体的类别进行合理脑补,但每个标注员脑补框的长宽高与大小不同,极易导致标注框脑补错误。

数加加Pro激光雷达3D点云模板中的“默认尺寸设置功能”可以设置目标物的默认尺寸,快速生成默认尺寸的3D框,让脑补框不再“随意”。

在了解了上述提升效率的多种方法后,是不是有点感觉高大上?别急,还有。标注作业中快捷操作同样是非常有效的提效方法。数加加Pro还拥有自动贴边、自适应旋转、自适应最佳2D图像、一键调转方向等多个快捷操作功能,最大程度地解放人力,减少冗余操作,降低标注难度。

面向自动驾驶领域,数据堂还积累了大量的训练数据集产品,均取得采集人授权,授权文件真实可查。

除此之外,数据堂也支持客户个性化定制服务,如座舱人员行为动作采集、2D街景数据采集和标注、驾驶场景下多语言、多人群的语音采集标注等。凭借优质的服务体验,数据堂已培养了数百万级别的可以进行数据标注的用户,为自身打造了有足够影响力的品牌护城河。

在过去的几年中,数据堂一直都在为了打磨更加极致的数据服务而苦练基本功。大到团队与产品,小到模板布局、按键快捷键、按键方式等,无一不是千锤百炼,高度贴合客户需求,顺应企业基因。

按照当前“数据飞轮”的战略,自动驾驶发展可期,数据堂依赖模版工具丰富多样、人工与算法灵活配合、数据服务专业高效灵活将持续为客户的数据处理工作保驾护航。

口音英语语音识别技术研讨会暨挑战赛-数据堂