cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

自动驾驶点云分割和图像分割区别|数据堂

作者:-- 发布时间:2023-03-30

近年来,自动驾驶领域的各项下游任务基本上都要求了对场景的语义理解,比如自动驾驶车辆要能够理解哪个是路面、哪个是交通灯、哪个是行人、哪个是树木,因此点云分割的作用就不言而喻。

但随着Transformer模型的大火,用于点云分割的深度神经网络的参数量越来越庞大,动不动就上亿参数。想要训练如此庞大的模型,除了需要足够强的GPU外,还需要大量的标签和数据。数据很容易得到,64线的激光雷达一帧可以打出十几万个点云,现有的雷达数据集也不少了。但标签呢?给点云打过label的人都知道这个过程有多繁琐(haaaaa)。

由此,点云分割模型便出现了各种各样的训练范式,主要包括有监督、弱监督、无监督以及半监督。那么哪种训练方法才是最优的?显然这个问题在不同场景下有不同的答案。

1. 点云分割相较图像分割的优势是啥?

自动驾驶领域的下游任务,我认为主要包括目标检测、语义分割、实例分割和全景分割。其中目标检测是指在区域中提取目标的候选框并分类,语义分割是对区域中不同类别的物体进行区域性划分,实例分割是将每个类别进一步细化为单独的实例,全景分割则要求对区域中的每一个像素/点云都进行分类。

因为图像中存在大量且丰富的纹理信息,且相机相较于雷达很便宜,所以对图像进行分割非常容易。近年来也涌现了一大批图像语义分割的深度模型,比如我们所熟知的ViTTransUNetYOLOP等等。各自架构层出不穷,不停的在各种排行榜上提点,似乎图像语义分割已经非常完美。

 

那么为啥还要对雷达点云进行分割呢?

主要有三个原因:

1) 激光雷达可以获得绝对尺度。

我们知道单目图像是无法获得绝对尺度的,并且自动驾驶汽车在长时间运行过程中也会发生尺度漂移问题。虽然现有的一些方法在尝试从单目图像中恢复出绝对尺度,但基本上也都不太准确。这就导致了单纯从图像中提取出来的语义信息,很难直接应用于轨迹规划、避障、巡航等自动驾驶任务。

2) 激光雷达对强/弱光线非常鲁棒

视觉语义分割非常受光照和恶劣天气影响,在过强、过弱、模糊等光线条件下,分割结果往往会出现很严重的畸变。但对于自动驾驶任务来说,恶劣天气显然是无法避免的。

3) 激光雷达可以对环境进行3D感知

我们希望自动驾驶汽车能够对周围的整体环境进行全方位的感知,这对于激光雷达来说很容易。但对于图像来说就很难了,仅仅依靠单目图像很难恢复出完整的环境。依靠环视相机进行BEV感知的话也会带来像素畸变问题。

2. 都用啥数据集?

这里介绍个主流的点云分割数据集,用于模型的训练和评估。

数据堂自有数据集的智能驾驶数据解决方案中掌握着驾乘人群的行为数据,不仅包含驾驶员行为标注数据50种动态手势识别数据,103282张驾驶员行为标注数据等,还包1300万组人机对话交互文本数据,245小时车载环境普通话手机采集语音数据。不管是街景场景数据,驾驶员行为数据,还是车载语音数据,数据堂基于Human-in-the-loop智能辅助标注技术和丰富的AI数据项目实施经验及完善的项目管理流程,支持智能驾驶场景下驾驶舱内、舱外的图像、语音数据采集任务,辅助智能驾驶技术在复杂多样的环境下更好的感知实际道路、车辆位置和障碍物信息等,实时感知驾驶风险,实现智能行车、自动泊车等预定目标。对于智能驾驶而言将是其他企业难以企及的优势。

 

3. 雷达点云表征

深度学习模型都需要一个规范化的数据表征,才能进行合理的特征提取和融合。对于图像来说,是一个非常规整的2D表征,即每个像素位置都是固定的,这有利于模型训练和测试。但对于3D点云来说,每帧点云有十几万个点,杂乱无章的点云必然不利于模型训练。因此需要对雷达点云进行合理表征。

雷达点云主要的表征模式有四种:

1 2D Range View表征

非常接近图像,将点云投影到平面,直接进行2D表征,得到xy坐标。有时投影过程中还会考虑点云强度、深度以及每个方格是否有点云。网络输入也就是2D Range View,首先提取特征,然后进行特征融合,最后根据不同的分割头进行语义训练。

2 2D BEV表征

对于很多自动驾驶场景,往往是xy坐标范围有几十米上百米,但z方向的坐标只有几米。因此有些表征就直接省略掉z方向的表达,通过俯视图得到极坐标表征。

3 3D Cylinder Voxel表征

在点云z方向进行Cylinder的划分,是一种3D描述,典型代表就是Cylinder3D。注意为什么要用Cylinder来表征而不是其他正方体呢?这是因为点云分布的密度是不一样的,在自车周围的点云密度很大,在周围的点云密度很小。通过这种不规则的划分就更有利于特征提取。

4) 混合表征

显然每种表征方法都有各自的特点和优劣,那么有些文章就将不同的表征模式进行混合,进而得到更强的表征。具体执行过程中会先通过不同的支路单独进行特征提取,之后进行特征融合并输出头。

在未来,弱监督和半监督是点云分割领域的重要发展趋势。

口音英语语音识别技术研讨会暨挑战赛-数据堂