cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:数据堂 发布时间:2023-03-30
无人驾驶系统中的一项重要核心技术——图像语义分割(semantic image segmentation)。图像语义分割作为计算机视觉(computer vision)中图像理解(image understanding)的重要一环,不仅在工业界的需求日益凸显,同时语义分割也是当下学术界的研究热点之一。
说起特斯拉,大家可能立马会想到今年 5 月份发生在特斯拉 Model S 无人驾驶上的一宗夺命车祸。初步的调查表明,在强烈的日照条件下,驾驶员和无人驾驶系统都未能注意到牵引式挂车的白色车身,因此未能及时启动刹车系统。而由于牵引式挂车正在横穿公路,且车身较高,这一特殊情况导致 Model S 从挂车底部通过时,其前挡风玻璃与挂车底部发生撞击,导致驾驶员不幸遇难。
无独有偶,8 月 8 日美国密苏里州的一名男子、特斯拉 Model X 车主约书亚?尼利(Joshua Neally)在上班途中突发肺栓塞。在 Model X 的 Autopilot 无人驾驶功能的帮助下,他安全抵达了医院。这「一抑一扬」着实让人回味无穷,略有些「败也萧何,成也萧何」之意。
什么是图像语义分割?
图像语义分割可以说是图像理解的基石性技术,在无人驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备应用中举足轻重。
我们都知道,图像是由许多像素(pixel)组成,而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组(grouping)/分割(segmentation)。下图取自图像分割领域的标准数据集之一 PASCAL VOC。其中,左图为原始图像,右图为分割任务的真实标记(ground truth):红色区域表示语义为「person」的图像像素区域,蓝绿色代表「motorbike」语义区域,黑色表示「background」,白色(边)则表示未标记区域。
显然,在图像语义分割任务中,其输入为一张 H×W×3 的三通道彩色图像,输出则是对应的一个 H × W 矩阵,矩阵的每一个元素表明了原图中对应位置像素所表示的语义类别(semantic label)。因此,图像语义分割也称为「图像语义标注」(image semantic labeling)、「像素语义标注」(semantic pixel labeling)或「像素语义分组」(semantic pixel grouping)。
在真实图像中,表达某一语义的同一物体常由不同部件组成(如,building,motorbike,person 等),同时这些部分往往有着不同的颜色、纹理甚至亮度(如building),这给图像语义的精确分割带来了困难和挑战。
数据堂自有数据集的“智能驾驶数据解决方案”中掌握着驾乘人群的行为数据,不仅包含驾驶员行为标注数据50种动态手势识别数据,103282张驾驶员行为标注数据等,还包1300万组人机对话交互文本数据,245小时车载环境普通话手机采集语音数据。不管是街景场景数据,驾驶员行为数据,还是车载语音数据,数据堂基于Human-in-the-loop智能辅助标注技术”和丰富的AI数据项目实施经验及完善的项目管理流程,支持智能驾驶场景下驾驶舱内、舱外的图像、语音数据采集任务,辅助智能驾驶技术在复杂多样的环境下更好的感知实际道路、车辆位置和障碍物信息等,实时感知驾驶风险,实现智能行车、自动泊车等预定目标。对于智能驾驶而言将是其他企业难以企及的优势。
展望
俗话说,「没有免费的午餐」(no free lunch)。基于深度学习的图像语义分割技术虽然可以取得相比传统方法突飞猛进的分割效果,但是其对数据标注的要求过高:不仅需要海量图像数据,同时这些图像还需提供精确到像素级别的标记信息(semantic labels)。因此,越来越多的研究者开始将注意力转移到弱监督(weakly-supervised)条件下的图像语义分割问题上。在这类问题中,图像仅需提供图像级别标注(如,有「人」,有「车」,无「电视」)而不需要昂贵的像素级别信息即可取得与现有方法可比的语义分割精度。
最后,基于视频的前景/物体分割(video segmentation)也是今后计算机视觉语义分割领域的新热点之一,这一设定其实更加贴合无人驾驶系统的真实应用环境。