新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析

进不了网站?换个网络试试!

新能源汽车产业的不断进步使得智能驾驶辅助技术得到了更广泛的应用。特别是那些依赖纯视觉技术的自动驾驶方案,它们仅通过多角度的图像就能实现环境感知和分析,因其成本较低且效率较高而受到广泛关注。不过,在实际运用中,视觉感知模型的泛化能力显得尤为关键。

来自香港中文大学(深圳)等机构的研究人员共同研发了一种新型的无监督自动驾驶图像可控生成技术。该技术无需对生成模型进行额外的训练,就能有效地对训练图像数据进行扩充,进而以较低的计算资源投入,显著增强三维检测模型的鲁棒性。运用“自注意力物体原型提取”与“原型引导生成”的两种策略,确保三维物体信息的准确保留,成功将训练数据拓展到包括恶劣天气在内的多种现实且难以采集的场景中,目前相关代码已经对外公开。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图

任务背景

路透社报道称[1],自动驾驶领域的佼佼者Waymo于2025年5月14日发布了一则公告,宣布召回超1200辆自动驾驶汽车。这一举措的背景是,其算法在辨识道路上的链条、闸门等障碍物时存在潜在的安全隐患,由此再次引发了关于自动驾驶安全性的争议。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图1

图 1 所示的行业佼佼者 Waymo 近来公布了一项决定,即召回数量超过 1200 辆的自动驾驶汽车。

众多类似事件共同揭示了技术领域的一个核心挑战:即便是最尖端的自动驾驶技术,在应对现实世界的复杂场景时,仍需特别关注系统的稳定性和可靠性。一条常见的施工用链条,或是临时搭建的闸门,都有可能成为算法识别的盲点。

自动驾驶中视觉感知模型的鲁棒性至关重要

显而易见,视觉感知模型的稳健性对系统是否能够可靠地解析复杂环境并作出安全判断有着决定性影响,这一点对于驾驶安全尤为关键。

然而,在传统的机器学习实践中,往往需要依赖大量的事先搜集到的训练资料。但在实际的应用场景中,数据的分布情况常常与训练阶段存在差异,这种现象被称为“分布偏移”。简单来说,就好比学生在准备考试时只专注于历年试题的复习,但真正考试时却遇到了许多全新的题目,使得他们难以发挥出最佳水平。

自动驾驶领域,分布偏移现象可能源于天气和光照条件的变化,亦或是车辆行驶中摄像头震动造成的图像模糊等问题。此类问题虽常见却复杂,对视觉感知模型的性能造成严重影响,常导致性能大幅下滑,进而严重限制了其在实际场景中的广泛应用和部署。

自动驾驶中分布偏移的解决难点是什么?

解决分布偏移的难题在于,训练数据多来源于理想的气候条件,比如晴朗天气,而获取特殊气候条件下的数据,如大雪、浓雾、沙尘暴等,不仅数量有限,而且收集成本高昂,标注过程也相当耗时费力。

实际上,在自然环境中,我们可以明显地看到场景数量分布的不均匀现象;晴朗天气下的数据量尤为庞大,而雪天或是沙尘暴等极端天气下的场景则相对稀少,甚至有些情形在模型中根本未曾出现过。

南方长大的他,对雪地行车毫无经验,一旦遭遇大雪覆盖的路面,往往难以迅速作出准确且安全的驾驶判断。与此同理,自动驾驶系统在遭遇这类罕见或未曾遭遇过的情境时,同样难以确保其表现稳定和可靠。

那么该如何解决分布偏移呢?

为了适应实际应用中可能遭遇的各种复杂情境,同时考虑到算法在快速扩展和即时响应方面的需求,我们不禁产生疑问:是否能够借助数据可控扩增的手段,将现有的训练图像转变为那些尚未出现或出现频率极低的场景呢?

该范式为无训练可控生成(无需训练的图像生成),在生成新图像时不对生成模型的参数进行调整,而是通过用户提供的文本指令来灵活调整图像效果,如图2所示。此方法不仅成本较低、效率出众,且能迅速完成,因而吸引了学术界和工业界的广泛关注。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图2

图 2 生成模型快速赋能自动驾驶视觉感知模型示意图

现存无训练可控生成方法主要面向通用图像编辑

无需经过额外训练的生成方法,简而言之,便是在不增加模型训练步骤的前提下,对图片进行灵活且易于控制的编辑。目前,这类技术主要应用于广泛的图像编辑任务,例如对图片中的主要元素进行形态变化,或是添加或移除特定的物体,以便快速制作出所需的图像内容。

然而,在应用此技术将感知任务的训练图像扩展至各种分布偏移场景的过程中,务必保证物体的三维数据与最初的标记保持一致,否则可能会给视觉感知模型引入额外的噪声干扰。

技术方案

在深入探讨的基础上,我们不禁开始反思:如何构建一种无需额外训练即可操控的生成策略,同时确保在保留物体三维特性的基础上,能够实现对感知模型训练图像的有序扩展?

来自香港中文大学(深圳)等机构的研究人员分享了他们的观点。他们提出了一种方法,具体如图3所示。此方法分为两个主要步骤:首先,进行自注意力物体原型提取;其次,通过原型引导图像生成。具体内容可作如下详细说明:

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图3

图 3 方法整体框架图

自注意力物体原型提取

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图4

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图5

原型引导图像生成

本阶段将采用两个级别的特征对齐技术,旨在确保在生成过程中,物体的三维信息能够得到更有效的保留。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图6

实验

方法有效性

一方面,这一新方法显著增强了现有单目三维检测技术的性能,实验数据充分证明了该方法在模拟的域外分布测试环境中(涵盖了噪声、模糊等四种情况)实现了显著的性能提升:

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图7

表 1 基于KITTI-C数据集的实验结果

分别研究了三种图像增强配置,分别是:1)仅对雪景进行额外增强;2)对雪景、雨景和雾景进行额外增强;3)将训练图像扩展至雪、雨、雾、夜晚、模糊以及沙尘暴等六种不同场景,全面检验了所提方法的效果。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图8

图 4 基于KITTI-C数据集的实验结果(蓝色区域对应)

另一方面,通过在现有的多目三维检测技术基础上进行深入实验,仅利用数据集中五百个场景扩充的三千张雪景训练图像,便能使模型性能得到显著增强。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图9

表 2 基于-C以及真实场景下实验结果

其中,-C 作为应用范围更广但难度更高的任务基准,与此同时,-Night 以及 -Rainy 分别指代两个在现实世界中具有分布偏移的数据场景。

消融实验

图3展示了,一方面验证了所提方法中各项优化措施的实际效果,例如,引入物体原型可以初步确保生成结果中保留了物体信息;另一方面,浅层特征对齐技术则进一步增强了生成模型在图像中保留相对较小物体的能力。

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图10

图 5 基于KITTI数据集的消融实验示意图

结果可视化

进一步提供了单目和多目的可视化结果如下图所示:

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图11

图 6 基于KITTI数据集的单目三维检测图像增广示例

新能源汽车发展下,视觉感知模型泛化能力及DriveGEN方法解析插图12

图 7 基于数据集的多目三维检测图像增广示例

鉴于前述实验所得数据,我们有充分的理由推断,通过增强视觉三维检测的训练素材,本文提出的方法有望显著增强视觉感知模型的泛化能力,进而促进三维检测技术在自动驾驶领域的实际应用与推广。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论