一个用于周视语义占用网格感知的基准测试

摘要
语义占用网格感知对于自动驾驶至关重要,因为自动驾驶车辆需要对3d城市场景进行细粒度感知。然而,现有的相关基准测试在城市场景的多样性方面存在不足,并且仅评估前视预测感知。为了全面评估周视感知算法,我们提出了openoccupancy,这是第一个用于周视语义占用网格感知的基准测试方法。在openoccupancy基准测试中,我们通过添加稠密的语义占用网格标注来扩展大规模的nuscenes数据集。以前的标注依赖于lidar点云的叠加,由于lidar数据的稀疏,导致一些占用标签被遗漏。为了缓解这个问题,我们引入了增强与净化(aap)流程,将标注密度提高了约2倍,其中涉及约4000个人工小时的标注过程。此外为openoccupancy基准测试建立了基于摄像头、lidar和多模态的基线模型。此外考虑到周视占用感知的复杂性在于高分辨率3d预测的计算负担,我们提出了级联占用网络(conet)来改进粗糙预测,相对于基线模型提高了约30%的性能。我们希望openoccupancy基准测试能促进周视占用感知算法的发展。
主要贡献
尽管目前对于语义占用网格感知越来越受到关注,但大多数相关基准都是针对室内场景设计的,semantickitti 将占用感知扩展到驾驶场景,但其数据集规模相对较小且多样性有限,这影响了开发占用感知算法的泛化和评估。此外,semantickitti只评估前视图的占用网格结果,而对于安全驾驶而言,周视感知更为关键。为解决这些问题,我们提出了openoccupancy,这是第一个用于周视语义占用感知的基准。在openoccupancy基准中引入了nuscenes-occupancy,它将大规模的nuscenes数据集与密集的语义占用标注相结合。
如表1所示,nuscenes-occupancy标注的场景和帧数比多约40倍和20倍。值得注意的是,通过人工直接标注大规模的占用标签几乎是不现实的。因此引入了augmenting and purifying (aap)流程,以高效地标注和稠密的占用标签。
图1:nuscenes-occupancy为nuscenes数据集中的所有关键帧提供了稠密的语义占用网格标签,在这里展示了标注的地面真值,体积大小为(40 × 512 × 512),网格大小为0.2米。
图1展示了稠密标注的可视化效果。为了促进未来研究,我们在openoccupancy基准中建立了基于相机、基于lidar和多模式的基线。实验结果显示,基于相机的方法在小物体(如自行车、行人、摩托车)方面表现更好,而基于lidar的方法在大型结构区域(如行驶表面、人行道)方面表现更优。值得注意的是,多模式基线通过自适应融合两种模态的中间特征,相对提高了基于相机和基于lidar方法的整体性能,分别提升了47%和29%。考虑到周围占用感知的计算负担,所提出的基线只能生成低分辨率的预测。为了实现高效的占用感知,我们提出了级联占用网络(conet),在所提出的基线之上构建了一个从粗糙到精细的流程,相对提高了性能约30%。主要贡献总结如下:
提出了openoccupancy,这是第一个针对驾驶场景中周围占用感知的基准。
通过nuscenes数据集引入了aap流程,它高效地标注和稠密化了周围语义占用标签,结果形成了第一个用于周围语义占用分割的数据集nuscenes-occupancy。
我们在openoccupancy基准上建立了基于相机、基于lidar和多模式的基线。此外,我们引入了conet来减轻高分辨率占用预测的计算负担,相对提高了基线性能约30%。
主要内容
周视语义占用网格感知
周视语义占用感知是指生成场景的完整3d表示,包括体积占用和语义标签,与前视图感知的单目范例不同,周视占用感知算法旨在在周围视图的驾驶场景中生成语义占用,具体而言,给定360度的输入xi(例如lidar扫描或周围视图图像),感知算法需要预测周围的占用标签f(xi) ∈ r d×h×w,其中d、h、w是整个场景的体积大小。值得注意的是,周视图的输入范围比前视觉传感器覆盖的范围大约多了5倍,因此,周视占用网格感知的核心挑战在于高效构建高分辨率的占用表示。
nuscenes-occupancy
semantickitti 是首个用于室外占据感知的数据集,但在驾驶场景方面缺乏多样性,并且仅评估前视感知,为了创建一个大规模的环境占据感知数据集,我们引入了nuscenes-occupancy,它在nuscenes数据集的基础上添加了稠密的语义占用标注。作者引入了aap(augmenting and purifying)流程来高效地标注和密集化占据标签。
整个aap流程如算法1所示。
如图2所示,伪标签对初始标注是补充的,而增强和纯化标签更密集和精确,值得注意的是增强和纯化标注中每个帧中约有40万个占据体素,比初始标注密集了约2倍。总之,nuscenes-occupancy包含28130个训练帧和6019个验证帧,在每个帧中对占据的体素分配了17个语义标签。
图2:初始标注、伪标注和增强纯化标注之间的对比,红圈和蓝圈突出显示增强标注更加密集和准确的区域。
openoccupancy 基线
大多数现有的占据感知方法都是为前视感知而设计的,为了将这些方法扩展到周围的占据感知,需要对每个相机视角的输入进行单独处理,这是低效的。此外,两个相邻输出的重叠区域可能存在不一致性,为了缓解这些问题,我们建立了一致地从360度输入(例如lidar扫描或环视图像)中学习周围语义占据的基线,具体而言,为openoccupancy基准提出了基于相机的、基于lidar的和多模态的基线,如图3所示。
图3:三种提出的基线的整体架构,lidar分支利用3d编码器提取体素化的lidar特征,相机分支使用2d编码器学习环视图特征,然后将其转换为生成3d相机体素特征,在多模态分支中,自适应融合模块动态地集成两种模态的特征。所有三个分支都利用3d解码器和占据头来产生语义占据,在占据结果图中,红色和紫色圈圈标示出多模态分支可以生成更完整和准确的预测。
实验
在openoccupancy基准测试中,基于nuscenes-occupancy评估周围语义占据感知性能,对提出的基线、conet和现代占据感知算法进行全面实验。所有模型在8个a100 gpu上以8个批次大小进行训练,共训练24个时期。利用openoccupancy基准测试,我们分析了六种现代方法(monoscene ,tpvformer,3dsketch ,aicnet ,lmscnet,js3c-net )以及提出的基线和conet的周围占据感知性能,从表2的结果可以看出:
与单视图方法相比,周围占据感知范式表现出更好的性能。
提出的基线对周围占据感知具有适应性和可扩展性。
相机和lidar的信息相互补充,多模态基线显著提高了性能。
周视占据感知的复杂性在于高分辨率3d预测的计算负担,这可以通过提出的conet来减轻。
这里提供可视化结果(见图5)来验证conet可以基于粗糙预测生成精细的占据网格结果。
图5:语义占据预测的可视化,第1行是周视图像。第2行和第3行显示了由多模态基线和多模态conet生成的相机视图的粗糙和精细占据,第4行比较了它们的全局视图预测。
总结
本文提出了openoccupancy,这是首个用于驾驶场景中周视语义占据感知的基准测试,具体而言引入了nuscenes-occupancy,它基于提出的aap流水线扩展了nuscenes数据集,带有稠密的语义占据标注,在openoccupancy基准测试中建立了基于相机、基于lidar和多模态的基线。此外还提出了conet来减轻高分辨率占据预测的计算负担。在openoccupancy基准测试中进行了全面的实验,结果显示基于相机和基于lidar的基线相互补充,而多模态基线进一步提高了性能,分别提高了47%和29%。此外所提出的conet相对于基线提高了约30%,并且延迟开销最小。我们希望openoccupancy基准测试对于周视语义占据感知的发展有所帮助。


小米电视5 Pro将在12月12日正式开售该电视搭载了远场语音技术
中芯国际公告回应被美国列入所谓黑名单
黑客正在将目标从交易所转移到加密货币用户身上
多种物体识别技术:NEC总部内的便利店进行结算业务无人化的验证实验
特朗普将拍卖军用频谱以扩大美国的5G网络覆盖
一个用于周视语义占用网格感知的基准测试
陶瓷电容器知识大全带您认识不一样的电容器
创造没有国界线 全球化的里程碑全新视频终端设备Poly G7500
5G技术引爆储存需求 群联推出客制化PCIe 5.0 SSD控制芯片方案
瑞驰云手机替代移动终端设备,助力社会综治信息系统建设
Alexa Connect套件可应对技术验收挑战
中南大学湘雅二医院成功完成全省首例机器人肝门胆管癌根治术
一径科技与NVIDIA达成合作 共同推动固态激光雷达智能产业化新进程
华为麦芒8高清图赏
电话机器人的应用,它是如何解决电销难题的
基于FPGA的核物理实验定标器的设计与实现
变电站的接线方式和设计规范的基本要求
融资数千万,激光雷达传感器黑马强势来袭!
智能音响小度和小爱哪个好_智能音响哪个音质最好
【今晚开播】社区说 | 精益求精: Flutter 技巧专题篇