市场常见的自动驾驶算法对比

目前,学术圈还是用“打榜”来对自动驾驶算法评分。所谓“打榜”就是在某一数据集上利用其训练数据集来测试算法的优劣,目前自动驾驶圈内最常用的打榜数据集是安波福aptiv旗下的nuscenes。严格意义上的自动驾驶算法评分对比几乎是不可能的,单独对比算法不够公允,此外还必须考虑算法的效率和落地可行性。训练数据集的数据结构也会影响算法的发挥。同时由于深度学习的不可解释性,在nuscenes数据集上表现好不代表在其他数据集也会表现好,也许会表现得很差,同样道理在nuscenes数据集上表现不好不代表在其他数据集也表现不好。当然算力大小无关算法的准确度。
nuscenes数据集的任务包括六大类,分别是3d目标检测detection、目标追踪tracking、目标轨迹预测prediction、激光雷达目标分割lidar segmentation、全景panoptic、决策planning。其中,3d目标检测是自动驾驶最基础的任务,全球有近300个团队或企业参加了比试,也是全球自动驾驶数据集参赛者最多的,足见其权威性。决策任务的榜单还没有公布,因为打榜的人太少了。目标追踪、目标轨迹预测参与热度相对还比较高,而激光雷达目标分割和全景参与热度就很低了,不到20家参与。
近期打榜的基本都是中国企业或高校,除了中国,其他地区对自动驾驶缺乏兴趣,即便在美国,研究自动驾驶的基本都是华人。很少有车企会参与打榜,早期还有奔驰、博世等企业参加,奔驰的成绩惨不忍睹,博世还不错。车企不参加打榜的原因很简单,成绩好消费者也不知情,成绩差的话就会被竞争对手拿来攻击,干脆不参与,要参与就是对自己的能力非常自信,就比如零跑和上汽。
前15名如下:
资料来源:公开信息整理
nuscenes数据集的灵感来自开创性的kitti数据集(丰田与德国kit于2012年完成)。nuscenes是首个提供自动驾驶汽车整个传感器套件(6个摄像头、1个lidar、5个radar、gps、imu)数据的大规模数据集。与kitti相比,nuscenes包含了7倍多的对象注释。完整的数据集包括大约1.4m相机图像(camera images),390k激光雷达扫描(lidar sweeps),1.4m雷达扫描(radar sweeps)和1.4m物体边界框(objectbounding boxes)在40k关键帧。为方便常见的计算机视觉任务,如对象检测和跟踪,在整个数据集上以2hz的速度用精确的3d包围框注释了23个对象类;还注释了对象级属性,如可见性、活动和姿势。
如果只用相机也就是纯视觉,地平线的sparse4d包揽第一名和第二名。旷视的far3d是第三名,商汤和香港大学、哈尔滨工业大学等联合的hop第四名,丰田排名第五。纯视觉的效果比视觉和激光雷达融合的效果落后不少,但纯激光雷达的效果与视觉和激光雷达融合后的效果相差甚微。
3d目标检测的得分共六项(见下表)。
map平均精确度,mean of average precision的缩写。
mate,average translation error,平均平移误差(ate) 是二维欧几里德中心距离(单位为米)。
mase,average scale error, 平均尺度误差(ase) 是1 - iou, 其中iou 是角度对齐后的三维交并比。
maoe, average orientation error平均角度误差(aoe) 是预测值和真实值之间最小的偏航角差。(所有的类别角度偏差都在360∘度内, 除了障碍物这个类别的角度偏差在180∘ 内)。
mave,average velocity error平均速度误差(ave) 是二维速度差的l2 范数(m/s)。
maae,average attribute error,平均属性错误(aae) 被定义为1−acc, 其中acc 为类别分类准确度。
其中,map是最核心指标。
资料来源:公开信息整理
map意思是平均精确度(averageprecision)的平均(mean),是object detection中模型性能的衡量标准。object detection中,因为有物体定位框,分类中的accuracy并不适用,因此才提出了object detection独有的map指标,上汽在这个单项中是第一名。
map计算流程图,非常复杂,这里的class就是分类,nuscenes有23个分类。ground truth就是人工标注的真值,当然也可以电脑自动标注,但人工标注是不可或缺的,只是比例多少,一般来说精细标注都是人工标注,电脑自动标注是稀疏标注。prediction预测就是深度学习模型根据训练数据集给出的答案。
要理解平均精确度的概念,要先熟悉几个基本概念:
查准率(precision)是指在所有预测为正例中真正例的比率,也即预测的准确性。
查全率(recall)是指在所有正例中被正确预测的比率,也即预测正确的覆盖率。
真正率为tp,真反率为tn,假正率是fp,假反率为fn。
查准率是tp/tp+fp,查全率是tp/fp+fn。
单一类别的ap计算,物体检测中的每一个预测结果包含两部分:预测框(boundingbox)和置信概率(pc)。bounding box通常以矩形预测框的左上角和右下角的坐标表示,即x_min, y_min, x_max, y_max。 红框为真值也就是groundtruth,真值也就是准确答案;绿框为算法预测值,88%是置信度,简单说就是有88%的可能是狗。
intersection over union (iou),中文一般叫交并比。交并比iou衡量的是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积(重叠部分只计算一次)的比例。如上图,两个矩形框的iou是交叉面积与合并面积之比。
假设测试数据集中的某一类如“猫”的真值有10个,此算法预测到了5个,“狗”分类真值也有10个,此算法也预测到了10个,那么有如下值。
根据查准率和查全率,按置信度的不同阈值,我们绘制出一条曲线。
conf.thresh.就是置信度阈值的缩写。根据表格,可以得到一条查准率和查全率的曲线。
ap是一个标量,可以通过两种办法计算得到。
1)通过矩形累加得到ap
2)通过内插10点值计算ap
k为分类的数量,即23。
目标追踪榜单如下,只取前五名。
资料来源:公开资料整理
这些打榜的算法主要考虑性能,很少考虑落地性,不过也有考虑到实际落地的算法,如安波福的纯激光雷达的pointpillars,早在2019年3月就有了,map只有0.305,但使用1080ti显卡就有每秒61.2的帧率,放宽损失函数最高可达150hz,资源消耗最小,也是目前最常见的激光雷达算法。 零跑ea-lss算法延迟
零跑的ea-lss算法模型是基于英伟达dgx-a100来做的,也就是8张a100显卡,每秒帧率不到15,显然是无法落地的。
自动驾驶的发展面临困境,算法越来越复杂,参数越来越多,对算力的需求越来越高,而高算力芯片价格越来越高。不仅是算力还有存储带宽,transformer对存储带宽远高于cnn,而高带宽的hbm价格是主流的lpddr4/5的十倍以上。不仅是芯片,计算系统的其他芯片或部件亦是如此,这导致自动驾驶系统成本越来越高,最终可能l4级计算系统的价格超过3万美元乃至更高。


欧胜发布高性能立体声线路驱动器
一文详解热敏电阻的基础知识
无插芯光连接器:超过IEC标准下B级的插损性能,自带清洗功能
氮化镓充电器的优势 氮化镓充电器和普通充电器区别
打破USB3.0接口芯片领域西方掣肘-方寸微电子超高速接口芯片在机器视觉领域应用
市场常见的自动驾驶算法对比
油烟监测系统的工作原理、功能及安装的必要性
国产电视出海自有优势 大屏、视觉、AI仍不可小看
时间延后,苹果将在2022年发表第一款头戴式设备
汽车电器的电磁兼容设计方案
全球制造业正在飞速发展但未来的工业前景仍不明朗
华硕为NUC 9推出RTX 2070 MINI显卡,搭载Auto-Extreme技术
全国政协科协界委员调研燧原科技青年科技人才发展情况
超声波探头的结构组成_常用的超声波探头规格型号
【创意设计】小凌派手势应用之原力控制星球大战BB-8机器人
创近3年新高!这条年增长率超21%的传感器赛道,苹果华为等巨头投入巨大
华为P30Pro摄像头参数曝光 ISO达到惊人的409600可见夜拍能力的恐怖
数字取代模拟工业电脑追求高效成趋势
基于LPC2294控制器的CAN总线网状冗余节点方案
李嘉诚:和记黄埔3G业务将盈利 有意A股上市