简单记一下最近看的六篇场景流论文~其中3篇是关于rgbd图像的场景流,另外3篇是关于点云的场景流。
来源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北 所谓场景流,就是光流的三维版本,表述了图像/点云中每个点在前后两帧的变化情况。目前对场景流的研究还局限在实验室阶段,由于缺乏实际数据(打标成本太高)以及客观的评价指标,离工程应用还有不小的距离。此外,巨大的计算量也是一个瓶颈。以下论文可以在文末直接下载。
《deep rigid instance scene flow》 cvpr 2019 输入:双目摄像头的前后帧左右图像
核心思想:把场景流分割成多个actor的运动,利用maskrcnn进行instance segmentation,每个instance的motion都应该与深度和光流一致。
首先,利用三个预先训练好的子网络提取视觉线索:
a. 利用maskrcnn进行instance segmentation
b. 利用psm-net计算深度图(disparity map)
c. 利用pwc-net计算光流
之后,采用高斯牛顿法最小化下面三个能量函数之和得到3d motion:
a. photometric error:前一帧左边图像的inlier像素点,与第二帧的投影位置的像素点必须尽量一致
b. rigid fitting:估计出的刚体运动必须与观察到的深度和光流信息一致
c. flow consistency:估计出的刚体运动在2d上的投影必须和光流一致
《learning rigidity in dynamic scenes with a moving camera for 3d motion field estimation》 eccv 2018 输入:前后帧图像的rgbd信息
核心思想:把图像分割为rigid/no-rigid区域,计算rigid区域的ego motion后再结合光流即可得到scene flow。
先利用两个预先训练好的子网络提取特征:
a. 利用pwcnet提取前后两帧的光流
b. 利用 rigidity-transform network (rtn)预测ego-motion以及rigidity mask
之后,结合光流、rigidity mask对ego motioon进行refine,保证rigity里面的像素点的光流与ego-motion一致。
最后,综合利用光流、rigidity mask、ego motioon信息即可得到scene flow。
备注:本文的另一个贡献是提出了一个用于场景流的数据库refresh。在kitti的inference结果如下,不是很好。
《every pixel counts ++: joint learning of geometry and motion with 3d holistic understanding》tpami 输入:单目/双目摄像头的前后帧图像
核心思想:先用三个子网络估计光流、深度、camera motion,送入holistic 3d motion parser (hmp) 按照几何关系即可计算出rigid background的motion和moving objects的motion。
三个子网络先分别进行预训练,再结合hmp考虑如下loss优化三个子网络:
a. rigid-aware structural matching:按照3d motion投影后rigid部分的结构特点应该match
b. edge-aware local smoothness:投影后的深度和光流的应该保持smoothness
c. rigid-aware 3d motion consistency:rigid background的moving object motion值应该尽量小
d. flow motion consistency in occluded regions:occluded regions的光流前后映射应该一致
e. multi-scale penalization:累加4个尺度的loss
备注:在双目摄像头的表现优于单目。通过joint learning,光流、深度、camera motion的表现均有提升。
在kitti上的表现如下,算是差强人意吧。
本文作者还有一篇工作《every pixel counts: unsupervised geometry learning with holistic 3d motion understanding》,是关于估计ego motion的。
《flownet3d: learning scene flow in 3d point clouds》 cvpr 2018 输入:仅使用点云数据
核心思想:采用pointnet++作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow
网络结构如下:
a. 4组set conv layer:pointnet++ 提取点云特征
b. 1组flow embedding layer: 把前后两帧的点云特征mix,第一帧的取中心点,其临近点从第二帧取,再提取特征
c. 4组set upconv layer:上采样,新增点从邻近点获取特征
loss为smooth l1 loss
备注:在合成数据集上训练的模型可以直接在kitti上work,但与图像场景流的论文不同,没有把background和moving object做区分,没有考虑ego motion。
《hplflownet: hierarchical permutohedral lattice flownet for scene flow estimation on large-scale point clouds》 cvpr 2019 输入:仅使用点云数据
核心思想:采用bilateral convolutional layers作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow。
备注:与flownet3d的整体结构一样,都是下采样-融合-上采样。bilateral convolutional layers能够快速处理高维稀疏数据,是不同于pointnet的一种滤波操作。
《pointflownet: learning representations for rigid motion estimation from point clouds》 cvpr 2019 输入:仅使用点云数据
核心思想:利用点云数据提取特征后,分别生成ego motion、scene flow、rigid motion、objection location,再整合结果输出
细节如下:
a. 采用volexnet作为feature encoder
b. 把前后两帧的特征进行concate,接入context encoder
c. 之后,接入三个分支:
i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(证明了rigid motion decoder 无法使用卷积层,故此处采用了fc)
iii. objection location decoder
d. 把检测出的object和motion融合得到结果
loss为 scene flow loss + rigid motion loss + ego-motion loss + detection loss
备注:本文思路与图像类方法很像,也是考虑各个instance的motion。
总结 deep rigid instance scene flow: 输入为双目图像,用maskrcnn把动静态障碍物分开。三个子网络分别独立训练并计算出instance segmentation、深度图、光流,利用三个子网络的结果计算motion,进而得到scene flow。
learning rigidity in dynamic scenes with a moving camera for 3d motion field estimation: 输入为rgbd图像,两个子网络分别独立训练并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。
every pixel counts ++: 输入为单目/双目摄像头,先用三个子网络估计光流、深度、camera motion,再按照几何关系计算出rigid background的motion和moving objects的motion,之后根据一致性对三个子网络进行优化。
flownet3d 以及 hplflownet: 分别对前后两帧点云下采样提取特征并进行融合、上采样,直接拟合出scene flow。
pointflownet(思路类似deep rigid instance scene flow): 采用volexnet提取前后两帧点云特征并融合,先检测出object、计算出ego motion、scene flow,再去回归各个object的motion。
LM567的调制解调电路
关于拍照式叶面积测量仪的介绍
地平线和百丽战略合作落地,将联合打造智慧零售门店
什么是半导体/二极管?常用二极管的参数有哪些
工业烤箱操作方法及异常现象排除
场景流论文速记—RGBD图像场景流
基于安卓平台的图片裁切组件已实现鸿蒙化迁移和重构
氢燃料电池汽车 成也规模败也规模
人工智能和全自动奢侈品资本主义
基于高通骁龙820处理器的Win10电脑面世,与英特尔i3平分秋色
不得不关注的六个LED照明技术细节
全国首条智慧地下电缆线路的监控信息正式接入
助力低碳,深耕低温锡膏技术引领行业工艺发展
有哪些平价的蓝牙耳机?四款适合学生的平价蓝牙耳机推荐
冠层分析仪的作用是什么,它有哪些应用
传感器前级信号处理
UWB室内定位高精度定位应用的宠儿
ADI新数字隔离器封装确保医疗和工业应用安全
基于A2DP框架的近距离无线音频通信研究
联发科公布第三季财报 营收达670亿元并表示对AI的投入已有相当的成果