未来实例分割中更具挑战性的一个问题将单个对象进行细分

近日，yann lecun 等人发表了一篇针对未来实例分割预测的论文。该论文提出了一种预测模型，可通过预测卷积特征来对未来实例分割进行预测。该算法有以下几大优势：
可以处理模型输出大小不固定的情况，如对象检测和实例分割；
不需要使用带有标记的视频序列进行训练，可以直接从未标记的数据中计算出中间的 cnn 特征映射图；
支持可生成多个场景解释的模型，如曲面法线、对象边界框和人体部分标签，而不需要针对这些任务设计合适的编码器和损失函数。
▌简介
预测未来事件是实现智能行为的一个重要的先决条件，而视频预测就是其中一项任务。最近的研究表明，在对未来帧进行语义分割时，在语义层面上的预测，比先预测 rgb 帧，然后将其分段更加有效。本文考虑了未来实例分割中更具挑战性的一个问题——将单个对象进行细分。为了处理各图像中不同数量的输出标签，我们在 mask r-cnn 实例分割模型的固定尺寸卷积特征空间中开发了一个预测模型。
我们将 mask r-cnn 框架的“探测头（detection head）”应用于预测特征，以产生未来帧的实例分割。实验表明，与基于光流（optical flow）的基线相比，该算法在性能上有显著提升。
图 1：预测未来 0.5 秒。光流基线（a）和本文算法（b）的实例分割比较。来自文献 [8] 的算法（c）和本文的实例语义分割算法（d）的语义分割比较。实例建模显着提高了单个行人的分割精度。
我们的贡献如下：
引入未来实例预测这一新任务，在语义上比之前研究的预期识别任务更为丰富。
基于预测未来帧的高维卷积神经网络特征的自监督算法，支持多种预期识别任务。
实验结果表明我们的特征学习算法相对于强光流基线有所改进。
预测未来实例分割的特征
本节简要回顾了 mask r-cnn 框架实例分割框架，然后介绍了如何通过预测未来帧的内部 cnn 特征，将该框架用于预期识别（anticipated recognition）。
使用 mask r-cnn 进行实例分割
mask r-cnn 模型主要由三个主要阶段组成。首先，使用一个 cnn 主干框架结构提取高层特征映射图。其次，候选区域生成网络（rpn）利用这些特征以包含实例边界框坐标的形式产生兴趣区域（roi）。候选边界框用作兴趣区域层的输入，通过在每个边界框中插入高级特征，为每个边界框获取固定大小的表示（不管大小）。将每个兴趣区域的特征输入到检测分支，并产生精确的边界框坐标、类别预测以及用于预测类别的固定二进制掩码。最后，在预测的边界框内将掩码插入到图像分辨率中，并报告为预测类的一个实例分割。
图2 ：左，自上而下的特征采样结合相同分辨率吧的自下而上的特征，从而获得的 fpn（feature pyramid network）算法主干框架中的特征。右，为了得到未来实例分割，我们从 t-τ 到 t 帧提取 fpn 特征，并预测 t + 1 帧的 fpn 特征。
预测卷积特征
对处于不同 fpn 层级的特征进行训练，并将其作为共享“探测头（detection head）”的输入。然而，由于分辨率在不同层级上会发生改变，每层上的“空间-时间”动态特性也会不同。因此，我们提出了一种多尺度算法，对每一级采用单独的网络进行预测。每级网络都经过训练，彼此完全独立地工作。对于每一级，我们关注的是特征维度输入序列的特征。
实验评估
我们使用的是 cityscapes 数据集，数据来自于汽车在驾驶过程中录制的城市环境视频，每个视频片段时长 1.8 秒，一共分为 2,975 个训练集，500 个验证集和 1,525 个测试集。
我们使用在 ms-coco 数据集上预先训练好的的 mask r-cnn 模型，并在 cityscapes 数据集上以端到端的形式对其进行微调。
未来实例分割：表1为未来特征预测算法（f2f）的实例分割结果，并将其与 oracle、copy 和光流基线的性能做比较。由表可知，f2f 算法效果最好，比最佳的中期基线提高了 74％以上。
表1：cityscapes val.数据集上实例分割的精确度
未来语义分割：我们发现，f2f 算法在 iou 方面比所有的短期分割方法都有明显的改进，以61.2 %的成绩排名第一。
表2：不同算法在 cityscapes val. 数据集上的移动对象（ 8 类）短期和中期语义分割表现。
图4显示，与 warp 基线相比， f2f 算法能够与对象的实际布局更好地对齐，这表明该算法已经学会了对场景和对象的动态建模，且效果比基线好。如预期所示，预测的掩码也比那些 s2s 算法更加精确。
图4：对三个序列的中期预测(未来 0.5 秒)。
通过图5展示的示例，我们可以更好地理解，为什么在语义分割度量标准方面，f2f 和 warp 基线之间的差异比实例分割度量标准要小很多。
图5：用 warp 基线和 f2f 模型获得的中期预测的实例和语义分割。不准确的实例分割会导致精确的语义分割区域，请看图中的橙色矩形高光部分。
失败案例讨论
在图6(a) 的第一个例子中，由于前面的所有模型认为白色轿车完全被另一辆车遮挡，因此没有检测到。这是不可避免的一种情况，除非对象在较早的帧中可见，在这种情况下，长期记忆机制可能会避免不必要的错误。
在图 6(b) 中，卡车和行人的预测掩码在形状和位置上都不连贯。用明确建模遮挡机制或许可以获得更一致的预测。
最后，由于对象本身比较模糊，某些运动和形状转换很难得到准确的预测，如图 6(c)中的行人的腿部，对于这种情况，确切的姿势存在高度的不确定性。

未来显示行业真正的金矿是物联网，他们已经行动了
随音乐享受运动时光、NINEKA南卡S1运动蓝牙耳机体验
真闪存时代移动固态硬盘为你开启新世界的大门
电池的种类图解
印制电板路设计中的工艺缺陷分别有哪些?
未来实例分割中更具挑战性的一个问题将单个对象进行细分
井下人员定位系统如何实现安全管理
锡膏放置时间过久会影响焊接质量吗？
下一代Apple Watch推出更多健康管理与生活应用
印度电动汽车市场不断增长
模拟示波器与数字示波器到底有什么不同
微波光子雷达最新研究进展
合见工软发布多款EDA产品和解决方案
AMBEO 音箱 Mini为舒适的空间带来沉浸式音频体验
农副产品检测仪器的作用是什么
无人机电机电调导热凝胶散热应用的说明
消息称索尼计划明年下半年末将推出一款经济型 PS5
联手中国移动共践无界零售京东专卖店四川达州招商大会圆满落幕
智能显示器比看起来更智能市场正在持续增长
简易LED测试仪的制作

未来实例分割中更具挑战性的一个问题 将单个对象进行细分

未来实例分割中更具挑战性的一个问题将单个对象进行细分