使用自适应条形采样和双分支Transformer的DA-Net

文章目录
前言
概述
网络简介
dbtm：local patches meet global context
asub block
实验
讨论
前言
这是 miccai 2022 上的第三篇阅读笔记了，之前两篇也都可以在 giantpandacv 公众号搜索到。如下图所示，目前的视网膜血管分割方法按照输入数据划分有两类：image-level 和 patches-level，每一种方法都有自己的优势，如何将两者结合起来是一个需要去解决的问题，这也是 da-net 这篇文章的贡献之一。此外，这篇文章还提出了一个自适应的条状 upsampling block，我们会在后面展开介绍。
概述
目前的视网膜血管分割方法根据输入类型大致分为 image-level 和 patches-level 方法，为了从这两种输入形式中受益，这篇文章引入了一个双分支 transformer 模块，被叫做 dbtm，它可以同时利用 patches-level 的本地信息和 image-level 的全局上下文信息。视网膜血管跨度长、细且呈条状分布，传统的方形卷积核表现不佳，也是为了更好地捕获这部分的上下文信息，进一步设计了一个自适应条状 upsampling block，被叫做 asub，以适应视网膜血管的条状分布。
网络简介
下图是 da-net 的整体结构。共享 encoder 包含五个卷积块，dbtm 在 encoder 之后，最后是带 asub 的 decoder。首先，原眼底图像很常规的被分成 n^2 个 patches，n 为 patch 的大小，除此之外，将原眼底图像也下采样 n 倍，但是不做裁剪。将它们一起送入共享 encoder，分别得到相应的特征图 f(i) 和 f′，这里的共享指的是两个 encoder 分支的权重共享（那么你可以把它简单理解为用同一个卷积核扫描 n^1+1 个 patches，只不过其中 1 这个 patch 是完整的图像），两个分支可以通过合并批次并行操作，这意味着输入图像的编码可以在一次推理中完成，无需增加额外的参数和时间消耗。随后，这两个分支的输出通过 dbtm 进行通信，dbtm 可以向每个补丁广播长距离的全局信息。u 型网络中间还有普通的跨层连接，最后，再通过 asub 的 decoder后，得到预测的分割结果。
请添加图片描述
dbtm：local patches meet global context
下面两部分，我们分别对 dbtm 和 ausb block 展开介绍。
首先，将经过 flatten 和投影的特征图 f(i) 和 f′ 作为输入 tokens ，其中加入训练过的 position embeddings 以保留位置信息。然后，如下图所示，输入 tokens 被送入 transformer layer。不同的是，设计了一个特殊的 self-then-cross 的 pipeline，将两个分支的输入混合起来，称为双分支 transformer 模块（看网络简介中的图）。第一个 transformer layer 作为 q，第二个 transformer layer 作为 k 和 v。具体来说，首先，这两个分支的输入标记分别用自注意机制模拟 image-level 和 patches-level 的长距离依赖。然后，交叉注意机制被用于两个分支的 tokens 之间的通信。在交叉注意机制中，将 patches-level 的标记表示为查询 q， image-level 分支的标记表示为下图中多头自我注意（msa）层的键 q 值 v。整体设计是很简单的，实现了”local patches meet global context“。
asub block
视网膜血管的一些固有特征导致了其分割困难，比如视网膜血管的分支很细，边界很难区分，而且视网膜血管之间的关系很复杂。在这些情况下，视网膜血管周围的背景信息对视网膜血管的分割至关重要。如下图所示，传统的方形卷积核在正常的上采样块中不能很好地捕捉线性特征，并且不可避免地引入了来自邻近的不相关信息。为了更好地收集视网膜血管周围的背景信息，提出了 adaptive strip upsampling block（asub），它适合于长而细的视网膜血管分布。
请添加图片描述
粗略看一下，在 (c) 中，一共有四种类型的条状卷积核，捕捉水平（s1）、垂直（s2）、左对角线（s3）和右对角线（s4）方向上的信息。接下来，我们仔细分析下 asub 的思路，首先，使用一个 1×1 的 conv 来将特征图的维度减半，以减少计算成本。然后，利用四个带状卷积来捕捉来自不同方向的上下文信息。此外，做全局平均池化（gap）来获得通道维度的特征图。在特征图的通道维度上获得特征向量，并使用全连接层来学习每个带状卷积的通道方向的注意立向量。之后，应用万能的 softmax 来产生通道融合权重wi , i∈{1, 2, 3, 4}。最后，我们用学到的自适应权重对每个带状卷积 fi 的输出进行加权，得到特征图，特征图是 4 个 fi*wi 求和。最后用 1×1 的 conv 恢复维度，得到最终输出 foutput。同时，这部分是会增加网络学习负担的。
请添加图片描述
实验
首先是和其他 sota 方法的比较，包括 image-level 和 patches-level 两种，如下表。
接下来是消融实验的部分，其中的 baseline 指 u-net。注意到，flops 和参数量的增加是可以接受的。
讨论
其实 asub 设置的条形采样方向也不一定与一些小血管的方向完全一致，这是可以进一步改进的地方。比如说尝试可变形卷积（deformable convnetsv2）的方式。

工信部发文：带动民营企业参与5G
基于RFID动物跟踪管理系统设计与应用研究
研究新发现利用磁路可改善大数据的处理效率
CDMA技术发展综述
小米6入手要多少钱？这次小米搭配的神秘新品是什么？这里来详细解答
使用自适应条形采样和双分支Transformer的DA-Net
天体摇摆仪电路设计中的部分电路波形测量方案
人工智能训练师让智能更懂人类更好地为人类服务
恒大科尼赛克Gemera将于11月30日在中国首发
从加州路测资质看无人驾驶行业格局
iPhone 8全身屏幕概念设计+IOS10.3操作系统
WPC修改无线供电标准首次采用“磁共振方式”
32位ARM®Cortex®-M0+微控制器MCU-JM32M390
高速电缆组件和矢量网络分析仪的PCIe 6.0性能演示
运放基础知识,Op-Amp description
Galaxy Fold还未上市三星“拉伸屏”专利曝光！
脸书使用人工智能技术,以解决新冠肺炎带来的各种问题
历史遗留矿山核查方法研究-莱森光学
I2C总线协议操作介绍
《大规模图像理解、分割新进展》的主题演讲