Attention Net 论文笔记(一)
发布网友
发布时间:2024-08-20 08:15
我来回答
共1个回答
热心网友
时间:2024-10-04 13:12
以下内容源自Attention U-Net: Learning Where to Look for the Pancreas ,若侵犯版权,请告知本人删帖。
本篇是对论文Attention U-Net: Learning Where to Look for the Pancreas 的阅读笔记。
原论文下载地址:
摘要
作者提出了一种新的注意力门控(AG)模型,旨在医学影像处理中,该模型可自动学习如何关注不同形状和尺寸的目标结构。
通过AGs训练的模型可隐式地学习以下能力:在输入图像中,抑制不相关区域,突出针对一项特定任务的显著特征。这样就不需要使用CNNs构建明确的外部组织/器官定位模块。AGs可轻松集成到标准CNN结构中,如U-Net模型(该模型在最小化计算成本的同时增加了模型的敏感度和预测准确率)。
作者提出的Attention U-Net结构在两个用于多分类图像分割的大型CT腹部数据集上进行了验证。实验结果表明,AGs在不同的数据集和训练大小上,均能提升U-Net的预测性能,并且保持计算效率不变。
贡献
作者提出了一个新的自注意门控模型(self-attention gating module),可用于完成基于CNN的标准图像分析模型中的密集标签预测任务。此外,作者探讨了AGs对医学图像分析的益处,特别是在图像分割的场景下。这项工作的贡献可归纳如下:
方法
FCN:在公共基准数据集的医学图像分析上,CNNs比传统方法要好,并且比图像分割、多图集分割技术等快了一个数量级。这主要归功于:
卷积层通过逐层处理局部信息来逐步地抽取更高维度的图像表示。最终,卷积层在高维度空间依据像素的语义对像素进行分割。通过这些顺序的处理,模型的预测取决于从一个大的接受域搜集的信息。因此,在层输出的特征图是通过顺序地使用线性变换激活函数、非线性变换激活函数得到的。通常是整流线性单元:[公式], [公式] 和 [公式] 定义了空间和通道维度。特征激活可以表示为: [公式] ,*表示卷积操作,为了符号清晰省去了空间下标 [公式] 。函数 [公式] 应用于卷积层 [公式] ,由可训练的kernel参数 [公式] 表征。参数的学习是通过最小化训练目标来完成的,如通过SGD最小化交叉熵损失。
在本文中,作者在一个标准的U-Net结构顶部构建了其提出的注意力模型。由于其良好的性能和高效的显存使用率,U-Nets通常用于图像分割任务。后一项优势主要是因为可以在多个图像尺度上提取图像特征。粗糙特征图获取上下文信息,并且可以突出前景对象的种类和位置。在多个图像尺度上提取的特征图,会在后续操作中通过skip connection融合,将粗糙级别、精细级别的密集预测合并在一起。
在网络的编码部分,逐步地对输入图像进行因子为2的过滤和下采样(如H4=H1/8)。[公式] 是类的个数。AGs(Attention Gate)过滤skip connections传递来的特征。AGs的内部机制如图2所示。AGs通过在粗糙尺度中提取的上下文信息来选择特征。
图像分析中的注意力门控:为了获取足够大的接受域,从而获取语意上下文信息,在标准的CNN结构中逐步地对特征图进行下采样。在此方式下,粗糙空间网格级别的特征在全局尺度上对组织间的位置和关系建模。然而,这种方式仍然难以降低预测具有大形变性的小对象时的假阳率。为了提高准确率,当前的分割框架依赖于附加的对象定位模型,以此将任务简化为定位和分割两部分。作者在本文中证明了集成了AGs的标准CNN模型能够达到同样的目的。无需训练多个模型和大量额外的模型参数。与多级CNNs中的定位模型相比,AGs逐步地抑制不相关的背景区域的特征响应,无需在网络间进行ROI裁剪。
注意力系数[公式] 的值域[0,1],识别显著的图像区域并修剪特征响应,以此仅保留与特定任务相关的响应,如图3a所示。AGs的输出是输入特征图与注意力系数的按位相乘的结果: [公式] 。在默认设置中,每个像素向量都会对应一个单独的标量注意力值: [公式] , [公式] 表示 [公式] 层中特征图的数目。
从左至右(a-e, f-j):三维腹部CT扫描的轴向和矢状视图,注意力系数,门控前和门控后的skip connection的特征激活。相似地,(k-n)在粗略尺度的skip connection上可视化门控。过滤后的特征激活(d-e, i-j)源自于多维度AGs,每个门控负责过滤器官的一个子集。(d-e, i-j)中展示的激活始终对应于不同扫描的特定结构。
在多语义类别的情况下,作者提出了学习多维度注意力系数的方法。这是受到了利用多维度注意力系数学习句子嵌入的启发。因此,每个AG通过学习来关注目标结构的一个子集。如图2所示,每个像素用一个门控向量来决定关注区域。门控向量包含用来修剪较低级特征响应的上下文信息。作者使用附加注意力来获取门控系数。尽管计算开销更大,但是通过实验证明了其比乘法注意力具有更高的准确率。附加注意力表示如下:
[公式]
[公式]
[公式]
输入特征由在AG中计算得到的注意力系数[公式] 缩放。通过分析激活和上下文信息来选择空间区域,激活和上下文信息由采集于粗糙尺度的门控信号 [公式] 提供。使用三线性插值完成注意力系数的网格重采样。
注: [公式] 表示stride=1,kernel=1的卷积操作。 公式(1) [公式] 可以认为是较浅层的输出,因为这种层的输出通常是低分辨率的特征,对应了粗糙尺度的信号。 [公式] 是上一层的输出。 因为 [公式] ,[公式]的维度为 [公式] ,按照公式(1)中的计算方式就得到了维度为 [公式] 的结果。同理, [公式] 和 [公式] 得到同样维度的结果。公式(1)中的 [公式] 、 [公式] 是偏置项。 图中加法符号对应公式(1)中整流线性函数 [公式] 内的加法,结果的维度为 [公式] 。 加和的结果经过 [公式] 处理后得到了维度为 [公式] 的结果,转置后维度为 [公式] 。 公式(2) 其输入是公式(1)的结果。[公式]是公式(1)中涉及的参数 [公式] 、 [公式] 、 [公式] 。 [公式] 是sigmoid激活函数。对应图中的 [公式] 。
公式(3)是sigmoid激活函数。AG通过一组参数[公式] 表征,包含以下步骤:线性变换 [公式] , [公式] , [公式] 。线性变换通过对输入张量进行按通道的 [公式] 卷积来计算。在其他情况下,该方法被称为基于连接的向量注意力,其中被连接的特征 [公式] 和 [公式] 被线性地映射到 [公式] 维中间空间[即将第一维 [公式] 、 [公式] 统一为 [公式] ]。在图像标题和分类任务中,softmax激活函数用来归一化注意力系数( [公式] );然而,顺序使用softmax将在输出端产生较为稀疏的激活。因此,作者选择一个sigmoid激活函数。实验结果表明,该方法对AG参数具有较好的训练收敛性。作者提出一项网格注意力技术,在此情况下,门控信号不是针对所有图像像素的全局单独向量,而是一个取决于图像空间信息的网格信号。更重要的是,每个skip connection的门控信号能够聚合来自多个图像尺度的信息,如图1所示,提高了查询信号的网格分辨率[即与上采样数据进行拼接],并且达到了更好的性能。最后,作者说明了AG参数可以通过标准反向传播更新来训练,无需使用硬注意力(hard-attention)中使用的基于采样的更新方法。
U-Net模型中的注意力门控:作者提出的AGs被集成到U-Net结构中来突出通过skip connection传递来的显著特征,如图1所示。从粗糙尺度提取的信息( [公式] )用来在门控中消除skip connection中的不相关响应和噪声响应。该操作在拼接操作之前执行,以此仅使相关激活被融合。此外,AGs在前向、后向传播时能够过滤神经元激活。源自背景区域的梯度在反向传播时被降权。这样就可以使较浅层中的模型参数主要基于与给定任务相关的空间区域进行更新。 [公式] 层中的卷积参数更新规则如下:
[公式]
右侧第一个梯度项被[公式] 缩放。在多维度AGs的情况下,在每个网格尺度下 [公式] 是一个向量[即每个分量对应一个维度(上文提到的多语义类别中的一个类别)]。在每个子AG中,通过提取、融合补充信息来定义skip connection的输出。为了降低AGs的训练参数数目和计算复杂度,线性变换不采用任何空间支持( [公式] 卷积),并将输入特征图下采样至门控信号的分辨率,与非局部块相似。对应的线性变换将特征图解耦,并映射到较低维度空间进行门控操作。低级别特征图,例如第一个skip connection,并没有应用于门控函数,因为它们不能代表高维度空间中的输入数据。作者使用深度监督(deep-supervision)来强制中间特征图在每个图像尺度上是语义可分的。这有助于保证注意力单元在不同的尺度上具有影响大范围图像前景内容的响应的能力。因此,作者避免了从skip connection的小子集重构密集预测。
热心网友
时间:2024-10-04 13:12
以下内容源自Attention U-Net: Learning Where to Look for the Pancreas ,若侵犯版权,请告知本人删帖。
本篇是对论文Attention U-Net: Learning Where to Look for the Pancreas 的阅读笔记。
原论文下载地址:
摘要
作者提出了一种新的注意力门控(AG)模型,旨在医学影像处理中,该模型可自动学习如何关注不同形状和尺寸的目标结构。
通过AGs训练的模型可隐式地学习以下能力:在输入图像中,抑制不相关区域,突出针对一项特定任务的显著特征。这样就不需要使用CNNs构建明确的外部组织/器官定位模块。AGs可轻松集成到标准CNN结构中,如U-Net模型(该模型在最小化计算成本的同时增加了模型的敏感度和预测准确率)。
作者提出的Attention U-Net结构在两个用于多分类图像分割的大型CT腹部数据集上进行了验证。实验结果表明,AGs在不同的数据集和训练大小上,均能提升U-Net的预测性能,并且保持计算效率不变。
贡献
作者提出了一个新的自注意门控模型(self-attention gating module),可用于完成基于CNN的标准图像分析模型中的密集标签预测任务。此外,作者探讨了AGs对医学图像分析的益处,特别是在图像分割的场景下。这项工作的贡献可归纳如下:
方法
FCN:在公共基准数据集的医学图像分析上,CNNs比传统方法要好,并且比图像分割、多图集分割技术等快了一个数量级。这主要归功于:
卷积层通过逐层处理局部信息来逐步地抽取更高维度的图像表示。最终,卷积层在高维度空间依据像素的语义对像素进行分割。通过这些顺序的处理,模型的预测取决于从一个大的接受域搜集的信息。因此,在层输出的特征图是通过顺序地使用线性变换激活函数、非线性变换激活函数得到的。通常是整流线性单元:[公式], [公式] 和 [公式] 定义了空间和通道维度。特征激活可以表示为: [公式] ,*表示卷积操作,为了符号清晰省去了空间下标 [公式] 。函数 [公式] 应用于卷积层 [公式] ,由可训练的kernel参数 [公式] 表征。参数的学习是通过最小化训练目标来完成的,如通过SGD最小化交叉熵损失。
在本文中,作者在一个标准的U-Net结构顶部构建了其提出的注意力模型。由于其良好的性能和高效的显存使用率,U-Nets通常用于图像分割任务。后一项优势主要是因为可以在多个图像尺度上提取图像特征。粗糙特征图获取上下文信息,并且可以突出前景对象的种类和位置。在多个图像尺度上提取的特征图,会在后续操作中通过skip connection融合,将粗糙级别、精细级别的密集预测合并在一起。
在网络的编码部分,逐步地对输入图像进行因子为2的过滤和下采样(如H4=H1/8)。[公式] 是类的个数。AGs(Attention Gate)过滤skip connections传递来的特征。AGs的内部机制如图2所示。AGs通过在粗糙尺度中提取的上下文信息来选择特征。
图像分析中的注意力门控:为了获取足够大的接受域,从而获取语意上下文信息,在标准的CNN结构中逐步地对特征图进行下采样。在此方式下,粗糙空间网格级别的特征在全局尺度上对组织间的位置和关系建模。然而,这种方式仍然难以降低预测具有大形变性的小对象时的假阳率。为了提高准确率,当前的分割框架依赖于附加的对象定位模型,以此将任务简化为定位和分割两部分。作者在本文中证明了集成了AGs的标准CNN模型能够达到同样的目的。无需训练多个模型和大量额外的模型参数。与多级CNNs中的定位模型相比,AGs逐步地抑制不相关的背景区域的特征响应,无需在网络间进行ROI裁剪。
注意力系数[公式] 的值域[0,1],识别显著的图像区域并修剪特征响应,以此仅保留与特定任务相关的响应,如图3a所示。AGs的输出是输入特征图与注意力系数的按位相乘的结果: [公式] 。在默认设置中,每个像素向量都会对应一个单独的标量注意力值: [公式] , [公式] 表示 [公式] 层中特征图的数目。
从左至右(a-e, f-j):三维腹部CT扫描的轴向和矢状视图,注意力系数,门控前和门控后的skip connection的特征激活。相似地,(k-n)在粗略尺度的skip connection上可视化门控。过滤后的特征激活(d-e, i-j)源自于多维度AGs,每个门控负责过滤器官的一个子集。(d-e, i-j)中展示的激活始终对应于不同扫描的特定结构。
在多语义类别的情况下,作者提出了学习多维度注意力系数的方法。这是受到了利用多维度注意力系数学习句子嵌入的启发。因此,每个AG通过学习来关注目标结构的一个子集。如图2所示,每个像素用一个门控向量来决定关注区域。门控向量包含用来修剪较低级特征响应的上下文信息。作者使用附加注意力来获取门控系数。尽管计算开销更大,但是通过实验证明了其比乘法注意力具有更高的准确率。附加注意力表示如下:
[公式]
[公式]
[公式]
输入特征由在AG中计算得到的注意力系数[公式] 缩放。通过分析激活和上下文信息来选择空间区域,激活和上下文信息由采集于粗糙尺度的门控信号 [公式] 提供。使用三线性插值完成注意力系数的网格重采样。
注: [公式] 表示stride=1,kernel=1的卷积操作。 公式(1) [公式] 可以认为是较浅层的输出,因为这种层的输出通常是低分辨率的特征,对应了粗糙尺度的信号。 [公式] 是上一层的输出。 因为 [公式] ,[公式]的维度为 [公式] ,按照公式(1)中的计算方式就得到了维度为 [公式] 的结果。同理, [公式] 和 [公式] 得到同样维度的结果。公式(1)中的 [公式] 、 [公式] 是偏置项。 图中加法符号对应公式(1)中整流线性函数 [公式] 内的加法,结果的维度为 [公式] 。 加和的结果经过 [公式] 处理后得到了维度为 [公式] 的结果,转置后维度为 [公式] 。 公式(2) 其输入是公式(1)的结果。[公式]是公式(1)中涉及的参数 [公式] 、 [公式] 、 [公式] 。 [公式] 是sigmoid激活函数。对应图中的 [公式] 。
公式(3)是sigmoid激活函数。AG通过一组参数[公式] 表征,包含以下步骤:线性变换 [公式] , [公式] , [公式] 。线性变换通过对输入张量进行按通道的 [公式] 卷积来计算。在其他情况下,该方法被称为基于连接的向量注意力,其中被连接的特征 [公式] 和 [公式] 被线性地映射到 [公式] 维中间空间[即将第一维 [公式] 、 [公式] 统一为 [公式] ]。在图像标题和分类任务中,softmax激活函数用来归一化注意力系数( [公式] );然而,顺序使用softmax将在输出端产生较为稀疏的激活。因此,作者选择一个sigmoid激活函数。实验结果表明,该方法对AG参数具有较好的训练收敛性。作者提出一项网格注意力技术,在此情况下,门控信号不是针对所有图像像素的全局单独向量,而是一个取决于图像空间信息的网格信号。更重要的是,每个skip connection的门控信号能够聚合来自多个图像尺度的信息,如图1所示,提高了查询信号的网格分辨率[即与上采样数据进行拼接],并且达到了更好的性能。最后,作者说明了AG参数可以通过标准反向传播更新来训练,无需使用硬注意力(hard-attention)中使用的基于采样的更新方法。
U-Net模型中的注意力门控:作者提出的AGs被集成到U-Net结构中来突出通过skip connection传递来的显著特征,如图1所示。从粗糙尺度提取的信息( [公式] )用来在门控中消除skip connection中的不相关响应和噪声响应。该操作在拼接操作之前执行,以此仅使相关激活被融合。此外,AGs在前向、后向传播时能够过滤神经元激活。源自背景区域的梯度在反向传播时被降权。这样就可以使较浅层中的模型参数主要基于与给定任务相关的空间区域进行更新。 [公式] 层中的卷积参数更新规则如下:
[公式]
右侧第一个梯度项被[公式] 缩放。在多维度AGs的情况下,在每个网格尺度下 [公式] 是一个向量[即每个分量对应一个维度(上文提到的多语义类别中的一个类别)]。在每个子AG中,通过提取、融合补充信息来定义skip connection的输出。为了降低AGs的训练参数数目和计算复杂度,线性变换不采用任何空间支持( [公式] 卷积),并将输入特征图下采样至门控信号的分辨率,与非局部块相似。对应的线性变换将特征图解耦,并映射到较低维度空间进行门控操作。低级别特征图,例如第一个skip connection,并没有应用于门控函数,因为它们不能代表高维度空间中的输入数据。作者使用深度监督(deep-supervision)来强制中间特征图在每个图像尺度上是语义可分的。这有助于保证注意力单元在不同的尺度上具有影响大范围图像前景内容的响应的能力。因此,作者避免了从skip connection的小子集重构密集预测。