永远网站建设网站建设杭州公司
- 作者: 五速梦信息网
- 时间: 2026年04月20日 06:58
当前位置: 首页 > news >正文
永远网站建设,网站建设杭州公司,天津集体建设用地出售 网站,wordpress 树形页面paper链接: https://arxiv.org/abs/2205.12956v2
code链接: https://github.com/sail-sg/iFormer Inception Transformer一、引言二、实现细节三、实验一、分类二、检测三、分割四、消融实验一、引言
最近的研究表明#xff0c;Transformer具有很强的建立远程依赖关系的能力…paper链接: https://arxiv.org/abs/2205.12956v2
code链接: https://github.com/sail-sg/iFormer Inception Transformer一、引言二、实现细节三、实验一、分类二、检测三、分割四、消融实验一、引言
最近的研究表明Transformer具有很强的建立远程依赖关系的能力但在捕获高频信息时却表现不佳。为了解决这个问题本文提出了一种新颖的通用Inception Transformer(简称iF)它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说将卷积和最大池化的优点移植到Transformer上以捕获高频信息。与最近的混合框架不同Inception混频器通过通道分裂机制采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器带来了更高的效率同时具有对分散在宽频率范围内的判别信息建模的灵活性。考虑到底层更多地用于捕获高频细节而顶层更多地用于建模低频全局信息进一步引入了频率斜坡结构即逐渐减少给高频混频器的维数增加低频混频器的维数可以有效地权衡不同层之间的高低频分量。 ViT及其变体对视觉数据中的低频捕获能力很强主要包括场景或对象的全局形状和结构但对高频学习能力不强主要包括局部边缘和纹理。这可以直观地解释为:vit中用于在非重叠补丁令牌之间交换信息的主要操作self attention是一个全局操作并且更能够捕获全局信息(低频)。下图1(a)和1(b)所示傅里叶频谱和相对对数振幅表明ViT倾向于很好地捕获低频信号而很少捕获高频信号。这种低频偏好降低了ViTs的性能主要表现在:(1)在所有层中填充低频信息会导致高频成分(如局部纹理)的劣化削弱了ViTs的建模能力;2)高频信息也具有鉴别性可以使许多任务受益例如(细粒度)分类。实际上人类视觉系统以不同的频率提取视觉基本特征低频提供视觉刺激的全局信息高频传达图像的局部空间变化(如局部边缘/纹理)。因此有必要开发一种新的ViT体系结构来捕获视觉数据中的高频和低频。 CNN是一般视觉任务最基本的骨干。与ViTs不同它通过感受野内的局部卷积覆盖更多的局部信息从而有效地提取高频特征。最近的研究考虑到CNN和ViTs的优势互补将二者进行了整合。有些方法将卷积层和注意层按串行方式堆叠将局部信息注入全局上下文。不幸的是这种串行方式只在一层中对一种类型的依赖项建模要么是全局的要么是局部的并且在局部建模期间丢弃全局信息反之亦然。其他工作采用并行注意力和卷积同时学习输入的全局和局部依赖关系。但是部分通道用于处理局部信息另一部分用于全局建模这意味着当前的并行结构如果处理每个分支中的所有通道则具有信息冗余。 为了解决这个问题作者提出了一个简单有效的Inception Transformer (iFormer)如下图所示它将CNN捕获高频的优点嫁接到vit上。 iFormer的关键组件是一个Inception令牌混合器如下图所示。这种Inception混频器旨在通过捕获数据中的高频和低频来增强vit在频谱中的感知能力。为此Inception混频器首先将输入特征沿通道维度进行分割然后将分割后的分量分别送入高频混频器和低频混频器。
这里的高频混频器由最大池化操作和并行卷积操作组成而低频混频器由ViTs中的自注意实现。这样iFormer可以有效地捕获相应通道上的特定频率信息从而在较宽的频率范围内获得更全面的特征。 此外较低的层通常需要更多的局部信息而较高的层需要更多的全局信息。这是因为就像人类的视觉系统一样高频分量中的细节有助于底层捕捉视觉的基本特征也有助于逐步收集局部信息从而对输入有一个全局的理解。受此启发设计了一个频率斜坡结构。特别是从低到高逐步向低频混频器提供更多的通道维度。
二、实现细节
与串行方法相比文献中将注意力与卷积并行结合的作品并不多。CoaT和ViTAE引入卷积作为平行于注意的分支并利用elementwise sum对两个分支的输出进行合并。然而Raghu等人发现一些通道倾向于提取局部依赖关系而其他通道则用于建模全局信息这表明当前并行机制处理不同分支中的所有通道具有冗余性。相反将通道分成高频和低频的分支。GLiT也采用并行方式但直接将卷积和注意分支的特征拼接成混频器输出缺少不同频率特征的融合。相反本文设计了一个显式的融合模块来合并来自低频和高频分支的输出。 提出的Inception混合器将CNN提取高频表示的强大能力嫁接到Transformer上。之所以使用“Inception”这个名字是因为令牌混合器受到具有多个分支的Inception模块[的启发。Inception混频器没有直接将图像令牌送入MSA混频器而是先将输入特征沿通道维度进行分割然后将分割后的分量分别送入高频混频器和低频混频器。其中高频混频器由最大池化操作和并行卷积操作组成而低频混频器由自注意实现。 给定输入特征映射X∈RN×CX∈R^{N×C}X∈RN×C将X沿通道维度分解为Xh∈RN×ChX_h∈R^{N×C_h}Xh∈RN×Ch和Xl∈RN×ClX_l∈R^{N×C_l}Xl∈RN×Cl其中ChClcC_h C_l cChClc将X_h和X_l分别分配给高频混频器和低频混频器。 高频混合器:考虑到最大滤波器的敏锐灵敏度和卷积运算的细节感知提出了一种并行结构来学习高频成分。沿通道将输入XhXhXh分为Xh1∈RN×Ch2X{h1}∈R^{N× \frac{Ch}{2}}Xh1∈RN×2Ch和Xh2∈RN×Ch2X{h2}∈R^{N× \frac{Ch}{2}}Xh2∈RN×2Ch。如下所示Xh1X{h1}Xh1嵌入max-pooling层和线性层Xh2X_{h2}Xh2馈送到线性层和深度卷积层。 最后将低频和高频混频器的输出沿通道维度进行拼接: 上采样操作选择每个位置的最近点的值而不考虑任何其他点这导致相邻符号之间过度平滑。作者设计了一个融合模块来克服这个问题即在补丁之间交换信息的深度卷积同时保持跨通道线性层像以前的Transformer一样在每个位置工作。最终输出可以表示为 像普通的Transformer一样iFormer配备了前馈网络(FFN)不同的是它还包含了上面的Inception令牌混合器(ITM);在ITM和FFN之前应用LayerNorm (LN)。因此Inception Transformer块的正式定义为: 低频混频器。使用多头自注意在低频混频器的所有令牌之间进行信息通信。尽管特征图具有较强的全局表示学习能力但较大的分辨率会给底层带来较大的计算成本。因此简单地使用平均池化层来降低注意力操作前XlX_lXl的空间尺度使用上采样层来恢复注意力操作后的原始空间维度。这种设计极大地降低了计算开销使注意力操作集中在全局信息的嵌入上。这个分支可以定义为 请注意池化层和上采样层的内核大小和步幅仅在前两个阶段设置为2。 如下图所示主干有四个不同通道和空间维度的阶段。对于每个块定义了一个通道比以更好地平衡高频和低频成分即ChC\frac{C_h}{C}CCh和ClC\frac{C_l}{C}CCl其中ChCClC1\frac{C_h}{C}\frac{C_l}{C}1CChCCl1。在频率斜坡结构中ChC\frac{C_h}{C}CCh从浅层到深层逐渐减小ClC\frac{C_l}{C}CCl逐渐增大。因此通过灵活的频率斜坡结构iFormer可以有效地权衡各层的高频和低频分量。 不同iFormer模型的配置如下
三、实验
一、分类 二、检测 三、分割 四、消融实验
- 上一篇: 永修县建设局网站石家庄建站外贸网站
- 下一篇: 永州内部网站建设公司动态ip上做网站
相关文章
-
永修县建设局网站石家庄建站外贸网站
永修县建设局网站石家庄建站外贸网站
- 技术栈
- 2026年04月20日
-
永清住房和城乡建设部网站国外psd网页模板网站
永清住房和城乡建设部网站国外psd网页模板网站
- 技术栈
- 2026年04月20日
-
永平建设有限公司网站用scala做网站
永平建设有限公司网站用scala做网站
- 技术栈
- 2026年04月20日
-
永州内部网站建设公司动态ip上做网站
永州内部网站建设公司动态ip上做网站
- 技术栈
- 2026年04月20日
-
永州市城乡建设规划局网站广州市 住房建设局网站
永州市城乡建设规划局网站广州市 住房建设局网站
- 技术栈
- 2026年04月20日
-
永州市规划建设局网站营销型网站源码下载
永州市规划建设局网站营销型网站源码下载
- 技术栈
- 2026年04月20日
