您当前的位置: > 详细浏览

基于Transformer的图像分类网络MultiFormer

摘要:为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络称为MultiFormer。MultiFormer通过AWS(Attention With Scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(Global-Local Attention With Patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-Tiny、-Small和-Base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中Top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-Base在参数和计算量远小于ViT-Base/16模型且不需要大量数据预训练前提下提升2.1%。

版本历史

[V1] 2022-06-06 10:02:37 ChinaXiv:202206.00052V1 下载全文
点击下载全文
许可声明
metrics指标
  • 点击量4633
  • 下载量426
评论
分享
邀请专家评阅