TransXNet:结合局部和全局注意力提供强大的归纳偏差和高效感受野
ViTs 具有归纳偏差,后面大部分工作都选择构建了混合网络,如 PVT 等,即融合了自注意力和卷积操作。
然而,由于标准卷积在这些混合网络中的使用,性能改进有限。
这是因为卷积核是输入无关的,不能适应不同的输入,从而导致了自注意力和卷积之间的表示能力差异。
为了解决上述问题,这篇论文针对性地引入了一种新的混合网络模块,称为Dual Dynamic Token Mixer (D-Mixer),它以一种依赖于输入的方式聚合全局信息和局部细节。
具体来说,输入特征被分成两部分,分别经过一个全局自注意力模块和一个依赖于输入的深度卷积模块进行处理,然后将两个输出连接在一起。
这种简单的设计可以使网络同时看到全局和局部信息,从而增强了归纳偏差。
论文中的实验证明,这种方法在感受野方面表现出色,即网络可以看到更广泛的上下文信息。
ID:1860
详询客服 微信shujuqudong1 或shujuqudong6 或 qq68823886 或 27699885
图文详情请查看: http://matup.cn/760323900819.html