做投资理财网站,微信小程序怎么做网站,微信小程序怎么注销账号,邢台柏乡县建设局网站为了减轻Transformer笨重的计算成本#xff0c;一系列工作重点开发了高效的Vision Transformer#xff0c;如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。
1、字节TRT-ViT
兼具CNN的速度、Transformer精度的模型
TRT-ViT#xff08;Transformer-based Vision Tra…为了减轻Transformer笨重的计算成本一系列工作重点开发了高效的Vision Transformer如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。
1、字节TRT-ViT
兼具CNN的速度、Transformer精度的模型
TRT-ViTTransformer-based Vision Transformer是一个结合了Transformer和ViT的模型旨在同时利用CNN和Transformer的优点以实现更高的性能和效率。TRT-ViT将CNN作为ViT的一部分从而实现了在速度和精度之间的平衡。
TRT-ViT的核心思想是将CNN的局部性和Transformer的全局性相结合。具体来说TRT-ViT使用CNN提取图像的局部特征然后将这些特征作为Transformer的输入。这样模型可以同时捕捉图像的局部信息和全局信息从而实现更好的性能。
TRT-ViT的另一个关键特点是其高效性。由于它结合了CNN和Transformer的优点因此在训练和推理过程中具有较高的效率。此外TRT-ViT还采用了一些技术来减少计算量和内存消耗以实现更高效的模型。
在实际应用中TRT-ViT可以广泛应用于计算机视觉任务如图像分类、目标检测和语义分割等。通过将CNN和Transformer相结合TRT-ViT可以在速度和精度之间取得更好的平衡从而满足不同任务的需求。
2、EfficientFormer
EfficientFormer: Vision Transformers at MobileNet Speed在IPhone12的推理延迟仅为1.6 ms
3、AdaptFormer
概念简单但有效的框架AdaptFormer用于有效地将预训练的视觉TransformerViT主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP本文的AdaptFormer能够调整轻量级模块以生成适应多个下游任务的特征。
4、Auto-scaling Vision Transformers
As-ViTAuto-scaling Vision Transformers这是一个无需训练的 ViT 自动扩展框架它能以高效且有原则的方式自动设计和扩展 ViT。
5、MSG-Transformer
面向高分辨率的ViT框架华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中信使Token负责提取每一个局部区域的信息并与其他信使token进行交换然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度在高分辨场景有很大的潜力。
MSG Transformer引入的MSG token对计算量和模型参数都影响不大所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上其模型效果和Swin接近但其在CPU上速度较快。在COCO数据集上基于Mask R-CNN模型也可以和Swin模型取得类似的效果。此外信使Token的机制在建模时间信息上也有着明显优势相信该机制在未来Transformer结构设计中能够带来更多的启发。