从卷积神经网络到视觉Transformer

从卷积神经网络到视觉Transformer

2025年10月17日,T4G Tech For Greatness技术交流会在线上线下同步举行。本次交流会以“从卷积神经网络到视觉Transformer”为主题

分享人郑家骏(HUGO.Z)深入浅出地介绍了计算机视觉领域正在经历的重大范式迁移。

从卷积神经网络到视觉Transformer

01 技术演进:从“局部视野”到“全局认知”

郑家骏先生在开场中指出,计算机视觉领域正经历从“局部视野”(CNN)到“全局认知”(ViT)的技术跃迁。他用生动的比喻解释了这一变革:“CNN如同透过窗户看房间,视野有限;而ViT则像站在屋顶俯瞰,能看到更全面、更全局的信息。”

他引用DeepMind 2023年的研究数据强调,在同等计算资源下,CNN与ViT的性能相当,揭示了“架构无优劣,场景有适配”的重要规律。当前趋势是混合架构的兴起,旨在精度、效率与泛化性之间寻求动态平衡。

CNN的演进脉络体现了问题驱动的突破过程。从AlexNet通过权重共享将参数从1亿+压缩至6000万,到ResNet通过残差连接解决深度网络训练难题,再到DenseNet的密集连接和ConvNeXt融合Transformer思想,CNN本身也在不断进化。

从卷积神经网络到视觉Transformer

郑家骏通过演示展示了CNN的核心优势:虽然每个神经元只处理3×3的小窗口,但通过多层组合,最终可实现7×7的大区域感受野,实现从像素到边缘再到物体的层次化特征学习。

02 视觉Transformer的革命性创新

视觉Transformer的核心创新在于将图像转化为序列处理。一张224×224像素的图像被划分为16×16的patch序列,共196个“视觉单词”,通过位置编码和自注意力机制建立全局关联。

“虽然自注意力机制的计算复杂度为O(n²),196个patch需要处理38,416次交互,但这种全局关联建模能力正是ViT的强大之处。”郑家骏表示。ViT-B/16在ImageNet-1k上实现77.9%的Top-1准确率,超越了ResNet50的76.1%。

针对计算效率问题,后续出现了多项技术突破。Swim Transformer通过“窗口划分+移位窗口”将复杂度降至O(n),而MambaVision融合状态空间模型,在准确率超越Swim-B 0.7%的同时,推理速度提升3.6倍。

从卷积神经网络到视觉Transformer

02 视觉Transformer的革命性创新

视觉Transformer的核心创新在于将图像转化为序列处理。一张224×224像素的图像被划分为16×16的patch序列,共196个“视觉单词”,通过位置编码和自注意力机制建立全局关联。

“虽然自注意力机制的计算复杂度为O(n²),196个patch需要处理38,416次交互,但这种全局关联建模能力正是ViT的强大之处。”郑家骏表示。ViT-B/16在ImageNet-1k上实现77.9%的Top-1准确率,超越了ResNet50的76.1%。

针对计算效率问题,后续出现了多项技术突破。Swim Transformer通过“窗口划分+移位窗口”将复杂度降至O(n),而MambaVision融合状态空间模型,在准确率超越Swim-B 0.7%的同时,推理速度提升3.6倍。

从卷积神经网络到视觉Transformer

04 未来挑战与研究方向

郑家骏先生指出,小样本学习仍是重要挑战。虽然MAE掩码预训练在10-shot任务中准确率达到78.5%,但距人类零样本迁移能力仍有差距。

多模态融合展现巨大潜力,CLIP通过“图像-文本对”预训练实现零样本分类,ImageNet Top-1准确率达到63.2%。然而,ViT对物理攻击的防御能力较弱,需要研究注意力蒸馏等稳定性机制。

“效率-泛化-部署构成三角平衡关系。”郑家骏强调,动态注意力可降低60%计算量,领域自适应注意力减少跨域误差30%,混合精度推理减少40%内存占用。未来“Transformer+X”混合架构将成为主流,端侧“ViT级精度+CNN级速度”是关键突破点。

交流会最后,郑家骏先生总结道:“技术演进本质是从局部偏置到全局建模的范式迁移,混合架构是当前最优解。未来视觉AI将从‘专用’走向‘通用’,在医疗、自动驾驶等领域释放巨大社会价值。”

本次交流不仅梳理了技术发展脉络,更通过实际案例展示了视觉AI技术的现实影响力,为参与者提供了宝贵的学习和交流机会。