要旨: マルチモーダル・トランスフォーマーは最先端の視覚言語モデルの基盤となっていますが、その二次的な注意(attention)計算量は、スケーラビリティに対する重大な障壁のままです。本研究では、マルチモーダルの枠組みにおいて高効率な代替として、線形注意(Linear Attention: LA)が実行可能であるかを検討します。LAを統合することで、計算上のオーバーヘッドを、系列長に対して二次から線形へと削減しつつ、競争力のある性能を維持します。LAION-400Mデータセットで学習したViT-S/16、ViT-B/16、ViT-L/16の各アーキテクチャに対して提案手法を評価し、検証はImageNet-21Kのゼロショット精度に焦点を当てます。体系的な評価の結果、線形注意は大きな計算節約をもたらすだけでなく、通常のsoftmax注意と同じスケーリング則に従うことが示されました。これらの知見は、ますます大規模で複雑なデータセットの処理を担う次世代マルチモーダル・トランスフォーマーに向けた、堅牢でスケーラブルな解決策として、線形注意を位置付けるものです。
マルチモーダル・トランスフォーマにおける線形注意(Linear Attention)の適用に関する考察
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、視覚言語モデリングに用いられるマルチモーダル・トランスフォーマの二次時間注意(quadratic-time attention)の、よりスケーラブルな代替として線形注意(Linear Attention: LA)を探究する。
- 線形注意メカニズムに置き換えることで、計算複雑度をシーケンス長に関して二次から線形へと削減しつつ、高い性能の維持を目指す。
- LAION-400Mで学習し、ImageNet-21Kでゼロショット精度を評価した複数のViTバリアント(ViT-S/16、ViT-B/16、ViT-L/16)における実験では、競争力のある結果が示される。
- 本研究では、確立されたスケーリング則に基づき、線形注意が標準的なソフトマックス注意と同様のスケーリング挙動を維持できること、ならびに注目すべき計算上の節約が報告される。
- 全体として、本研究は、データセットとシーケンス長が今後も拡大し続ける中で、LAが次世代のマルチモーダル・トランスフォーマの堅牢な候補であることを論じている。




