マルチモーダル・トランスフォーマにおける線形注意（Linear Attention）の適用に関する考察

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、視覚言語モデリングに用いられるマルチモーダル・トランスフォーマの二次時間注意（quadratic-time attention）の、よりスケーラブルな代替として線形注意（Linear Attention: LA）を探究する。
線形注意メカニズムに置き換えることで、計算複雑度をシーケンス長に関して二次から線形へと削減しつつ、高い性能の維持を目指す。
LAION-400Mで学習し、ImageNet-21Kでゼロショット精度を評価した複数のViTバリアント（ViT-S/16、ViT-B/16、ViT-L/16）における実験では、競争力のある結果が示される。
本研究では、確立されたスケーリング則に基づき、線形注意が標準的なソフトマックス注意と同様のスケーリング挙動を維持できること、ならびに注目すべき計算上の節約が報告される。
全体として、本研究は、データセットとシーケンス長が今後も拡大し続ける中で、LAが次世代のマルチモーダル・トランスフォーマの堅牢な候補であることを論じている。

要旨: マルチモーダル・トランスフォーマーは最先端の視覚言語モデルの基盤となっていますが、その二次的な注意（attention）計算量は、スケーラビリティに対する重大な障壁のままです。本研究では、マルチモーダルの枠組みにおいて高効率な代替として、線形注意（Linear Attention: LA）が実行可能であるかを検討します。LAを統合することで、計算上のオーバーヘッドを、系列長に対して二次から線形へと削減しつつ、競争力のある性能を維持します。LAION-400Mデータセットで学習したViT-S/16、ViT-B/16、ViT-L/16の各アーキテクチャに対して提案手法を評価し、検証はImageNet-21Kのゼロショット精度に焦点を当てます。体系的な評価の結果、線形注意は大きな計算節約をもたらすだけでなく、通常のsoftmax注意と同じスケーリング則に従うことが示されました。これらの知見は、ますます大規模で複雑なデータセットの処理を担う次世代マルチモーダル・トランスフォーマーに向けた、堅牢でスケーラブルな解決策として、線形注意を位置付けるものです。