要約: 現代のビジョンモデルは、局所的なディテールを損なうことなく、画像レベルの文脈を捉えつつ、計算資源を抑えたままで実用的である必要があります。私たちはこのトレードオフを見直し、単純な原理を提案します:グローバルな推論と局所表現の役割を分離すること。この原理を実現するために、ConvNeur という二つのブランチからなるアーキテクチャを導入します。軽量なニューラルメモリブランチがトークンのコンパクトな集合上でグローバルな文脈を集約し、局所性を保持するブランチが微細な構造を抽出します。学習可能なゲートが、グローバルな手がかりを局所特徴に作用させつつ、それらの目的を絡めずに調整します。この分離により、画像サイズに対して二次未満のスケーリングを実現し、局所処理に関連する誘導的先行知識を保持し、完全なグローバルアテンションに比べてオーバーヘッドを削減します。標準的な分類、検出、セグメンテーションのベンチマークにおいて、ConvNeur は同等または比較可能な代替案よりも同程度以下の計算量で追従するか、同様の予算での精度とレイテンシーのトレードオフを有利にします。これらの結果は、効率性はグローバルとローカルのデカップリングに従うという見解を支持します。)
効率性はグローバルとローカルのデカップリングに従う
arXiv cs.CV / 2026/3/23
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚モデルの効率性を向上させるため、グローバル推論と局所表現をデカップリングする2分岐アーキテクチャ ConvNeur を提案する。
- 一方の分岐は軽量なニューラルメモリを用いてコンパクトなトークン集合上でグローバル文脈を集約する。局所性を保つ別の分岐は細かな構造を処理し、学習されたゲートがグローバルな手掛かりによって局所特徴を調整する。
- この設計は、画像サイズに対してサブ二次スケーリングを実現し、完全なグローバルアテンションと比較してオーバーヘッドを低減しつつ、局所的な帰納的先験を保持する。
- 分類、検出、セグメンテーションにおける経験的結果は、ConvNeur が同程度またはそれ以下の計算量で類似手法に匹敵するか上回ることを示し、効率性がグローバル-ローカルのデカップリングに従うという主張を裏付ける。

