ARTA:効率的な高密度特徴抽出のための適応的な混合解像度トークン割り当て
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ARTA(Adaptive Mixed-Resolution Token Allocation)は、低解像度トークンから始め、より高い詳細を必要とする画像領域に対して追加の細粒度トークンを選択的に割り当てる、粗から細へ進むビジョントランスフォーマです。
- 軽量なアロケータは意味的な境界スコアを反復的に予測し、境界の根拠が十分に強い場所にのみ細粒度トークンを追加します。これにより、計算をクラス境界付近に集中させ、均質な領域での冗長な処理を削減します。
- 混合解像度アテンションにより、粗いトークンと細かいトークンが相互作用できるため、意味的に複雑な領域に計算を集中しつつ、弱い境界手がかりへの感度も維持します。
- 実験では、FLOPsを大幅に削減しつつADE20KおよびCOCO-Stuffで最先端の性能を報告しており、Cityscapesでも計算量を著しく抑えた競争力のある結果が得られています(例:ARTA-Baseは、約1億パラメータ規模でADE20Kにおいて54.6 mIoU)。
- この手法は、境界をまたいで意味を混ぜるのではなく、トークンが単一のクラスを表すことを促すことで、意味的一貫性の向上を目的としています。



