広告

ARTA:効率的な高密度特徴抽出のための適応的な混合解像度トークン割り当て

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ARTA(Adaptive Mixed-Resolution Token Allocation)は、低解像度トークンから始め、より高い詳細を必要とする画像領域に対して追加の細粒度トークンを選択的に割り当てる、粗から細へ進むビジョントランスフォーマです。
  • 軽量なアロケータは意味的な境界スコアを反復的に予測し、境界の根拠が十分に強い場所にのみ細粒度トークンを追加します。これにより、計算をクラス境界付近に集中させ、均質な領域での冗長な処理を削減します。
  • 混合解像度アテンションにより、粗いトークンと細かいトークンが相互作用できるため、意味的に複雑な領域に計算を集中しつつ、弱い境界手がかりへの感度も維持します。
  • 実験では、FLOPsを大幅に削減しつつADE20KおよびCOCO-Stuffで最先端の性能を報告しており、Cityscapesでも計算量を著しく抑えた競争力のある結果が得られています(例:ARTA-Baseは、約1億パラメータ規模でADE20Kにおいて54.6 mIoU)。
  • この手法は、境界をまたいで意味を混ぜるのではなく、トークンが単一のクラスを表すことを促すことで、意味的一貫性の向上を目的としています。

Abstract

本稿では、効率的な密な特徴抽出のための、混合解像度の粗視度(coarse)から精密(fine)への段階的なビジョントランスフォーマであるARTAを提案する。高解像度(精密)トークンから開始するモデルとは異なり、ARTAは低解像度(粗視度)トークンから開始し、軽量なアロケータを用いて、どの領域がより精密なトークンを必要とするかを予測する。アロケータは反復的に意味(クラス)の境界スコアを予測し、低い閾値を上回るパッチに追加のトークンを割り当てる。これにより、境界付近にトークン密度を集中させつつ、弱い境界の証拠に対する高い感度を維持する。こうした狙いを定めた割当ては、トークンが複数のクラスの混合ではなく、単一の意味クラスを表すことを促す。混合解像度の注意機構により、粗視度トークンと精密トークンの相互作用が可能となり、意味的に複雑な領域に計算を集中させながら、均質な領域での冗長な処理を回避する。実験の結果、ARTAはADE20KおよびCOCO-Stuffにおいて、はるかに少ないFLOPsで最先端の結果を達成し、Cityscapesでも計算量を大幅に抑えつつ競争力のある性能を示す。例えば、ARTA-Baseは、約1億パラメータのクラスでADE20Kに対し54.6 mIoUを達成し、同等のバックボーンと比べてより少ないFLOPsとより少ないメモリを使用する。

広告
ARTA:効率的な高密度特徴抽出のための適応的な混合解像度トークン割り当て | AI Navigate