ARTA：効率的な高密度特徴抽出のための適応的な混合解像度トークン割り当て

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ARTA（Adaptive Mixed-Resolution Token Allocation）は、低解像度トークンから始め、より高い詳細を必要とする画像領域に対して追加の細粒度トークンを選択的に割り当てる、粗から細へ進むビジョントランスフォーマです。
軽量なアロケータは意味的な境界スコアを反復的に予測し、境界の根拠が十分に強い場所にのみ細粒度トークンを追加します。これにより、計算をクラス境界付近に集中させ、均質な領域での冗長な処理を削減します。
混合解像度アテンションにより、粗いトークンと細かいトークンが相互作用できるため、意味的に複雑な領域に計算を集中しつつ、弱い境界手がかりへの感度も維持します。
実験では、FLOPsを大幅に削減しつつADE20KおよびCOCO-Stuffで最先端の性能を報告しており、Cityscapesでも計算量を著しく抑えた競争力のある結果が得られています（例：ARTA-Baseは、約1億パラメータ規模でADE20Kにおいて54.6 mIoU）。
この手法は、境界をまたいで意味を混ぜるのではなく、トークンが単一のクラスを表すことを促すことで、意味的一貫性の向上を目的としています。

Abstract

本稿では、効率的な密な特徴抽出のための、混合解像度の粗視度（coarse）から精密（fine）への段階的なビジョントランスフォーマであるARTAを提案する。高解像度（精密）トークンから開始するモデルとは異なり、ARTAは低解像度（粗視度）トークンから開始し、軽量なアロケータを用いて、どの領域がより精密なトークンを必要とするかを予測する。アロケータは反復的に意味（クラス）の境界スコアを予測し、低い閾値を上回るパッチに追加のトークンを割り当てる。これにより、境界付近にトークン密度を集中させつつ、弱い境界の証拠に対する高い感度を維持する。こうした狙いを定めた割当ては、トークンが複数のクラスの混合ではなく、単一の意味クラスを表すことを促す。混合解像度の注意機構により、粗視度トークンと精密トークンの相互作用が可能となり、意味的に複雑な領域に計算を集中させながら、均質な領域での冗長な処理を回避する。実験の結果、ARTAはADE20KおよびCOCO-Stuffにおいて、はるかに少ないFLOPsで最先端の結果を達成し、Cityscapesでも計算量を大幅に抑えつつ競争力のある性能を示す。例えば、ARTA-Baseは、約1億パラメータのクラスでADE20Kに対し54.6 mIoUを達成し、同等のバックボーンと比べてより少ないFLOPsとより少ないメモリを使用する。

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

AIエージェントにかかる10億ドル規模の税金

Dev.to

ARTA：効率的な高密度特徴抽出のための適応的な混合解像度トークン割り当て

要点

Abstract

関連記事

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

AIエージェントにかかる10億ドル規模の税金

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer