概要: アクティブなコンピュータビジョンは、連続的で局所的な注視(glimpses)によって、生物学的にもっともらしい効率的な知覚を実現することを約束しますが、スケーラブルな汎用アーキテクチャや事前学習(pretraining)のパイプラインが欠けています。その結果、アクティブ・ビジョン・ファウンデーション・モデル(Active-Vision Foundation Models: AVFM)は十分に検討されていません。私たちは、最初のタスク非依存・ポリシー非依存のAVFMであるCanViTを提案します。CanViTは、シーン相対RoPEを用いて網膜像(retinotopic)Vision Transformerバックボーンと、空間位相(spatiotopic)のシーン全体にまたがる潜在ワークスペース(キャンバス)を結び付けます。この高容量の作業メモリと効率的に相互作用するために、Canvas Attentionという新しい非対称クロス注意機構を導入します。思考(バックボーン・レベル)とメモリ(キャンバス・レベル)を分離し、キャンバス側の自己注意と全結合層をなくすことで、低遅延の逐次推論を実現し、大規模シーンへのスケーラビリティを可能にします。ラベル不要のアクティブ・ビジョン事前学習方式として、ポリシー非依存の「パッシブからアクティブへの密(dense)潜在蒸留」を提案します。これは、ランダム化された位置、ズームレベル、長さを持つ低解像度の注視の系列から、シーン全体のDINOv3埋め込みを再構成するものです。私たちは、ランダム初期化から13.2百万のImageNet-21kシーン上でCanViT-Bを事前学習し、先行するアクティブモデルより1桁多い注視(でない、1桁多い規模の)データ量を用い、さらに10億のランダム注視を、単一のH100で166時間かけて学習します。ADE20Kのセグメンテーションでは、凍結したCanViT-Bが、単一の低解像度注視で38.5% mIoUを達成し、最良のアクティブモデルの27.6%を上回ります。これは、推論FLOPsを19.5倍少なく、微調整(fine-tuning)なしであることに加え、FLOPまたは入力が一致したDINOv3教師と比較しても同様です。追加の注視を用いると、CanViT-Bは45.9% ADE20K mIoUに到達します。ImageNet-1k分類では、凍結した教師プローブにより、CanViT-Bはトップ1精度81.2%を達成します。CanViTは、より長いロールアウト、より大きなシーン、そして新しいポリシーへ一般化します。私たちの取り組みにより、パッシブ・ビジョンとアクティブ・ビジョンの間にある広いギャップを、意味セグメンテーションにおいて埋めることができ、AVFMが新しい研究軸として持つ可能性を示します。
CanViT:アクティブ・ビジョンの基盤モデルに向けて
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スケーラブルで汎用的なアクティブ・コンピュータビジョンを目的とした、最初の「タスク非依存・ポリシー非依存」のアクティブ・ビジョン基盤モデル(AVFM)としてCanViTを提案する。
- CanViTは、網膜対応のVision Transformerバックボーンと、空間対応の潜在「キャンバス」ワークスペースを組み合わせ、効率的な逐次グリンプ(注視)を支える新しいCanvas Attention非対称クロスアテンションを用いる。
- 本手法は、キャンバスの自己注意と全結合層を取り除くことで、「思考」(バックボーン)と「記憶」(キャンバス)を分離し、低遅延な逐次推論と、大規模シーンへのより良いスケーラビリティを狙う。
- ラベルなしのアクティブ・ビジョン事前学習として、ポリシー非依存の「受動から能動への密な潜在蒸留」を提案する。解像度の低いグリンプのランダム化された系列から、シーン全体にわたるDINOv3埋め込みを再構成する。
- 報告された結果では、強い性能が示される(例:凍結モデルで単一グリンプによりADE20K上でmIoU 38.5%)ほか、グリンプ数を増やすことでセグメンテーション/分類の精度が向上し、さらに長いロールアウト、大規模シーン、そして新しいポリシーへの汎化も可能である。
