反復的に画像サイズに依存しないビジョントランスフォーマーのための自己教師あり事前学習

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

共有:

要点

この論文は、既存の自己教師ありViTが計算効率の点で不利で画像サイズにうまくスケールしないため、低解像度での事前学習に制約されがちである点を扱います（例：DINO）。
著者らは、多視野ズームのパッチを固定サイズのコンテキストとして反復処理する、視覚の中心視（ファオリア）に着想した解像度非依存のViTを土台にしています。
DINOの自己蒸留目的を用いて「逐次からグローバルへ」つなぐ新しい自己教師あり学習フレームワークを提案し、基盤バックボーンとしての可能性を引き出します。
積分画像にもとづく効率的なパッチ抽出により、入力解像度にかかわらず計算コストを一定に保ったまま大規模事前学習を可能にします。
実験では、ImageNet-1Kおよび下流の分類タスクで競争力のある性能が示され、画像サイズに柔軟なビジョンエンコーダとしての実用性が示唆されています。

要旨: Vision Transformers（ViT）は自己教師あり学習（SSL）を支配しています。大規模な事前学習において非常に有効であることが示されてきた一方で、計算効率が低く、画像サイズに対してうまくスケールしません。その結果、DINOのような基盤モデルは低解像度での処理に制約されます。最近、中心視（fovea）に着想を得たTransformerは、マルチズームのパッチからなる固定サイズのコンテキストを反復的に処理することで、解像度に非依存となる性質（resolution agnosticism）を実現しました。このモデルは、時間を通じた逆伝播（backpropagation through time）を行わない、逐次的でリカレントのようなプロセスにより、教師あり学習を通じて有望な結果を示しました。本稿では、これを基盤バックボーンとして活用する可能性を引き出すために、DINOの自己蒸留目的に基づく新しい「逐次からグローバルへ（sequential-to-global）」のSSLフレームワークを提案します。効率的な積分画像（integral-image）によるパッチ抽出手法により支えられる本アプローチは、画像サイズ非依存な視覚エンコーダに対して大規模な事前学習を可能にします。入力解像度にかかわらず計算予算を一定に保ったまま、ImageNet-1Kおよび下流の分類タスクで競争力のある性能を達成します。