プロトタイプベースのテスト時適応によるビジョン・ランゲージモデル

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、事前学習とテストデータの分布ギャップを推論時に埋めるためのビジョン・ランゲージモデル向け手法として、Prototype-Based Test-Time Adaptation（PTA）を提案している。
PTAは、キャッシュに基づくバックプロパゲーション不要のテスト時適応（TTA）設計を避け、テストサンプルからクラス固有の知識プロトタイプに情報を蓄積する。
それぞれのテストサンプルについて、ゼロショットのクラス信頼度を用いてプロトタイプ更新の重み付けを適応的に行い、対応するクラスのプロトタイプに視覚特徴を取り込む。
過去のテスト知識をプロトタイプにのみ統合することで、従来のキャッシュ型TTAでボトルネックとなるキャッシュの作成・取得のオーバーヘッドを取り除き、クラス数が増えても効率を保つ。
15の画像認識ベンチマークと4つのロバストなポイントクラウド解析ベンチマークで最先端性能を報告し、例えばCLIPではクロスドメイン10ベンチマークで精度を65.64%から69.38%へ改善し、ImageNet-1K上でも推論速度を約92%維持している（キャッシュ型TTAは精度67.97%、推論速度50%程度）。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA