GRPO-TTA:GRPOに基づく強化学習による視覚言語モデルのテスト時ビジュアル調整

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Group Relative Policy Optimization(GRPO)を視覚言語モデルのテスト時適応(TTA)へ拡張した手法「GRPO-TTA」を提案しています。
  • CLIPの類似度分布から上位Kのクラス候補をサンプリングして出力グループを構成し、グラウンドトゥルースラベルなしで最適化できるようにクラス別プロンプト予測を群ごとの強化学習問題として定式化します。
  • テスト時適応に合わせて、アラインメント報酬と分散(ディスパージョン)報酬といった報酬関数を設計し、視覚エンコーダのチューニングを効果的に導きます。
  • 複数のベンチマークで、GRPO-TTAは既存のテスト時適応手法より一貫して高い性能を示し、特に自然な分布シフト下での改善が大きいことが報告されています。