Ramen：アクティブなサンプル選択による視覚言語モデルの頑健なテスト時適応

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、CLIPのような視覚言語モデルに対して、推論時に発生する分布シフトへ対応する頑健なテスト時適応フレームワーク「Ramen」を提案している。
従来手法がテストデータは単一ドメインから来ると仮定しがちなのに対し、Ramenはドメインの混在する状況を想定し、ドメインの一貫性と予測のバランスという2基準で過去データから適応に使うサンプルを能動的に選択する。
計算効率を高めるため、Ramenは埋め込みとサンプル単位の勾配をキャッシュし、モデル更新の際に追加のフォワード／バックワード処理を不要にする設計を採っている。
その適応メカニズムが混在ドメインシフト下で有効である理由について理論的分析を行い、複数の画像破損ベンチマークやドメインシフトベンチマークで強く一貫した性能を示している。
提案手法のコードはGitHubで公開されており、再現性や実利用への展開が期待できる。

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to

Reddit r/LocalLLaMA