大規模言語モデルのための、学習不要なテスト時コントラスト学習

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、勾配ベースのホワイトボックス更新なしで、分布シフト下において凍結済みLLMを改善する訓練不要のテスト時適応手法 TF-TTCL を提案する。
TF-TTCL は「Explore（探索）- Reflect（省察）- Steer（誘導）」ループを用い、マルチエージェントのセマンティックなクエリ拡張により多様な推論トラジェクトリを生成し、それらを比較し、セマンティックな差分を明示的なテキストルールへ蒸留する。
推論時には、蒸留された文脈ルールを取得して適用し、テスト過程で観測されたエラーモードを避けながら、より頑健な推論パターンへモデルを誘導する。
閉じた形式および開いた形式の推論ベンチマークの両方で、TF-TTCL はオンライン評価設定において、強力なゼロショット基線および既存のいくつかのテスト時適応アプローチよりも高い性能を示す。
著者らは、提案フレームワークの再現と実験を可能にする実装を、リンクされた GitHub リポジトリで提供している。

要旨: 大規模言語モデル（LLM）は強い推論能力を示しますが、その性能は分布シフトのもとで低下することがしばしばあります。既存のテスト時適応（TTA）手法は、ホワイトボックスへのアクセスを必要とし、実行に伴うオーバーヘッドも大きい、勾配ベースの更新に依存しています。一方、学習不要の代替手法は静的であるか、外部のガイダンスに依存するものがほとんどです。本論文では、学習不要の適応フレームワークである Training-Free Test-Time Contrastive Learning（TF-TTCL）を提案します。これは、凍結したLLMが自身の推論経験から監督信号を蒸留することで、オンラインで改善できるようにするものです。具体的には、TF-TTCL は、3つの中核モジュールによって動的な「Explore-Reflect-Steer（探索-省察-操舵）」ループを実装します。1）Semantic Query Augmentation（意味的クエリ拡張）は、マルチエージェントの役割演技によって問題の見え方を最初に多様化し、異なる推論の軌跡を生成します。2）Contrastive Experience Distillation（対照的経験蒸留）は、優れた軌跡と劣った軌跡の間にある意味的なギャップを捉え、それらを明示的なテキスト上のルールへと蒸留します。3）Contextual Rule Retrieval（文脈ベースのルール検索）は、推論時に保存されたこれらのルールを最終的に有効化し、観測された誤りを回避しつつ、凍結したLLMを頑健な推論パターンへ動的に導きます。閉形式の推論タスクおよび開形式の評価タスクに対する大規模な実験の結果、TF-TTCL はオンライン評価において、一貫して強力なゼロショットのベースラインおよび代表的な TTA 手法を上回ることが示されました。コードは https://github.com/KevinSCUTer/TF-TTCL で公開されています。