プロキシベースのテスト時アラインメントにおけるリジェクション基準について

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、暗黙的報酬とナッジという2つのプロキシベースのテスト時アラインメント手法を、グラフィカルモデルからのサンプリングとして捉え直し、それらが主に「リジェクション(拒否)基準」の定義の違いにより異なることを示しています。
  • 大規模モデルの「自信(コンフィデンス)」をリジェクション基準に使うことは動機づけとして不適切だと主張し、曖昧な言い回しなどの言語的現象を根拠に挙げています。
  • 著者らは、より保守的な「自信ベット」に基づく新しいリジェクション基準を提案し、小さなアライン済みプロキシがトークン生成に介入すべきタイミングをより適切に制御しようとします。
  • 実験では、この新しいリジェクション基準が複数のデータセットで従来手法よりも良い性能を示したと報告されています。