凍結LLM向けのエビデンス強調(HiLight)の学習

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、長いノイズの多い文脈で決定的な根拠を見落としがちなLLMに対し、エビデンス選択と推論を分離する「HiLight」フレームワークを提案します。
  • HiLightは入力の書き換えや圧縮を行わず、軽量な「Emphasis Actor」を学習して、元の文脈のまま重要な根拠となるスパンの周囲に最小限のハイライトタグを挿入します。
  • ハイライトを意思決定問題として定式化し、エビデンスラベルを必要とせず、かつ推論側(Solver)をアクセス・変更しないまま、Solverのタスク報酬のみを用いて強化学習でActorを最適化します。
  • 実験では、逐次レコメンドと長文脈の質問応答の双方で、強力なプロンプトベースおよび自動プロンプト最適化のベースラインを一貫して上回ることを示しています。
  • 学習された強調方策は、大小の未見Solverモデル系列やAPIベースのSolverにもゼロショットで転移し、特定のバックボーンへの過学習ではなく「再利用可能な根拠構造」を捉えていることを示唆します。

Abstract

大規模言語モデル(LLM)は推論が得意ですが、長くノイズの多い文脈の中に決定的な証拠が埋もれている場合には、それを見落とすことがしばしばあります。そこで本稿では、凍結したLLMソルバに対して証拠の選択と推論を切り離す、Evidence Emphasis(証拠強調)フレームワークであるHiLightを提案します。HiLightは、入力を圧縮したり書き換えたりすることを避けます。圧縮や書き換えは証拠を捨てたり歪めたりし得るためです。具体的には、軽量なEmphasis Actor(強調アクタ)を学習し、入力の未変更の文脈の中で重要なスパンの周囲に最小限のハイライトタグを挿入します。その後、凍結されたSolver(ソルバ)が、強調された入力に対して下流の推論を実行します。私たちはハイライトを弱い教師ありの意思決定問題として定式化し、Solverのタスク報酬のみを用いて強化学習によりActorを最適化します。これにより、証拠ラベルは不要であり、Solverへのアクセスや改変も必要ありません。逐次推薦と長文脈の質問応答の両方において、HiLightは、強力なプロンプトベースおよび自動プロンプト最適化のベースラインに対して一貫して性能を向上させます。学習された強調ポリシーは、より小さな未見のSolverファミリおよびより大きな未見のSolverファミリの両方へゼロショットで転移し、APIベースのSolverも含みます。これは、Actorが単一のバックボーンに過適合するのではなく、真に再利用可能な証拠構造を捉えていることを示唆します。