凍結LLM向けのエビデンス強調(HiLight)の学習
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、長いノイズの多い文脈で決定的な根拠を見落としがちなLLMに対し、エビデンス選択と推論を分離する「HiLight」フレームワークを提案します。
- HiLightは入力の書き換えや圧縮を行わず、軽量な「Emphasis Actor」を学習して、元の文脈のまま重要な根拠となるスパンの周囲に最小限のハイライトタグを挿入します。
- ハイライトを意思決定問題として定式化し、エビデンスラベルを必要とせず、かつ推論側(Solver)をアクセス・変更しないまま、Solverのタスク報酬のみを用いて強化学習でActorを最適化します。
- 実験では、逐次レコメンドと長文脈の質問応答の双方で、強力なプロンプトベースおよび自動プロンプト最適化のベースラインを一貫して上回ることを示しています。
- 学習された強調方策は、大小の未見Solverモデル系列やAPIベースのSolverにもゼロショットで転移し、特定のバックボーンへの過学習ではなく「再利用可能な根拠構造」を捉えていることを示唆します。



