「1つのRefinerで皆を解放する」推論を引き出す推論時のリファインメント：強化学習によるクエリ洗練

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの推論能力を引き出すために、推論時にユーザーの質問を明示的な論理分解へ書き換えることで推論を誘発する「ReQueR」を提案しています。
既存の手法のように多数のモデルを個別に微調整したり固定プロンプトに頼ったりせず、強化学習で「Refiner」方策を訓練し、対象LLMは凍結したまま環境として扱います。
教育心理学の「近位発達領域」を基に、環境の難易度をRefinerの到達度に動的に合わせるカリキュラムとして「Adaptive Solver Hierarchy」を導入し、学習の安定化を図ります。
実験では、複数のアーキテクチャとベンチマークで一貫して絶対的に1.7%〜7.2%の改善が得られ、強力なベースラインに対して平均2.1%上回る結果が示されています。
本手法は、少数のモデルで学習した単一のRefinerが、多様な未見モデルでも推論を引き出せる「1対多」の推論時推論誘発を狙っており、GitHubでコードも公開されています。

要旨: 大規模言語モデル（LLM）は、多くの場合、あいまいな人間の質問と、機械の作動に必要な構造化された論理との間の分布不一致のために、その潜在的な推論能力を活用できないことがある。既存のアライメント手法は、各モデルを個別に微調整することによって許容できない $O(N)$ のコストがかかるか、あるいは、問い合わせレベルでの構造の複雑さを解決できない静的プロンプトに依存している。本論文では、ReQueR（\textbf{Re}inforcement \textbf{Que}ry \textbf{R}efinement）を提案する。これは推論の引き出しを推論時のアライメント課題として扱うモジュール型の枠組みである。我々は、強化学習を用いて、凍結したLLMを環境と見なしたうえで、洗練（Refiner）ポリシーを専門的に学習し、生の問い合わせを明示的な論理分解へ書き換える。教育心理学における古典的な「近位発達領域（Zone of Proximal Development）」に根ざし、環境の難度をRefinerの発展する能力に動的に合わせることで学習を安定化させるカリキュラム機構であるAdaptive Solver Hierarchyを導入する。ReQueRは、多様なアーキテクチャとベンチマークにわたり、1.7\%〜7.2\%という一貫した絶対的な向上をもたらし、強力なベースラインに対して平均で2.1\%上回る。重要な点として、少数のモデルで訓練された単一のRefinerが、多様で未見のモデルにおいて推論を効果的に解放できるようにする、一対多の推論時推論引き出しの有望なパラダイムを提供する。コードはhttps://github.com/newera-xiao/ReQueRで公開している。