概要: 言語モデルを、本来は苦手とするタスクで推論させるにはどうすればよいのでしょうか。私たちは、理論に触発された一連のデータセットが言語モデルの性能に与える影響を分析することで、言語モデルにおける推論がどのように進化するかを、教師あり微調整(SFT)から強化学習(RL)へと段階を追って研究します。私たちは、最善手を直接予測するようにモデルを微調整すると、効果的なRLが得られ、下流の性能も最も強くなることを見出します。しかし一方で、RLの段階は非忠実な推論(選択された手と整合しない推論)を引き起こします。別の方策として、複数手の軌跡に基づいて学習すると、同等の下流性能が得られ、忠実な推論と、より安定したRLが得られます。さらに、RLが副作用として、手の質の分布に大きな正のシフトをもたらし、幻覚(ハルシネーション)の発生率を低下させることを示します。最後に、いくつかのSFTチェックポイントの指標――評価性能、幻覚率、推論の質にまたがる指標――が、RL後のモデル性能を予測するのに有効であることを見出します。私たちは、7Bパラメータのモデルでチェスにおける主要なオープンソースの推論モデルを上回ることを可能にした、チェックポイントおよび最終モデル、ならびに学習データ、評価、コードを公開します。
チェスで推論する:データからファインチューニング、そして強化学習まで、推論がどのように進化するか
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、理論に着想を得たデータセットを用いて、教師ありファインチューニング(SFT)から強化学習(RL)へと学習を進めるにつれて、チェスにおけるLLMの推論がどのように改善するかを研究する。
- 最高の手を直接予測するSFTはRLを有効にし、強力な下流性能につながり得るが、その結果得られるRLは、選択された手と整合しない「不忠実な推論」を生成し得ることを見出す。
- 複数手のトラジェクトリ(軌跡)で学習すると、同等の下流チェス性能を達成しつつ、「忠実な推論」が改善され、RL学習がより安定する。
- 著者らは、RLが手の質の分布を前向きにシフトさせ、幻覚(ハルシネーション)の発生率を低下させることを報告し、SFTのチェックポイント指標(評価、ハルシネーション、推論の質)が、RL後の性能を予測できると特定する。
- チェックポイント、最終モデル、学習データ、評価、コードを公開し、7B(70億)パラメータのモデルがチェスにおいて主要なオープンソースの推論モデルを上回ると主張している。



