チェスで推論する：データからファインチューニング、そして強化学習まで、推論がどのように進化するか

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、理論に着想を得たデータセットを用いて、教師ありファインチューニング（SFT）から強化学習（RL）へと学習を進めるにつれて、チェスにおけるLLMの推論がどのように改善するかを研究する。
最高の手を直接予測するSFTはRLを有効にし、強力な下流性能につながり得るが、その結果得られるRLは、選択された手と整合しない「不忠実な推論」を生成し得ることを見出す。
複数手のトラジェクトリ（軌跡）で学習すると、同等の下流チェス性能を達成しつつ、「忠実な推論」が改善され、RL学習がより安定する。
著者らは、RLが手の質の分布を前向きにシフトさせ、幻覚（ハルシネーション）の発生率を低下させることを報告し、SFTのチェックポイント指標（評価、ハルシネーション、推論の質）が、RL後の性能を予測できると特定する。
チェックポイント、最終モデル、学習データ、評価、コードを公開し、7B（70億）パラメータのモデルがチェスにおいて主要なオープンソースの推論モデルを上回ると主張している。

概要: 言語モデルを、本来は苦手とするタスクで推論させるにはどうすればよいのでしょうか。私たちは、理論に触発された一連のデータセットが言語モデルの性能に与える影響を分析することで、言語モデルにおける推論がどのように進化するかを、教師あり微調整（SFT）から強化学習（RL）へと段階を追って研究します。私たちは、最善手を直接予測するようにモデルを微調整すると、効果的なRLが得られ、下流の性能も最も強くなることを見出します。しかし一方で、RLの段階は非忠実な推論（選択された手と整合しない推論）を引き起こします。別の方策として、複数手の軌跡に基づいて学習すると、同等の下流性能が得られ、忠実な推論と、より安定したRLが得られます。さらに、RLが副作用として、手の質の分布に大きな正のシフトをもたらし、幻覚（ハルシネーション）の発生率を低下させることを示します。最後に、いくつかのSFTチェックポイントの指標――評価性能、幻覚率、推論の質にまたがる指標――が、RL後のモデル性能を予測するのに有効であることを見出します。私たちは、7Bパラメータのモデルでチェスにおける主要なオープンソースの推論モデルを上回ることを可能にした、チェックポイントおよび最終モデル、ならびに学習データ、評価、コードを公開します。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

日経XTECH

チェスで推論する：データからファインチューニング、そして強化学習まで、推論がどのように進化するか

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」