自己誘導型セルフプレイのスケーリング
arXiv cs.LG / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのセルフプレイ手法が長時間の学習で学習が頭打ちになりやすいというスケーリング上の制約を扱っている。
- 著者らは、その頭打ちの原因がConjecturerが報酬を「攻略」してしまい、Solverの改善につながらない不自然に複雑な問題へ収束することだと主張する。
- Self-Guided Self-Play(SGS)として、言語モデルに追加のGuide役を設け、合成問題を未解決のターゲットへの関連度や「きれいさ・自然さ」に基づいて採点し、崩壊を抑制する。
- 中核となる仮説は、言語モデルがサブ問題が全体目標達成に有用かどうかを評価できるという点にある。
- Lean4での形式的定理証明の実験では、SGSが解答率を改善し、最強のRLベースラインを自己プレイ80ラウンド未満で上回り、200ラウンド後には7Bモデルが671Bモデル(pass@4)より多くの問題を解けることを示した。
関連記事
ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに
日経XTECH

OpenAIが臨床現場向けAI「ChatGPT for Clinicians」をリリース、ベンチマークで人間の医師より優れたスコアを出す
GIGAZINE
フィジカルAIのデータ収集方法を選定、実機テレオペ・UMI・Egocentricなど4方式を比較、開発現場で使えるデータ作成方法を解説
Qiita

「AIを使う仕事ほど危機感」「高収入ほどAIによる恩恵」などAnthropicのAIに関する調査結果が公表される
GIGAZINE
OpenAI、個人情報保護モデル「Privacy Filter」を公開 商用利用可能な軽量設計
ITmedia AI+