ANCORA:マニフォールドにアンカーした自己プレイによる検証可能な推論のための「問いを学ぶ」
arXiv cs.LG / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は「答えを学ぶ」から「問いを学ぶ」へパラダイムを転換し、人手なしで言語モデルが検証可能な問題(仕様)を生成し、解決し、そのフィードバックを自己改善に変換できるかを目指します。
- ANCORAは、Proposer(新しい仕様を合成)とSolver(検証済みの解答を生成)を交互に動かす自己プレイのアンカリング・カリキュラム枠組みであり、安定化のために2段階のグループ相対更新、反復的な自己蒸留SFT(有効出力マニフォールドへの射影)、およびUCBガイド付きカリキュラムDAG(厳密にフィルタされた新規でVerifierが検証した仕様のみで成長)を組み込みます。
- 著者らは、Verifierのフィードバックが疎な場合、MLRL整合報酬でもProposerが崩壊し得るため、これらの安定化機構が不可欠だと主張しています。
- Verusでの実験では、Dafny2Verusのテスト時学習においてSFT基準の26.6%から、0-shot評価で81.5%へとpass@1が大幅に向上し、PSV自己プレイ(1-shot推論使用)に対して15.8ポイント上回りました。
- さらに転移設定では、Dafny2Verusのシードから学習することで、held-out MBPPで36.2%、HumanEvalで17.2%のpass@1を達成しています。