ANCORA:マニフォールドにアンカーした自己プレイによる検証可能な推論のための「問いを学ぶ」

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「答えを学ぶ」から「問いを学ぶ」へパラダイムを転換し、人手なしで言語モデルが検証可能な問題(仕様)を生成し、解決し、そのフィードバックを自己改善に変換できるかを目指します。
  • ANCORAは、Proposer(新しい仕様を合成)とSolver(検証済みの解答を生成)を交互に動かす自己プレイのアンカリング・カリキュラム枠組みであり、安定化のために2段階のグループ相対更新、反復的な自己蒸留SFT(有効出力マニフォールドへの射影)、およびUCBガイド付きカリキュラムDAG(厳密にフィルタされた新規でVerifierが検証した仕様のみで成長)を組み込みます。
  • 著者らは、Verifierのフィードバックが疎な場合、MLRL整合報酬でもProposerが崩壊し得るため、これらの安定化機構が不可欠だと主張しています。
  • Verusでの実験では、Dafny2Verusのテスト時学習においてSFT基準の26.6%から、0-shot評価で81.5%へとpass@1が大幅に向上し、PSV自己プレイ(1-shot推論使用)に対して15.8ポイント上回りました。
  • さらに転移設定では、Dafny2Verusのシードから学習することで、held-out MBPPで36.2%、HumanEvalで17.2%のpass@1を達成しています。

Abstract

私たちは、「答えることを学ぶ」から「問いかけることを学ぶ」へのパラダイムシフトを提案します。すなわち、言語モデルは検証可能な問題を生成し、それを解き、そして得られたフィードバックを人間の監督なしに自己改善へと変換できるでしょうか。私たちはANCORA(anchored-curriculum)という、統一された方策が新規の仕様を合成する提案者(Proposer)と、検証済みの解を生成する解答者(Solver)とを交互に切り替える枠組みを導入します。ANCORAは、3つの「荷重を支える」メカニズムに基づいています。第1に、仕様間での提案者の利点と、解答試行間での解答者の利点とを結び付ける、2段階のグループ相対更新です。第2に、RLの前にベースモデルをその有効な出力のマンフォールドへ射影する、反復的な自己蒸留SFTです。第3に、厳密にフィルタされた新規の、かつ解答者が検証した仕様のみを通じて成長する、UCBに導かれたカリキュラムDAGです。これらの安定化要素は、疎な検証器フィードバックがMLRL整合の報酬下であっても提案者の崩壊(collapse)を引き起こしてしまうため、必要です。Verusに具体化したところ、ANCORAは、0-shot評価のもとでテスト時トレーニング設定におけるDafny2Verusのpass@1を、26.6%のSFTベースラインから81.5%へと引き上げ、PSVの自己対戦ベースラインを15.8ポイント上回りました(PSVは1-shot推論を用いるにもかかわらず)。さらに別の転移設定では、Dafny2Verusのシードで学習すると、保持されたMBPPとHumanEvalでそれぞれ36.2%と17.2%のpass@1が得られます。

ANCORA:マニフォールドにアンカーした自己プレイによる検証可能な推論のための「問いを学ぶ」 | AI Navigate