ANCORA：マニフォールドにアンカーした自己プレイによる検証可能な推論のための「問いを学ぶ」

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「答えを学ぶ」から「問いを学ぶ」へパラダイムを転換し、人手なしで言語モデルが検証可能な問題（仕様）を生成し、解決し、そのフィードバックを自己改善に変換できるかを目指します。
ANCORAは、Proposer（新しい仕様を合成）とSolver（検証済みの解答を生成）を交互に動かす自己プレイのアンカリング・カリキュラム枠組みであり、安定化のために2段階のグループ相対更新、反復的な自己蒸留SFT（有効出力マニフォールドへの射影）、およびUCBガイド付きカリキュラムDAG（厳密にフィルタされた新規でVerifierが検証した仕様のみで成長）を組み込みます。
著者らは、Verifierのフィードバックが疎な場合、MLRL整合報酬でもProposerが崩壊し得るため、これらの安定化機構が不可欠だと主張しています。
Verusでの実験では、Dafny2Verusのテスト時学習においてSFT基準の26.6%から、0-shot評価で81.5%へとpass@1が大幅に向上し、PSV自己プレイ（1-shot推論使用）に対して15.8ポイント上回りました。
さらに転移設定では、Dafny2Verusのシードから学習することで、held-out MBPPで36.2%、HumanEvalで17.2%のpass@1を達成しています。

Abstract

私たちは、「答えることを学ぶ」から「問いかけることを学ぶ」へのパラダイムシフトを提案します。すなわち、言語モデルは検証可能な問題を生成し、それを解き、そして得られたフィードバックを人間の監督なしに自己改善へと変換できるでしょうか。私たちはANCORA（anchored-curriculum）という、統一された方策が新規の仕様を合成する提案者（Proposer）と、検証済みの解を生成する解答者（Solver）とを交互に切り替える枠組みを導入します。ANCORAは、3つの「荷重を支える」メカニズムに基づいています。第1に、仕様間での提案者の利点と、解答試行間での解答者の利点とを結び付ける、2段階のグループ相対更新です。第2に、RLの前にベースモデルをその有効な出力のマンフォールドへ射影する、反復的な自己蒸留SFTです。第3に、厳密にフィルタされた新規の、かつ解答者が検証した仕様のみを通じて成長する、UCBに導かれたカリキュラムDAGです。これらの安定化要素は、疎な検証器フィードバックがMLRL整合の報酬下であっても提案者の崩壊（collapse）を引き起こしてしまうため、必要です。Verusに具体化したところ、ANCORAは、0-shot評価のもとでテスト時トレーニング設定におけるDafny2Verusのpass@1を、26.6%のSFTベースラインから81.5%へと引き上げ、PSVの自己対戦ベースラインを15.8ポイント上回りました（PSVは1-shot推論を用いるにもかかわらず）。さらに別の転移設定では、Dafny2Verusのシードで学習すると、保持されたMBPPとHumanEvalでそれぞれ36.2%と17.2%のpass@1が得られます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/1Dailyインサイトを見る →

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

AI-SCHOLAR

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

日経XTECH

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

Dev.to

VPNなしでAWS・GCP・AzureにAIエージェントをデプロイした方法

Dev.to

TestSprite MCPサーバー完全ガイド（インドネシア語）— Getting Startedドキュメント

Dev.to

ANCORA：マニフォールドにアンカーした自己プレイによる検証可能な推論のための「問いを学ぶ」

要点

Abstract

💡 この記事が使われたインサイト

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

VPNなしでAWS・GCP・AzureにAIエージェントをデプロイした方法

TestSprite MCPサーバー完全ガイド（インドネシア語）— Getting Startedドキュメント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ 「人が多い領域」の自動化を目指す

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

VPNなしでAWS・GCP・AzureにAIエージェントをデプロイした方法

TestSprite MCPサーバー完全ガイド（インドネシア語）— Getting Startedドキュメント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す