要旨: PRISM-MCTS:メタ認知的省察による推論軌跡からの学習 Siyuan Cheng, Bozhong Tian, Yanchao Hao, Zheng Wei 公開日: 2026年4月6日, 最終更新日: 2026年4月6日 ACL 2026 Findings Conference, Area Chairs, Reviewers, Publication Chairs, Authors 改訂 BibTeX CC BY 4.0 キーワード: NLPのための効率的/低資源手法, 生成, 質問応答 要旨: OpenAI o1に代表されるような推論モデルの登場は、直感的な認知から熟慮的な認知への転換を意味し、スケーリング則の焦点を事前学習のパラダイムからテスト時計算へと効果的に再配置します。モンテカルロ木探索(MCTS)はこの領域で有望であることが示されてきましたが、既存手法は一般に各ロールアウトを独立した軌跡として扱います。この情報共有の欠如により、探索プロセスが先行する探索から得られた洞察を活用できないため、深刻な非効率と大きな計算冗長性が生じます。これらの制約に対処するために、私たちは、人間の並列的な思考と省察プロセスに着想を得た新しい推論フレームワークであるPRISM-MCTSを提案します。PRISM-MCTSは、プロセス報酬モデル(PRM)と動的な共有メモリを統合し、「ヒューリスティック」と「誤謬」を両方を捉えます。成功した戦略を強化し、誤りやすい分岐を刈り込むことで、PRISM-MCTSは効果的に洗練(refinement)を実現します。さらに、PRMのためのデータ効率の高い学習戦略を開発し、少数ショットの設定下でも高い忠実度による評価を達成します。多様な推論ベンチマークにわたる実証評価は、PRISM-MCTSの有効性を裏付けています。特に、GPQAにおいて軌跡の必要数を半減させつつ、MCTS-RAGやSearch-o1を上回ります。これは、徹底的に探索するのではなく、推論を適切に用いて推論(inference)をスケールさせていることを示しています。
PRISM-MCTS:推論軌跡から学習しメタ認知的リフレクションを行う
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来のMCTS系手法よりも改良された推論フレームワークPRISM-MCTSを提案する。各軌跡を孤立したものとして扱うのではなく、ロールアウト間で情報を共有することで性能を向上させる。
- PRISM-MCTSは、プロセス報酬モデル(PRM)と動的な共有メモリを組み合わせ、効果的なヒューリスティックと繰り返される誤り(誤謬)をともに捉える。これにより良い分岐を強化し、誤りが起きやすい分岐を枝刈りする。
- 著者らは、PRMのためのデータ効率の高いfew-shot学習戦略を導入し、大規模な学習データを用いずに高忠実度な評価を可能にする。
- 複数の推論ベンチマークでの実験により、PRISM-MCTSはGPQAで必要な軌跡数を約半分に削減し、MCTS-RAGやSearch-o1を含むベースラインを上回ることが示される。これは、推論計算(inference compute)をより慎重に使うことを強調する結果である。
- 本研究は、熟考型の推論モデルにおいて、従来の事前学習のスケーリング則よりもテスト時計算(test-time computation)がより中核的な要因であることを位置づける。これにより、より効率的な探索とリフレクションの手法が動機づけられる。



