AI Navigate

自己進化型推論システムにおけるカリキュラム崩壊の予防

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Prism は、自己進化型推論における多様性崩壊に対処するため、意味的分割にわたる持続的な多様性シグナルと、解法可能性の境界を保持する Zone-of-Proximal-Development(ZPD)ゲートを導入します。
  • 反復を通じて過少表現となっている領域の均等な探索を促進し、反復間の意味的カバレッジを自己進化型推論者の改善における高レバレッジの軸として捉える。
  • 七つの数学ベンチマークにおいて、Prism は六つのタスクで最高精度を達成し、AMC で最大 3.98 ポイント、Minerva Math で最大 3.68 ポイントの絶対的改善を、ベースラインと比較して得た。
  • この研究は 100,000 の数学問題を含む Prism-Math データセットを生み出し、著者らはコード、データセット、モデルをコミュニティに公開します。

要約: 自己進化する推論フレームワークは、検証可能な報酬を用いて外部監視なしに問題を反復的に生成・解決することでLLMsの推論能力を向上させます。理想的には、こうしたシステムは多様な問題空間を探索し、学習価値の高い新たな課題を提案することが期待されます。これまでの研究は主に解法側の最適化と検証に焦点を当ててきましたが、最近の証拠は、自己進化型システムが数回の反復後に新たな問題を提案する際に多様性の崩壊を示すことがあり、表面的な変化が保持されていても生じ得ることを示唆しています。われわれは Prism を導入します。これは問を中心とした自己進化法で、この崩壊に直接対処します。Prism は、数学問題の埋め込みにより誘導された意味論的分割にわたる持続的な多様性シグナルを定義し、それを用いて反復を通じて過少表現の領域の均衡のとれた探索を促します。このカバレッジシグナルは、発達の最近接領域(ZPD)ゲートと組み合わせて、解決可能性の境界を保持します。7つの広く用いられる数学的推論ベンチマークに対して、5つの自己進化ベースラインと比較して評価したところ、 Prism は7タスク中6つで最高精度を達成し、AMC で R-Zero より絶対点で +3.98、Minerva Math で +3.68 の利得を得ました。 Prism はまた、反復を通じて意味論的に多様で挑戦的な問題を生成し、10万問からなる Prism-Math データセットの構築をもたらしています。これらの結果は、反復を横断する意味論的カバレッジが、より有能な自己進化推論エージェントを構築する上で高いレバレッジを持つ、未開拓の軸であることを示しています。我々は、研究の促進のためにコード、データセット、モデルを公開します。