Infinite Problem Generator: エージェント主導のワークフローによる検証可能な物理推論データのスケーリング

arXiv cs.CL / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、Formula-as-Code パラダイムを用いて、保証された解法可能性を持つ物理問題を合成するエージェント主導のフレームワークである Infinite Problem Generator (IPG) を提案します。
確率的なテキスト生成とは異なり、IPG は解答を実行可能な Python プログラムとして出力することで、数学的一貫性と検証可能な推論の痕跡を保証します。
概念実証として、著者らは ClassicalMechanicsV1 を公開します。165 のシードから拡張された 1,335 の古典力学問題のデータセットで、102 個のユニークな公式を含み、各問題の平均公式数は 3.05 です。
公式数と検証コード長の間に強い線形相関（R^2 ≈ 0.95）があることを示す Complexity Blueprint を特定し、コードの複雑さによるカリキュラム生成を制御可能にします。
著者らは、AI における再現性のある推論研究を促進するため、全ての IPG パイプライン、データセット、および評価レポートを公開します。

概要: 複雑な推論能力を備えた大規模言語モデルの訓練は、検証可能で高品質なデータの不足によってボトルネックとなっています。物理学のような分野では、標準的なテキスト拡張はしばしば幻情報を生み出す一方、静的なベンチマークには微調整に必要な推論の痕跡が欠けています。私たちは Infinite Problem Generator (IPG) を紹介します。これは数式をコードとして扱うパラダイムを用い、解けることを保証する物理問題を合成するエージェント的枠組みです。確率的なテキスト生成とは異なり、IPG は解答を実行可能な Python プログラムとして構築し、厳密な数学的一貫性を強制します。概念実証として、ClassicalMechanicsV1 を公開します。これは 165 の専門家シードから拡張された、1,335 件の古典力学問題の高忠実度コーパスです。このコーパスは高い構造的多様性を示し、102種類の固有の物理式を網羅し、問題あたりの平均式数は 3.05 式です。さらに、複雑さの設計図（Complexity Blueprint）を特定し、式の数と検証コードの長さの間に強い線形相関があることを示しています（ $R^2 oughly 0.95$ ）。この関係は、コードの複雑さを正確で代理指標のない難易度指標として確立し、制御可能なカリキュラム生成を可能にします。推論を要する領域における再現性のある研究を支援するため、完全な IPG パイプライン、ClassicalMechanicsV1 データセット、および評価レポートを公開します。