RESCORE:制御システム研究論文におけるLLM駆動のシミュレーション復元

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 記載された制御システム研究論文から数値シミュレーションを復元する際、パラメータ不足や実装の曖昧さで再現性が損なわれる問題を「Paper to Simulation Recoverability(論文からシミュレーションへの復元可能性)」として定義しました。
  • 500本のIEEE CDC論文を対象にしたベンチマークを用意し、Analyzer/Coder/Verifierの3構成からなるLLMエージェントフレームワークRESCOREを提案しています。
  • RESCOREは反復実行フィードバックと可視的比較を通じてコード復元の忠実度を高め、単発生成よりも高い再現率を達成しました。
  • 40.7%のベンチマークでタスク整合的なシミュレーション復元に成功し、手作業による再現と比べて約10倍のスピードアップ(検証時間・労力の大幅削減)が見込まれると報告しています。
  • ベンチマークとエージェントを公開する予定で、論文の自動再現をコミュニティで進めることを狙っています。

要旨: 制御システムの研究論文から数値シミュレーションを再構築することは、パラメータが十分に特定されておらず、実装の詳細が曖昧であることが多いため、しばしば困難です。私たちは、論文からシミュレーションへ回復可能であること(Paper to Simulation Recoverability)という課題を定義します。これは、自動化されたシステムが、論文の結果を忠実に再現する実行可能コードを生成できる能力です。私たちはIEEE Decision and Control(CDC)会議から500本の論文を収集したベンチマークを作成し、RESCOREという3つの構成要素からなるLLMエージェント型フレームワーク(Analyzer、Coder、Verifier)を提案します。RESCOREは、反復的な実行フィードバックと視覚的比較を用いて、再構築の忠実度を向上させます。提案手法は、ベンチマークのうち40.7%のインスタンスに対して課題整合的(task coherent)なシミュレーションを正常に回復し、シングルパス生成よりも優れた性能を示します。特に、RESCOREの自動化パイプラインは、人手による再現と比較して推定10倍の高速化を達成し、公開された制御手法を検証するために必要な時間と労力を劇的に削減します。私たちは、コミュニティの自動研究再現における進歩を促すために、ベンチマークとエージェントを公開します。