PhysCodeBench:自己修正型マルチエージェントによる3Dシーンの物理対応シンボリックシミュレーションをベンチマーク化
arXiv cs.RO / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PhysCodeBenchは、物理現象を自然言語で記述した内容を3Dシーン向けの実行可能なシミュレーション環境へ変換する「物理対応シンボリックシミュレーション」を評価するための包括的なベンチマークとして提案される。
- ベンチマークには、力学・流体力学・軟体物理を扱う700件の手作業で作成された多様なサンプルが含まれ、コードの実行可能性と物理的正確性の両方を自動および視覚的評価で測る枠組みが用意されている。
- 自己修正型マルチエージェント洗練フレームワーク(SMRF)では、シミュレーション生成エージェント、エラー訂正エージェント、シミュレーション洗練エージェントの3つを用いて、反復的に生成物を改善し、ドメイン固有の検証で精度を高める。
- SMRFは総合67.7点を達成し、評価対象の最良ベースライン(36.3点)から31.4点の改善となり、誤り訂正とエージェント特化の有効性が複数の物理領域で示された。




