PhysCodeBench：自己修正型マルチエージェントによる3Dシーンの物理対応シンボリックシミュレーションをベンチマーク化

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PhysCodeBenchは、物理現象を自然言語で記述した内容を3Dシーン向けの実行可能なシミュレーション環境へ変換する「物理対応シンボリックシミュレーション」を評価するための包括的なベンチマークとして提案される。
ベンチマークには、力学・流体力学・軟体物理を扱う700件の手作業で作成された多様なサンプルが含まれ、コードの実行可能性と物理的正確性の両方を自動および視覚的評価で測る枠組みが用意されている。
自己修正型マルチエージェント洗練フレームワーク（SMRF）では、シミュレーション生成エージェント、エラー訂正エージェント、シミュレーション洗練エージェントの3つを用いて、反復的に生成物を改善し、ドメイン固有の検証で精度を高める。
SMRFは総合67.7点を達成し、評価対象の最良ベースライン（36.3点）から31.4点の改善となり、誤り訂正とエージェント特化の有効性が複数の物理領域で示された。

Abstract

3Dシーンに対する物理を意識したシンボリック・シミュレーションは、ロボティクス、身体性のあるAI、そして科学計算にとって重要であり、自然言語による物理現象の記述を理解し、それを実行可能なシミュレーション環境へと変換できるモデルが必要となります。大規模言語モデル（LLM）は汎用的なコード生成に優れていますが、物理的な記述とシミュレーション実装との間に存在する意味ギャップに苦戦します。我々は、物理を意識したシンボリック・シミュレーションを評価するための最初の包括的ベンチマークであるPhysCodeBenchを導入します。これは、力学、流体力学、ソフトボディ物理の3分野にわたる、専門家による注釈付きの手作業で作成された多様なサンプル700件から構成されます。我々の評価フレームワークは、自動評価と視覚的評価の両方を通じて、コードの実行可能性と物理的正確さの双方を測定します。これに基づき、3つの専門エージェント（シミュレーション生成器、誤り訂正器、シミュレーション洗練器）を備えた自己修正型マルチエージェント洗練フレームワーク（SMRF）を提案します。これらのエージェントは、ドメイン固有の検証と反復的に協働して、物理的に正確なシミュレーションを生成します。SMRFは、評価対象となったSOTAモデル群のうち最良のベースラインが36.3点であったのに対し、全体で67.7点の性能を達成しており、31.4点の改善に相当します。分析の結果、誤り訂正が物理を意識したシンボリック・シミュレーションの正確さにとって決定的に重要であり、専門化されたマルチエージェント手法は、検証した物理領域のいずれにおいても、単一エージェント手法を大幅に上回ることが示されます。