SimulCost:LLMで物理シミュレーションを自動化するためのコスト重視ベンチマークとツールキット
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、科学的タスクにおけるLLMエージェントの評価では、トークンコストだけでなく、シミュレーション時間や実験リソースなどのツール利用コストも考慮すべきだと主張する。なぜなら、pass@kのような一般的指標は、現実的な予算の下では機能しないためである。
- SimulCostを提案する。これは物理シミュレーション向けのコスト重視ベンチマークおよびオープンソースのツールキットであり、流体力学、固体力学、プラズマ物理の12のシミュレータにまたがって、初期推定の単一ラウンド課題2,916件と試行錯誤による多ラウンド調整課題1,900件を扱う。
- 本研究では、各シミュレータに対して解析的に定義された、プラットフォーム非依存のコストモデルを用いて、LLMによるコスト感度の高いパラメータ調整と、従来の探索(スキャン)を精度と計算コストの両面で比較する。
- 結果として、最前線のLLMは単一ラウンドモードで46〜64%の成功率を達成するが、高精度領域では35〜54%に低下する。一方、多ラウンドでは71〜80%まで向上するものの、探索より1.5〜2.5倍遅く、精度向上があってもLLMアプローチが非経済的になる可能性が示される。
- 著者らはさらに、知識移転のためのパラメータ群の相関を分析し、インコンテキスト例や推論に費やす努力が性能に与える影響を評価する。加えて、新たなシミュレーション環境への拡張を可能にするため、コードとデータを公開する。



