SimulCost：LLMで物理シミュレーションを自動化するためのコスト重視ベンチマークとツールキット

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、科学的タスクにおけるLLMエージェントの評価では、トークンコストだけでなく、シミュレーション時間や実験リソースなどのツール利用コストも考慮すべきだと主張する。なぜなら、pass@kのような一般的指標は、現実的な予算の下では機能しないためである。
SimulCostを提案する。これは物理シミュレーション向けのコスト重視ベンチマークおよびオープンソースのツールキットであり、流体力学、固体力学、プラズマ物理の12のシミュレータにまたがって、初期推定の単一ラウンド課題2,916件と試行錯誤による多ラウンド調整課題1,900件を扱う。
本研究では、各シミュレータに対して解析的に定義された、プラットフォーム非依存のコストモデルを用いて、LLMによるコスト感度の高いパラメータ調整と、従来の探索（スキャン）を精度と計算コストの両面で比較する。
結果として、最前線のLLMは単一ラウンドモードで46〜64%の成功率を達成するが、高精度領域では35〜54%に低下する。一方、多ラウンドでは71〜80%まで向上するものの、探索より1.5〜2.5倍遅く、精度向上があってもLLMアプローチが非経済的になる可能性が示される。
著者らはさらに、知識移転のためのパラメータ群の相関を分析し、インコンテキスト例や推論に費やす努力が性能に与える影響を評価する。加えて、新たなシミュレーション環境への拡張を可能にするため、コードとデータを公開する。

Abstract

科学タスクに対するLLMエージェントの評価は、シミュレーション時間や実験リソースといったツール使用コストを無視し、トークンコストに焦点を当ててきました。その結果、pass@k のような指標は、現実的な予算制約の下では実用的でなくなります。このギャップに対処するために、物理シミュレーションにおけるコストに敏感なパラメータチューニングを対象とした最初のベンチマークである SimulCost を導入します。SimulCost は、LLM によるコストに敏感なパラメータ調整と、従来のスキャン（全探索的探索）アプローチを、精度と計算コストの両面で比較します。対象は、流体力学、固体力学、プラズマ物理の 12 のシミュレータにまたがり、2,916 件の単一ラウンド（初期推定）タスクおよび 1,900 件のマルチラウンド（試行錯誤による調整）タスクです。各シミュレータのコストは解析的に定義され、プラットフォーム非依存です。最前線の LLM は単一ラウンドモードで 46--64% の成功率を達成しますが、高精度要件の下では 35--54% まで低下し、特に高精度タスクでは初期推定が信頼できないことを示します。マルチラウンドモードは成功率を 71--80% に改善しますが、LLM は従来のスキャンより 1.5--2.5 倍遅く、費用対効果の面で非経済的な選択になります。さらに、知識伝達の可能性に関するパラメータ群間の相関、インコンテキスト例および推論に要する労力の影響を調査し、導入や微調整に関する実務的な示唆を提供します。私たちは、物理シミュレーションのためのコストを意識したエージェント設計の改善に関する研究を促進し、新たなシミュレーション環境の拡張を支援するために、静的ベンチマークおよび拡張可能なツールキットとして SimulCost をオープンソースで公開します。コードとデータは https://github.com/Rose-STL-Lab/SimulCost-Bench で利用可能です。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

SimulCost：LLMで物理シミュレーションを自動化するためのコスト重視ベンチマークとツールキット

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer