要旨: 人間は、対象を定めた計画を実行することで問題を解決しますが、大規模言語モデル(LLM)は、構造化されたワークフローの実行に対しては信頼性に欠けています。私たちはRunAgentを提案します。これは、自然言語の計画を解釈しつつ、制約とルーブリックによって段階的な実行を強制するマルチエージェントの計画実行プラットフォームです。RunAgentは、明示的な制御構文(たとえば exttt{IF}、 exttt{GOTO}、 exttt{FORALL})を備えたエージェント言語により、自然言語の表現力とプログラミングの決定性を橋渡しします。各ステップの出力の構文的および意味的検証は、各ステップに対する具体的な指示に基づいて実施されます。さらにRunAgentは、各ステップごとに、その時点でのタスクの記述と当該インスタンスから、制約を自律的に導出し、検証します。RunAgentはまた、LLMベースの推論、ツール利用、コード生成と実行(たとえばPython)を動的に選択し、正確性を保証するためのエラー訂正メカニズムを組み込みます。最後にRunAgentは、各ステップの実行中に文脈履歴をフィルタリングし、関連情報のみを保持します。Natural-planおよびSciBenchデータセットでの評価により、RunAgentが基準となるLLMおよび最先端のPlanGEN手法を上回ることが示されています。
RunAgent:自然言語の計画を制約ガイド付き実行で解釈する
arXiv cs.LG / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- RunAgentは、制約とルーブリックによって手順ごとの実行を強制し、自然言語の計画をより確実に実行するためのマルチエージェント基盤である。
- IF、GOTO、FORALLといった明示的な制御構文を備えたエージェント言語を導入し、自然言語の柔軟性とプログラムのような決定性を両立している。
- 各ステップについてRunAgentは、ステップ出力の統語的・意味的な検証に加え、タスクの説明と当該インスタンスから必要な制約を自律的に導出し、検証する。
- RunAgentは、LLMによる推論、ツール利用、コード生成と実行(Pythonなど)を状況に応じて動的に選択し、正しさを保つためのエラー訂正機構も備える。
- Natural-planおよびSciBenchデータセットでの評価では、RunAgentがベースラインのLLMや最先端のPlanGEN手法よりも高い性能を示している。




