ミッションを告げてスウォームを実行——ドローン・ウェブにおけるエージェント強化LLMの推論

arXiv cs.RO / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、自然言語で示されたミッション目標をリアルタイムのUAVスウォーム行動へと変換する、ミッション非依存の枠組みを提案している。
その枠組みでは、LLMベースのエージェントコアにMCP（Model Context Protocol）ゲートウェイと、W3C Web of Things（WoT）に基づくWeb-of-Dronesの抽象化を組み合わせ、ドローンやセンサーと“グラウンディングされた”構造化インタラクションを可能にする。
コード生成に頼るのではなく、ドローン／センサー／サービスを標準化されたWoT “Things”として公開し、連続的な状態観測と安全な作動を、ツールベースのアクセスで実現しようとしている。
ArduPilotベースのシミュレーションで複数のスウォームミッションと6種類の最先端LLMを評価した結果、明示的なグラウンディングや実行支援がない場合、汎用LLMは信頼できるクローズドループ実行を達成しにくいことが示された。
タスク固有の計画ツールやランタイムのガードレールを追加すると頑健性が大きく改善し、トークン消費量だけでは実行品質・信頼性の指標にならないと結論づけている。

要旨: 大規模言語モデル（LLM）はサイバーフィジカルシステムにおける高レベルの推論エンジンとしてますます注目されていますが、異種のインターフェース、限定的なグラウンディング（現実世界への結び付け）、および長時間にわたるクローズドループ実行の必要性により、実時間のUAV（無人航空機）スワーム管理への適用は依然として困難です。本論文では、UAVスワーム制御のためのミッション非依存型で、エージェントを強化したLLMフレームワークを提示します。ユーザはミッション目標を自然言語で表現し、システムはグラウンディングされた、リアルタイムの相互作用を通じてそれを自律的に実行します。提案アーキテクチャは、LLMベースのエージェント・コアと、モデル・コンテキスト・プロトコル（MCP）ゲートウェイ、およびW3C Web of Things（WoT）標準に基づくWeb-of-Drones抽象化を組み合わせます。ドローン、センサ、およびサービスを標準化されたWoT Thingsとして公開することで、このフレームワークは、コード生成に依存することなく、構造化されたツールベースの対話、継続的な状態観測、安全な作動を可能にします。本フレームワークを、ArduPilotベースのシミュレーションにより、4つのスワーム・ミッションおよび6つの最先端のLLMを用いて評価します。その結果、強力な推論能力があるにもかかわらず、現在の汎用目的のLLMは、明示的なグラウンディングおよび実行支援がない状態では、単純なスワーム課題でさえも、信頼性のある実行を達成することに依然として苦戦することが示されました。タスク固有の計画ツールと実行時のガードレールはロバスト性を大幅に向上させますが、トークン消費量だけでは実行の質や信頼性を示す指標にはなりません。