要旨: 既存の UAV ビジョン-言語ナビゲーション(VLN)ベンチマークは言語に導かれた飛行を可能にしてきたが、長く段階的な経路説明とゴール志向の評価に主に焦点を当てており、短く高レベルな指示を安全な多段階挙動へ結びつける必要がある実運用には診断的でありません。私たちは HUGE-Bench を提示します。高レベル UAV ビジョン-言語-アクション(HL-VLA)タスクのベンチマークで、エージェントが簡潔な言語を解釈し、安全意識を持って複雑で処理志向の軌道を実行できるかを検証します。HUGE-Bench は実世界のデジタルツインシーンを4つ、8つの高レベルタスク、2.56M メートルの軌道から成り、整列済みの3D Gaussian Splatting(3DGS)-Mesh 表現の上に構築されており、フォトリアリスティックなレンダリングと衝突検知可能なジオメトリを組み合わせたスケーラブルな生成と衝突認識評価を可能にします。私たちはプロセス指向および衝突認識の指標を導入し、プロセス忠実度、終端の正確さ、安全性を評価します。代表的な最先端の VLA モデルを対象とした実験は、高レベルの意味的完遂と安全な実行において顕著なギャップを明らかにし、HUGE-Bench を高レベルの UAV 自律性の診断用テストベッドとして強調します。
HUGE-Bench:高レベル UAV ビジョン・言語・行動タスクのベンチマーク
arXiv cs.CV / 2026/3/23
📰 ニュースModels & Research
要点
- HUGE-Bench は、高レベルの UAV ビジョン・言語・行動タスクのベンチマークを導入し、エージェントが簡潔な言語を解釈して安全性を意識した複雑でプロセス指向の軌道を実行できるかを検証します。
- このベンチマークは、実世界のデジタルツインシーンを4つ、8つの高レベルタスク、総軌跡距離を2.56百万メートルにわたりカバーし、衝突検知機能を備えたジオメトリを用いたフォトリアリスティックなレンダリングのために、3D ガウス・スプラッティング・メッシュ表現に依存します。
- プロセス指向および衝突対応の指標を定義し、UAV ナビゲーションタスクにおけるプロセス忠実度、終端精度、および安全性を評価します。
- 最先端の Vision-Language-Action(VLA)モデルを用いた実験は、高レベルの意味的完成と安全な実行にギャップがあることを示し、HUGE-Bench を高レベルの UAV 自律性の診断用テストベッドとして確立します。