PilotBench:安全制約を伴う一般航空エージェントのためのベンチマーク

arXiv cs.AI / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PilotBenchは、新たに導入されたベンチマークであり、LLMベースのエージェントが、明示的な安全制約を遵守しながら安全性に重大な飛行軌道と姿勢を予測できるかを検証します。
  • このベンチマークは、9つの異なる飛行フェーズにまたがる708件の実世界の一般航空の軌跡から構築され、同期された34チャネルのテレメトリを用いて、セマンティック推論と物理に基づく予測の両方を評価します。
  • 新しい複合指標であるPilot-Scoreは、回帰の精度(60%)と指示追従(40%)および安全遵守を組み合わせ、バランスよく性能を測定します。
  • 評価した41のモデルにおいて、従来型の予測モデルは数値の精度(MAEの低さ)でより優れている一方、LLMは指示追従性/操縦可能性が高いものの、精度とのトレードオフがあることが示され、「精度-操縦可能性の二分性(Precision-Controllability Dichotomy)」が明らかになります。
  • フェーズ別の結果では、LLMの性能は高負荷フェーズ(例:上昇、進入)で急激に劣化することが示され、LLMの記号的推論と専門の数値予測器を組み合わせるハイブリッドシステムが動機づけられます。