広告

小型無人航空システムの協調的な戦術的非抵触(デコンフリクション)のための大規模言語モデルのファインチューニング

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、低高度の小型UAVに対する戦術的非抵触(デコンフリクション)を、安全性が重要なマルチエージェント問題として扱い、部分観測下でも協調的な分離と運用効率を両立することに焦点を当てている。
  • 直接のLLM利用の限界を克服するため、BlueSkyシミュレータに基づくシミュレーションから言語へのパイプラインにより、領域に根ざし、かつルールに整合したデータを生成し、それを用いて意思決定者としてファインチューニングしたLLMを活用することを提案する。
  • 事前学習済みのQwen-Math-7Bを、2つのパラメータ効率の高い手法でファインチューニングする。具体的には、LoRAによる教師ありファインチューニングと、LoRAにGRPOを加えた選好に基づくファインチューニングである。
  • 検証データセットおよび閉ループ・シミュレーションの結果から、教師ありLoRAは意思決定精度、一貫性、分離性能を大きく改善し、ニアミス(中間空中衝突)リスクの有意な低減が確認される。
  • GRPOによる選好ベースの調整は協調の向上につながり得る一方で、多様なエージェント方策と相互作用する際に頑健性が低下することが示されており、実運用に向けたトレードオフが示唆される。

Abstract

低高度空域における小型無人航空機システム(sUAS)の導入が進むにつれ、安全性に関わるクリティカルな制約のもとで信頼性の高い戦術的なデコンフリクション(進路抵触回避)の必要性が高まっている。戦術的なデコンフリクションとは、密で部分的に観測可能、かつ異種の複数エージェント環境において、協調的な分離(衝突回避)の保証と業務効率の両方を維持しながら、短い視野の意思決定を行うことを指す。大規模言語モデル(LLM)は強力な推論能力を示すものの、航空交通管制への直接適用は、ドメインに対する十分な基盤付けが欠けていることや、出力の一貫性が予測できないことによって制限されている。本論文では、人間の運用者のヒューリスティックにモデル出力を整合させる微調整戦略を用いて、協調的な複数エージェント戦術デコンフリクションにおける意思決定者としてのLLMを検討する。BlueSky航空交通シミュレータに基づく、シミュレーションから言語へのデータ生成パイプラインを提案し、確立された安全慣行を反映した、規則整合的なデコンフリクション・データセットを生成する。事前学習済みのQwen-Math-7Bモデルを、2つのパラメータ効率の高い戦略で微調整する。すなわち、低ランク適応(LoRA)による教師あり微調整と、LoRAとGroup-Relative Policy Optimization(GRPO)を組み合わせた嗜好(プリファレンス)ベースの微調整である。検証データセットおよびクローズドループ・シミュレーションに対する実験結果は、教師ありLoRA微調整が、事前学習済みLLMと比べて、意思決定の精度、一貫性、分離性能を大幅に向上させ、ニアミッドエア衝突を大きく減少させることを示している。GRPOは追加の協調的な利点をもたらす一方で、異種エージェントのポリシーと相互作用する際に頑健性が低下する。

広告