小型無人航空システムの協調的な戦術的非抵触(デコンフリクション)のための大規模言語モデルのファインチューニング
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低高度の小型UAVに対する戦術的非抵触(デコンフリクション)を、安全性が重要なマルチエージェント問題として扱い、部分観測下でも協調的な分離と運用効率を両立することに焦点を当てている。
- 直接のLLM利用の限界を克服するため、BlueSkyシミュレータに基づくシミュレーションから言語へのパイプラインにより、領域に根ざし、かつルールに整合したデータを生成し、それを用いて意思決定者としてファインチューニングしたLLMを活用することを提案する。
- 事前学習済みのQwen-Math-7Bを、2つのパラメータ効率の高い手法でファインチューニングする。具体的には、LoRAによる教師ありファインチューニングと、LoRAにGRPOを加えた選好に基づくファインチューニングである。
- 検証データセットおよび閉ループ・シミュレーションの結果から、教師ありLoRAは意思決定精度、一貫性、分離性能を大きく改善し、ニアミス(中間空中衝突)リスクの有意な低減が確認される。
- GRPOによる選好ベースの調整は協調の向上につながり得る一方で、多様なエージェント方策と相互作用する際に頑健性が低下することが示されており、実運用に向けたトレードオフが示唆される。



