AeroBridge-TTA：UAV向け言語条件付きテスト時適応制御

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、学習時と実運用時でダイナミクス（質量変化、抗力の変動、アクチュエータ遅延、風など）がズレることで起きる「実行ミスマッチ」を、言語誘導UAVの主要な失敗要因として扱います。
提案手法のAeroBridge-TTAは、言語エンコーダでサブゴールを生成し、サブゴールと潜在表現に条件付けされた適応ポリシーを用い、テスト時適応（TTA）モジュールで観測した遷移から潜在変数をオンライン更新する制御パイプラインです。
言語条件付きUAVタスク5件と、同一のドメインランダム化のもと13種類のミスマッチ条件で評価した結果、AeroBridge-TTAはインドメインでは強力なPPO-MLPベースラインに匹敵しつつ、OOD（アウト・オブ・ディストリビューション）では全条件で上回ります。
OOD条件で平均+22.0ポイントの改善（62.7% vs. 40.7%）を達成し、全体の+8.5ポイントの向上はOOD領域の寄与により生じたと報告されています。
重みを固定しつつ潜在更新のステップサイズαだけを変更するアブレーションにより、潜在変数の更新メカニズムそのものがOOD性能を4.6倍押し上げることが示されています。

概要: 言語に導かれた無人航空機（UAV）は、推論や知覚が不適切だからというよりも、実行の不一致のためにしばしば失敗します。すなわち、計画された軌道と、実際のダイナミクスが学習時と異なる場合（質量の変化、抗力の変動、アクチュエータ遅延、風など）に、その軌道を追跡するコントローラの能力との間に生じるギャップです。私たちは、このギャップをテスト時適応で狙い撃ちする言語条件付制御パイプライン AeroBridge-TTA を提案します。これは3つの部分から成ります。命令をサブゴールへと写像する言語エンコーダ、サブゴールと学習された潜在表現に条件付けされた適応ポリシー、そして観測された遷移から潜在表現をオンラインで更新するテスト時適応（TTA）モジュールです。ドメインランダム化を同一にしたまま、13種類の不一致条件に対する、言語条件付のUAVタスク5件において、AeroBridge-TTA は分布内（in-distribution）では強力なPPO-MLPのベースラインに結びつけ、分布外（OOD）条件では5/5すべてで勝利します。平均で +22.0 pt（62.7% 対 40.7%）です。この全体での +8.5 pt の向上は、完全に OOD レジームによるものです。ステップサイズ $alpha$ だけを変更する同ウェイトのアブレーションでは、潜在表現の更新それ自体が $4.6 imes$ の OOD 向上に責任を持つことが示されます。