LiteVLA-H：オンボードの航空誘導とセマンティック認識のためのデュアルレート・ビジョン言語アクション推論

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageIndustry & Market MovesModels & Research

共有:

要点

LiteVLA-Hは、厳しい計算資源と通信制約のもとでドローンに搭載して低遅延に動作させることを目的とした、コンパクトな256Mパラメータのビジョン言語アクション（VLA）モデルです。
このシステムはNVIDIA Jetson AGX Orin上でデュアルレート運用を行い、短いアクショントークン出力による高速な外側ループ誘導と、危険・シーン理解やオペレータ向けナレーションを担う低速のセマンティックモードを両立します。
エッジ環境では、追加で数トークンをデコードするコストよりもマルチモーダルのプリフィルがエンドツーエンド遅延を支配する、という実験的な観察が示されます。
同一の組込みプラットフォーム上で、反応的なアクショントークン出力は50.65 ms（19.74 Hz）で、文レベルのセマンティック出力は約149.90〜164.57 ms（6.08〜6.67 Hz）で実現できると報告されています。
飛行データや航空セマンティックデータに加え、一般的なキャプション/VQAの教師データを混ぜる「知識保持型」の微調整レシピにより、航空誘導向けに特化しても記述能力の低下を抑えることを狙います。