要旨:信頼性の高いUAVの物体検出には、RGBの手がかりを抑制する照明変化、モーションブラー、そしてシーンのダイナミクスに対する頑健性が必要である。熱長波赤外線(LWIR)センシングは低照度下でもコントラストを保持し、イベントカメラはマイクロ秒レベルの時間的エッジを保持する。しかし、この3つのモダリティを統一的な検出器へ統合することは、体系的に研究されていない。われわれは、デュアルストリーム階層型ビジョントランスフォーマを用いてRGB、熱、イベントのデータを処理する三モダリティの枠組みを提示する。エンコーダの選択した深さにおいて、Modality-Aware Gated Exchange(MAGE)がセンサ間のチャネルおよび空間のゲーティングを適用し、Bidirectional Token Exchange(BiTE)モジュールが深さ方向と点方向の洗練(depthwise-pointwise refinement)を伴う双方向のトークンレベル注意を実行する。その結果、標準的な特徴ピラミッドと2段階検出器に向けて、解像度を保持した融合マップを生成する。
われわれは、同期され事前に整合されたRGB-熱-イベントストリームからなる10,489フレームのUAVデータセットと、昼間・夜間のフライトにわたる24,223台の注釈付き車両を導入する。61件の制御されたアブレーションにより、融合配置、メカニズム(ベースラインMAGE+BiTE、CSSA、GAFF)、モダリティの部分集合、そしてバックボーンの容量を評価する。三モダリティ融合は、すべての二モダリティのベースラインよりも改善し、融合の深さが有意な影響を与えることが分かる。また、軽量なCSSAの派生版が最小のコストで大部分の利得を回復する。 本研究は、三モダリティUAVベース物体検出に対する最初の体系的なベンチマークと、モジュール化されたバックボーンを提供する。
UAVベースの物体検出のためのトライモーダル融合トランスフォーマー
arXiv cs.CV / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本研究は、照明変化・モーションブラー・動的シーンによりRGBの手掛かりが抑えられる状況でも堅牢なUAV物体検出を目的に、RGB・サーマル(LWIR)・イベントカメラの3モダリティを統合的に活用する枠組みを提案する。
- デュアルストリームの階層型ビジョントランスフォーマーを用い、Modality-Aware Gated Exchange(MAGE)とBidirectional Token Exchange(BiTE)の2つの融合モジュールで、エンコーダの所定段階でセンサ間の情報交換を行い、解像度を保った融合特徴マップを作って特徴ピラミッドと2段階検出器に入力する。
- 10,489フレームのRGB–サーマル–イベントが同期され事前整列されたUAVデータセットと、日中・夜間飛行にまたがる24,223台の車両のアノテーションを新たに導入する。
- 61件のアブレーション実験により、トライモーダル融合が全てのデュアルモーダル基準を上回り、融合の深さが性能に大きく影響することを示す一方、軽量なCSSA変種でも低コストで効果の大半を回復できることを明らかにする。
- 本成果は、トライモーダルUAV物体検出に関する最初の体系的ベンチマークとモジュール型バックボーンとして位置づけられ、今後の研究・比較を後押しする。




