UAVベースの物体検出のための、視覚プロトタイプ条件付けによる焦点領域生成

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、ラベル付きデータが限られた状況で、動的シーンにおけるUAVベースの物体検出を改善することに特化した、レイアウトから画像を生成する拡散フレームワーク「UAVGen」を提案する。
クラスレベルの視覚プロトタイプを潜在空間に埋め込むことで、より高忠実度な物体インスタンスを生成する「Visual Prototype Conditioned Diffusion Model（VPC-DM）」を提案する。
UAVGenはさらに、合成データ生成時に物体密度の高い前景領域を強調する「Focal Region Enhanced Data Pipeline（FRE-DP）」を追加し、小さな物体に起因する境界関連のアーティファクトを低減する。
生成結果の欠落・過剰・位置ずれを修正するためのラベル精緻化ステップを含め、合成による訓練画像の有用性を高める。
実験では、UAVGenが先行の最先端手法を大きく上回り、複数の検出器アーキテクチャにわたって検出精度を改善すること、またコードが公開されていることを報告している。

要旨: 無人航空機（UAV）に基づく物体検出は重要ですが、注釈付きの学習データが限られた状況で、動的に変化するシナリオに適用する場合には特に難しい課題です。レイアウトから画像への生成アプローチは、拡散モデルに基づいてラベル付き画像を合成することで、検出精度の向上に有効であることが示されています。しかし、特に微小物体のレイアウト境界付近でアーティファクト（生成上の破綻や不自然さ）が頻繁に生じるという問題があり、そのため性能が大幅に制限されます。これらの課題に対処するため、我々はUAVベースの物体検出に特化した新しいレイアウトから画像への生成フレームワークであるUAVGenを提案します。具体的には、UAVGenはVisual Prototype Conditioned Diffusion Model（VPC-DM）を設計し、各クラスごとに代表的なインスタンスを構築して、高忠実度な物体生成のための潜在埋め込みへ統合します。さらに、合成において物体に集中した前景領域を強調するためのFocal Region Enhanced Data Pipeline（FRE-DP）を導入し、加えて欠落、過剰、ならびに位置ずれを伴う生成を修正するためのラベル精緻化を組み合わせます。広範な実験結果により、本手法は最先端のアプローチを大きく上回り、異なる検出器に統合した場合でも一貫して精度を高められることを示します。ソースコードは https://github.com/Sirius-Li/UAVGen で公開されています。