要旨: テキスト—空中人物検索は、目撃者の説明からUAV(無人航空機)で撮影された画像内の対象を特定し、知的交通および公共の安全保障アプリケーションを支援することを目的としています。地上視点のテキスト—画像人物検索と比べて、UAVで撮影された画像は、視点角度や飛行高度の大きな変動により視覚情報が劣化しがちであり、その結果、テキスト記述との意味的整合を取ることが非常に困難になります。この問題に対処するために、本研究では、新しいクロスモーダル・ファジィアラインメント・ネットワークを提案します。これは、ファジィ論理によりトークン単位の信頼性を定量化して、正確なきめ細かな整合を実現し、さらに地上視点画像をブリッジエージェントとして組み込むことで、空中画像とテキスト記述のギャップをより緩和し、テキスト—空中人物検索のために用います。具体的には、ファジィ・トークン・アラインメント・モジュールを設計し、ファジィ所属度関数を用いてトークン単位の関連の強さを動的にモデル化し、観測できない、またはノイズを含むトークンの影響を抑制します。これにより、欠落した視覚的手がかりによって生じる意味的不整合を緩和し、トークン単位の意味的整合の頑健性を大幅に高めることができます。さらに、空中画像とテキスト記述のギャップをさらに緩和するために、文脈に応じた動的アラインメント・モジュールを設計し、ブリッジとして地上視点エージェントをテキスト—空中整合に組み込みます。そして、直接的な整合とエージェント支援型の整合を、頑健性を高めるように適応的に組み合わせます。加えて、属性のパース、初期キャプション付け、リファインメントにテキスト生成を分解するために chain-of-thought を用いて、大規模ベンチマークデータセット AERI-PEDES を構築し、それによりテキストの正確性と意味的整合性を向上させます。AERI-PEDES および TBAPR に関する実験により、本手法の優位性が示されました。
テキスト・航空画像間の人物検索のためのクロスモーダル・ファジィアラインメント・ネットワークと大規模ベンチマーク
arXiv cs.CV / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、目撃者の文章とUAV(無人航空機)画像を照合するテキスト・航空画像人物検索(text-aerial person retrieval)を扱う。異なる角度や高度によって視覚が著しく劣化するため、対応付けが困難である。
- そこで、ファジィ論理を用いてトークン(語彙単位)レベルの信頼性を推定するクロスモーダル・ファジィアラインメント・ネットワークを提案し、ノイズのある、または観測できないトークンの重みを下げることで、きめ細かなテキスト—画像アラインメントを改善する。
- さらに、航空画像とテキストの間にあるギャップを縮めるため、地上視点画像をブリッジエージェントとして用いる文脈対応型の動的アラインメント手法を導入し、直接的なアラインメントとエージェント支援によるアラインメントを状況に応じて適応的にブレンドする。
- また、大規模ベンチマークデータセットAERI-PEDESを構築する。これは、キャプションの正確性と意味の一貫性を高めるために、多段階のテキスト分解パイプラインによって生成される。
- AERI-PEDESおよびTBAPRでの実験では、提案手法が従来手法を上回り、トークンレベルの意味アラインメントに対するより強い頑健性が示される。
