要旨: カモフラージュされたシーン理解(CSU)は、その広範な実用的な含意により、大きな注目を集めてきました。しかし、この分野では、堅牢な画像-テキストのクロスモーダル整合が十分に研究されておらず、カモフラージュされた状況とそれに関連する応用のより深い理解が妨げられています。そこで本研究では、典型的な画像-テキスト検索タスクに着目し、「カモフラージュに配慮した画像-テキスト検索」(``camouflage-aware image-text retrieval''(CA-ITR))と呼ぶ新たなタスクを提案します。まず、10.5K件のサンプルからなる専用のカモフラージュ画像-テキスト検索データセット(CamoIT)を構築し、多粒度のテキスト注釈を含めます。CamoIT上で実施したベンチマーク結果から、既存の最先端検索技術に対してCA-ITRが抱える根本的な課題が明らかになります。これらの課題は主に、対象物のカモフラージュ特性および複雑な画像内容によって引き起こされます。解決策として、カモフラージュ専門家の協調ネットワーク(CECNet)を提案します。CECNetはデュアルブランチの視覚エンコーダを備え、1つのブランチは全体的な画像表現を捉え、もう一方はカモフラージュされた物体の表現を注入するための専用モデルを組み込みます。ブランチ間の補完性を活用するために、新規な信頼度条件付きグラフ注意(C\textsuperscript{2}GA)メカニズムを組み込みます。比較実験の結果、CECNetはCA-ITRの全体精度を約29%向上させ、代表的な7つの検索モデルを上回ります。データセットとコードは https://github.com/jiangyao-scu/CA-ITR で公開される予定です。
専門家協調によるカモフラージュ認識対応画像—テキスト検索
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、カモフラージュされたシーンにおけるクロスモーダル整合を改善することを目的とした、新たなベンチマーク課題「カモフラージュ認識対応画像—テキスト検索(CA-ITR)」を提案する。既存手法では対応が難しい状況を対象としている。
- 約10.5K件のサンプルからなる専用データセット「CamoIT」を導入し、迷彩や複雑な画像条件下で検索を評価するために、多粒度のテキスト注釈を用いる。
- 著者らは、迷彩エキスパート協調ネットワークである「CECNnet」を提示する。これはデュアルの視覚エンコーダ・ブランチを備え(全体的特徴と、カモフラージュ対象物に特化したブランチ)、協調動作を行う。
- 相補的な情報をブランチ間で統合するために、信頼度条件付きグラフ注意機構(C2GA)を用い、頑健性を高める。
- CamoITに対する実験では、CECNnetが7つの代表的な検索ベースラインに比べて全体精度を約29%向上させることを示し、データセット/コードはGitHubで共有されている。




