サリエンシーと勾配ベクトルフローフュージョンによるセマンティックに安定な画像構図解析

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、写真の構図を幾何構造上を流れる視覚的注意のフローとして捉えることで、意味内容に頑健かつ空間レイアウトを識別できる表現を実現できると主張しています。
提案手法VFCNetは、サリエンシーとエッジ情報を勾配ベクトルフロー（GVF）場へ統合し、デュアルストリームのGVF表現を注意機構で統合する構成です。
VFCNetはDINOv3バックボーンでマルチスケールのフローフィーチャを抽出し、PICDベンチマークで最先端性能を達成し、従来の最良手法からCDA-1とCDA-2をそれぞれ33.1%と36.1%改善しています。
さらに、自己教師ありDINOv3特徴に基づく単純な分類器でも、構図専用に作られたより複雑なモデルより大きく優れることを示し、汎用表現の強さを強調しています。
GitHubでコードを公開しており、再現性とさらなる検証・発展が可能になっています。

概要: 写真の構図を信頼性高く計算的に評価するには、空間的なレイアウトを識別できる一方で、意味内容に対して頑健な特徴が必要である。本論文では、構図は幾何学的構造にまたがる視覚的注意の流れとして理解できるという仮定に基づく、低レベルな表現を提案する。視線誘導（saliency）とエッジ情報を、勾配ベクトルフロー（GVF）場へ融合するVFCNetを導入する。本モデルは、デュアルストリームのGVF表現を計算し、それらを注意機構で統合し、DINOv3バックボーンを用いて多スケールのフロ—特徴を抽出する。VFCNetはPICDベンチマークで最先端の性能を達成する（CDA-1: 0.683、CDA-2: 0.629）。これは、従来の最良手法に対してそれぞれ33.1
%および36.1
%改善するものである。さらに、自己教師ありのDINOv3特徴に対する単純な分類器は、より洗練された、構図に特化したモデルを大幅に上回ることも示す。コードは https://github.com/ADadras/VFCNet で利用可能である