学習する前に見る:人間の視覚認知を美的品質評価に取り込む

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 自動美的品質評価(AQA)は画像を静的なピクセルとして扱い、主にセマンティック知覚に基づいて人の評価と整合させることが多いが、この枠組みは、人間が動的な視覚探索を通じて美的判断を形成する仕組みとずれている。
  • 本論文では、AestheticNetという認知に着想を得たAQA手法を提案し、意味経路(例:CLIP)に加えて、人間のような視覚的注意経路を組み込み、クロスアテンション融合で補完する。
  • 注意経路は視線整合型ビジュアルエンコーダ(GAVE)として実装され、リソース効率の高いコントラスト・ゴツァイン整合により、目のトラッキングデータでオフライン事前学習されることで、前景/背景構造や色の連続性、明るさ、照明などの要因を捉える。
  • 仮説検定を伴う実験により、セマンティックのみのベースラインよりも一貫して改善すること、また視線モジュールが多様なAQAバックボーンに対してモデル非依存の補正器として機能することが示される。
  • 著者らは、提示されたGitHubリンクからコードを公開し、手法の再利用や追加評価を可能にしている。

概要: 自動美的品質評価(Aesthetic Quality Assessment: AQA)は、画像を主として静的なピクセルベクトルとして扱い、意味的な知覚によって予測を人間の評価スコアに概ね整合させます。しかし、このパラダイムは、人間の美的認知とは異なります。人間の美的認知は、スキャン経路によって形作られる動的な視覚探索、処理の流暢さ、そしてボトムアップの顕著性とトップダウンの意図の相互作用から生じます。私たちは、人間の認知に着想を得た新しいAQAパラダイムであるAestheticNetを提案します。これは、人間のような視覚認知と意味的知覚を、二経路アーキテクチャで統合するものです。視覚的注意経路は、視線整合型ビジュアルエンコーダ(GAVE)として実装され、人間の視覚システムから注意をモデル化します。このGAVEは、資源効率の高いコントラスト視線アライメントを用いて、眼球運動(アイ・トラッキング)データ上でオフライン学習により事前学習されます。この経路は、CLIPなどの固定された意味エンコーダを用いる意味経路を、クロスアテンションによる融合を通じて補強します。視覚的注意は、前景/背景の構造、色のカスケード、明るさ、照明といった認知的な事前知識を提供します。これらは、意味にとどまらず、美的知覚を決定づける要因です。仮説検定によって検証された実験では、意味のみのベースラインに比べて一貫した改善が示され、さらに、視線モジュールが、多様なAQAバックボーンに対応可能なモデル非依存の補正器として機能することが実証されます。これは、AQAにおいて人間のような視覚認知が必要であり、かつモジュールとして独立性を持つことを裏付けます。私たちのコードは https://github.com/keepgallop/AestheticNet で公開しています。