畳み込みニューラルネットワークにおけるテクスチャ表現の知覚的ミスアラインメント

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CNNに基づくテクスチャ表現—とくに畳み込み特徴のグラム行列—が、人間の知覚するテクスチャ内容と一致しているかを検討する。
  • 多数のCNNを評価し、テクスチャ特徴の相関を、人間の知覚とのアラインメント(Brain-Score)と比較することで、標準的なCNNの「視覚システムモデル」の品質指標と、人間らしいテクスチャ表現との間に関係がないことが示される。
  • これらの結果は、人間のテクスチャ知覚が、一般的なCNNの物体認識トレーニングに基づく手法によって捉えられているものとは異なる仕組みに依存していることを示唆する。
  • 著者らは、人間のテクスチャ知覚には、現在のCNNの特徴相関に基づくテクスチャモデルでは十分に反映されていない、文脈統合が重要な役割を果たしている可能性を仮説として提示する。