コストゼロで認知アラインメント：人間の注意バイアスを誘導して解釈可能なビジョン・トランスフォーマーを作る

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文は、人間の注視（サリエンシ）固定マップを用いてVision Transformer（ViT）の自己注意重みを微調整することで、ViTの注意と人間の注意特性のギャップを縮められるかを検討しています。
シャッフルした対照ベースラインと比較すると、微調整したViT-B/16は5つのサリエンシ指標で有意に改善し、3つの人間らしい注意バイアス（例：大きな物体に対する反人間的な傾向が小さな物体へ反転、アニメ性の選好を強める、極端な注意のエントロピーを低下）を示します。
ベイズのパリティ分析により、この認知的なアラインメントはImageNet、ImageNet-C、ObjectNetの分類性能を損なうことなく達成される、という結論が示されています。
同様の手順をResNet-50のCNNに適用すると、アラインメントと精度の両方が悪化するため、ViTのモジュール化された自己注意が「空間的な優先度」と「表象（表現）ロジック」を切り分けるのに特有に適していることが示唆されます。
著者らは、生物学的に根ざした事前知識が、人間に整合した注意から“無料”の性質として創発し、トランスフォーマー型視覚モデルの解釈可能性を高められると結論づけています。
本稿arXiv:2604.20027v1は、この知見（解釈可能性のための認知アラインメント）を報告する新しいプレプリント発表です。