方向性の混乱が、人間と機械の視覚における異なる帰納バイアスをレート・ディストーション幾何学で明らかにする

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間と深層視覚モデルが同程度の分類精度を達成しても、誤りの“方向”において系統的に異なること(誤りの頻度ではなく、誰が誰として誤認され、どの方向に誤るか)があると示しています。
  • 自然画像のカテゴリ分類タスクに対して12種類の摂動を加え、人間とモデルの応答を対応させて比較し、混同行列の非対称性を定量化した上で、それをレート・ディストーション(RD)枠組みで説明しています。
  • RD枠組みでは、幾何学的な3つの指標(傾きβ、曲率κ、効率AUC)を用いることで、精度だけでは見えない帰納バイアスを可視化します。
  • 人間は幅広いが弱い非対称性を示す一方、深層視覚モデルはより疎で強い方向性の「崩れ(collapses)」を示すことが分かります。
  • ロバスト性の学習は全体の非対称性を減らしますが、人間のような“段階的な幅と強さ”のプロファイルは回復できず、さらにメカニズムに基づくシミュレーションでは、これらの非対称性の構成がRDフロンティアを互いに逆方向へ押し動かし得ることが示唆されます。

Abstract

人間と現代の視覚モデルは、系統的に異なる種類の誤りをしながらも、同程度の分類精度に到達できることがあります。誤りの頻度が異なるのではなく、「誰が誰と取り違えられるか」や「どちらの方向に取り違えられるか」が異なるのです。本研究では、こうした方向性のある混同が、精度だけでは見えない、異なる帰納バイアスを明らかにすることを示します。自然画像のカテゴリ分類タスクにおいて、12種類の摂動タイプのもとで、人間と深層視覚モデルの応答を対応づけて用い、混同行列の非対称性を定量化し、それをRate-Distortion(RD)枠組みにより一般化の幾何学と結び付けます。この関係は、3つの幾何学的シグネチャ(傾き(beta)、曲率(kappa))と効率(AUC)によって要約されます。その結果、人間は広いが弱い非対称性を示す一方で、深層視覚モデルはより疎で、強い方向性の崩壊を示すことが分かりました。頑健性トレーニングはグローバルな非対称性を低減しますが、段階的な類似性に基づく、人間に似た「広さ−強さ」のプロファイルを復元できません。メカニズムに基づくシミュレーションでも、性能が一致していても、異なる非対称性の組織化はRDフロンティアを逆方向に押しやることが示されます。これらの結果により、方向性のある混同とRDの幾何学が、分布シフト下における帰納バイアスを表す、コンパクトで解釈可能なシグネチャとして位置付けられます。