人間と機械の知覚を探るための、意味的に曖昧な画像を生成するための枠組み

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CLIP埋め込み空間上で概念間を補間することで連続的な曖昧性スペクトルを生成し、心理物理学に基づいた枠組みを提示する。
この曖昧性プローブを用いて、「アヒル」と「ウサギ」のような概念間で、人間と機械の視覚分類器が意味的な境界をどこに置くのかを測定し、比較する。
研究の結果、体系的なアラインメントの違いが見つかった。機械の分類器は「ウサギ」へのバイアスがより強い一方で、人間は画像合成に用いたCLIP埋め込みにより強く整合する。
「ガイダンススケール」は、制御された条件下では、機械の分類器よりも人間の曖昧性への感度により強く影響することを報告しており、知覚メカニズムの相違を示唆する。
本枠組みは、人間の心理物理学、分類器の挙動／解釈可能性、生成画像合成をつなぐ診断的ブリッジとして位置づけられ、アラインメントと頑健性の理解に寄与する。

Abstract

古典的なアヒル-ウサギの錯視は、視覚的な証拠が曖昧であるとき、人間の脳が「見ているもの」を決めなければならないことを示している。しかし、人間の観察者は「アヒル」と「ウサギ」の境界を正確にどこに引くのだろうか。また、機械の分類器は同じ場所に境界を引くのだろうか？私たちは、解釈可能性プローブとして意味論的に曖昧な画像を用い、視覚モデルが概念間の境界をどのように表現するかを明らかにする。CLIP埋め込み空間における概念間の補間を行う、心理物理学に基づいた枠組みを提示する。この枠組みにより、連続的なスペクトルをもつ曖昧な画像を生成できるため、人間と機械分類器がどこで、どのように意味論的境界を設定するのかを精密に測定できる。この枠組みを用いて、機械分類器は「ウサギ」を見ることにより偏っている一方で、人間は合成に用いたCLIP埋め込みとより整合していることを示す。また、ガイダンススケールは、機械分類器よりも人間の感度により強く影響するようである。私たちの枠組みは、制御された曖昧さが、ヒトの心理物理学的解析、画像分類、生成画像モデルの間にあるギャップを埋める診断ツールとして機能し得ることを示しており、人間—モデルの整合性、ロバスト性、モデルの解釈可能性、そして画像合成手法に関する洞察を提供する。