人間と機械の知覚を探るための、意味的に曖昧な画像を生成するための枠組み
arXiv cs.CV / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CLIP埋め込み空間上で概念間を補間することで連続的な曖昧性スペクトルを生成し、心理物理学に基づいた枠組みを提示する。
- この曖昧性プローブを用いて、「アヒル」と「ウサギ」のような概念間で、人間と機械の視覚分類器が意味的な境界をどこに置くのかを測定し、比較する。
- 研究の結果、体系的なアラインメントの違いが見つかった。機械の分類器は「ウサギ」へのバイアスがより強い一方で、人間は画像合成に用いたCLIP埋め込みにより強く整合する。
- 「ガイダンススケール」は、制御された条件下では、機械の分類器よりも人間の曖昧性への感度により強く影響することを報告しており、知覚メカニズムの相違を示唆する。
- 本枠組みは、人間の心理物理学、分類器の挙動/解釈可能性、生成画像合成をつなぐ診断的ブリッジとして位置づけられ、アラインメントと頑健性の理解に寄与する。



