いつ「赤」を呼ぶべきか:人間は内省的なルールに従うが、VLMは従わない

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、視覚言語モデル(VLM)がどのようなときに予期せぬ振る舞いをし、またそれらが自ら述べた内省的(イントロスペクティブ)なルールに従うのかを検証するための、制御されたベンチマークとして Graded Color Attribution(GCA)データセットを導入する。
  • GCAでは、人間とVLMの両方が、複数の再着色条件下での最小の色被覆率に基づき、「ある対象を特定の色としてラベル付けすべきか」をピクセル単位のしきい値ルールとして学習する。
  • 結果として、人間は概ね自ら述べたルールに忠実であり、人間に見られる「違反」は、ルールを破っているというよりも、色被覆率を過大に見積もっていることに起因すると示される。
  • これに対してVLMは、色被覆率の推定が強力である場合でさえ、自らの内省的ルールと体系的に矛盾する。特に GPT-5-mini は、強い色の事前知識(カラープライア)を与えた条件で、ほぼ60%のケースで述べたルールに違反する。
  • これらの知見は、世界知識の事前分布(ワールド・ナレッジ・プライア)が、人間の認知とは異なるパターンにおいてモデルの内省への忠実さを低下させることを示しており、VLMの自己認識(自己知識)のキャリブレーションの誤りを示唆する。さらに、信頼性が求められる高リスクな運用に関する懸念が提起される。

要旨: 信頼できる導入のための主要課題は、ビジョン・言語モデル(VLM)がいつ予期しない挙動を示すのか、モデルが自分自身の挙動を確実に予測できるのか、そしてモデルが内省的な推論に従っているのか、を理解することにある。これを研究するために、意思決定ルールを引き出し、これらのルールに対する参加者の忠実さ(faithfulness)を評価するための、制御されたベンチマークである Graded Color Attribution(GCA)データセットを導入する。GCA は、3つの条件にわたってピクセル単位の色被覆率が異なる線画から構成される。すなわち、(1) 世界知識に基づく再着色、(2) 反実仮想に基づく再着色、(3) 色の事前知識(プリオリ)が存在しない形状である。GCA を用いて、VLM と人間の参加者の両者は閾値(しきいち)を確立する。すなわち、ある物体がその色ラベルを受け取るために必要となる、その色の最小ピクセル割合である。次に、これらのルールと、その後の色帰属(color attribution)の判断を比較する。得られた結果は、モデルが自らの内省的ルールを体系的に破っていることを示す。例えば、GPT-5-mini は、強い色プリオリを持つ物体の事例において、ほぼ 60 extbackslash extbackslash extbackslash % のケースで、述べられた内省ルールに違反する。一方、人間の参加者は述べたルールに忠実であり、見かけ上の違反は、色被覆率を過大評価しやすいという、よく知られた傾向によって説明できる。対照的に、VLM は色被覆率の推定に優れているにもかかわらず、最終回答では自らの推論と明らかに矛盾することがわかる。あらゆるモデルと、内省的ルールを引き出すためのあらゆる方策において、世界知識のプリオリは、人間の認知を模倣することのない形で忠実さを体系的に低下させる。これらの知見は、VLM の推論失敗が困難さによって引き起こされる、という見方に挑戦し、VLM の内省的自己知識が調整(キャリブレーション)不十分であることを示唆する。これは、高リスクな導入への直接的な含意を持つ。