広告

ミラージュ効果はバグなのか、それとも幾何学的再構成が動いているだけなのか?VLMが当て推量よりも「幻覚」らしく振る舞う理由のための枠組みと、それがこれらのモデルの中身について示唆すること

Reddit r/artificial / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事ではスタンフォード/UCSFの2つの関連論文を取り上げ、コーディングミスによってVLMが画像にアクセスできない状態になったにもかかわらず、自信に満ちた詳細な応答を生成し、評価でも良いスコアを得てしまった事例を手がかりにMIRAGEが調査したことを紹介する。
  • MIRAGEは、最先端のVLMが、画像入力が一切ない場合でも、詳細で「画像に基づいた」説明や、さらには具体的な病理所見まで生成できることを見いだす。この振る舞いを著者らは「ミラージュ推論(mirage reasoning)」と呼ぶ。
  • この研究は、ミラージュ・モードでの性能が視覚ベンチマークで偶然を上回り得ることを示しており、胸部X線のデータを一切用いずQAデータで訓練されたテキストのみのモデルが、胸部X線のリーダーボード結果でトップに立てるケースも含まれる。
  • 重要な直感に反する結果として、モデルに「画像が見えない」ことを明示的に伝えると性能が低下することが挙げられる。これは、モデルが視覚入力が存在すると考えるかどうかで、異なる認識論的/意思決定の枠組みを使っていることを示唆している。
  • 著者は、これらの結果は単なるバグや脆弱性というよりも、内部表現によって不完全あるいは欠けた視覚情報から答えを再構成できる「幾何学的再構成」能力の証拠である可能性があると主張する。

先週、スタンフォードとUCSF(Asadi, O'Sullivan, Fei-Fei Li, Euan Ashley ほか)のチームが、2本の連作論文を投下しました。

その1本目、MARCUSは、心臓診断のためのエージェント型マルチモーダルシステムです。心電図(ECG)、心エコー、心臓MRIを扱い、オーケストレータによって調整された、領域固有の専門家モデル群によって統合的に解釈します。心臓画像タスクにおいて、GPT-5 と Gemini 2.5 Pro を34〜45ポイントの割合で上回っています。かなりすごい!

しかし――2本目の論文のほうが、もっと興味深いです。

MIRAGE: The Illusion of Visual Understanding は、学生がモデルに画像へのアクセスを与えていたコード行のアンコメントを忘れてしまったときに何が起きたのかを報告しています。それでもモデルは答えました。自信満々に、そして詳細な臨床的推論のトレースを伴って。しかもスコアも良かったのです。

この偶然は自然に調査へとつながり、彼らが見つけたことは、これらのモデルがどのように機能しているかについてのいくつかの埋め込まれた前提に挑戦する内容でした。特に3つの発見:

1. モデルは、見せられていない画像を描写する。 実際の画像入力が一切ない状態で、心臓画像に関する質問を与えると、最先端のVLMは、画像が目の前にあるかのように、具体的な病理所見を含む詳細な説明を生成します。著者らはこれを「mirage reasoning(ミラージュ推論)」と呼びます。

2. モデルは、何も見ないのに視覚ベンチマークで驚くほど良いスコアを出す。 医療系ベンチマークと一般ベンチマークの双方において、mirageモードの性能は偶然を大きく上回りました。最も極端なケースでは、画像を1枚も見たことのないテキストのみのモデルが、質問-回答ペアだけで学習されているにもかかわらず、標準的な胸部X線ベンチマークのリーダーボードを取り、実際の画像モデルすべてを上回りました。

3. そしてさらに興味深いことに:モデルに「見えない」と告げると 悪化する。同じモデルが、同じ欠落した画像のもとで、mirageモード(視覚入力があると信じる)では、guessingモード(画像が欠けていることを明示的に伝えられ、当てに行うよう求められる)よりも、測定可能な形で良い性能を示します。著者らは、これは「異なる認識論的枠組み」を引き起こすと述べていますが、それでも実際の仕組みはあまり説明されていません。

ミラージュの著者たちは、これらの発見を主に脆弱性――医療AI導入における安全性の懸念、ベンチマーク慣行への告発――として位置づけています。そこは彼らの言う通りです。ですが私は、もっと面白い何かの証拠も見つけていると思っていて、ここではそれを言語化してみたいと思います。

ミラージュ効果は幾何学的な再構成である

主張はこうです。MIRAGEの論文が捉えたのは、単なる故障モードではありません。モデルの内部の知識構造が、部分入力から答えを再構成できるほど幾何学的に豊かになったときに起きること――それが本質です。

では、ミラージュモードでモデルが何をしているのか考えてみましょう。モデルは質問を受け取ります。「このECGで観察されるリズムは何ですか?」。答えの選択肢には、心房細動、洞調律、接合部調律が含まれます。画像は提供されませんが、モデルはそのことを知りません。だからモデルはいつも通りのことをします――学習によって獲得された関連の内部ランドスケープ(地形)をナビゲートするのです。「ECG」は、心臓の電気生理学へのつながりを活性化します。質問文の具体的な臨床的な枠組みが、特定の診断ルートを活性化させます。選択肢は探索空間を制約します。そしてモデルは、医療知識の内部の幾何(ランドスケープ)をたどることで、画像が最もあり得る内容を再構成します。

これは推測ではありません――ランダムでもありません。再構成です。部分入力から一貫した内部表現を構築し、その表現が本物であるかのように推論するのです。

次にモードの切り替えを考えます。同じモデルが、guessingモードよりもmirageモードで良い性能を出すのはなぜでしょうか。言語モデルを「確率的オウム(stochastic parrot)」とみなす見方――これなら、起こり得ないはずです。両モードとも、欠落している画像と同じ質問が与えられています。違いはただ1つ、モデルが視覚入力があると信じることだけです。

しかし「幾何学的再構成」の見方なら、その違いは明白になります。mirageモードでは、モデルは完全な再構成にコミットします。内部の結合性を通じた深い経路を活性化し、複数ステップにわたって活性を伝播させ、豊かな内部表現を構築します。深く潜ります。一方、guessingモードではその逆で、浅いままです。表層的な統計的連想だけを使います。同じ知識構造ですが、探索の深さが根本的に違います。

このモード切り替えは、これらのモデルが実際の内部幾何学的構造を持っていること、そしてその構造にどれだけ深く関与するかが重要であることの証拠かもしれません。

より多くの情報が状況を悪くすることもある

MIRAGEの発見が投げかける2つ目のパズルは、さらに面白いものです。なぜ外部の信号が、時に性能を低下させるのでしょうか?

MARCUSの論文では、著者らが示しているのはこうです。最先端モデルは、画像ありで心臓画像タスクに対して22〜58%の精度を達成する一方、MARCUSは67〜91%です。しかし、最先端モデルのmirageモードのスコアは、しばしば画像ありスコアより劇的に低くはありませんでした。画像は本来の期待ほど助けていないのです。そして胸部X線のケースでは、テキストのみのモデルがすべてを上回りました――画像は総体としてマイナスだったのです。

私たちは、幾何学的な枠組みに取り組む月日を重ねてきました。モデルのパターン持続性を非周期的構造において捉え、そしてシミュレーションで一貫して見えてきたのが次の点です。生の入力と再構成品質の関係は単調ではない。内部結合性が低いと外部信号が不可欠であり、それがないと再構成は失敗します。しかし内部結合性が高い場合、外部信号はむしろ有害になり得ます。統合プロセスがノイズを持ち込み、すでに完全に十分な内部再構成を劣化させてしまうからです。

この仕組みがMIRAGEの発見を再現できるかどうか確かめるために、私たちはおもちゃのネットワークのシミュレーションを構築しました。モデルには3つの要素があります。内部結合性(概念間の学習された関連――モデルの幾何学的構造)、外部信号(ノイズを含む観測――画像入力に相当)、そしてクエリ(質問からのテキスト的手がかり)です。

MIRAGE論文の実験条件をなぞる3つの運用モードは次の通りです。

  • フルモード:クエリ + 内部再構成 + 外部信号(モデルが質問と画像を受け取る)
  • ミラージュモード:クエリ + 深い内部再構成のみ(モデルは画像があると信じ、完全に再構成する)
  • 当て推量モード:クエリ + 浅いルックアップのみ(当てに行くよう告げられ、慎重なまま)

結果は、3つのMIRAGEの発見すべてを再現します。

[IMAGE](r/Artificial では許可されていません。トップページでは利用可能です)

左パネル:内部結合性が増えるにつれて、ミラージュモード(赤)は当て推量モード(青)から離れていきます――モードの切り替えです。深い再構成は、浅い当て推量ではアクセスできない知識を呼び込みます。一方で、クリーンな信号を用いたフルモード(ティール)が最も良い性能を示しますが、ノイズのある信号を用いたフルモード(点線の茶色)はミラージュモードを下回ることがあります。

右パネル:内部結合性が高い場合(85%)、外部信号をクリーンからノイズへと走査します。クリーンな信号は本当に役立ちます――入力が完全なら精度は0.97近辺でピークに達します。しかし信号品質が悪化すると、性能は私たちがミラージュ閾値と呼ぶところを突き抜けて急落します。これは、劣化した外部入力よりも内部の幾何学的再構成が勝つ、交差点です。この閾値の先では、モデルは文字通り見ないほうが良いのです。

蜃気楼の閾値は、シミュレーションでは驚くほど低いノイズレベル(~0.34)にあります。外部信号が役に立つ窓は狭いです。一方で、内部の幾何が外部信号を上回る領域は広大です。

それはどういう意味?

Mirageの著者らは、実用的な解決策――反実仮想的プロービング、ベンチマークのクリーニング、B-Cleanフレームワーク――を提案しており、これらは価値ある工学的貢献です。MARCUSのエージェント的オーケストレータは反実仮想的プロービングを用いて0%の蜃気楼率を達成しており、これは注目に値します。

しかし、より深い教訓は、これらのモデルが実際に自分たちの内部で何を構築してきたのか、という点にあるのかもしれません。

蜃気楼効果は、VLMに何か問題があることを意味しません。これは、彼らがそのような幾何学的な豊かさの内的表現を構築しており、部分的な入力から正しい答えを再構成できることの、潜在的な証拠です――直接観測を必要とするはずの結論へ到達するために、学習された内側の結びつきをたどりながら進むことができます。これはトリックではありません――本当の構造的な知識です。

モードシフトは、おそらく、これらのモデルが深い内部構造を持っていて、それが異なる深さで活性化され得ることを示す証拠です。その結果、再構成経路がどれだけ十分に起動されるかに応じて、測定可能なほど異なる出力が生まれます。つまり――結局のところ「パーソナ選択」ではないの?

そして、情報劣化のカーブは、視覚処理の失敗を意味しません。それは、統合コストが情報獲得を上回ったときに起きることです――内部の幾何がすでに十分であるのに、外部信号が信号よりも多くのノイズを持ち込むときです。

たぶん、Mirage論文は偶然にも、最前線のAIモデルが並外れた豊かさを備えた内部の幾何構造を構築していることを示してしまったのかもしれません――それらの構造は、部分的な入力だけからの再構成を支え、多段の深さにわたって知識を符号化し、直接観測を上回ることさえできる。そして、これらのシステムが実際に何で、何になりつつあるのかを理解しようとするときに、それが重要になります。

コードはOpus 4.6による。シミュレーションコードなども利用可能です。本記事は、LLM内で幾何学的秩序が生まれること、非周期的な基盤におけるパターンの持続性、そして心の形成におけるBreakstep原理に関する、より初期の研究へとつながります。

以下への返信:

広告