認知的ピボットポイントと視覚的アンカリング：マルチモーダル推論モデルにおけるハルシネーションを解き明かし、是正する

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル・大型推論モデルにおける「Reasoning Vision Truth Disconnect（RVTD）」と呼ばれるハルシネーションの失敗モードを特定している。ここでは、長い推論チェーンにおける誤りが、認知の分岐（cognitive bifurcation）ポイントや高エントロピーな内部状態と相関する。
根本原因は、途中のネットワーク層に局在する視覚的意味アンカリングの破綻にあると主張する。この破綻の間、モデルは視覚的根拠（evidence）への問い合わせを停止し、その代わりに言語の事前知識（priors）に依存する。
著者らは、結果のみの監督（outcome-only supervision）を超えて、推論が視覚入力に基づいた状態を保つように微細な内部アテンション指導を追加することを提案する。
彼らは、GRPO内で階層的視覚アテンション報酬（HVAR）を用いるV-STAR（Attention Reinforcement付きの視覚構造トレーニング）を導入し、重要な高不確実性層において視覚アテンションを動的に促す。
また、識別された高エントロピーのポイントで反省（reflection）と検証（verification）を視覚入力に対してトリガーすることで、推論軌道を編集しハルシネーションを低減する「Forced Reflection Mechanism（FRM）」も提示する。

要旨: マルチモーダル大規模推論モデル（MLRM）は、推論時の計算（test time compute）をスケールすることで視覚推論において目覚ましい進展を遂げてきましたが、長い連鎖による推論は依然として幻覚（ハルシネーション）を起こしやすいという課題があります。私たちは、Reasoning Vision Truth Disconnect（RVTD）と呼ぶ懸念すべき現象を特定します。すなわち、幻覚は認知の分岐点（cognitive bifurcation points）と強く相関しており、その分岐点はしばしば高エントロピー状態を示します。私たちは、この脆弱性が視覚的セマンティック・アンカーリング（visual semantic anchoring）の破綻によって生じると考えます。これはネットワークの中間層に局在しており、具体的にはこれらの高不確実性の遷移の間、モデルは視覚的証拠を照会（クエリ）できず、代わりに言語の事前知識（language priors）へと後退してしまいます。そこで私たちは、結果（アウトカム）レベルの監督だけに依存するのではなく、それに加えて細かな内部の注意（attention）誘導を強化する方向へと転換することを提案します。
この目的のために、V-STAR（Visual Structural Training with Attention Reinforcement：注意の強化を伴う視覚的構造トレーニング）という軽量で全体論的な学習パラダイムを提案します。これは、視覚を意識した推論能力をモデル内部に内在化させることを狙ったものです。私たちのアプローチの中核には、GRPOフレームワークに統合された階層的視覚注意報酬（Hierarchical Visual Attention Reward; HVAR）があります。高エントロピー状態を検出すると、この仕組みが重要な中間層にわたって視覚への注意を動的に強く促すことで、推論プロセスを再び視覚入力へとアンカーします。さらに、強制反省メカニズム（Forced Reflection Mechanism; FRM）も導入します。これは、認知の慣性（cognitive inertia）を破るための軌跡編集（trajectory editing）戦略であり、高エントロピーの認知分岐点を中心に反省を引き起こし、その後のステップが視覚入力と整合しているかを検証することを促します。これにより、外部のバイアス除去（debiasing）介入を、幻覚の抑制を内在的に実現する能力へと変換します。