要旨: 近年の視覚言語モデル(VLM)の進歩により推論能力が提供されるようになってきていますが、推論がどのように展開され、視覚情報とテキスト情報がどのように統合されるのかは依然として明確ではありません。私たちは、2つの異なるモデル系統に属する、指示チューニングされたモデルおよび推論トレーニングされたモデルを含む18のVLMにおける推論ダイナミクスを分析します。Chain-of-Thought(CoT)にわたる確信度を追跡し、推論による修正効果を測定し、中間推論ステップが果たす寄与を評価します。その結果、モデルは「回答の慣性」に陥りやすいことがわかりました。これは、予測への初期のコミットメントが、推論ステップの間に修正されるのではなく、強化される現象です。推論トレーニングされたモデルはより強い修正挙動を示しますが、その改善は、テキスト優勢から視覚のみの設定までのモダリティ条件に依存します。誤解を招くテキスト上の手がかりを用いた制御された介入により、視覚的証拠が十分な場合でもモデルが一貫してこれらの手がかりの影響を受けることを示し、さらにその影響がCoTから回復可能かどうかを評価します。この影響はCoTに現れることがあるものの、その検出可能性はモデル間で異なり、何をモニタしているかに依存します。推論トレーニングされたモデルは手がかりに明示的に言及しやすい一方で、より長く流暢なCoTは、実際にはテキストの手がかりに従っているにもかかわらず、視覚に基づいているように見える場合があり、モダリティ依存を覆い隠してしまいます。対照的に、指示チューニングされたモデルは手がかりに明示的に言及する頻度が低いものの、その短い痕跡は視覚入力との不整合を示します。これらを総合すると、CoTは異なるモダリティがVLMの意思決定をどのように駆動しているかについては部分的な見取り図しか提供できないことが示されます。これは、マルチモーダルシステムの透明性と安全性に重要な含意を持ちます。
推論ダイナミクスと、視覚言語モデルにおけるモダリティ依存の監視限界
arXiv cs.CL / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、chain-of-thought(CoT)中の信頼度を追跡し、推論を通じた予測の修正度合いを測ることで、18の視覚言語モデル(VLM)の「推論ダイナミクス」を分析する。
- 多くのモデルが「answer inertia(答えの慣性)」に陥り、推論が進んでも初期の予測へのコミットが修正されずに強化されやすいことを見出した。
- 推論訓練済みモデルはより強い修正行動を示すものの、その効果はモダリティ条件(テキスト優位〜視覚のみ)に大きく依存し、頑健性に限界があることが示唆される。
- 制御された介入で誤解を招くテキスト手がかりを用いると、視覚的証拠が十分でもモデルが一貫してテキストの影響を受け得ること、またその影響がCoTから回復可能かどうかがモデルや監視する信号に左右されることが示された。
- 著者らは、CoTはモダリティ間の意思決定を完全には映さないと結論づけており、多モーダルシステムの透明性と安全性に重要な含意があるとしている。



