要旨: マルチモーダル Chain-of-Thought(MCoT)モデルは、複雑な視覚推論タスクにおいて目を見張る能力を示してきました。残念ながら、近年の研究では、生成過程における視覚的注意の低下により、深刻な幻覚(ハルシネーション)問題を抱えていることが明らかになっています。しかし、視覚的注意の減衰は、大規模な視覚言語モデル(LVLMs)においてよく研究されている課題です。MCoTモデルと従来のLVLMの間には推論プロセスに本質的な違いがあることを踏まえ、私たちは基本的な問いを提起します:MCoTモデルには幻覚に関する固有の原因があるのだろうか?この問いに答えるために、私たちはMCoTモデルの幻覚パターンを体系的に調査し、でっち上げられたテキストが主に、私たちが発散的思考(divergent thinking)と呼ぶ連想的推論ステップで生成されることを見出します。これらの洞察を活用して、発散的思考ステップを効果的に局在化し、デコーディング過程に介入することで幻覚を緩和できる、シンプルでありながら有効な戦略を提案します。大規模な実験により、私たちの手法が既存の手法を大幅に上回ることが示されています。さらに重要なのは、提案手法は他の幻覚緩和手法と便利に統合でき、それらの性能をさらに向上させられることです。コードは https://github.com/ASGO-MM/MCoT-hallucination で公開されています。
マルチモーダル・チェーン・オブ・ソート(MCoT)モデルにおける幻覚(ハルシネーション)を理解し、軽減する
arXiv cs.CV / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- マルチモーダル・チェーン・オブ・ソート(MCoT)モデルは、複雑な視覚推論において高い性能を示す一方で、生成中における視覚的注意の劣化に一部起因して、深刻な幻覚に悩まされる。
- 本研究では、MCoTの幻覚に固有の根本原因があるのかを検証し、捏造されたテキストは「発散的思考(divergent thinking)」と呼ばれる、連想的推論(associative reasoning)の段階で主に生じることを見出す。
- 発散的思考の段階を特定するための、単純なデコーディング時(推論時)の戦略を提案し、それに介入することで幻覚を減らす。
- 実験結果は、新手法が従来の幻覚軽減アプローチに比べて大幅に優れていることを示している。
- このアプローチはモジュール化できるよう設計されており、さらなる改善のために他の幻覚軽減技術と容易に統合可能であり、コードは公開されている。



