マルチモーダル・チェーン・オブ・ソート（MCoT）モデルにおける幻覚（ハルシネーション）を理解し、軽減する

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

マルチモーダル・チェーン・オブ・ソート（MCoT）モデルは、複雑な視覚推論において高い性能を示す一方で、生成中における視覚的注意の劣化に一部起因して、深刻な幻覚に悩まされる。
本研究では、MCoTの幻覚に固有の根本原因があるのかを検証し、捏造されたテキストは「発散的思考（divergent thinking）」と呼ばれる、連想的推論（associative reasoning）の段階で主に生じることを見出す。
発散的思考の段階を特定するための、単純なデコーディング時（推論時）の戦略を提案し、それに介入することで幻覚を減らす。
実験結果は、新手法が従来の幻覚軽減アプローチに比べて大幅に優れていることを示している。
このアプローチはモジュール化できるよう設計されており、さらなる改善のために他の幻覚軽減技術と容易に統合可能であり、コードは公開されている。

要旨: マルチモーダル Chain-of-Thought（MCoT）モデルは、複雑な視覚推論タスクにおいて目を見張る能力を示してきました。残念ながら、近年の研究では、生成過程における視覚的注意の低下により、深刻な幻覚（ハルシネーション）問題を抱えていることが明らかになっています。しかし、視覚的注意の減衰は、大規模な視覚言語モデル（LVLMs）においてよく研究されている課題です。MCoTモデルと従来のLVLMの間には推論プロセスに本質的な違いがあることを踏まえ、私たちは基本的な問いを提起します：MCoTモデルには幻覚に関する固有の原因があるのだろうか？この問いに答えるために、私たちはMCoTモデルの幻覚パターンを体系的に調査し、でっち上げられたテキストが主に、私たちが発散的思考（divergent thinking）と呼ぶ連想的推論ステップで生成されることを見出します。これらの洞察を活用して、発散的思考ステップを効果的に局在化し、デコーディング過程に介入することで幻覚を緩和できる、シンプルでありながら有効な戦略を提案します。大規模な実験により、私たちの手法が既存の手法を大幅に上回ることが示されています。さらに重要なのは、提案手法は他の幻覚緩和手法と便利に統合でき、それらの性能をさらに向上させられることです。コードは https://github.com/ASGO-MM/MCoT-hallucination で公開されています。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

マルチモーダル・チェーン・オブ・ソート（MCoT）モデルにおける幻覚（ハルシネーション）を理解し、軽減する

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer