拡散の迷子：拡散大型言語モデルにおける幻覚パターンと失敗モードの解明

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、同一のアーキテクチャ、スケール、事前学習重みの条件下で、拡散大型言語モデル（dLLM）と自己回帰（AR）モデルの幻覚パターンを、初めて制御された比較研究として明らかにする。
現在のdLLMはARの対応モデルよりも幻覚をより頻繁に生成することを見出し、一般タスクにおける進歩があるにもかかわらず、忠実性（faithfulness）がより弱いことを示している。
推論時の計算量に関する分析から、生成ダイナミクスが異なることが判明する。すなわち、準自己回帰的なデコーディングは早期に飽和し、一方で非逐次デコーディングは継続的な洗練（refinement）を可能にする。
本研究は、拡散に固有の幻覚の失敗モードとして、早すぎる終了、ノイズ除去の不完全さ、文脈の侵入（context intrusion）を特定し、拡散プロセスに独自の信頼性リスクを浮き彫りにする。
著者らは、評価手法のさらなる調査と再現を支援するために、付随するコードを指定のGitHubリポジトリで公開している。

要旨: 拡散型大規模言語モデル（dLLM）は、自己回帰（AR）モデルに匹敵する有望な非自己回帰パラダイムとして登場してきましたが、その忠実性、特に幻覚に関しては、ほとんど未踏のままです。このギャップを埋めるために、dLLMにおける幻覚パターンを評価するための最初の、制御された比較研究を提示します。結果として、現在のdLLMは、アーキテクチャ、規模、事前学習の重みを制御したARの対応モデルと比べて、幻覚を起こす傾向がより高いことを示します。さらに、推論時の計算量の分析により、異なるダイナミクスが明らかになりました。準自己回帰的な生成では早期の飽和が生じる一方で、非逐次デコーディングは、継続的な洗練（refinement）への可能性を解き放ちます。最後に、拡散プロセスに固有の明確な失敗モードを特定します。具体的には、早すぎる終了、不完全な脱ノイズ、文脈の侵入です。本研究の知見は、dLLMが一般タスクにおける性能差を縮めてきたとしても、その異なる幻覚メカニズムがモデルの信頼性に対する重大な課題となることを強調しています。コードは https://github.com/ZeroLoss-Lab/Lost-in-Diffusion で公開しています