Thinking Diffusion: 拡散マルチモーダル言語モデルにおける視覚に根ざした推論を罰則とガイドで強化する

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は拡散マルチモーダルLLM(dMLLM)を調査し、chain-of-thoughtと組み合わせた場合に、最終的な回答トークンを過度に早い段階で出力してしまい、初期のタイムステップで視覚プロンプトを十分に活用できないことを見出す。
  • これを抑制するために、Position and Step Penalty(PSP)を提案し、早すぎる最終回答の生成を抑え、拡散のタイムステップにまたがる段階的な推論を促す。
  • さらに、Classifier-Free Guidanceの考え方を適応したVisual Reasoning Guidance(VRG)を導入し、視覚的証拠との整合性を強化する。
  • 複数のdMLLMに対する実験の結果、拡散ステップ数を増やして推論品質を高める手法に比べて、精度が最大7.5%向上し、速度面でも3倍超の改善が得られる。

概要: 拡散型大規模言語モデル(dLLM)は、自 autoregressive(AR)なLLMの有望な代替として登場しつつある。最近、このパラダイムはマルチモーダル課題へ拡張され、その結果、拡散型マルチモーダル大規模言語モデル(dMLLMs)の開発が進められている。これらのモデルは、並列生成によってより高速な推論を可能にしつつ、LLMの推論能力を維持すると期待される。しかし、Chain-of-Thought(CoT)推論と組み合わせた場合、dMLLMsには2つの重要な問題が現れる。第一に、dMLLMsは非常に初期のタイムステップで最終解答トークンを生成することが多いことを観察する。この傾向は、十分な推論が行われる前にモデルが解答を決定してしまっていることを示し、その結果、推論性能が低下する。第二に、初期のタイムステップにおいて、dMLLMsは視覚プロンプトへの依存がほとんど見られず、AR型の視覚言語モデルとは根本的に異なる形で視覚情報を利用していることが分かる。要約すると、これらの知見は、dMLLMsが視覚入力に十分に基づかず、時期尚早に最終解答を生成しがちであることを示している。これらの制限に対処するために、Position and Step Penalty(PSP)とVisual Reasoning Guidance(VRG)を提案する。PSPは、初期タイムステップにおいて後半位置のトークンに罰則を与え、時期尚早な解答生成を遅らせ、タイムステップをまたいだ段階的な推論を促進する。VRGはclassifier-free guidanceに着想を得ており、視覚的なグラウンディング信号を増幅することで、モデルの視覚証拠への整合性を高める。さまざまなdMLLMsにまたがる大規模な実験により、本手法は、推論に拡散ステップを4倍用いる場合と比べて、より3倍以上の高速化を実現しつつ、最大で7.5%高い精度を達成することを示す。