統一型マルチモーダルモデルのための“フリーレンチ”: 内在的理解に基づく反省的修正で生成を強化する

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 統一型マルチモーダルモデル(UMM)は生成よりもはるかに優れた理解能力を持っており、生成中にその内部知識が十分に活性化されていないことが示唆される。
  • 本論文では、学習を要しない「反省的修正(reflective rectification)」の連鎖(UniRect-CoT)を提案する。生成の途中で反省を反復し、内在する理解を活性化し、途中出力を修正する。
  • UMMの拡散による復号(denoising)過程を本質的な視覚推論として捉え、目標となる指示との中間結果の整合を、生成の修正に対する自己教師信号として用いる。
  • 実験の結果、UniRect-CoTは既存のUMMに組み込むことができ、さまざまな複雑なタスクにおいて生成品質が大幅に向上することが示される。
  • 全体として本研究は、UMMの既存能力から得られる「フリーレンチ」を提示し、追加学習なしで反省的な補正が理解–生成のギャップを埋められることを示している。

Abstract

統合マルチモーダル・モデル(UMM)は、視覚理解と生成を単一の枠組みの中で統合することを目指しています。しかし、これらのモデルには顕著な能力の不一致が見られ、理解能力が生成能力を大きく上回ります。この不一致は、理解タスクに対して有効に機能するモデルの豊富な内部知識が、生成時には十分に活性化されていないことを示唆しています。これに対処するため、本論文では、人間の「描きながら考える(Thinking-While-Drawing)」パラダイムから着想を得ます。そこでは、人間が継続的に振り返りを行うことで知識を活性化し、中間結果を修正します。本論文では、学習不要の統一的整流チェーン・オブ・ソート(UniRect-CoT)を提案します。提案手法は、UMMの強力な内在的理解に隠された「フリーミール」を解き放ち、生成中に継続的に振り返りを行うことで内部知識を活性化し、中間結果を修正します。私たちは、UMMにおける拡散の除ノイズ過程を本質的な視覚推論プロセスとみなし、中間結果をモデルが理解した目標指示に整合させます。これにより、UMMの生成を整流するための自己教師信号として機能します。大規模な実験により、UniRect-CoTは既存のUMMに容易に統合でき、多様で複雑なタスク全般において生成品質を大幅に向上できることが示されます。