統一型マルチモーダルモデルのための“フリーレンチ”: 内在的理解に基づく反省的修正で生成を強化する
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 統一型マルチモーダルモデル(UMM)は生成よりもはるかに優れた理解能力を持っており、生成中にその内部知識が十分に活性化されていないことが示唆される。
- 本論文では、学習を要しない「反省的修正(reflective rectification)」の連鎖(UniRect-CoT)を提案する。生成の途中で反省を反復し、内在する理解を活性化し、途中出力を修正する。
- UMMの拡散による復号(denoising)過程を本質的な視覚推論として捉え、目標となる指示との中間結果の整合を、生成の修正に対する自己教師信号として用いる。
- 実験の結果、UniRect-CoTは既存のUMMに組み込むことができ、さまざまな複雑なタスクにおいて生成品質が大幅に向上することが示される。
- 全体として本研究は、UMMの既存能力から得られる「フリーレンチ」を提示し、追加学習なしで反省的な補正が理解–生成のギャップを埋められることを示している。




