AI Navigate

理解と生成は対立するのか? 統一型マルチモーダルモデルにおける DPO の診断的研究

arXiv cs.LG / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DPO が理解と生成の両方を統一型マルチモーダルモデル(Janus-Pro の 1B および 7B)において整合させることができるかを、7つの訓練戦略と2つの後処理法にわたり体系的に検討し、すべての検証条件下で生成品質が DPO の整合に抵抗することを発見した。
  • 7B では Generation CLIPScore は改善されず、1B ではデータの種類(実データ対生成データ、モデル対モデル)やデータ量(150〜288 ペア)に関係なく、すべての手法で生成品質が劣化する。
  • 勾配分析によると、理解と生成の勾配はほぼ直交しており、VQ トークン数に起因する大きな振幅の不均衡(生成トークン約576対テキストトークン約30〜100)が存在するため、マルチタスク DPO は難しい。
  • 離散的な VQ トークン化は構造的ボトルネックとして有力な候補として特定され、生成 DPO の損失は ln(2) に収束する。論文は VQ ベースの統一モデルを扱う実務家に対して実践的な指針を提供している。

要旨: 統一されたマルチモーダルモデルは、理解と画像生成の両方のために、言語モデルのバックボーンを共有します。DPO は両方の能力を同時に整合させることができるのでしょうか。この問いに対する最初の体系的研究を提示します。Janus-Pro を 1B および 7B のパラメータの下で DPO を適用し、7つの訓練戦略と 2つの事後法を用います。中心的な発見は否定的です:このアーキテクチャ上、生成品質は DPO アラインメントに抵抗します。7B では生成の CLIPScore を改善する手段はありません(|Delta| < 0.2、p > 0.5、n=200 対 各シード、3 シード);1B では全ての手法が生成を劣化させ、結果は好みデータのタイプ(実データ対生成データおよびモデル対モデル)および検証されたデータ量(150-288 ペア)を横断して成り立ちます。勾配分析は理由を明らかにします:理解と生成の勾配はほぼ直交しており(cos ~ 0)、VQ トークン数の非対称性(生成トークンが 576、テキストトークンが約 30-100)によって、約11-14倍の大きさの不均衡が生じています。この不均衡はマルチタスク DPO における支配的な干渉メカニズムです。振幅の平衡化は理解のデルタを正方向に向ける傾向を示します(+0.01-0.04 の VQA、ただし個々には有意ではありません)、しかし生成のギャップは依然として残ります。我々は離散的な VQ トークン化を、構造的なボトルネックとして特定します — 生成の DPO 損失が ln(2) に収束することによって裏付けられています — そして VQ ベースの統一モデルを扱う実務者に向けた実践的な指針を提供します。