分布条件付き拡散デコーディングによる事前学習済み視覚言語モデルからの高忠実度テキスト-画像生成

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • 本論文は、事前学習済みの視覚言語モデル(VLM)の出力画像トークンロジットに対して拡散デコーダのみを訓練する拡散ベースのデコーディングフレームワークを提案し、元のモデルをそのまま保持したまま画像の忠実度を向上させる。
  • Logit-to-Code Distributional Mapping(ロジット-コード分布マッピング)を導入し、VLM の画像トークンロジットを連続的で分布重み付けされたコードベクトルへ変換し、不確実性特徴を付与して拡散デコーディングを導く。
  • 軽量な Logit Calibration により、VQ-VAE エンコーダの訓練時の代理ロジットを VLM 生成ロジットと整合させ、訓練時と推論時のギャップを緩和する。
  • このアプローチは、ImageNet-1K での短い訓練でも VQ-VAE の再構成とテキスト-画像生成の双方で高い忠実度を実現しつつ、元の VLM をそのまま維持する。

要旨: 最近の大規模なビジョン-言語モデル(VLM)は、テキストから画像への生成能力を顕著に示しているが、その視覚的忠実度は離散的な画像トークン化によって制約されており、これは大きな課題となっている。いくつかの研究は視覚品質を高めるために連続表現モデリングを検討しているが、事前学習済みVLMモデルをこのような表現へ適応させるには、元の事前学習と同程度の大規模データと訓練コストが必要である。この制限を回避するため、我々は訓練時に事前学習済みVLMの出力画像トークンロジットのみを用いて拡散デコーダを訓練し、元のモデルをそのまま保持することで画像忠実度を向上させる拡散ベースのデコードフレームワークを提案する。その核となるのは、Logit-to-Code Distributional MappingがVLMの画像トークンロジットを連続的で分布重み付けされたコードベクトルへ確実性特徴を伴って変換し、拡散デコードのための有効な条件信号を提供することである。軽量なLogit Calibrationは、VQ-VAEエンコーダからの訓練時の代理ロジットをVLM生成ロジットと揃わせ、訓練-推論のギャップを緩和する。これらの表現に条件づけられたDistribution-Conditioned Diffusion Decoderは高忠実度の画像を生成する。ImageNet-1Kでの短期間の訓練だけで達成される本手法は、VQ-VAE再構成およびVLM予測トークンからのテキスト-画像生成の両方において視覚的忠実度を一貫して改善する。