合成された並列トークン予測による制御可能な画像生成

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、条件付き離散生成プロセスを合成するための理論的に裏付けられた枠組みを提案しており、マスク付き生成／吸収拡散をその特殊なケースとして扱う。
学習データに見られない入力条件の新しい組み合わせや個数に対しても、概念の重み付けによる特定条件の強調や否定を含め、正確な制御を可能にする。
VQ-VAEとVQ-GANに基づく合成的な離散語彙を用いることで、CLEVRの各バリアントとFFHQにおいて、従来の最先端手法に比べてエラー率を63.4%低減し、FIDを平均絶対値で-9.58改善する。
さらに、本手法は比較可能な手法に対してリアルタイム速度を2.3倍から12倍まで向上させることを報告しており、オープンな事前学習済み離散テキストから画像モデルを微調整することで、きめ細かなテキスト／画像制御への適用可能性も示す。

要旨: 条件付き離散生成モデルは、複数の入力条件を忠実に合成することが難しい。これに対処するために、離散確率的生成プロセスを合成するための、理論的根拠に基づいた定式化を導出する。これは、マスク付き生成（吸収拡散）を特別な場合として含む。我々の定式化により、学習データの外側にある新しい組み合わせや入力条件の数を、条件ごとの重み付けによって個々の条件の強調または否定を可能にしつつ、正確に指定できる。VQ-VAEおよびVQ-GANの、豊かに合成可能な学習語彙と相乗的に働くことで、本手法は、3つのデータセット（positional CLEVR、relational CLEVR、FFHQ）にわたって平均したところ、従来の最先端手法に比べて誤り率を $63.4\%$ 相対的に減少させると同時に、平均絶対FIDの改善が $-9.58$ となる。一方で、本手法は同等の手法に対してリアルタイム速度を $2.3\times$ 〜 $12\times$ 向上させ、テキストから画像への生成を、きめ細かく制御するために、公開されている事前学習済みの離散テキスト-to-画像モデルへ容易に適用できる。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

合成された並列トークン予測による制御可能な画像生成

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険