GIDE：拡散LLMを活用した、正確な学習不要の画像編集の解放

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は拡散LLM（DLLM）の重要な限界、すなわち離散トークン化によって標準的なノイズ反転アプローチが機能しづらくなり、画像構造の劣化につながるため、学習不要で精密な画像編集を実現することが難しい点を扱う。
GIDE（DLLM画像編集のためのGrounded Inversion）を提案し、離散的なノイズ反転メカニズムと三段階パイプライン（grounding、inversion、refinement）を導入することで、高忠実度の再構成と厳密な背景維持を可能にする。
GIDEは、未編集の背景を維持しつつ、テキストプロンプトに加えて、点およびボックスに基づくガイダンスといった複数の指示タイプの編集をサポートするよう設計されている。
著者らは、805件の構成的編集シナリオを、多様なマルチモーダル入力にわたって収録したベンチマーク「GIDE-Bench」を導入し、従来の学習不要手法に比べて大幅な改善（Semantic Correctness +51.83%、Perceptual Quality +50.39%）を報告する。
さらにImgEdit-Benchでの追加実験により、学習済みベースラインに対して一貫した改善が示され、主要モデルに匹敵するフォトリアルな品質も得られていることから、本手法のより広い適用可能性が示唆される。

日経XTECH

日経XTECH

Reddit r/artificial

Dev.to

Dev.to