拡散メンタル・アベレージ（Diffusion Mental Averages）

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデル外で画像を平均するのではなく、拡散モデルから概念の「シャープで現実的」な単一のプロトタイプを生成することを目的として、Diffusion Mental Averages（DMA）を提案する。
先行研究のように拡散サンプルに対してデータ中心で平均化を行うとぼかしが生じると主張し、その代わりに、複数のノイズ除去（denoising）軌跡を整合させて粗い意味から細かい意味へと収束させることで、モデルの変化する意味空間上で平均化することを提案する。
DMAは、複数のノイズ潜在変数に対する最適化問題として定式化され、首尾一貫した視覚的要約を得るとともに、拡散過程において概念がどのように表現され、どのような偏りを持つかを探る手段を提供する。
多様な概念（例：多くの犬種）に対しては、CLIPのような意味的に豊かな埋め込み空間でサンプルをクラスタリングし、そのCLIPクラスタを拡散空間へ接続するために、Textual InversionまたはLoRAを用いる。
著者らは、このwithin-model averaging（モデル内平均化）と軌跡の整合（trajectory-alignment）という戦略を用いて、具体的・抽象的な双方の概念に対して一貫した現実的な平均を提供する最初のアプローチであると主張している。