要旨: 自己回帰(AR)モデルは、テキストから画像を生成する分野において大きな成功を収めてきました。しかし、これらは通常、2つの主要な課題に直面します。第一に、生成される画像が、人間が期待する品質基準を必ずしも満たさない場合があることです。さらに、これらのモデルは、いくつかの妥当な解釈が成り立ちうる曖昧なプロンプトを扱う際に困難に直面します。これらの問題に対処するため、私たちは革新的な階層型自己回帰フレームワークであるMAR-MAERを提案します。これは2つの主要コンポーネントを組み合わせています。1つは、メトリックに応じた埋め込み正則化手法です。もう1つは、曖昧な意味を扱うために用いる確率的潜在モデルです。私たちの手法では、軽量なプロジェクションヘッドを用い、適応的カーネル回帰の損失関数で学習します。これにより、モデル内部の表現が、CLIPScoreやHPSv2といった、人間が好む品質指標と整合するようになります。その結果、学習される埋め込み空間は、人間の判断をより正確に反映します。さらに、条件付き変分モジュールも導入します。このアプローチは、階層的なトークン生成プロセスの中に、制御されたランダム性の側面を取り入れます。これにより、曖昧またはオープンエンドなプロンプトに基づいて、多様で首尾一貫した画像の幅広い系列を生成できるようになります。COCOおよび新たに開発したAmbiguous-Prompt Benchmarkを用いて大規模な実験を行いました。その結果、MAR-MAERは、メトリックの整合性と意味の柔軟性の両方において優れた性能を達成することが示されました。これは、ベースラインのHi-MARモデルの性能を上回り、CLIPScoreで+1.6、HPSv2で+5.3の改善を示しています。理解しにくい入力に対しては、生成結果の範囲が顕著に広くなります。これらの知見は、人間による評価と自動化された指標の両方によって確認されています。
MAR-MAER:メトリック認識型かつ曖昧性適応型の自己回帰画像生成
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像品質の向上と曖昧なプロンプトへの頑健性を目指す階層型自己回帰のテキストから画像への生成フレームワークであるMAR-MAERを提案する。
- CLIPScoreやHPSv2のような人間が好む品質指標に対して、内部表現を整合させるメトリック認識型の埋め込み正則化手法を追加する。
- プロンプトに含まれる曖昧性をより適切に扱うため、MAR-MAERは確率的潜在モデルと条件付き変分モジュールを組み込み、トークン生成時に制御されたランダム性を注入する。
- COCOおよび新しい「Ambiguous-Prompt Benchmark」での実験により、MAR-MAERはHi-MARのベースラインに対してCLIPScoreで+1.6、HPSv2で+5.3改善し、入力が不明確な場合でもより広い範囲の首尾一貫した出力バリエーションを生成することが示される。
- 著者らは、人手評価と自動指標の両方によって改善が裏付けられていると報告しており、メトリックの一貫性を損なうことなく意味的な柔軟性が向上していることを示唆する。




