MAR-MAER：メトリック認識型かつ曖昧性適応型の自己回帰画像生成

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、画像品質の向上と曖昧なプロンプトへの頑健性を目指す階層型自己回帰のテキストから画像への生成フレームワークであるMAR-MAERを提案する。
CLIPScoreやHPSv2のような人間が好む品質指標に対して、内部表現を整合させるメトリック認識型の埋め込み正則化手法を追加する。
プロンプトに含まれる曖昧性をより適切に扱うため、MAR-MAERは確率的潜在モデルと条件付き変分モジュールを組み込み、トークン生成時に制御されたランダム性を注入する。
COCOおよび新しい「Ambiguous-Prompt Benchmark」での実験により、MAR-MAERはHi-MARのベースラインに対してCLIPScoreで+1.6、HPSv2で+5.3改善し、入力が不明確な場合でもより広い範囲の首尾一貫した出力バリエーションを生成することが示される。
著者らは、人手評価と自動指標の両方によって改善が裏付けられていると報告しており、メトリックの一貫性を損なうことなく意味的な柔軟性が向上していることを示唆する。

要旨: 自己回帰（AR）モデルは、テキストから画像を生成する分野において大きな成功を収めてきました。しかし、これらは通常、2つの主要な課題に直面します。第一に、生成される画像が、人間が期待する品質基準を必ずしも満たさない場合があることです。さらに、これらのモデルは、いくつかの妥当な解釈が成り立ちうる曖昧なプロンプトを扱う際に困難に直面します。これらの問題に対処するため、私たちは革新的な階層型自己回帰フレームワークであるMAR-MAERを提案します。これは2つの主要コンポーネントを組み合わせています。1つは、メトリックに応じた埋め込み正則化手法です。もう1つは、曖昧な意味を扱うために用いる確率的潜在モデルです。私たちの手法では、軽量なプロジェクションヘッドを用い、適応的カーネル回帰の損失関数で学習します。これにより、モデル内部の表現が、CLIPScoreやHPSv2といった、人間が好む品質指標と整合するようになります。その結果、学習される埋め込み空間は、人間の判断をより正確に反映します。さらに、条件付き変分モジュールも導入します。このアプローチは、階層的なトークン生成プロセスの中に、制御されたランダム性の側面を取り入れます。これにより、曖昧またはオープンエンドなプロンプトに基づいて、多様で首尾一貫した画像の幅広い系列を生成できるようになります。COCOおよび新たに開発したAmbiguous-Prompt Benchmarkを用いて大規模な実験を行いました。その結果、MAR-MAERは、メトリックの整合性と意味の柔軟性の両方において優れた性能を達成することが示されました。これは、ベースラインのHi-MARモデルの性能を上回り、CLIPScoreで+1.6、HPSv2で+5.3の改善を示しています。理解しにくい入力に対しては、生成結果の範囲が顕著に広くなります。これらの知見は、人間による評価と自動化された指標の両方によって確認されています。

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

日経XTECH

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

Tech.eu

ChatGPTは月額20ドル。代替を2.99ドルで作った。

Dev.to

MAR-MAER：メトリック認識型かつ曖昧性適応型の自己回帰画像生成

要点

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ 推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表