Gram-MMD：画像のリアリズム評価のためのテクスチャ対応メトリクス

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実画像分布と生成画像分布の間でグラム行列の特徴相関を比較することで、生成画像のリアリズムを評価するための新しいテクスチャ対応メトリクスであるGram-MMD（GMMD）を提案する。

要旨: 生成された画像の現実らしさを評価することは、生成モデルにおける根本的な課題であり続けています。フレシェ距離（Frechet Inception Distance; FID）やCLIP-MMD（CMMD）といった既存の分布ベース指標は、意味的なレベルで特徴分布を比較しますが、実画像と生成画像を区別するのに関連し得る、きめの細かい質感情報を見落とす可能性があります。そこで本研究では、Gram-MMD（GMMD）という現実らしさ指標を提案します。これは、事前学習済みのバックボーンネットワークの中間活性から計算されたGram行列を活用し、特徴マップ間の相関を捉える指標です。これらの対称なGram行列の上三角成分を抽出し、実画像のアンカー分布と評価分布の間で最大平均差異（Maximum Mean Discrepancy; MMD）を測定することで、GMMDは、グローバル埋め込みよりも細かな粒度で質感および構造的特徴を符号化した表現を生成します。指標のハイパーパラメータを選択するために、MS-COCO画像に対して制御された劣化を適用するメタ指標プロトコルを用い、Spearmanの順位相関およびKendallのτによって単調性を測定します。実験は、KADID-10kデータベースとRAISE realness評価データセットの両方で、DINOv2、DC-AE、Stable DiffusionのVAEエンコーダ、VGG19、LPIPSのAlexNetバックボーンなど、さまざまなバックボーン構造を用いて行います。また、クロスドメインの運転シナリオ（KITTI / Virtual KITTI / Stanford Cars）でも示します。そこでは、CMMDが意味バイアスのために生成画像よりも実画像を「現実らしくない」と誤って順位付けしてしまう一方で、GMMDは正しい順序を保ちます。以上の結果は、GMMDが既存の意味レベルの指標とは相補的な情報を捉えることを示唆しています。