現実味がありすぎて本物には見えない？— 生成カラー忠実性のベンチマークと較正

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

共有:

要点

本論文は、現在のテキストから画像への評価手法における偏りを指摘します。これらの手法は鮮やかさを過大評価する傾向があり、現実的なスタイルの生成物を本物らしく見せづらくします。
Color Fidelity Dataset (CFD) を導入し、現実画像と合成画像を合計で130万点超収録し、カラーリアリズムの階層的レベルを跨いで客観的評価を可能にします。
Color Fidelity Metric (CFM) は、現実的生成の知覚的カラー忠実性を学習するマルチモーダルエンコーダベースの指標です。
トレーニングを必要としない Color Fidelity Refinement (CFR) を提案します。CFR は生成時の空間-時間ガイダンスのスケールを適応的に調整してカラーの信頼性を高め、評価と改良のための段階的なフレームワークを形成します。
CFD は CFM の評価を支援し、学習済みアテンションは CFR を導くことで、現実的スタイルの T2I 生成におけるカラー忠実性を評価・改善するための段階的フレームワークを構築します。データセットとコードは公開されています。

要旨: 最近のテキストから画像への生成（T2I）の進展は視覚的な品質を大幅に向上させましたが、現実世界の写真に見えるような視覚的に本物らしい画像を作ることは依然として難しいです。これは既存の評価パラダイムのバイアスにも部分的に由来します。人間の評価と嗜好を学習したメトリクスは、過度に鮮やかさを強調した視覚的に鮮やかな画像を好む傾向があり、現実的なスタイルの画像を要求しても生成物が現実的とは言えないほど生々しくなることがあります。この問題に対処するため、現実的なスタイルの生成における色忠実性を客観的に評価する Color Fidelity Dataset (CFD) と Color Fidelity Metric (CFM) を提示します。CFD には階層的なカラーリアリズムのレベルを持つ現実画像と合成画像を合計で130万点超収録しています。一方、CFM は知覚的カラー忠実性を学習するマルチモーダルエンコーダを採用します。さらに、トレーニングを必要としない Color Fidelity Refinement (CFR) を提案します。CFR は生成時の空間-時間ガイダンスのスケールを適応的に調整することで、カラーの信頼性を高めます。これらを合わせて、CFD は評価のための CFM を支援し、CFM の学習済みアテンションは CFR を導くことで、現実的スタイルの T2I 生成におけるカラー忠実性を評価・改善するための段階的なフレームワークを形成します。データセットとコードは https://github.com/ZhengyaoFang/CFM で公開されています。

Next-Generation LLM Inference Technology: From Flash-MoE to Gemini Flash-Lite, and Local GPU Utilization

Dev.to

The Wave of Open-Source AI and Investment in Security: Trends from Qwen, MS, and Google

Dev.to

Implementing Deep Q-Learning (DQN) from Scratch Using RLax JAX Haiku and Optax to Train a CartPole Reinforcement Learning Agent

MarkTechPost

[D] Training a classifier entirely in SQL (no iterative optimization)

Reddit r/MachineLearning

Arc Institute introduces BioReason-Pro, targeting the vast majority of proteins lacking experimental annotations

Reddit r/MachineLearning

現実味がありすぎて本物には見えない？— 生成カラー忠実性のベンチマークと較正

要点

関連記事

Next-Generation LLM Inference Technology: From Flash-MoE to Gemini Flash-Lite, and Local GPU Utilization

The Wave of Open-Source AI and Investment in Security: Trends from Qwen, MS, and Google

Implementing Deep Q-Learning (DQN) from Scratch Using RLax JAX Haiku and Optax to Train a CartPole Reinforcement Learning Agent

[D] Training a classifier entirely in SQL (no iterative optimization)

Arc Institute introduces BioReason-Pro, targeting the vast majority of proteins lacking experimental annotations

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer