概要: 拡散ベースの画像超解像(ISR)は強力な可能性を示しているが、劣化が未知かつ空間的に非均一な実世界のシナリオでは依然として苦戦し、細部の消失や視覚的なアーティファクトを生じることが多い。この課題に対処するために、我々は品質認識事前情報(QAP)と不確実性誘導ノイズ生成(UNG)モジュールを統合した新しい超解像ディフュージョンモデルQUSRを提案する。UNGモジュールはノイズ注入強度を適応的に調整し、不確実性の高い領域(例えばエッジやテクスチャ)に対して強い摂動を加えて複雑な細部を復元し、不確実性の低い領域(例えば平坦な部分)ではノイズを最小限に抑えて元情報を保持する。同時にQAPは高度な多モーダル大規模言語モデル(MLLM)を活用して信頼できる品質記述を生成し、復元プロセスに対して効果的かつ解釈可能な品質事前情報を提供する。実験結果により、QUSRは実世界の条件下で高忠実度かつ高リアリズムの画像を生成可能であることが確認された。ソースコードは https://github.com/oTvTog/QUSR にて公開されている。
QUSR: 品質認識と不確実性誘導型画像超解像ディフュージョンモデル
arXiv cs.CV / 2026/3/11
Models & Research
要点
- 本論文は、未知かつ空間的に変化する劣化に対応するために設計された、拡散ベースの新しい画像超解像モデルQUSRを紹介する。
- QUSRは、多モーダル大規模言語モデル(MLLM)を用いて解釈可能な品質記述を提供し、復元プロセスを導く品質認識事前情報(QAP)を統合している。
- 不確実性誘導ノイズ生成(UNG)モジュールは、不確実性の高い複雑な領域ではノイズを増加させて細部を復元し、不確実性の低い領域では情報を保持するようにノイズ注入を適応的に調整する。
- 実験結果は、QUSRが困難な条件下でも高い忠実性とリアリズムを持つ再構成画像を生成できることを示している。
- QUSRのソースコードは公開されており、さらなる研究や実用化を促進している。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning