AI Navigate

HyPER-GAN: 実時間フォトリアリズム向上のためのハイブリッドパッチベースの画像間翻訳

arXiv cs.CV / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • HyPER-GANは、合成データのフォトリアリズムを向上させることを目的とした、U-Net風ジェネレーターを備えた軽量でリアルタイムの画像間翻訳モデルです。
  • 実世界データからの対応パッチを組み合わせた、ペアの合成データとフォトリアリズム強化画像を用いたハイブリッド学習戦略を使用して、リアリズムと意味的一貫性を向上させます。
  • この手法は、推論レイテンシの低下と視覚的リアリズムおよび意味的頑健性の向上について、最先端のペア付き画像間翻訳法と比較して劣らないと報告されています。
  • 著者らは、再現性と実用的なデプロイのために、GitHubにコードと事前学習済みモデルを提供しています。
要約: 生成モデルは、コンピュータビジョンアルゴリズムの訓練用合成データのフォトリアリズムを向上させるために広く用いられています。しかし、これらはしばしば視覚的アーティファクトを引き起こし、アルゴリズムの精度を低下させ、高い計算リソースを必要とするため、リアルタイムの訓練や評価のシナリオでの適用を制限します。本論文では、Hybrid Patch Enhanced Realism Generative Adversarial Network(HyPER-GAN)を提案します。これは、リアルタイム推論を想定したU-Netスタイルのジェネレーターに基づく、軽量な画像間翻訳法です。モデルは、ペアになった合成データとフォトリアリズム強化画像を用いて訓練され、実世界データからの対応パッチを組み込むハイブリッドな学習戦略によって補完され、視覚的リアリズムと意味的一貫性を向上させます。実験結果は、HyPER-GANが推論レイテンシ、視覚的リアリズム、および意味的頑健性の点で、最先端のペア付き画像間翻訳法より優れていることを示しています。さらに、提案されたハイブリッド学習戦略は、ペアになった合成データとフォトリアリズム強化画像のみを用いてモデルを訓練した場合と比較して、視覚的品質と意味的一貫性を実際に向上させることを示しています。コードと事前学習済みモデルは、以下のURLで公開されています: https://github.com/stefanos50/HyPER-GAN