広告

[D] ピクセルシフトを使ってVAE精度を向上させる先行研究はある?

Reddit r/MachineLearning / 2026/3/30

📰 ニュース

要点

  • Redditのユーザーが、高圧縮のVAE(「f8ch32」、8倍圧縮、32チャネル)を学習しており、現状の結果以上に再構成の忠実度を高める方法を探している(SDXL f8ch4よりは良いが、AuraFlow f8ch16よりは劣る)。
  • 彼らは「極端」版のジッターベース学習を試したと報告している。アップスケールした画像からピクセルシフト/ストライド1のクロップを大量に生成し、精度を総当たりで追い込むというもの。
  • 例としては、2048×2048から(1024+ps)×(1024+ps)へアップサンプルし、その後隣接する1024×1024のクロップをすべて抽出する(例:ps=2なら9枚のクロップ)ことで、学習用のデータ拡張サンプルを作る。
  • 初期の改善は得られたと主張しているが、GPUリソースが限られている中で最良の忠実度を得るには、損失の重み付けスキーム(例:L1とエッジL1)を調整する必要がある。
  • コミュニティに対し、ピクセルシフト/ジッター型のデータ拡張を特にVAEの再構成品質向上に活用する先行研究や確立されたアプローチが存在するかを尋ねている。
  • categories: [

現在、「f8ch32」というVAEを訓練しようとしています
(8倍の圧縮率、32チャンネル)

その現在の性能は「sdxl f8ch4よりは良いが、auraflow f8ch16よりは悪い」といったところだと評価できます

私の最大の課題は、再構成の忠実度を改善することです。
いろいろ調べた結果、この手のことに関して世間に知られている手法は、主にLPIPSとGANを使っているようです。
これらの問題は、LPIPSは平滑化しすぎることがあり、GANは作り話をし始めることです。
後者は「シャープな仕上がり」を求めるだけなら問題ありませんが、元画像への実際の忠実度を重視するなら最悪です。

そこで私は、この種の古い訓練アイデアである「訓練画像セット全体にジッター(揺らぎ)を使う」を極端にして、ピクセルシフトを使って精度を力ずくで引き上げようと決めました。

具体的な使用例:

2048x2048のような高解像度画像を用意します。
「ピクセルシフト値」をいくつか定義します。(この例ではps=2)
高解像度画像を隣接するサイズである(1024+2)x(1024+2)にリサイズします。
その上で、その
(この特定のケースでは9枚の訓練画像が得られます)
1024x1024のストライド1の切り出しをすべて意図的に順に進めていきます。

この方法で、最初のうちは一定の成功が得られているようです。
ただし、いまは、l1やedge_l1 lossのように、使っているロス関数に対する最も効果的な重み付け値を見つけるためのチューニングゲームをしなければなりません。

限られたGPUリソースしかなく、暗中で闇雲に続ける必要があるのではなく、誰かこの分野で既に道を切り開いた先行研究を知っていないか聞いてみようと思いました。

submitted by /u/lostinspaz
[link] [comments]

広告