ViPO:大規模における視覚嗜好最適化(Visual Preference Optimization)
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、既存の嗜好(プレファレンス)データセットが次元ごとに勝者/敗者が入れ替わるなど相反する信号を含みやすく、そのため素朴な最適化では学習がうまく進まず、視覚の嗜好最適化をスケールするのが難しいと指摘しています。
- 提案手法Poly-DPOは、DPOの目的関数に多項式項を追加し、データセットの特性に応じてモデルの確信度を動的に調整することで、ノイズや偏りのあるデータでも頑健に学習できるようにしています。
- データ面のボトルネックを解消するため、著者らはViPOを構築・公開し、1024pxの画像ペア100万組(5カテゴリ)と720p+の動画ペア30万組(3カテゴリ)を用意し、プロンプト多様性と分布のバランスを重視しています。
- 実験では、高品質なViPOデータセット上でPoly-DPOの最適設定が標準のDPOへ収束することが示され、Poly-DPOがデータ品質に適応する性質を持ち、良いデータでは複雑な最適化が必須でない一方、データが不完全な場合には有効であることが裏付けられます。
- Pick-a-Pic V2のようなノイズの多いデータセットではPoly-DPOがDiffusion-DPOを上回り(SD1.5でGenEval +6.87、SDXLで+2.32)、ViPOでは既存のオープンソース嗜好データセットで学習したモデルより大きく性能が向上します。



