ViPO：大規模における視覚嗜好最適化（Visual Preference Optimization）

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、既存の嗜好（プレファレンス）データセットが次元ごとに勝者/敗者が入れ替わるなど相反する信号を含みやすく、そのため素朴な最適化では学習がうまく進まず、視覚の嗜好最適化をスケールするのが難しいと指摘しています。
提案手法Poly-DPOは、DPOの目的関数に多項式項を追加し、データセットの特性に応じてモデルの確信度を動的に調整することで、ノイズや偏りのあるデータでも頑健に学習できるようにしています。
データ面のボトルネックを解消するため、著者らはViPOを構築・公開し、1024pxの画像ペア100万組（5カテゴリ）と720p+の動画ペア30万組（3カテゴリ）を用意し、プロンプト多様性と分布のバランスを重視しています。
実験では、高品質なViPOデータセット上でPoly-DPOの最適設定が標準のDPOへ収束することが示され、Poly-DPOがデータ品質に適応する性質を持ち、良いデータでは複雑な最適化が必須でない一方、データが不完全な場合には有効であることが裏付けられます。
Pick-a-Pic V2のようなノイズの多いデータセットではPoly-DPOがDiffusion-DPOを上回り（SD1.5でGenEval +6.87、SDXLで+2.32）、ViPOでは既存のオープンソース嗜好データセットで学習したモデルより大きく性能が向上します。

日経XTECH

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA