ノイジーな嗜好から学ぶ:半教師あり学習によるディレクト・プレファレンス・オプティマイゼーション

arXiv cs.CV / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、人間の視覚的嗜好は美的感覚、細部の忠実性、意味的整合性など多次元である一方、一般的な嗜好データセットはそれを単一の勝者/敗者ラベルに圧縮してしまうため、大きなラベルノイズが生じると主張している。
  • さらに、こうした圧縮は拡散モデル向けのディレクト・プレファレンス・オプティマイゼーション(DPO)において、相反する勾配信号を発生させ学習を誤らせ得ることを理論的に示している。
  • 対策として著者らはSemi-DPOを提案し、整合的な嗜好ペアをクリーンなラベル付きデータ、矛盾するペアをノイズを含むラベルなしデータとして扱う半教師あり手法を採用している。
  • Semi-DPOはまずコンセンサスでフィルタしたクリーン部分集合で学習し、そのモデルを暗黙の分類器として用いてノイズ集合に擬似ラベルを生成し、反復的に改善する。
  • 実験では、追加の人手アノテーションや学習中の明示的な報酬モデルなしで、複雑な人間の嗜好への整合を大幅に改善しつつ、最先端の性能を達成したと報告しており、コードとモデルの公開も予定している。

概要: 人間の視覚的嗜好は本質的に多次元的であり、美的要素、ディテールの忠実度、意味的な整合性を含んでいます。しかし、既存のデータセットは単一の全体的な注釈しか提供しないため、深刻なラベルノイズが生じます。すなわち、ある次元では優れている一方で別の次元で不足している画像は、単に勝ち/負けとしてマークされてしまいます。理論的に、これらの多次元の嗜好を二値ラベルに圧縮すると、拡散型ダイレクト嗜好最適化(Diffusion Direct Preference Optimization: DPO)を誤誘導する、相反する勾配信号が生成されることを示します。これに対処するために、整合したペアをクリーンなラベル付きデータとして扱い、相反するものをノイズを含むラベルなしデータとして扱う、半教師ありアプローチであるSemi-DPOを提案します。提案手法はまず、合意フィルタリングされたクリーンなサブセットで学習し、そのモデルを暗黙の分類器として用いて、ノイズを含む集合に対する擬似ラベルを生成します。その後、反復的な改良のためにこれを活用します。実験結果は、Semi-DPOが最先端の性能を達成し、複雑な人間の嗜好との整合性を大幅に改善することを示しています。さらに、学習中に追加の人手による注釈や明示的な報酬モデルを必要としません。コードとモデルは次で公開します: https://github.com/L-CodingSpace/semi-dpo