要旨: 現代のテキストから画像への生成の成功は、主として大規模で高品質なデータセットによって支えられています。現在、これらのデータセットは「まずフィルタリングする」パラダイムによって選別されており、その前提として、低品質な生データはモデル性能にとって有害であるため、積極的に捨てられています。捨てられた「悪いデータ」は本当に役に立たないのでしょうか、それとも未開拓の可能性を秘めているのでしょうか。本研究では、この問いを批判的に再検討します。我々は、未キュレーションのデータ分布そのものを活用する新しい学習フレームワークであるLACON(Labeling-and-Conditioning)を提案します。フィルタリングの代わりに、LACONは、審美性スコアやウォーターマーク確率といった品質に関するシグナルを、明示的で定量的な条件ラベルとして再利用します。続いて、生成モデルは、悪いものから良いものまで、データ品質の全スペクトルを学習するように訓練されます。高品質コンテンツと低品質コンテンツの明示的な境界を学習することで、LACONは、同一の計算予算を用いてフィルタ済みデータのみで訓練されたベースラインと比較して、より優れた生成品質を達成します。これは、未キュレーションなデータの持つ重要な価値を裏付けるものです。
LACON: 未キュレーションデータから学習するテキスト・トゥ・イメージモデル
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のテキスト・トゥ・イメージ学習では「フィルタ先行」のアプローチがしばしば採用されており、低品質な生データが切り捨てられることで、潜在的に有用な情報が無駄になっている可能性があると主張している。
- LACON(Labeling-and-Conditioning)を提案し、鑑賞スコアやウォーターマーク確率などの未キュレーションデータから得られる品質シグナルを、サンプルを破棄するのではなく、明示的な条件ラベルとして再構成する。
- 学習目的により、モデルが品質の全スペクトラムを表現するよう促し、高品質と低品質のコンテンツの境界を学習させる。
- 実験結果では、同じ計算予算を用いながらフィルタ済みデータのみで学習するベースライン手法よりも生成品質が向上したと報告されており、未キュレーションデータは適切に用いれば価値があることを示唆している。



