動画とテキストのアライメントのためのキャプションチェーンの学習によるランキング最適化
arXiv cs.LG / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的な二値DPO(「勝者総取り」)は、出力の品質が視覚内容に依存する視覚言語タスクには不向きであると主張する。なぜなら、負けた応答でも視覚的には忠実であり得るからである。
- 視覚言語のためのランキング最適化を提案し、段階的な学習比較を得るために、繰り返しキャプションを劣化させることで、大規模に生成した順序付き「キャプションチェーン」を用いる。
- 長尺動画のキャプション生成と評価に関する実験では、ランキング最適化が二値DPOを上回ることが示される。
- 著者らは、ランキング手法(およびDPOスタイルの手法)では、うまく機能させるためにビジョンエンコーダの微調整が必要であることを見出し、DPOが言語モデルの再重み付け手法に限られるという考えに疑問を投げかける。




