動画とテキストのアライメントのためのキャプションチェーンの学習によるランキング最適化

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的な二値DPO(「勝者総取り」)は、出力の品質が視覚内容に依存する視覚言語タスクには不向きであると主張する。なぜなら、負けた応答でも視覚的には忠実であり得るからである。
  • 視覚言語のためのランキング最適化を提案し、段階的な学習比較を得るために、繰り返しキャプションを劣化させることで、大規模に生成した順序付き「キャプションチェーン」を用いる。
  • 長尺動画のキャプション生成と評価に関する実験では、ランキング最適化が二値DPOを上回ることが示される。
  • 著者らは、ランキング手法(およびDPOスタイルの手法)では、うまく機能させるためにビジョンエンコーダの微調整が必要であることを見出し、DPOが言語モデルの再重み付け手法に限られるという考えに疑問を投げかける。

Abstract

直接嗜好最適化(DPO)は、言語モデルを訓練して、好ましい応答が好まれない応答よりも生成されるようにする効果的な手法である。しかし、この二値の「勝者総取り(winner-takes-all)」アプローチは、応答の品質が視覚コンテンツに強く依存する視覚言語モデルには不適である。特に、ある応答が別の応答より好まれない場合でも、その応答は視覚入力に対してなお忠実であり得る。標準的なBradley-TerryのDPO定式化ではこのニュアンスが欠けており、「負けた」応答が高い視覚的忠実度を依然として維持しているかどうかを十分に考慮せずに、勝った応答を過度に重み付けしてしまう。本研究では、応答が視覚入力にどれほど忠実であるかをより正確に位置づける代替として、ランキング最適化を調査する。詳細な動画キャプションを用いた動画-テキスト整合に焦点を当て、キャプションを繰り返し劣化させることで、大規模に難度の高い、完全に順序付けられたキャプションの鎖(caption chain)を生成する手法を提案する。実験結果は、ランキング最適化が長文コンテンツ生成および評価において二値DPOを上回ることを示している。さらに重要な点として、これらのアプローチが有効であるためには視覚エンコーダの微調整が必要であり、DPOを純粋に言語の再重み付け処理とみなす見方に挑戦することが明らかになった。