DT2IT-MRM:偏りを抑えた嗜好(プレファレンス)構築と反復学習によるマルチモーダル報酬モデリング

arXiv cs.AI / 2026/4/22

📰 ニュースModels & Research

要点

  • この論文は、マルチモーダルLLMを人間の嗜好に合わせるための、マルチモーダル報酬モデリング手法DT2IT-MRMを提案しています。
  • 既存の嗜好データが抱える課題(嗜好の強さの粒度不足、テキストのスタイル偏り、不確かで信頼性の低い嗜好シグナル)に対して、偏りを抑えた嗜好構築パイプラインと、新しいテキスト-to-画像(T2I)嗜好データの再定式化を行います。
  • さらに、既存のオープンソースなマルチモーダル嗜好データセットのノイズを、スケーラブルに低減するための反復学習フレームワークを組み込みます。
  • 実験では、VL-RewardBench、Multimodal RewardBench、MM-RLHF-RewardBenchの3つのベンチマークで新たな総合SOTA(最高水準)の性能を達成したと報告しています。

\textbf{DT2IT-MRM} を提案します。これは、
\textbf{D}ebiased(偏り抑制)な嗜好構築パイプライン、新しいテキストから画像(\textbf{T2I})への嗜好データの再定式化、そして、既存のマルチモーダル嗜好データセットを \textbf{M}ultimodal \textbf{R}eward \textbf{M}odeling のためにキュレーションする \textbf{I}terative \textbf{T}raining(反復学習)フレームワークを統合したものです。実験結果は、DT2IT-MRMが、3つの主要ベンチマーク(VL-RewardBench、Multimodal RewardBench、MM-RLHF-RewardBench)において、
\textbf{state-of-the-art} の新たな総合的な性能を達成することを示しています。