DT2IT-MRM：偏りを抑えた嗜好（プレファレンス）構築と反復学習によるマルチモーダル報酬モデリング

arXiv cs.AI / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文は、マルチモーダルLLMを人間の嗜好に合わせるための、マルチモーダル報酬モデリング手法DT2IT-MRMを提案しています。
既存の嗜好データが抱える課題（嗜好の強さの粒度不足、テキストのスタイル偏り、不確かで信頼性の低い嗜好シグナル）に対して、偏りを抑えた嗜好構築パイプラインと、新しいテキスト-to-画像（T2I）嗜好データの再定式化を行います。
さらに、既存のオープンソースなマルチモーダル嗜好データセットのノイズを、スケーラブルに低減するための反復学習フレームワークを組み込みます。
実験では、VL-RewardBench、Multimodal RewardBench、MM-RLHF-RewardBenchの3つのベンチマークで新たな総合SOTA（最高水準）の性能を達成したと報告しています。

\textbf{DT2IT-MRM} を提案します。これは、
\textbf{D}ebiased（偏り抑制）な嗜好構築パイプライン、新しいテキストから画像（\textbf{T2I}）への嗜好データの再定式化、そして、既存のマルチモーダル嗜好データセットを \textbf{M}ultimodal \textbf{R}eward \textbf{M}odeling のためにキュレーションする \textbf{I}terative \textbf{T}raining（反復学習）フレームワークを統合したものです。実験結果は、DT2IT-MRMが、3つの主要ベンチマーク（VL-RewardBench、Multimodal RewardBench、MM-RLHF-RewardBench）において、
\textbf{state-of-the-art} の新たな総合的な性能を達成することを示しています。