高度化されたマルチモーダルLLMをジャッジとして活用するためのマルチタスク強化学習
arXiv cs.CL / 2026/3/13
📰 ニュースModels & Research
要点
- MT-RL-Judgeは、さまざまな評価タスクにわたってジャッジとして機能するマルチモーダルLLMを訓練するためのマルチタスク強化学習フレームワークを提案する。
- この手法は、ベンチマーク評価における判断の一貫性と人間の嗜好との相関の双方で、強力なベースラインを上回る。
- 分布外タスクへの堅牢な一般化を示し、さまざまな文脈における信頼性を高める。
- 本研究は、マルチタスク最適化を活用することで、マルチモーダルLLMのより一般的で信頼性の高い評価へと道を示す。
要旨: マルチモーダル大規模言語モデル(MLLM)は、人間の判断と強く整合することから、さまざまな視覚タスクにおいてジャッジとして広く採用されています。しかし、既存のジャッジモデルの多くは単一タスクのシナリオ向けに最適化されており、多様な文脈へ一般化するのに苦労しており、信頼性の高い評価には不可欠な要件です。この制限に対処するために、MLLM-as-a-Judge のためのマルチタスク強化学習(MT-RL-Judge)を提案します。これは、複数のタスクにわたってジャッジモデルを共同最適化し、強化学習の一般化能力を活用するフレームワークです。いくつかの強力なベースラインに対する実験結果は、MT-RL-Judge が判断の一貫性と人間の嗜好との相関の両方でベースラインを上回ることを示しています。さらに、提案手法は分布外タスクへの堅牢な一般化を示し、その有効性をさらに検証します。