要旨: マルチモーダル生成タスクにおいては評価が重要ですが、従来のマルチモーダル評価指標にはいくつかの制限があります。MLLMの急速な進歩に伴い、MLLMを適用して一般的な評価システムを構築することへの関心が高まっています。しかし、既存の研究はしばしば単に大規模な評価データを収集して学習に用いるだけであり、評価データの品質を見落としています。さらに、現在提案されている評価モデルは、画像からテキスト(I2T)とテキストから画像(T2I)の両方のタスクにわたって、常に強力な性能を一貫して達成することに苦戦することが多いです。本論文では、厳密な品質管理戦略により、Minos-57Kという包括的なマルチモーダル評価データセットを構築します。これは15のデータセットにまたがる評価サンプルを含み、SFT(教師あり微調整)および選好整合(preference alignment)学習戦略を用いてマルチモーダル評価モデルMinosを開発するためのものです。注目すべき点として、本モデルは先行研究の学習データ規模の半分未満を用いているにもかかわらず、I2TおよびT2Iの両タスクをカバーする16のドメイン外データセットにおいて、公開されているマルチモーダル評価モデルの中で最先端の評価性能を達成し、クローズドソースのモデルとも競争力を維持しています。大規模な実験により、品質管理プロセスを活用すること、ならびにI2TとT2I生成タスクの両方から得られる評価データで共同学習すること、さらに選好整合を行うことの重要性が示されます。
MINOS:画像とテキスト間の双方向生成を評価するマルチモーダル評価モデル
arXiv cs.CL / 2026/4/30
💬 オピニオンModels & Research
要点
- 本論文は、画像→テキスト(I2T)およびテキスト→画像(T2I)の双方向生成をより適切に評価するためのマルチモーダル評価モデル「MINOS」を提案し、従来のマルチモーダル評価指標の限界に対処します。
- 厳格な品質管理を用いて、15のデータセットにまたがる評価サンプルを収録した高品質な評価データセット「Minos-57K」を構築します。
- MINOSは、SFT(教師あり微調整)と選好(プレファレンス)アラインメントの手法で学習し、I2TとT2Iの両タスクに対して評価の信頼性を高めます。
- 先行研究よりも学習データ規模は半分未満であるにもかかわらず、オープンソースのマルチモーダル評価モデルの中で、I2T・T2I双方を対象とする16のアウト・オブ・ドメイン・データセットで最先端の評価性能を達成したと報告しています。
- 実験結果は、品質管理、I2TとT2Iの評価データを併せて学習すること、さらに選好アラインメントが、一貫して強い評価性能を得る重要要因であることを示しています。



