グラウンドトゥルースの再考: MLLMベンチマークにおける人間ラベル変動のケーススタディ

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMベンチマークの評価プロトコルを提案し、人間ラベルの合意と不一致(HLV)を明示的に考慮する。
  • このプロトコルを、最先端のMLLMファミリー(Gemma 3 と Qwen 2.5 VL)に適用し、ソーシャルメディアのコンテンツ分類データセットから得られた非集約的な人間アノテーションを用いた。
  • 結果として、より大きなモデルは高い合意を得られるサブセットで優れる傾向がある一方で、合意が低い場合には中程度のサイズのモデルを下回ることがあり、曖昧さへのモデルの感度はパラメータ数だけで決まるものではないことを示している。
  • 著者らは、コンセンサスラベルのみに基づくベンチマークはコンテンツモデレーションにおけるモデルの能力を過大評価する可能性があり、人間ラベルのばらつきを取り入れることで、実際のパイプラインにおけるMLLMのより現実的で頑健な評価が得られる。

概要: 人間のラベル変動(HLV)、すなわちアノテータの判断における系統的差異は、LLMの急速な進展にもかかわらずベンチマークでは十分には検討されていません。私たちはこのギャップを、2つの条件(1)人間のラベル一致と(2)不一致を明示的に考慮する、マルチモーダル大規模言語モデル(MLLM)ベンチマーキングの評価プロトコルを導入することで埋めることに取り組みます。私たちはこのプロトコルを、ソーシャルメディアのコンテンツ分類データセットからの非集約の人間アノテーションを用いて、2つの最先端MLLMファミリ(Gemma 3、Qwen 2.5 VL)に適用します。タスクを横断して、より大きなモデルは高い同意度のサブセットで最も良い性能を示す傾向がある一方で、人間の不一致が高い場合には中サイズのモデルに劣ることが多いことが分かりました。これは、パラメータ数だけでは曖昧さや主観性への感度を決定しないことを示しています。これらの結果は、一致ラベルのみに基づくベンチマークがこのような領域でのモデル能力を過大評価する可能性があること、そして人間のラベル変動を組み込むことで、コンテンツモデレーションのパイプラインにおけるMLLMのより現実的で頑健な評価を得られることを示しています。