視覚言語モデルにおける否定理解の言語間格差
arXiv cs.CL / 2026/4/22
📰 ニュースSignals & Early TrendsModels & Research
要点
- 視覚言語モデルはしばしば肯定バイアスを示し、正しい記述が否定(「Xは存在しない」)を含む場合でも、肯定的なキャプションを選びがちです。
- 否定は形態・語順・クリティック化などの違いにより言語ごとに現れ方が異なり、既存の対策があらゆる言語共同体に公平に機能するかが課題になります。
- 研究者らは、7つの類型的に多様な言語(英語、中国語(北京語)、アラビア語、ギリシャ語、ロシア語、タガログ語、スペイン語)を対象とする最初の「人手検証付き」多言語否定ベンチマークを新たに提示しました。
- CLIP、SigLIP、MultiCLIPを評価した結果、標準CLIPは非ラテン文字言語でチャンスレベル以下になり、MultiCLIPは最も高く一貫した精度を示しました。
- 提案された否定補正手法(SpaceVLM)は複数言語で改善をもたらす一方、類型的に異なる言語では効果にばらつきがあり、言語特性とモデル改善の相互作用が「公平性」に関わることを示しています。