視覚言語モデルにおける否定理解の言語間格差

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 視覚言語モデルはしばしば肯定バイアスを示し、正しい記述が否定(「Xは存在しない」)を含む場合でも、肯定的なキャプションを選びがちです。
  • 否定は形態・語順・クリティック化などの違いにより言語ごとに現れ方が異なり、既存の対策があらゆる言語共同体に公平に機能するかが課題になります。
  • 研究者らは、7つの類型的に多様な言語(英語、中国語(北京語)、アラビア語、ギリシャ語、ロシア語、タガログ語、スペイン語)を対象とする最初の「人手検証付き」多言語否定ベンチマークを新たに提示しました。
  • CLIP、SigLIP、MultiCLIPを評価した結果、標準CLIPは非ラテン文字言語でチャンスレベル以下になり、MultiCLIPは最も高く一貫した精度を示しました。
  • 提案された否定補正手法(SpaceVLM)は複数言語で改善をもたらす一方、類型的に異なる言語では効果にばらつきがあり、言語特性とモデル改善の相互作用が「公平性」に関わることを示しています。

Abstract

視覚言語モデル(VLM)は肯定バイアスを示します。これは、正しい説明に否定(「Xは存在しない」)が含まれている場合でも、「Xが存在する」(“X is present”) のような肯定的なキャプションを選択するという体系的な傾向です。先行研究ではこの失敗モードが英語で確認され、解決策も提案されてきましたが、否定は言語間で形態、語順、クリティック化(cliticization)のパターンが異なるため、現れ方が異なります。その結果、これらの解決策がすべての言語コミュニティに対して公平に機能しているのかという疑問が生じます。私たちは、人手によって検証された最初の多言語否定ベンチマークを導入します。これは、類型論的に多様な7言語(英語、中国語(マンダリン)、アラビア語、ギリシャ語、ロシア語、タガログ語、スペイン語)を対象としています。3つのVLM――CLIP、SigLIP、MultiCLIP――を評価したところ、標準のCLIPは非ラテン文字言語において偶然レベル以下の性能であるのに対し、MultiCLIPは最高かつ最も一様な精度を達成します。また、提案手法であるSpaceVLM(否定の訂正)も評価し、複数の言語――特に英語、ギリシャ語、スペイン語、タガログ語――で大幅な改善がもたらされることを確認しました。一方で、類型論的に異なる言語間では有効性にばらつきが見られます。このばらつきは、形態、文字体系、否定の構造といった言語特性が、公平性に関わる形でモデルの改善と相互作用することを示しています。VLMが世界中で導入される中で、多言語ベンチマークは、「解決策が機能するかどうか」だけでなく、「誰に対して」機能するのかを理解するために不可欠です。