ウクライナ語の視覚的語義曖昧性解消ベンチマーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最小限の文脈で、画像の集合から曖昧な語の正しい意味を選択することを目的とした、視覚的語義曖昧性解消(Visual-WSD)タスクのための新しいウクライナ語ベンチマークを提案する。
  • 既存のクロスランゲージベンチマークの手法(英語・イタリア語・ファルシ語で使用されていたもの)を適応し、言語間の比較を可能にする。
  • データセットは半自動的に収集され、ラベリング品質を向上させるために領域の専門家による入力で改良された。
  • 実験では、8つの多言語/マルチモーダルの大規模言語モデルをベンチマークで評価し、英語のVisual-WSDベンチマークで使用されているゼロショットのCLIPベースラインよりも、試験したすべてのモデルが低性能であることを見出す。
  • 分析により、Visual-WSDタスクにおけるウクライナ語と英語の間に大きな性能差があることが特定され、現在のマルチモーダルモデルには言語固有の課題があることが示唆される。

Abstract

本研究では、ウクライナ語における視覚的語義曖昧性解消(Visual Word Sense Disambiguation; Visual-WSD)タスクを評価するためのベンチマークを提示する。Visual-WSDタスクの主な目的は、文脈情報を最小限に抑えながら、10枚の画像の集合の中から、曖昧な語に対して最も適切な表現を同定することである。このベンチマークを構築するために、(CITATION)が先に提案した手法に類似した方法を採用した。同手法は、英語、イタリア語、ペルシア語におけるVisual-WSDタスクのベンチマークを導入したものである。このアプローチにより、ウクライナ語のベンチマークを、言語を横断したモデル性能比較のためのより広範な枠組みに組み込むことが可能になる。ベンチマークデータは半自動的に収集し、領域の専門家からの入力をもとに洗練させた。続いて、このベンチマークを用いて、8つの多言語かつマルチモーダルの大規模言語モデルを評価した。すべての評価対象モデルは、英語のVisual-WSDタスクで(CITATION)によって使用された、ゼロショットのCLIPベースラインモデル(CITATION)よりも性能が劣っていた。分析の結果、Visual-WSDタスクにおいて、ウクライナ語と英語の間に大きな性能ギャップが存在することが明らかになった。