概要: バングラ文化は、地域、方言、歴史、食、政治、メディア、そして日常の視覚的な生活を通じて豊かに表現されている一方で、多モーダル評価においては十分に代表されていません。このギャップを埋めるために、私たちは、歴史的に結びついた言語と言語圏の地域方言にまたがって、ベンガル文化を対象に多言語の視覚言語モデル(VLM)を評価するための、文化的に基盤づけられたベンチマークであるBanglaVerseを提案します。9つの領域にわたって手作業で厳選した1,152枚の画像から構築され、このベンチマークは視覚質問応答とキャプション生成をサポートし、さらに4言語と5つのバングラ方言へと拡張されることで、約32.3K件のアーティファクトを提供します。実験の結果、標準バングラ語だけを評価すると、モデルの真の能力を過大評価してしまうことが分かりました。方言の違いの下では性能が低下し、特にキャプション生成でその傾向が強く見られます。一方で、ヒンディー語やウルドゥー語のような歴史的に結びついた言語は文化的な意味の一部は保持するものの、構造化された推論に関しては依然として弱いままです。領域全体における主なボトルネックは、視覚的な手がかりだけではなく、知識集約的なカテゴリにおける文化的知識の欠落であることが示されました。これらの知見により、BanglaVerseは、言語変動のもとで文化的に基盤づけられた多モーダル理解を測定するための、より現実的なテストベッドとして位置づけられます。
多くの方言、多くの言語、ひとつの文化的レンズ:歴史的に結びついた言語と地域の方言にまたがるベンガル文化理解のための多言語VLMを評価する
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ベンガル文化を言語および地域の方言をまたいでどの程度モデルが理解できるかを評価するための、文化的に根ざした多言語ビジョン・言語ベンチマーク「BanglaVerse」を導入する。
- ベンチマークは、9つの視覚的領域にわたる1,152枚の手作業で厳選された画像から構築され、さらに4つの関連言語と5つのベンガル語方言に拡張され、約32.3K件の評価用アーティファクトを作成する。
- 結果は、標準ベンガル語のみで評価するとモデルの能力を過大評価しうることを示し、特に方言の変化(とりわけキャプション生成)で性能低下が最も顕著である。
- ヒンディー語やウルドゥー語のような歴史的に結びついた言語では文化的な意味がいくらか保持されるものの、モデルは方言に頑健な理解に比べて、構造化された推論が依然として弱い。
- 本研究は支配的な限界が、視覚的な根拠の不足ではなく、知識集約的なカテゴリにおける文化的知識の欠落であることを見出し、BanglaVerseを文化的にニュアンスのあるマルチモーダル評価のためのより現実的なテストベッドとして位置づける。