多言語VLMは同等に推論できるのか?インドの言語に対するクロスリンガル視覚推論監査
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MathVista、ScienceQA、MMMUの計980の翻訳質問を用いて、複数のインドの言語に対する初めてのクロスリンガルな視覚推論監査であるとしている。
- 翻訳にはIndicTrans2を用い、サンプルセットに対しては交差検証としてGemini 2.0 Flashを使用した結果、8つの視覚言語モデルを7つの言語で評価する前の段階で翻訳者間の一致度が0.79〜0.84と良好であったと報告している。
- 結果として、英語からインドの言語へ移行すると正答率が9.8〜25ポイント大きく低下し、ドラヴィダ諸語ではインド・アーリア諸語よりも最大13.2ポイント分以上低下が大きいことが示されている。
- Chain-of-thought(思考連鎖)によるプロンプトは、一般にバングラ語やカンナダ語では性能を改善するのではなくむしろ悪化させており、多くの「推論の連鎖」が英語中心であることを示唆している。
- 多言語VLM(Aya-Vision-8B)であっても、ドラヴィダ系文字では依然として大幅な低下(28.5ポイント)が見られ、著者らはベンチマークと全モデルの出力を公開している。



