広告

多言語VLMは同等に推論できるのか?インドの言語に対するクロスリンガル視覚推論監査

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MathVista、ScienceQA、MMMUの計980の翻訳質問を用いて、複数のインドの言語に対する初めてのクロスリンガルな視覚推論監査であるとしている。
  • 翻訳にはIndicTrans2を用い、サンプルセットに対しては交差検証としてGemini 2.0 Flashを使用した結果、8つの視覚言語モデルを7つの言語で評価する前の段階で翻訳者間の一致度が0.79〜0.84と良好であったと報告している。
  • 結果として、英語からインドの言語へ移行すると正答率が9.8〜25ポイント大きく低下し、ドラヴィダ諸語ではインド・アーリア諸語よりも最大13.2ポイント分以上低下が大きいことが示されている。
  • Chain-of-thought(思考連鎖)によるプロンプトは、一般にバングラ語やカンナダ語では性能を改善するのではなくむしろ悪化させており、多くの「推論の連鎖」が英語中心であることを示唆している。
  • 多言語VLM(Aya-Vision-8B)であっても、ドラヴィダ系文字では依然として大幅な低下(28.5ポイント)が見られ、著者らはベンチマークと全モデルの出力を公開している。

Abstract

生成AIの視覚言語モデルは数学・科学・空間推論のベンチマークで高い性能を示す一方で、これらの評価はほぼすべて英語です。私はインドの言語に対する、初の言語横断型の視覚推論監査を提示します。MathVista、ScienceQA、MMMU からの980問を、IndicTrans2を用いてヒンディー語、タミル語、テルグ語、ベンガル語、カンナダ語、マラーティー語へ翻訳し、さらに各言語につき50サンプルでGemini 2.0 Flash によるクロス検証を行いました(翻訳者間一致度 0.79-0.84)。7Bのオープンソースモデルから GPT-4o までの8つのVLMを、7つの言語すべてにわたって評価し、テキストのみおよび chain-of-thought のアブレーションを含む68,600件の推論記録を得ました。英語からインドの言語へ切り替えると精度が9.8〜25パーセントポイント低下することを見出します。とりわけドラヴィダ系の言語は、インド・アーリア系より最大で13.2pp 以上大きく低下します。chain-of-thought を促すプロンプトは、助けになるどころかベンガル語(-14.4 pp)とカンナダ語(-11.4 pp)でむしろ悪化させ、英語中心の推論チェーンが露呈します。23言語向けに構築された Aya-Vision-8B でも、ドラヴィダ系の文字では依然として28.5 pp低下します。多言語事前学習だけでは視覚推論は転移しません。私は、翻訳したベンチマークと、すべてのモデル出力を公開します。

広告