英語だけでは不十分:LLMのポストトレーニングにおける多言語性の役割を体系的に探る

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、多くのLLMポストトレーニングのパイプラインがいまだ英語中心であることを指摘しており、その結果、多言語展開が広く行われているにもかかわらず言語間で性能が不均一になり得ると論じている。
  • 数学推論とAPI呼び出しタスクを対象に、翻訳された多言語混合データを用いて(最大8Bパラメータまで)220件の制御された教師あり微調整実験を行ったところ、ポストトレーニングで言語カバレッジを拡大することは概して有益であることが分かった。
  • 低リソース言語は追加カバレッジから最も大きな恩恵を受ける一方、高リソース言語は、より多くの言語を含めても低下するというよりは頭打ち(プラトー)になりやすい。
  • 最小限の多言語性でも(非英語の1言語を追加するだけで)英語の性能や言語横断の汎化が改善し得るため、英語のみでのポストトレーニングは大部分で最適とは言えない。
  • 十分に高い言語多様性がある場合、少ない言語多様性で言語を直接含めることによる効果と同等、あるいはそれを上回る水準で、ゼロショットの言語横断転移が達成され得る。ただし類型論的に遠い低リソース言語では改善が限定的である。

Abstract

大規模言語モデルの多言語への広範な展開が進んでいるにもかかわらず、事後学習パイプラインは依然として主に英語中心であり、その結果として言語間の性能格差が生じています。本研究では、数学的推論とAPI呼び出しタスクにまたがる並列に翻訳された多言語データ混合物を用いた220件の教師ありファインチューニング実行に基づき、学習言語のカバレッジ、モデル規模、タスク領域の相互作用を体系的かつ制御された形で調査します。対象モデルは最大80億パラメータです。その結果、事後学習中に言語カバレッジを増やすことは、タスクおよびモデル規模の両方にわたって概ね有益であることが分かりました。特に低資源言語が最も恩恵を受け、高資源言語は低下するのではなく頭打ちになります。さらに、最小限の多言語性でも効果があります。単一の非英語言語を取り入れることで、英語の性能とクロスリンガルな汎化の両方が改善し、そのため英語のみの事後学習は概ね最適ではないことが明らかになりました。加えて、十分な言語多様性がある場合、ゼロショットのクロスリンガル転移は、低多様性設定における直接的な言語包含の効果に匹敵、あるいはそれを上回り得るものの、類型論的に遠い低資源言語に対する伸びは限定的であることが分かりました。