概要: 変換(翻訳)ベースのプロンプト提示は、多言語LLMで広く用いられていますが、その有効性は言語やタスクによって変動します。私たちは、資源レベルの異なる10の言語と4つのベンチマークにわたって、プロンプト提示戦略を評価します。分析の結果、単一の戦略があらゆる状況で普遍的に最適であることはないことがわかりました。翻訳は、翻訳品質が不完全であっても、低資源言語に強く有益であり、高資源言語では得られる利点がほとんどなく、またプロンプトベースの自己ルーティングは明示的な翻訳に劣ります。これらの知見に動機づけられて、私たちはプロンプト提示戦略の選択を学習された意思決定問題として定式化し、各インスタンスにおいてネイティブ方式か翻訳ベース方式かが最適かを予測する軽量な分類器を導入します。分類器は、4つのベンチマークにおいて固定戦略よりも統計的に有意な改善を達成し、さらに学習中に観測されなかったタスク形式にも汎化します。さらに分析すると、翻訳が有益となるかどうかは、翻訳品質だけではなく言語の資源レベルによって決まることが明らかになります。
誰も万能ではない:固定プロンプトから学習されたルーティングへ、マルチリンガルLLMにおける新しいアプローチ
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 多言語LLMで広く使われる翻訳ベースのプロンプトは、言語やタスクによって最適性が変わり、単一の手法が常に最良ではないことが示されました。
- 資源が少ない言語では、翻訳の品質が多少不十分でも翻訳ベースのプロンプトが大きな効果をもたらす一方、資源が豊富な言語では改善がほとんど見られません。
- プロンプトによる自己ルーティングは、明示的な翻訳よりも性能が劣ることが明らかになり、この設定では学習による選択がルーティングより有利だと示唆されています。
- 著者らはプロンプト戦略の選択を学習された意思決定問題として定式化し、ネイティブ/翻訳ベースのどちらが適切かを予測する軽量な分類器を提案しました。
- 分析の結果、翻訳が有益かどうかは「翻訳品質」よりも「言語のリソース量(資源レベル)」に強く左右されることが分かりました。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA