多言語LLMにおける応答の一貫性:ILRに基づく評価でClaudeを6言語で検証
arXiv cs.CL / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、ILR Skill Level Descriptions(相互言語運用の評価基準)を根拠にした、LLMの多言語応答一貫性を評価するための枠組みを提案している。
- 6言語(英語、フランス語、ルーマニア語、スペイン語、イタリア語、ドイツ語)でClaude(Sonnet 4.6)を評価し、ILR複雑度レベル1〜3+を対象に、意味的に同等なプロンプトクラスター12個を用いる。
- 12プロンプト×6言語×3実行の計216応答を収集し、自動の定量指標と、ILRの専門家による定性的評価を組み合わせる二層手法で分析している。
- 定量結果では、同一プロンプトでも言語間の差が確認され、たとえばフランス語の応答はドイツ語に比べ約30%長くなるなど、特に創造的・感情的クラスターで表層の相違が大きい。
- 定性的評価では、語用論的な曖昧性解消、創作・美学的な差、技術用語の言語内規範、文化的な調整不足、そして感情的サポートでの制度参照行動といった5つの変動パターンを特定し、計算ベンチマークだけでは分かりにくい多言語の公平性理解を補完できると主張している。




