LLMの能力限界を「周鄉(Chouxiang)言語」の習得において探る

arXiv cs.CL / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、中国のインターネット文脈におけるサブカルチャー言語であるChouxiang Languageを扱うNLPタスクに対し、LLMの性能を評価するための専用ベンチマーク「Mouse」を提案しています。
  • 6つのタスクでの実験により、現在の最先端(SOTA)LLMは複数のタスクで明確な弱点を示す一方、文脈に基づく意味理解が必要なタスクでは比較的良好に機能することが分かります。
  • Chouxiang LanguageでSOTA LLMの性能が総じて低い理由を検討し、翻訳タスクで用いるLLM-as-a-judgeアプローチが人間の判断や価値観と一致するかを評価します。
  • Chouxiang翻訳の品質に影響する主要な要因を分析し、多文化統合と進化するオンライン言語のダイナミクスに焦点を当てたNLP研究の発展を促しています。
  • 著者らは追試・発展研究を支えるため、コードとデータを公開しています。