要旨: 大規模言語モデル(LLM)は世界中で使用されており、その学習データの多くが英語であるため、通常は英語の入力に対して最も良い性能を示します。その結果、多くの英語を母語としない話者はそれらと英語を第二言語(ESL)として用いてやり取りすることになり、これらの入力にはしばしばタイプミスが含まれます。先行研究では概ね、ESLの変動とタイプミスの影響を別々に検討してきましたが、現実の利用ではそれらが同時に生じることが多いにもかかわらずです。本研究では、Trans-EnVフレームワークを用いて標準英語の入力を8種類のESLバリアントに変換し、MulTypoを適用して3段階(低・中・高)のレベルでタイプミスを注入します。その結果、ESLの変動とタイプミスを組み合わせると、どちらか一方のみの場合よりも一般に性能低下が大きくなることがわかりました。ただし、複合効果は単純に加算的ではありません。このパターンは、クローズドエンド形式のタスクで最も明確に観察でき、性能劣化はESLバリアントとタイプミスのレベルにまたがってより一貫して特徴付けられる一方で、オープンエンド形式のタスクでは結果がより混在します。全体として、これらの知見は、クリーンな標準英語での評価が現実世界でのモデル性能を過大評価しうること、またESLの変動とタイプミスをそれぞれ単独で評価しても、現実的な状況におけるモデル挙動を十分には捉えられないことを示唆しています。
英語を第二言語とする場合(ESL)の個別および組み合わせ効果とタイポ(誤字)がLLMの性能に与える影響
arXiv cs.CL / 2026/4/7
💬 オピニオンModels & Research
要点
- 本論文は、英語を第二言語(ESL)とする場合のばらつきと、タイポ(タイプミス)の誤りが、大規模言語モデルの性能にどのように共同で影響するかを調査する。これは、これらの問題が実際の利用においてしばしば同時に生じるためである。
- 著者らは、Trans-EnVフレームワーク(8つのESLバリアントを生成)とMulTypo(低・中・重の各レベルでタイポを注入)を用いて、複合条件下での性能変化を定量化する。
- 結果は、ESLのばらつきとタイポを組み合わせると、通常はそれぞれ単独の場合よりも大きな性能低下が生じることを示しており、しかも複合効果は単純な加算ではない。
- 劣化は、開放型タスクよりも閉形式タスクでより一貫して特徴づけられる。一方、開放型タスクでは結果がより混在する。
- 本研究は、クリーンな標準英語での評価は現実世界での性能を過大評価し得ること、またESLのばらつきとタイポを別々に評価しても、現実に近いモデル挙動を十分に反映できないことを結論づけている。




