要旨: 私たちは、大規模言語モデル(LLMs)が文法モジュールについてどれだけ「多くを語る」ことができるかを検証し、ChatGPTがアラビア語に翻訳した統語の核心的特性からの証拠を提示します。私たちは、生成文法の過去の研究(書籍やジャーナル記事を含む)および現場での経験から、44の用語を収集しました。これらの用語は人間によって翻訳され、次いでChatGPT-5によって翻訳されました。その後、両方の翻訳を分析・比較しました。分析には分析的かつ比較的なアプローチを用いて分析を行いました。結論は、研究対象の用語に埋め込まれた核となる統語特性について、LLMsは依然として「多くを語る」ことができていないことを明らかにする。これにはいくつかの統語的および意味的な課題が含まれる。ChatGPTの翻訳のうち正確であったのは25%に過ぎず、38.6%は正確でなく、36.4%は部分的に正しかった。これを適切とみなします。これらの知見に基づき、実行可能な戦略の一連が提案され、その中でも最も顕著なのは、AI専門家と言語学者の緊密な協力によって、LLMsの作動メカニズムを改善し、正確であるか、少なくとも適切な翻訳を実現することである。
現行の大規模言語モデルは依然として『文法モジュール』についてあまり語れない:統語論からの証拠
arXiv cs.CL / 2026/3/23
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、44の生成統語論用語をアラビア語に翻訳し、人間の翻訳とChatGPT-5の出力を比較することで、LLMsが文法モジュールについてどのように議論するかを検証する。
- 本研究は、生成統語論の文献と著者らの現場経験から得られた語を対象に、翻訳を評価するために質的な分析・比較的アプローチを用いている。
- 結果は、ChatGPTの翻訳のうち正確なのはわずか25%、不正確なのは38.6%、部分的に正確なのは36.4%であることを示しており、核となる統語翻訳における重大な限界を示している。
- 本研究の所見は、意味論的および統語論的な幾つかの課題が、LLMsが文法用語の核となる性質を適切に用語化するのを妨げていることを示している。
- 本論文は実践的な戦略を提案しており、特にAI専門家と言語学者の緊密な協力が、LLM翻訳の性能を向上させる鍵であると指摘している。




