要旨: arXivの論文を分析することで、私たちは大規模言語モデル(LLM)によって引き起こされている可能性が高いが、これまで十分に注目されてこなかったいくつかの語の用法の変化を報告します。たとえば、タイトルにおける「beyond」や「via」の頻度の増加、要旨における「the」や「of」の頻度の減少などです。さまざまなLLM間には類似性があるため、実験では、多クラス分類のタスクにおいて、現在の分類器は与えられたテキストをどの特定のモデルが生成したかを正確に特定するのが難しいことが示されています。一方で、LLMごとの差異もまた、学術論文における語の用法のパターンの変化につながります。直接的で高度に解釈可能な線形アプローチを採用し、モデルとプロンプトの違いを考慮することで、これらの影響を定量的に評価し、現実世界でのLLMの利用が不均一であり、かつ動的であることを示します。
Viaを超えて:学術論文における大規模言語モデルの影響の分析と推定
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究はarXivの論文を分析し、LLMの影響と整合的に見える、学術的な文章表現の測定可能な変化を見出している。具体的には、タイトル内で「beyond」や「via」がより頻繁に用いられる一方、要旨では「the」や「of」の使用頻度が低下している。
- 現在のテキスト分類器は、あるテキストがどの特定のLLMによって生成されたかを識別することが難しいと報告されており、一般的なLLM由来の文体的シグナルがあるにもかかわらず、多クラスの帰属(attribution)には限界があることが示唆される。
- 著者らは、異なるLLM(さらにプロンプトのバリエーションでさえ)によって時間の経過とともに語の使用パターンが変化し、文章への影響が不均質かつ動的であることを示している。
- モデルやプロンプトの違いを考慮した、直接的で高度に解釈可能な線形アプローチを用いることで、本論文は定性的な観察に頼るのではなく、これらの影響について定量的な推定を提示している。



