LLLMs: 大規模言語モデルの限界に関する進化する研究のデータ駆動型調査
arXiv cs.CL / 2026/3/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本調査は、データ駆動型・半自動的なアプローチを用いて、2022年から2025年初頭までのLLMsの限界を検討する研究(LLLMs)を下から上へレビューし、キーワードフィルタリング、LLMベースの分類、専門家ラベルでの検証、トピッククラスタリング(HDBSCAN+BERTopicとLlooMの2手法)を用いて、ACLおよびarXiv論文25万件のコーパスを分析します。
- ACLにおけるLLM関連論文の割合は2022年から2025年にかけて5倍以上、arXivではほぼ8倍に増加し、2025年にはLLLMsがLLM論文の30%以上を占めると報告されています。
- 推論は最も研究されている限界で、次いで一般化、幻覚、バイアス、セキュリティであり、arXivデータセットはセキュリティリスク、整合性、幻覚、知識編集、マルチモダリティへと重点が移っています。
- 著者らは注釈付き要旨データセットと検証済みの方法論をGitHubで公開しており、再現性とさらなる研究を可能にしています。
要旨 大規模言語モデル(LLM)研究は急速に成長しており、それに伴いその限界への懸念も高まっています。本調査では、下から上へのアプローチを用いたデータ駆動型・半自動的なレビューを行い、2022年から2025年初頭までのLLMsの限界に関する研究(LLLMs)を対象とします。25万件のACLおよびarXiv論文のコーパスから、キーワードフィルタリング、LLMベースの分類、専門家ラベルでの検証、およびトピッククラスタリング(2つのアプローチ、HDBSCAN+BERTopicとLlooM)を用いて、14,648件の関連論文を識別しました。私たちは、ACLにおけるLLM関連論文の割合が2022年から2025年の間に5倍を超えて増加し、arXivではほぼ8倍に達したことを発見しました。2022年以降、LLLMs研究はさらに速いペースで成長し、2025年にはLLM論文の30%を超える規模に達しています。推論は最も研究されている限界であり、次いで一般化、幻覚、バイアス、セキュリティです。ACLデータセットのトピック分布は時間とともに比較的安定していますが、arXivはセキュリティリスク、整合性、幻覚、知識編集、マルチモダリティへと傾向を移しています。本研究は、LLLMs研究の動向を定量的に示すとともに、注釈付き要旨データセットと検証済みの方法論を公開しています。入手先:https://github.com/a-kostikova/LLLMs-Survey