大規模言語モデルは本当に人間より賢いのか?
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は6つの最先端のLLMにおけるデータ汚染を検証するための3つの相補的な実験を実施し、公的ベンチマークにおける訓練データのリークが顕著であることを明らかにした。
- 513問のMMLU問題について、語彙的汚染パイプラインは全体の汚染率を13.8%と算出し、哲学分野で最大66.7%に達し、カテゴリ別の推定正確性向上は+0.030〜+0.054ポイントである。
- 間接参照テストでは、平均で約7.0ポイントの正確性低下が見られ、法と倫理の分野では19.8ポイントにまで増加しており、記憶または言い換えられた内容への依存を示している。
- 行動プローブは、質問の72.5%が暗記シグナルを誘発し、DeepSeek-R1は特徴的な暗記パターンを示し、すべての実験で汚染を STEM > 専門職 > 社会科学 > 人文学の順でランキングした。




