私が行った簡単な実験です。まったく同一のAIコーディングエージェント(Claude Code)を2つ用意し、同じ課題──小さな言語モデルを最適化すること──を与えました。1つのエージェントは内蔵の知識だけで作業しました。もう1つのエージェントは、2M+件のコンピュータサイエンス研究論文に対する検索エンジンへのアクセスがありました。
論文なしのエージェント: 予想どおりのことをしました。よく知られた最適化手法を試しました。モデルを3.67%改善しました。
論文ありのエージェント: 各試行の前に研究文献を検索しました。520本の関連論文を見つけ、そこから25の手法を試しました──その中には、AIの学習打ち切りから数か月後の2025年2月に発表された論文のものも含まれていました。文字どおり、論文へのアクセスがなければ、この手法を知り得ませんでした。モデルを4.05%改善しました──3.2%分だけより良い改善です。
面白かったのは、両方のエージェントが同じアイデア(バッチサイズを半分にする)を試した点です。論文なしの方は間違えました──重要な調整を見落としてしまい、結局すべてが失敗しました。論文ありの方は、2022年の論文にそのやり方を正確に説明するルールを見つけ、1回目で正しくできました。
論文にあるアイデアがすべて機能したわけではありません。しかし機能したものは、研究へのアクセスなしでは到達不可能でした。
AIモデルには知識の打ち切り(cutoff)があります。学習後に発表されたものは何も見ることができません。そして、古い研究であっても、常に適切なタイミングで正しい手法を思い出せるとは限りません。検索可能な文献へのアクセスを与えることは、そのギャップを意味のある形で埋めるように見えます。
私は、AIコーディングエージェント向けの無料のMCPサーバーとして、論文検索ツール(Paper Lantern)を作りました:https://code.paperlantern.ai
完全な実験の書き起こし:https://www.paperlantern.ai/blog/auto-research-case-study
[link] [comments]



