論文を読み、コードを書く：社会科学研究結果のエージェント的再現

arXiv cs.AI / 2026/4/27

📰 ニュースModels & Research

共有:

要点

本論文は、社会科学の知見を、元のコードや論文への追加アクセスなしで「論文の方法記述」と「元データのみ」を使ってLLMエージェントが再現できるかを検討している。
方法記述を構造化した指示に抽出し、情報隔離（エージェントが元のコード・結果・論文を見ない）下で再実装を実行したうえで、再現結果を公開結果とセル単位で決定論的に比較する「エージェント的再現システム」を提案している。
不一致が生じた際に、エージェントの処理チェーンを追跡するエラー要因推定ステップにより、再現失敗の根本原因を特定する仕組みを組み込んでいる。
人手で再現可能性が検証された48本の論文に対し、4種類のエージェント・スキャフォールドと4種類のLLMを評価した結果、再現は概ね可能だが、モデル、スキャフォールド、論文ごとに成績のばらつきが大きいことが分かった。
根本原因分析では、失敗はエージェント側の誤りだけでなく、論文の方法記述における不足・曖昧さ（アンダースペシフィケーション）にも起因することを示している。

要旨: 近年の研究では、LLMエージェントを用いて、データとコードの両方にアクセスできる状況で経験的な社会科学の結果を再現する試みが行われてきました。私たちはこの範囲を広げ、次の問いを立てます。つまり、論文の方法の記述と元データのみが与えられた場合、彼らは結果を再現できるのでしょうか。私たちは、論文から構造化された方法記述を抽出し、厳密な情報分離のもとで再実装を実行するエージェント型の再現システムを開発します――エージェントは、元のコード、結果、または論文を一切参照できません。そして、再現された出力を元の結果と対して、決定論的にセル単位で比較できるようにします。エラー帰属（アトリビューション）の手順では、不一致をシステムのチェーンを通じて追跡し、根本原因を特定します。人手で再現可能性を検証した48本の論文に対して、4種類のエージェント・スキャフォールドと4種類のLLMを評価した結果、エージェントは概ね公表された結果を回復できることが分かりましたが、性能はモデル、スキャフォールド、論文間で大きく異なりました。根本原因分析では、失敗の原因がエージェントの誤りだけでなく、論文それ自体における記述不足（アンダースペシフィケーション）にも起因していることが明らかになりました。

サブエージェント：エージェント型AIのビルディングブロック

Dev.to

DeepSeek-V4モデルは世界のAI競争を変える可能性

AI Business

ExecuTorchでOpenAIのプライバシーフィルターモデルをオンデバイス実行する方法

Reddit r/LocalLLaMA

エージェントのスキル錯覚：プロンプトによる制御がマルチエージェントのビジネスコンサルティングで失敗する理由

Dev.to

8週間で音声AIの受付係を作った——決めたことすべてとその理由

Dev.to

論文を読み、コードを書く：社会科学研究結果のエージェント的再現

要点

関連記事

サブエージェント：エージェント型AIのビルディングブロック

DeepSeek-V4モデルは世界のAI競争を変える可能性

ExecuTorchでOpenAIのプライバシーフィルターモデルをオンデバイス実行する方法

エージェントのスキル錯覚：プロンプトによる制御がマルチエージェントのビジネスコンサルティングで失敗する理由

8週間で音声AIの受付係を作った——決めたことすべてとその理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer