要旨:AI コーディングエージェントは経験的仕様探索を高速かつ低コストにしますが、研究者の隠れた自由度を広げています。オープンソースのエージェント・ループアーキテクチャを基盤に、本論文はそのフレームワークを経験的経済学のワークフローに適用し、検索後のホールドアウト評価を追加する。予測の組み合わせの図示では、複数の独立したエージェント実行が元のローリング評価で標準ベンチマークを上回るが、検索後のホールドアウトでは必ずしもそうとは限らない。記録された検索とホールドアウト評価を併せて用いることで、適応的仕様探索はより透明になり、堅牢な改善とサンプル特有の発見を区別するのに役立つ。
経験的経済学のための監査可能なAIエージェントループ:予測組み合わせのケーススタディ
arXiv stat.ML / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究はオープンソースのAIエージェント・ループアーキテクチャを経験的経済学へ適用し、監査可能性を高めるために検索後のホールドアウト評価を追加した。
- 予測の組み合わせを示す例では、複数の独立したエージェント実行がローリング評価の過程で標準ベンチマークを上回るが、検索後のホールドアウトでは全てが持続するわけではない。
- 記録された探索とホールドアウト評価を組み合わせることで、適応的仕様探索の透明性が高まり、堅牢な改善とサンプル特有の発見を見分けるのに役立つ。
- この研究は、AIエージェントを経験的研究で活用する際に、監査メカニズムが研究者の隠れた自由度を抑制する方法を示している。




