AI Navigate

AIエージェントの非標準的誤差

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、2015年から2024年までのNYSE TAQデータに基づくSPYの市場品質動向に関する6つの仮説を独立して検証するため、150台の自律的なClaude Codeエージェントを投入した。
  • 顕著な非標準的誤差を検出し、測度選択(自己相関と分散比)およびドル表示と株式表示といった分析上の選択におけるエージェント間のばらつきが見られた。
  • 異なるモデルファミリー(Sonnet 4.6 対 Opus 4.6)は安定した経験的スタイルを示し、エージェント間における体系的な方法論的嗜好を示唆している。
  • 3段階のフィードバックプロトコルでは、AIによるピアレビューは分散にほとんど影響を与えない一方で、評価の高い模範論文への露出は、収束する測度ファミリー内の推定値の四分位範囲を80–99%縮小させる。
  • 収束は同一ファミリー内での推定の引き締めと、測度ファミリーの時折の切替によって生じるが、それは理解ではなく模倣を反映しており、自動化された政策評価および実証研究に対する含意を持つ。

要旨: 私たちは、最先端のAIコーディングエージェントが、同じデータと研究課題が与えられた場合に、同じ経験的結果を生み出すかどうかを検討します。NYSE TAQデータのSPY(2015--2024)について、市場品質の傾向に関する6つの仮説を独立に検証するために、150の自律的なClaude Codeエージェントを展開したところ、AIエージェントは顕著な
\textit{非標準誤差} (NSEs) を示すことがわかりました。すなわち、分析上の選択肢におけるエージェント間のばらつきによって生じる不確実性で、ヒトの研究者間で報告されているものと類似しています。AIエージェントは、指標の選択において顕著に異なる(例:自己相関と分散比、ドル建ての取引量と株式数量ベースの取引量など)。異なるモデルファミリー(Sonnet 4.6 vs. Opus 4.6)は、安定した「経験的スタイル」を示し、方法論的嗜好の体系的な差を反映しています。3段階のフィードバック・プロトコルでは、AIの同僚審査(書面による批評)は散布についての影響を最小限に留める一方、トップ評価の模範論文に触れることで、同じ「収束」指標ファミリー内で推定値の四分位範囲を80–99%削減します。収束は、同一ファミリー内の推定の厳密化と、エージェントが測度ファミリー自体を完全に切り替えることの両方によって生じますが、収束は理解というより模倣を反映しています。これらの発見は、自動化された政策評価と実証研究におけるAIの活用拡大がもたらす影響を示しています。