AIエージェントの非標準的誤差

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、2015年から2024年までのNYSE TAQデータに基づくSPYの市場品質動向に関する6つの仮説を独立して検証するため、150台の自律的なClaude Codeエージェントを投入した。
顕著な非標準的誤差を検出し、測度選択（自己相関と分散比）およびドル表示と株式表示といった分析上の選択におけるエージェント間のばらつきが見られた。
異なるモデルファミリー（Sonnet 4.6 対 Opus 4.6）は安定した経験的スタイルを示し、エージェント間における体系的な方法論的嗜好を示唆している。
3段階のフィードバックプロトコルでは、AIによるピアレビューは分散にほとんど影響を与えない一方で、評価の高い模範論文への露出は、収束する測度ファミリー内の推定値の四分位範囲を80–99%縮小させる。
収束は同一ファミリー内での推定の引き締めと、測度ファミリーの時折の切替によって生じるが、それは理解ではなく模倣を反映しており、自動化された政策評価および実証研究に対する含意を持つ。

要旨: 私たちは、最先端のAIコーディングエージェントが、同じデータと研究課題が与えられた場合に、同じ経験的結果を生み出すかどうかを検討します。NYSE TAQデータのSPY（2015--2024）について、市場品質の傾向に関する6つの仮説を独立に検証するために、150の自律的なClaude Codeエージェントを展開したところ、AIエージェントは顕著な
\textit{非標準誤差} (NSEs) を示すことがわかりました。すなわち、分析上の選択肢におけるエージェント間のばらつきによって生じる不確実性で、ヒトの研究者間で報告されているものと類似しています。AIエージェントは、指標の選択において顕著に異なる（例：自己相関と分散比、ドル建ての取引量と株式数量ベースの取引量など）。異なるモデルファミリー（Sonnet 4.6 vs. Opus 4.6）は、安定した「経験的スタイル」を示し、方法論的嗜好の体系的な差を反映しています。3段階のフィードバック・プロトコルでは、AIの同僚審査（書面による批評）は散布についての影響を最小限に留める一方、トップ評価の模範論文に触れることで、同じ「収束」指標ファミリー内で推定値の四分位範囲を80–99%削減します。収束は、同一ファミリー内の推定の厳密化と、エージェントが測度ファミリー自体を完全に切り替えることの両方によって生じますが、収束は理解というより模倣を反映しています。これらの発見は、自動化された政策評価と実証研究におけるAIの活用拡大がもたらす影響を示しています。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

AIエージェントの非標準的誤差

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer