一貫性は増幅する：行動のばらつきがエージェントの精度を形作る方法

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMベースのエージェントにおいて、同一のタスクに対して類似した行動列を生成するという行動の一貫性が、信頼性を高めるかどうかを、ソフトウェア工学ベンチマークであるSWE-benchを用いて検証する。
Claude 4.5 Sonnet、GPT-5、Llama-3.1-70Bをそれぞれ50回超える評価実行で比較すると、一般に一貫性が高いほど精度も高い傾向が見られる（Claudeは分散が最も小さく精度が最も高い；Llamaは分散が最も大きく精度が最も低い）。
重要なニュアンスは、一貫性は正しさを保証しない点である。同一モデル内では、一貫性が正しい解釈と誤った解釈の両方を増幅しうるため、再現性のある誤った推論が生じる。
例えば、Claudeの失敗の71%は「一貫した誤った解釈」に由来しており、主なリスクは安定した誤った前提にあることが示される。
著者らは、生産環境への導入やエージェントの評価／学習においては、実行の一貫性よりも解釈の精度がより重要だと主張しており、発散のタイミングだけでは一貫性の挙動を十分には説明できないとしている。

要旨: LLMベースのエージェントが本番システムへ導入されるにつれて、その行動の一貫性（同一のタスクが与えられたときに、類似した一連の行動列を生成するかどうか）を理解することが、信頼性のために重要になります。本研究では、高度なソフトウェア工学ベンチマークであるSWE-benchの文脈で一貫性を調査します。SWE-benchは、複雑で多段階の推論を必要とする課題です。Claude~4.5~Sonnet、GPT-5、Llama-3.1-70Bをそれぞれ50回ずつ（10タスク $\times$ 5回）比較したところ、モデル間で見ると、一貫性が高いほど精度が高いことが分かりました。すなわち、Claudeは最小の分散（CV: 15.2\%）と最高の精度（58\%）を達成し、GPT-5は中間（CV: 32.2\%、精度: 32\%）であり、Llamaは最大の分散（CV: 47.0\%）を示し、最も低い精度（4\%）でした。とはいえ、モデル内部においては、一貫性は正しい解釈だけでなく誤った解釈も増幅し得ます。私たちの分析は重要なニュアンスを明らかにします：\textbf{一貫性は正しさを保証するのではなく、結果を増幅する}。Claudeの失敗の71\%は「一貫して誤った解釈」に由来しており、すべての実行にわたって同じ誤った仮定を行うことが原因でした。興味深いことに、GPT-5は初期の戦略的な一致がClaudeと同程度である一方（ステップ3.4で分岐、Claudeは3.2で分岐）、分散は2.1 $\times$ 高く、一致の分岐タイミングだけでは一貫性は決まらないことを示唆しています。これらの結果は、本番導入においては、実行の一貫性よりも解釈の精度がより重要であることを示しており、エージェントの評価や学習への含意があります。

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

一貫性は増幅する：行動のばらつきがエージェントの精度を形作る方法

要点

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer