広告

質問するか、仮定するか? コーディングエージェントにおける不確実性に配慮した明確化要求

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースのコーディングエージェントが不足した(曖昧な)指示に対してどのように対処すべきかを、明確化要求(「ask」)と自律的な推測(「assume」)を比較することで検討する。
  • 単一のエージェントが両方を担うのではなく、曖昧さ(アンダースペシフィケーション)の検出とコード実行を分離する、不確実性に配慮したマルチエージェントの構成(スキャフォールド)を提案する。
  • SWE-bench Verified の曖昧化バリアントで評価したところ、OpenHands + Claude Sonnet 4.5 の構成は、標準的な単一エージェント手法に対して69.40%のタスク解決率を達成し、61.20%だった。
  • マルチエージェント手法は、よく較正された不確実性推定を示し、簡単なタスクでは質問をより少なくし、問題がより複雑な場合には積極的に問い合わせる。
  • 著者らは、このアプローチにより、ユーザーに不足している文脈を明確化すべきときに、エージェントがそれを独立して認識することで、エージェントをより能動的な協働者に近づけられると主張する。

要旨: 大規模言語モデル(LLM)エージェントが、ソフトウェアエンジニアリングのようなオープンエンドな領域にますます導入されるにつれ、重要な文脈を欠いた、仕様が十分に定まっていない指示(underspecified instructions)に頻繁に遭遇するようになっています。人間の開発者は自然に曖昧さの解消を明確化の質問によって行いますが、現在のエージェントは主として自律的な実行(autonomous execution)に最適化されています。本研究では、SWE-bench Verified の十分に定まっていない変種に対して、LLMエージェントの明確化を求める能力を体系的に評価します。私たちは、不確実性を考慮したマルチエージェントのスキャフォールドを提案し、十分に定まっていない状態の検出をコード実行から明示的に切り離します。結果として、OpenHands + Claude Sonnet 4.5 を用いるこのマルチエージェントシステムは、69.40% のタスク解決率を達成し、標準的な単一エージェント構成(61.20%)を大幅に上回り、さらに、十分に定められた指示に基づいて動作するエージェントと同程度の性能ギャップを埋めることができました。さらに、このマルチエージェントシステムは適切にキャリブレーションされた不確実性を示し、単純なタスクではクエリ(質問)を温存しつつ、より複雑な問題では情報を積極的に求めます。これらの結果は、現在のモデルを、プロアクティブな協働者(proactive collaborators)へと転換できることを示しています。すなわち、現実世界の十分に定まっていないタスクにおいてエージェントが、欠けている情報を引き出すために自分から質問すべきタイミングを独立して認識できる、ということです。

広告