HiL-Bench(Human-in-Loopベンチマーク):エージェントは助けを求めるべきタイミングを知っているか?

arXiv cs.AI / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 研究は、コーディングエージェントが不完全・曖昧な仕様に直面したときに性能が落ちる主因を「能力不足」ではなく「いつ自律行動し、いつ助けを求めるか」という判断力の欠如だと指摘しています。
  • その失敗モードを測るために、進行中の探索でのみ表面化する人手で検証されたブロッカーを含む新ベンチマークHiL-Bench(Human-in-the-Loop Benchmark)を提案し、Ask-F1(質問の精度とブロッカー再現率の調和平均)で選択的エスカレーションを評価します。
  • 現行の最先端モデルでは、フルコンテキスト時の性能のごく一部しか「助けを求めるべきか」の判断で回復できず、普遍的な“判断ギャップ”が観測されています。
  • 分析により、過信して誤った信念を維持する/ギャップ検知できない、あるいは不確実性は検出しても誤りを繰り返す、または広く曖昧にエスカレーションして自己修正できない、という3つの典型パターンが特定されています。
  • Ask-F1に基づく強化学習(shaped reward)で、32Bモデルが助けを求める品質とタスク達成率の両方を改善し、その効果がSWEとテキスト-to-SQLの間で転移することが示されました。

概要: 最前線のコーディングエージェントは、完全な文脈が与えられると複雑なタスクを解決できますが、仕様が不完全だったり曖昧だったりすると崩れてしまいます。ボトルネックは生の能力ではなく、判断力です。つまり、いつ自律的に行動し、いつ助けを求めるべきかを知ることです。現在のベンチマークは、この失敗モードを見逃しています。彼らは、明確で詳細な指示を与え、実行の正確さのみを報いるため、欠けている要件をたまたま当てたエージェントは、確実になるように聞き返したはずのエージェントと同じスコアになります。
我々は、選択的エスカレーション能力を測定するために HiL-Bench(Human-in-the-Loop Benchmark)を提示します。各タスクには、人間が検証したブロッカー(不足情報、曖昧な依頼、矛盾する情報)が含まれており、事前の検査ではなく、段階的な探索を通じてのみ顕在化します。我々の中核となる指標である Ask-F1(質問の精度とブロッカー再現率の調和平均)は、過剰に聞き過ぎることと黙って推測することの間の緊張関係を捉えており、その構造は質問のスパムによる不正(ゲーミング)を建築的に防ぎます。
SWE およびテキストから SQL の領域にわたる評価により、大きな普遍的な判断ギャップが明らかになりました。質問すべきかどうかを決める段階で、最前線モデルは完全情報時の性能の一部以上を回復できません。分析により、助けを求める際の主要な 3 つの支援パターンが特定されます。すなわち、ギャップ検出がないままの過信の誤信念、ギャップ(不確実性)の検出は高いが誤りが持続すること、自己修正を欠いた広くて不正確なエスカレーションです。これらの一貫したパターンは、助けを求めることの不備がタスク固有の問題ではなく、モデルレベルの欠陥であることを裏付けます。Ask-F1 報酬を形作った RL 訓練により、判断は訓練可能であることが示されます。32B モデルは、助けを求める質とタスク通過率の両方を改善し、改善は領域を越えて移転します。このモデルは、いつ助けを求めるべきかについての領域固有のヒューリスティクスを学習しません。解決不可能な不確実性を検出し、それに基づいて行動することを学習します。