「いつ思い出すか」を学ぶ:棄権(abstention)を意識したLLMベースコーディングエージェントのリスク感受的文脈バンディットによる記憶検索

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMベースのコーディングエージェントが外部メモリを常に再利用すべきではないと主張しており、スタックトレース等の見かけ上の類似が「不安全なメモリ注入」を引き起こし得る点を問題化しています。
  • そこでメモリ検索を、純粋な上位k抽出ではなくリスク感受的な選択制御問題として捉え直し、RSCB-MCを提案します。RSCB-MCは「メモリを使わない」「上位解決を注入する」「候補を要約する」「高精度/高再現で検索する」「棄権する」「フィードバックを求める」などのアクションを文脈に応じて選びます。
  • RSCB-MCは、再利用可能な課題知識をpattern-variant-episodeスキーマで保存し、関連性・不確実性・構造的適合・フィードバック履歴・偽陽性リスク・レイテンシ・トークンコストを含む16特徴量の固定表現で検索文脈を表します。
  • 報酬設計では「誤ったメモリ注入(偽陽性)」を「再利用の見逃し」に比べて強く罰し、棄権や非注入を安全性のための第一級アクションとして扱います。
  • オフライン評価と限定的なホットパス検証で、RSCB-MCは高い成功率(オフラインで62.5%、プロキシで60.5%)を達成しつつ偽陽性率0.0%を維持し、意思決定のp95レイテンシも約331マイクロ秒と低いことを示しています。

Abstract

大規模言語モデル(LLM)ベースのコーディング・エージェントは、先行するデバッグ経験を再利用し、修理の痕跡やリポジトリローカルの運用知識を活用するために、外部メモリにますます依存するようになってきています。しかし、取得したメモリが有用なのは、現在の失敗が過去の失敗と本当に両立可能な場合に限られます。スタックトレース、端末エラー、パス、または構成症状における表面的な類似は、危険なメモリ注入につながり得ます。本論文では、課題メモリの利用を、単なる純粋なtop-k検索問題ではなく、選択的でリスクに敏感な制御問題として捉え直します。我々はRSCB-MCを提案します。これは、リスクに敏感な文脈バンディットのメモリ制御器であり、エージェントがメモリを使わないのか、トップ解決(resolution)を注入するのか、複数候補を要約するのか、高精度または高回収の検索を行うのか、棄権するのか、フィードバックを求めるのかを判断します。システムは、パターン-バリアント-エピソードのスキーマを通じて再利用可能な課題知識を保存し、取得エビデンスを、関連性、不確実性、構造的適合性、フィードバック履歴、偽陽性リスク、遅延、トークンコストを含む固定16特徴の文脈状態へ変換します。報酬設計では、見逃した再利用よりも偽陽性のメモリ注入をより強く罰し、非注入と棄権を第一級の安全アクションとします。決定論的なスモーク規模のアーティファクトにおいて、RSCB-MCは最も強い非オラクルのオフライン再生(replay)成功率62.5%を達成しつつ、偽陽性率を0.0%に維持します。200ケースの有界なホットパス検証では、0.0%の偽陽性で60.5%の代理成功(proxy success)に到達し、331.466マイクロ秒のp95意思決定遅延を示します。これらの結果は、コーディング・エージェントのメモリにおいて重要な問いは、「最も類似しているメモリがどれか」だけではなく、「取得されたメモリがデバッグの軌道に影響を与えるほど十分に安全かどうか」であることを示しています。