ReDAct:不確実性を考慮したLLMエージェントの推論先送り

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、逐次意思決定タスクにおける幻覚(ハルシネーション)に起因する誤りを低減するLLMエージェント手法であるReDAct(Reason-Defer-Act)を提案する。ここでは、不確実なステップを「先送り(deferral)」することで誤りを減らす。
  • ReDActは2つのモデルを用いる。デフォルトでは小型で低コストなLLMを使用し、その予測不確実性が較正済みのしきい値を超えた場合に限って、より大きく信頼性が高い(ただし高価な)LLMへ切り替える。
  • 著者らは、テキストベースの身体性(embodied)環境(ALFWorldおよびMiniGrid)で提案手法を評価し、小モデルの判断のうち約15%を大モデルへ先送りすることで、大モデルを常に使用した場合に近い品質が得られることを示す。
  • 結果は、推論コストを大幅に削減しつつ意思決定の質を維持できることを示しており、大規模LLMにおける信頼性とトークン当たりの費用の一般的なトレードオフに対処している。
  • このアプローチは、不確実性推定としきい値の較正に依存しており、エージェントが「推論/行動」をより強いモデルに先送りすべきタイミングを判断する。