LLMエージェントの能動的推論における強化学習での情報自己ロック
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 論文は、能動的推論の過程で、強化学習を経て訓練されたLLMエージェントにおける情報自己ロックを特定し、エージェントが有益な質問をするのを止め、すでに得た情報を内面化するのに苦労する現象を指摘する。
- 能動的推論を、問合せによって観測ストリームを決定する行動選択(AS)と、収集した証拠に基づいてエージェントの信念を更新する信念追跡(BT)の2つの核能力に分解し、これらの能力の欠如が訓練中の情報探索を制限することを示す。
- 著者らは、不十分な探索がASとBTの改善を妨げ、エージェントを低情報レジームにロックするフィードバックループを説明する。
- この問題を解決するため、容易に得られる方向性の批評を学習信号に再配分してエージェントの自己ロック脱出を助ける、シンプルで効果的なアプローチを提案する。
- 7つのデータセットにまたがる実験により、本手法は情報自己ロックの緩和に最大60%の改善をもたらした。
強化学習(RL)を用いた結果ベースの報酬は、複雑な推論タスクのための大規模言語モデル(LLM)エージェントの訓練において顕著な成功を収めている。しかし、エージェントがタスク関連情報を取得するために戦略的に質問をする必要がある能動的推論において、RLで訓練されたLLMエージェントはしばしば情報自己ロックに悩まされる。エージェントは有益な質問をしなくなり、すでに得られた情報を内面化するのに苦労する。現象を理解するために、能動的推論を、問い合わせによって観測ストリームを決定する「行動選択(AS)」と、収集した証拠に基づいてエージェントの信念を更新する「信念追跡(BT)」という2つの核能力に分解する。ASとBTの能力不足は、RL訓練中の情報探索を制限することを示す。さらに、不十分な探索はASとBTの改善を妨げ、低情報レジームにエージェントをロックするフィードバックループを生む。問題を解決するために、エージェントが自己ロックを脱出するのを助けるよう、容易に得られる方向性の批評を注入して学習信号を再配分する、シンプルでありながら効果的なアプローチを提案する。7つのデータセットにまたがる大規模実験により、提案手法は情報自己ロックを顕著に緩和し、最大60%の改善をもたらすことを示した。