LLMエージェントの能動的推論における強化学習での情報自己ロック

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、能動的推論の過程で、強化学習を経て訓練されたLLMエージェントにおける情報自己ロックを特定し、エージェントが有益な質問をするのを止め、すでに得た情報を内面化するのに苦労する現象を指摘する。
能動的推論を、問合せによって観測ストリームを決定する行動選択（AS）と、収集した証拠に基づいてエージェントの信念を更新する信念追跡（BT）の2つの核能力に分解し、これらの能力の欠如が訓練中の情報探索を制限することを示す。
著者らは、不十分な探索がASとBTの改善を妨げ、エージェントを低情報レジームにロックするフィードバックループを説明する。
この問題を解決するため、容易に得られる方向性の批評を学習信号に再配分してエージェントの自己ロック脱出を助ける、シンプルで効果的なアプローチを提案する。
7つのデータセットにまたがる実験により、本手法は情報自己ロックの緩和に最大60%の改善をもたらした。

強化学習（RL）を用いた結果ベースの報酬は、複雑な推論タスクのための大規模言語モデル（LLM）エージェントの訓練において顕著な成功を収めている。しかし、エージェントがタスク関連情報を取得するために戦略的に質問をする必要がある能動的推論において、RLで訓練されたLLMエージェントはしばしば情報自己ロックに悩まされる。エージェントは有益な質問をしなくなり、すでに得られた情報を内面化するのに苦労する。現象を理解するために、能動的推論を、問い合わせによって観測ストリームを決定する「行動選択（AS）」と、収集した証拠に基づいてエージェントの信念を更新する「信念追跡（BT）」という2つの核能力に分解する。ASとBTの能力不足は、RL訓練中の情報探索を制限することを示す。さらに、不十分な探索はASとBTの改善を妨げ、低情報レジームにエージェントをロックするフィードバックループを生む。問題を解決するために、エージェントが自己ロックを脱出するのを助けるよう、容易に得られる方向性の批評を注入して学習信号を再配分する、シンプルでありながら効果的なアプローチを提案する。7つのデータセットにまたがる大規模実験により、提案手法は情報自己ロックを顕著に緩和し、最大60%の改善をもたらすことを示した。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMエージェントの能動的推論における強化学習での情報自己ロック

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer