RLはLLMエージェントの一般化を改善できるか？実証的研究

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

強化ファインチューニング（RFT）は、同一環境内のタスク難易度の違いを跨いで良く一般化する。
RFTは意味的事前知識と観測/アクションインターフェースのシフトにより、未知環境への転移が弱いことを示す。
逐次的な複数環境訓練は、上流での忘却を最小限に抑えつつ下流の利益を生み出す。
環境間での訓練を混合することは、見られた環境と未知の環境の全体的なバランスを改善する。

要旨：強化ファインチューニング（RFT）は、環境からのフィードバックに基づくマルチターンの意思決定を実行するLLMエージェントの訓練に有望であることを示している。しかし、既存の評価の多くは依然としてドメイン内にとどまり、訓練と評価は同じ環境、あるいは同じタスクで行われている。実世界の運用では、エージェントは未知の環境で、背景知識、観測スペース、行動インターフェースが異なる場合がある。こうしたシフトの下でRFTの一般化プロファイルを特徴づけるため、以下の3軸で系統的な研究を実施する。(1) 環境内のタスク難易度を跨ぐ一般化、(2) 未知環境への環境横断転移、(3) 転移と忘却を定量化する逐次的な複数環境訓練。私たちの結果は、RFTが環境内のタスク難易度を跨いで良く一般化する一方、未知環境への転移は弱いことを示しており、意味的事前知識と観測/アクションインターフェースのシフトの両方と相関している。対照的に、逐次訓練は上流での忘却を最小限に抑えつつ有望な下流の利益をもたらし、環境間の混合訓練は全体的なバランスを改善する。さらに、詳細な分析とより深い洞察を提供し、我々の研究がコミュニティが一般化可能なLLMエージェントを開発・展開するのに役立つことを期待する。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

RLはLLMエージェントの一般化を改善できるか？実証的研究

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer