未開拓タスクに直面するオープン環境のロボット向けLLM駆動クローズドループ自律学習フレームワーク

arXiv cs.AI / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープン環境でロボットが事前に定義されたローカル手法にカバーされないタスクに直面した際に対応する、LLM駆動のクローズドループ自律学習フレームワークを提案する。
システムはまずローカル手法ライブラリを参照して、現在のタスクや観測された事象に再利用可能な解決策が存在するかを判断し、適切な手法がなければLLMを高レベル推論コンポーネントとして活用してタスク分析、候補モデル選定、データ収集計画、実行/観測戦略の構成を行う。
ロボットは自己実行と能動的観測の両方から学習し、準リアルタイムで学習と調整を行った上で、検証済みの結果をローカル手法ライブラリに統合して将来の再利用に備える。
実験では、外部LLM呼び出しへの依存と実行時間が低減されることが示されており、例えば反復タスクの自己実行実験では平均総実行時間が7.7772sから6.7779sへ、タスクあたりの平均LLM呼び出し回数が1.0から0.2へ減少した。
全体として、このアプローチは繰り返しサイクルを通じて、自己実行由来と観測由来の双方の経験を再利用可能なローカル能力へと変換し、自律性と効率を高めることを目指している。

要旨: 開放環境において自律ロボットがタスクを扱うには、事前に定義されたローカル手法ではカバーされないタスクを、継続的に処理する能力が必要である。しかし、既存のアプローチの多くは、未カバーのタスクに対して反復的に大規模言語モデル（LLM）との対話を行うことに依存しており、たとえ成功した実行や観測された外部の成功した挙動が得られても、それらが自律的に再利用可能なローカル知識へと変換されるとは限らない。本論文では、開放環境における未カバーのタスクに直面するロボットに向けた、LLM駆動のクローズドループ自律学習フレームワークを提案する。提案フレームワークはまず、ローカル手法ライブラリを検索し、現在のタスクまたは観測された事象に対して再利用可能な解決策が既に存在するかどうかを判断する。適切な手法が見つからない場合、LLMを高レベルの推論コンポーネントとして用い、タスク分析、候補モデル選定、データ収集計画、実行または観測戦略の編成を行う自律的な学習プロセスを起動する。次にロボットは、自己実行と能動的観測の両方から学習し、準リアルタイムで学習および調整を行い、検証済みの結果をローカル手法ライブラリへ統合して将来の再利用に備える。この反復的なクローズドループ過程を通じて、ロボットは、反復した外部LLMとのやり取りへの依存を減らしながら、実行に由来する経験と観測に由来する経験の両方を、再利用可能なローカル能力へと徐々に変換していく。結果は、提案フレームワークが、例えば反復タスクの自己実行および観測駆動設定のいずれにおいても、実行時間とLLM依存を低減することを示している。具体的には、反復タスクの自己実行実験において、平均総実行時間を7.7772sから6.7779sに、タスクあたりの平均LLM呼び出し回数を1.0から0.2に削減した。