LLMフォレージング:分散型スワームロボットのための大規模言語モデルによる探索

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 提案手法のLLM-Foragingは、CPFAの状態機械にLLMベースの戦術的意思決定を組み合わせ、3つの重要な判断ポイントで意思決定を行う分散型スワーム探索コントローラです。
  • 各ロボットはローカルで観測できる状態のみを用いてLLMクライアントに問い合わせ、選ばれたアクションは既存のセンシング/モーションのスタックが実行します。
  • 遺伝的アルゴリズムや強化学習による事前のパラメータ最適化に依存する従来のCPFAと異なり、この方式は配備時に学習(再学習)を必要とせず、条件が変わっても再最適化が不要です。
  • Gazebo上でTurtleBot3ロボットを用い、チーム規模4〜10、競技場サイズ6x6〜10x10m、資源分布(クラスタ化、パワーロー、ランダム)を変えた計36構成で評価した結果、LLM-ForagingはGAで調整したCPFAより多くの資源を回収し、より一貫した性能を示しました。
  • 結果は、LLMが単一設定にフィットしたパラメータではなく汎用的な意思決定ポリシーとして機能し、構成間での転移性を持つことを示唆しています。

要旨: 集団採餌アルゴリズム(中心配置型採餌アルゴリズムCPFAなど)は通常、遺伝的アルゴリズム(GA)または強化学習によるオフラインのパラメータ最適化に依存しており、その結果として、チームサイズ、アリーナサイズ、資源分布の特定の組み合わせに密に結びついた方策が得られます。配備条件が変化すると性能が低下し、再学習は計算コストが高くなります。我々は、CPFAの状態機械を、3つの構造化された意思決定ポイント(すなわち、投入後、中央ゾーン到着時、探索の飢餓時)で大規模言語モデル(LLM)による戦術的意思決定者で拡張する、分散型スウォーム・コントローラ「LLM-Foraging」を提案します。各ロボットは自身のLLMクライアントを動作させ、局所的に観測可能な状態のみを用いて問い合わせます。一方で、既存のCPFAの運動とセンシングのスタックが、選択された行動を実行します。LLMは単一の設定に合わせて調整されたパラメータではなく、汎用の意思決定方策として機能するため、このコントローラは配備時に学習不要であり、再最適化なしに設定間で転移します。我々は、Gazebo上でTurtleBot3ロボットを用いてLLM-Foragingを評価しました。4台から10台のロボットによるチームサイズ、6x6から10x10メートルのアリーナサイズ、3種類の資源分布(クラスタ化、パワーロウ、ランダム)にまたがる全36の設定を対象としています。LLM-Foragingは、評価した設定すべてにおいて、GAで調整したCPFAのベースラインよりも多くの資源を収集し、さらに一貫性が高いです。この一貫性は、GAの単一設定へのチューニングでは転移できない性質です。