集団行動のモデルを評価することを学習するロボット

arXiv cs.RO / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生体模倣型のロボット魚(RoboFish)を用いて、オフラインの軌跡統計ではなく閉ループ相互作用を通じて生きた魚の行動を評価する、強化学習ベースの評価フレームワークを提案する。
  • 研究者らは、4種類の魚モデル(一定追従のベースライン、2つのルールベースモデル、そして生物学的に根差した畳み込みニューラルネットワーク)に対してシミュレーション上でRLポリシーを学習し、そのポリシーを実機のRoboFishへ転送して、シミュレーションの応答と実際の魚の応答を比較した。
  • 行動モデルの精度は、複数の行動指標にわたってウォッサースタイン距離を用いて、シム(シミュレーション)から実環境へのギャップを測定することで評価する。指標には、目標到達の性能、個体間距離、壁との相互作用、整列(アライメント)などが含まれる。
  • 畳み込みニューラルネットワークに基づく魚モデルは、目標到達においてシム対実のギャップが最小で、全体としても最良の成績を示した。これは、同等の閉ループ条件下において従来のルールベース手法よりも高い行動忠実性(フィデリティ)を示唆する。
  • 本研究は、身体性を備え学習するロボット実験が、候補となる行動モデルを定量的に識別し、より現実的な評価環境の下でその欠点を体系的に明らかにできると主張する。

Abstract

動物の行動を理解し、モデル化することは、群れの運動、意思決定、そしてバイオインスパイアード・ロボティクスを研究するうえで不可欠です。しかし、行動モデルの正確さを評価する際には、依然として静的な軌跡統計とのオフライン比較に頼ることがしばしばあります。ここでは、生体模倣型のロボット魚(RoboFish)を用い、閉ループ相互作用によって生きた魚の行動に関する計算モデルを評価する、強化学習ベースの枠組みを提案します。私たちは、4種類の異なる魚モデルを用いてシミュレーション内で方策(ポリシー)を学習しました――単純な一定の追従ベースライン、2つのルールベースモデル、生物学的知見に基づく畳み込みニューラルネットワークモデルです。そして、これらの方策を実際のRoboFishのセットアップへ転送し、生きた魚と相互作用させました。方策は、シミュレーション上の魚を目標地点へ導くように学習されました。これにより、実際の魚の応答が、シミュレーション上の魚の応答とどのように異なるかを定量化できます。私たちは、行動指標のシミュレーション分布と実分布の間のウォッサースタイン距離として定義される「シム・ツー・リアル(sim-to-real)ギャップ」を定量化することで、魚のモデルを評価します。このギャップは、目標到達性能、個体間距離、壁との相互作用、アライメントといった指標について評価されます。ニューラルネットワークに基づく魚モデルは、目標到達性能およびその他多くの指標において最小のギャップを示し、このベンチマークのもとでは、従来のルールベースモデルよりも高い行動忠実度を示しました。さらに重要なのは、この分離(ギャップの差)が、提案する評価が一致した閉ループ条件のもとで候補モデルを定量的に識別できることを示している点です。私たちの研究は、学習ベースのロボティクス実験によって行動モデルの欠点をどのように明らかにできるか、そして身体化された相互作用を通じて動物行動モデルを評価するための一般的な枠組みを提供します。