集団行動のモデルを評価することを学習するロボット
arXiv cs.RO / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生体模倣型のロボット魚(RoboFish)を用いて、オフラインの軌跡統計ではなく閉ループ相互作用を通じて生きた魚の行動を評価する、強化学習ベースの評価フレームワークを提案する。
- 研究者らは、4種類の魚モデル(一定追従のベースライン、2つのルールベースモデル、そして生物学的に根差した畳み込みニューラルネットワーク)に対してシミュレーション上でRLポリシーを学習し、そのポリシーを実機のRoboFishへ転送して、シミュレーションの応答と実際の魚の応答を比較した。
- 行動モデルの精度は、複数の行動指標にわたってウォッサースタイン距離を用いて、シム(シミュレーション)から実環境へのギャップを測定することで評価する。指標には、目標到達の性能、個体間距離、壁との相互作用、整列(アライメント)などが含まれる。
- 畳み込みニューラルネットワークに基づく魚モデルは、目標到達においてシム対実のギャップが最小で、全体としても最良の成績を示した。これは、同等の閉ループ条件下において従来のルールベース手法よりも高い行動忠実性(フィデリティ)を示唆する。
- 本研究は、身体性を備え学習するロボット実験が、候補となる行動モデルを定量的に識別し、より現実的な評価環境の下でその欠点を体系的に明らかにできると主張する。



