仮想エージェントによる魚群の閉ループ誘導のための深層強化学習フレームワーク

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実際の物理実験中に魚群へリアルタイムの閉ループ誘導を行うために仮想エージェントを用いる深層強化学習（RL）フレームワークを提示する。
方策はシミュレーション内で近接ポリシー最適化（Proximal Policy Optimization: PPO）により学習され、ライブのオニハダカタカナ（rummy-nose tetras）と直接相互作用することで、人工エージェントが集団運動に影響を与えられるようにする。
ライブ魚の確率的な行動に対処するため、著者らは方向付けによる誘導と社会的凝集（ソーシャル・コヒージョン）の維持との間で調整する合成報酬関数を導入する。
視覚システムの設計上の選択、具体的には白色背景と刺激サイズの拡大が、物理試験における誘導の有効性を高めることが分かっている。
誘導性能は小規模群（約5匹）では良好であるが、群サイズが増えると（特に8匹で）大きく低下し、大きな集団に対して制御を維持することの限界が示される。

要旨: 生物の群れにおける集合的な運動の導出（ガイダンス）を導くことは、社会的相互作用のルールを理解し、動物管理のための自動化システムを開発するうえで根本的な課題である。本研究では、仮想エージェントを用いた魚の群れに対する閉ループの誘導のための深層強化学習（RL）枠組みを提案する。これらのエージェントは、シミュレーション上で近傍政策最適化（Proximal Policy Optimization: PPO）により学習された方策によって制御され、rummy-nose tetras（Petitella bleheri）を用いた物理実験に展開される。これにより、人工エージェントと生体の個体との間のリアルタイムな相互作用が可能になる。生体個体の確率的な行動に対処するため、方向性の導出と社会的な凝集（ソーシャル・コヒージョン）のバランスを取る合成報酬関数を設計する。視覚パラメータの体系的な評価により、白い背景とより大きい刺激サイズが、物理試験における導出の有効性を最大化することが示された。さらに、群れのサイズにわたる評価では、システムが5個体の群れに対して有効な導出を示す一方で、群れのサイズが8へ増加すると、その能力が著しく低下することが明らかになった。本研究は、生物の集合体に対する自動化された導出における深層RLの可能性を示すとともに、より大きな群れにおいて人工的な影響を維持することに伴う課題を明らかにする。