連続制御におけるマルチタスク強化学習のためのマルチアクション・タンブルド・プログラムグラフ

arXiv cs.AI / 2026/4/29

📰 ニュースModels & Research

共有:

要点

本論文は、MAPLE型エージェントを集約し、制御フローで複数の行動を起動する遺伝的プログラミング手法「Multi-Action Tangled Program Graph（MATPG）」を提案します。
MATPGは主に単一タスクの強化学習で試されていましたが、著者らは新たに、MuJoCoのHalfCheetahに対して前方に障害物を5つランダム配置し、それぞれが異なる挙動を要求するマルチタスク・ベンチマークを導入します。
新しい連続制御のマルチタスク環境での実験では、MATPGが良好に機能し、MATPGにlexicase選択を組み合わせることで優位性が得られたと報告しています。
また、進化したグラフの解釈可能性も検討し、モデルの意思決定フローが「完全に解釈可能」であることを示します。
総じて本研究は、MATPGを連続型のマルチタスク強化学習に対する有効なGPベース手法として位置づけるとともに、その評価のための新しいシナリオを提供します。