マルチモーダル行動予測のためのニューラルプロセスにおける時間表現の探究

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ロボティクスにおける自己教師ありマルチモーダル行動予測に対して Conditional Neural Processes（CNP）を適用し、まず部分的に観測された系列から自己の行動（self-actions）を予測することに焦点を当てる。
CNP型の確率的生成を用いて視覚-運動信号を再構成するため、既存の Mirror Neuron System（MNS）に着想を得た Deep Modality Blending Network（DMBN）を評価する。
実験結果では、本モデルは未見の行動系列への汎化に苦労することが示され、論文ではその原因を内部における時間表現の制約にあると説明している。
時間表現の課題に対処するため、著者らは DMBN-Positional Time Encoding（DMBN-PTE）を提案し、頑健な時間情報の学習が改善されることを示し、予備的な効果も確認している。
本研究は、ロボットシステムがより長い時間ホライズンにわたって行動を自律的に予測し、新たな観測が入るたびに予測を洗練させていくための初期の一歩として位置付けられている。