広告

混合密度ヘッドを備えたリキッドネットワークによる効率的な模倣学習

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、共通バックボーンのプロトコルを用いて、バックボーンや学習の違いを統制しつつ、模倣学習における Push-T、RoboMimic Can、PointMaze で、混合密度ヘッドを備えたリキッドニューラルネットワークと拡散ポリシーを比較する。
  • リキッドポリシーは、パラメータ数が約半分(4.3M 対 8.6M)でタスク性能を一致させ、オフライン予測誤差を 2.4 倍低減し、推論速度を 1.8 倍向上させる。
  • 学習データの 1% から 46.42% の範囲にわたるサンプル効率テストでは、リキッドモデルはより一貫した頑健性を示し、特に低データおよび中データの領域で最大の改善が見られる。
  • Push-T と PointMaze における閉ループ実験は、オフライン指標と概ね整合するもののノイズが多く、より良いオフラインの密度モデリングは役立つが、閉ループでのデプロイ成功を完全には予測できないことを示唆する。
  • 全体として著者らは、混合密度ヘッドを備えたリキッドな再帰的マルチモーダルポリシーを、模倣学習における反復的なノイズ除去手法のコンパクトで実用的な代替案として位置づけている。

要旨: 分散密度ヘッドを備えた液体ニューラルネットワークと、拡散ポリシーを、共有バックボーン比較プロトコルのもとで比較します。このプロトコルでは、マッチした入力、学習予算、および評価設定によりポリシーヘッドの効果を切り分けます。Push-T、RoboMimic Can、およびPointMazeの各タスクにおいて、液体ポリシーはおおよそパラメータ数が半分(4.3M 対 8.6M)であり、オフライン予測誤差は 2.4 倍低く、推論時の実行速度は 1.8 倍高速です。学習データの 1% から 46.42% を対象としたサンプル効率の実験では、液体モデルは一貫してより頑健であり、特に低データおよび中データの領域で大きな改善が見られます。Push-T と PointMaze における閉ループ結果は、オフライン順位と方向性として整合していますが、よりノイズが大きく、強力なオフラインの密度モデリングはデプロイを助ける一方で、閉ループの成功を完全には決定しないことを示唆しています。全体として、液体の反復型マルチモーダルポリシーは、模倣学習における反復的なノイズ除去に対する、コンパクトで実用的な代替手段を提供します。

広告