LongBench:実世界の長期ホライゾン課題におけるロボット操作ポリシーの評価

arXiv cs.RO / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、ロボット操作ポリシーが長い実行時間で劣化する理由を調べるための実世界ベンチマーク「LongBench」を提案し、1,000件超のエピソードで評価できるようにしています。
  • LongBenchは評価レジームとして、Context-Independent(完全観測)とContext-Dependent(曖昧性に基づく)を用意し、時間的困難の異なる要因を切り分けます。
  • 課題を能力別・曖昧性別のサブセットに整理することで、頑健性、時間的一貫性、文脈依存の推論といったメカニズムに即した分析を可能にします。
  • 6つの最先端ポリシーを評価した結果、長期ホライゾンでの性能は単一要因ではなく複数の要因に左右されることが示されています。
  • 完全観測の設定では実行の頑健性との関連がより強く、文脈に起因する難しさは課題ごとに変動し、メモリベース手法では一貫して改善されないことが観察されます。

Abstract

ロボットによる操作ポリシーは、長い時間範囲にわたるとしばしば劣化しますが、既存のベンチマークでは、そのような失敗がなぜ起きるのかについての洞察が限られています。これまでのほとんどのベンチマークは、シミュレーションベースであるか、成功の集計結果を報告するだけであり、実環境での実行において時間的な困難さを生む異なる要因を切り分けることが困難です。本研究では、長期ホライゾンの操作を評価するための実環境ベンチマークであるLongBenchを導入します。LongBenchは、1,000件以上の実世界エピソードからなり、2つの補完的なレジームをカバーします。すなわち、Context-Independent(完全に観測可能)とContext-Dependent(曖昧さに起因する)です。タスクを、能力と曖昧さに固有のサブセットに整理することで、LongBenchは、実行の頑健性、時間的一貫性、そして文脈依存の推論を、メカニズムを意識した形で評価することを可能にします。最先端の6つのポリシーを評価した結果、長期ホライゾンでの性能は単一の要因によって支配されるわけではないことがわかりました。完全に観測可能な設定での性能は実行の頑健性とより強く関連している一方で、文脈的な困難さはタスクごとに異なり、メモリベースの手法によって一貫して改善されるわけではありません。私たちは、LongBenchが長期ホライゾン操作の研究に役立つベンチマークとして機能し、実行上の課題と文脈上の課題の両方に対してより強い頑健性を備えたポリシーの開発に寄与することを期待しています。