LongBench：実世界の長期ホライゾン課題におけるロボット操作ポリシーの評価

arXiv cs.RO / 2026/4/21

📰 ニュースModels & Research

共有:

要点

本論文は、ロボット操作ポリシーが長い実行時間で劣化する理由を調べるための実世界ベンチマーク「LongBench」を提案し、1,000件超のエピソードで評価できるようにしています。
LongBenchは評価レジームとして、Context-Independent（完全観測）とContext-Dependent（曖昧性に基づく）を用意し、時間的困難の異なる要因を切り分けます。
課題を能力別・曖昧性別のサブセットに整理することで、頑健性、時間的一貫性、文脈依存の推論といったメカニズムに即した分析を可能にします。
6つの最先端ポリシーを評価した結果、長期ホライゾンでの性能は単一要因ではなく複数の要因に左右されることが示されています。
完全観測の設定では実行の頑健性との関連がより強く、文脈に起因する難しさは課題ごとに変動し、メモリベース手法では一貫して改善されないことが観察されます。

Abstract

ロボットによる操作ポリシーは、長い時間範囲にわたるとしばしば劣化しますが、既存のベンチマークでは、そのような失敗がなぜ起きるのかについての洞察が限られています。これまでのほとんどのベンチマークは、シミュレーションベースであるか、成功の集計結果を報告するだけであり、実環境での実行において時間的な困難さを生む異なる要因を切り分けることが困難です。本研究では、長期ホライゾンの操作を評価するための実環境ベンチマークであるLongBenchを導入します。LongBenchは、1,000件以上の実世界エピソードからなり、2つの補完的なレジームをカバーします。すなわち、Context-Independent（完全に観測可能）とContext-Dependent（曖昧さに起因する）です。タスクを、能力と曖昧さに固有のサブセットに整理することで、LongBenchは、実行の頑健性、時間的一貫性、そして文脈依存の推論を、メカニズムを意識した形で評価することを可能にします。最先端の6つのポリシーを評価した結果、長期ホライゾンでの性能は単一の要因によって支配されるわけではないことがわかりました。完全に観測可能な設定での性能は実行の頑健性とより強く関連している一方で、文脈的な困難さはタスクごとに異なり、メモリベースの手法によって一貫して改善されるわけではありません。私たちは、LongBenchが長期ホライゾン操作の研究に役立つベンチマークとして機能し、実行上の課題と文脈上の課題の両方に対してより強い頑健性を備えたポリシーの開発に寄与することを期待しています。

Agent Package Manager（APM）：再現可能なAIエージェントのためのDevOpsガイド

Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと

Dev.to

ARPAのSkillware & Rooms（AI/ML/Python）でオープンソースの貢献者を募集

Dev.to

本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測［D］

Reddit r/MachineLearning

AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった

Reddit r/artificial

LongBench：実世界の長期ホライゾン課題におけるロボット操作ポリシーの評価

要点

Abstract

関連記事

Agent Package Manager（APM）：再現可能なAIエージェントのためのDevOpsガイド

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと

ARPAのSkillware & Rooms（AI/ML/Python）でオープンソースの貢献者を募集

本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測［D］

AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer