LongBench:実世界の長期ホライゾン課題におけるロボット操作ポリシーの評価
arXiv cs.RO / 2026/4/21
📰 ニュースModels & Research
要点
- 本論文は、ロボット操作ポリシーが長い実行時間で劣化する理由を調べるための実世界ベンチマーク「LongBench」を提案し、1,000件超のエピソードで評価できるようにしています。
- LongBenchは評価レジームとして、Context-Independent(完全観測)とContext-Dependent(曖昧性に基づく)を用意し、時間的困難の異なる要因を切り分けます。
- 課題を能力別・曖昧性別のサブセットに整理することで、頑健性、時間的一貫性、文脈依存の推論といったメカニズムに即した分析を可能にします。
- 6つの最先端ポリシーを評価した結果、長期ホライゾンでの性能は単一要因ではなく複数の要因に左右されることが示されています。
- 完全観測の設定では実行の頑健性との関連がより強く、文脈に起因する難しさは課題ごとに変動し、メモリベース手法では一貫して改善されないことが観察されます。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to

ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial