ATLAS:長期ロボティック行動セグメンテーションのためのアノテーションツール

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文では、長期のロボット行動セグメンテーションに向けて正確な時間的境界を付与するためのアノテーションツール「ATLAS」を提案します。
  • ATLASは、マルチビュー動画に加えてグリッパ状態や力/トルクといったプロプリオセプティブ信号を含むロボット多モーダルデータを、時系列同期して可視化できるようにします。
  • ROS bagやRLDSなどの広く使われるロボティクスのデータ形式に対応し、REASSEMBLEといったデータセットも直接サポートします。また、新しい形式にも拡張できるモジュラーな抽象化レイヤーを備えています。
  • 接触が多い組立タスクでの実験では、ATLASはELANに比べて1アクションあたりの平均アノテーション時間を少なくとも6%削減し、専門家の時間整合性を2.8%以上改善し、境界誤差を視覚のみのツールより約5倍減らしました。
  • キーボード中心のインターフェースにより、アノテーション作業の負担を抑えて効率を高めることを狙っています。

Abstract

長期ホライズンのロボットによる実演に対して、正確な時間的アクション境界を付与することは、アクションセグメンテーションおよび操作ポリシー学習手法の訓練と評価において重要である。しかし、既存のアノテーションツールにはしばしば制約がある。これらは主に視覚のみのデータを対象として設計されており、ロボット固有の時系列信号(例:グリッパー状態や力/トルク)を同期させた可視化をネイティブにサポートしていない。また、異なるデータセット形式に適応するために多大な労力を要することも多い。本論文では、長期ホライズンのロボットアクションセグメンテーションのためのアノテーションツールであるATLASを導入する。ATLASは、マルチビュー動画と自己受容的信号を含む、多モーダルなロボットデータの時間同期可視化を提供し、アクション境界、アクションラベル、タスク結果のアノテーションをサポートする。本ツールは、ROS bagや強化学習データセット(RLDS)形式など、広く用いられているロボティクスのデータセット形式をネイティブに扱うだけでなく、REASSEMBLEのような特定のデータセットに対しても直接サポートを提供する。ATLASは、モジュール化されたデータセット抽象化レイヤーを通じて新しい形式へ容易に拡張できる。キーボード中心のインターフェースによりアノテーション作業の負担が軽減され、効率が向上する。接触が多いアセンブリタスクに関する実験では、ATLASはELANと比較して、アクションごとの平均アノテーション時間を少なくとも6%削減した。さらに、時系列データを含めることで、時間的な整合性が専門家アノテーションと比較して2.8%以上改善し、境界誤差は視覚のみのアノテーションツールと比べて5倍減少した。