概要:
FEEL(Force-Enhanced Egocentric Learning)を紹介します。これは、カスタムのピエゾ抵抗式手袋から収集された力の測定値と自己視点ビデオを組み合わせた、初の大規模データセットです。私たちの手袋はデータ収集をスケーラブルにし、FEEL にはキッチン環境での自然な無演出の操作の力同期フレームが約300万フレーム含まれており、フレームの約45%が手と物体の接触を含みます。力は物理的相互作用を駆動する根本的な原因であるため、物理的行動理解にとって重要な基礎的要素です。FEEL の適用を通じて、力の物理的行動理解への有用性を示すため、2 つのタスク系に適用します:(1) 接触理解、ここでは時系列の接触セグメンテーションとピクセルレベルの接触物体セグメンテーションを共同で実行します;および (2) アクション表現学習、ここでは力の予測がビデオバックボーンの自己教師あり事前学習の目的となります。手動の接触物体セグメンテーション注釈を一切必要とせず、最先端の時系列接触セグメンテーション結果と競争力のあるピクセルレベルのセグメンテーション結果を達成します。さらに FEEL を用いたアクション表現学習は、EPIC-Kitchens、SomethingSomething-V2、EgoExo4D、および Meccano におけるアクション理解タスクの転移性能を、手動ラベルを一切用いずに改善することを示します。
FEEL(力強化自己視点学習): 物理的動作理解のデータセット
arXiv cs.CV / 2026/3/18
📰 ニュースTools & Practical UsageModels & Research
要点
- FEEL(Force-Enhanced Egocentric Learning)は、カスタムピエゾ抵抗グローブによる力の測定と自己視点動画を組み合わせる、力情報を活用した物理的動作理解を可能にする初の大規模データセットです。
- 自然発生的で脚本のないキッチン操作から得られた約300万の力同期フレームを含み、全フレームの約45%が手と物体の接触を伴います。
- FEELは2つのタスクファミリーをサポートします:(1) 時間的接触セグメンテーションと接触した物体のピクセルレベルセグメンテーションによる接触理解、(2) 動画バックボーンの自己教師あり事前学習目的として力予測を用いた動作表現学習。
- 本研究は、時間的接触セグメンテーションで最先端の結果を、ピクセルレベルセグメンテーションでは競争力のある結果を、EPIC-Kitchens、SomethingSomething-V2、EgoExo4D、Meccano における動作理解タスクへの転送利得を、手動ラベルなしで報告します。
- 力を物理的な相互作用の基本要素として扱うことにより、FEELはデータ収集を拡張可能にし、動作理解モデルの一般化能力を向上させます。