広告

PRISM:身体化されたビジョン・ランゲージ・モデルのための、多視点・多機能対応リテール動画データセット

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PRISMは、実世界のスーパーマーケット環境における身体化されたビジョン・ランゲージ・モデル向けに設計された、新しい270Kサンプルの多視点リテール動画の教師ありファインチューニング(SFT)データセットである。
  • このデータセットは、空間知識、時間的/物理的知識、身体化された行動知識をカバーする3D知識オントロジーに基づいて構築されており、20以上の能力プローブにわたって評価できる。
  • PRISMには、5つのスーパーマーケット拠点から、当事者視点(egocentric)、俯瞰視点(exocentric)、および360°視点といった多様な視点が含まれており、自由回答、連鎖的思考(chain-of-thought)、多肢選択など複数の教師形式を備える。
  • PRISMで身体化VLMをファインチューニングすると、事前学習済みベースラインと比べて全プローブでの誤り率が66.6%低下し、なかでも身体化された行動理解では精度が最大で+36.4%向上する。
  • 著者らはPRISMを最大級のドメイン特化型動画SFTコーパスの1つ(約1,180万フレーム、約7.3億トークン)と位置づけ、データセットをdreamvu.ai/prismで公開している。

要旨: 最先端の物理AIモデルによる汎用的な視覚理解と、実世界の構造化されたデプロイ環境が要求する専門的な知覚ニーズとの間には、重要なギャップが存在します。本研究では、実世界の小売環境における身体化されたビジョン・言語モデル(VLMs)のための、270Kサンプルのマルチビュー動画に対する教師あり微調整(SFT)コーパスであるPRISMを提示します。PRISMは、次の単純な観察に基づいています――物理AIシステムが失敗するのは、視覚認識が不十分だからではなく、空間・物理ダイナミクス・身体化された行動を、世界で確実に動作するのに十分なほど理解できていないからです。これを達成するために、PRISMは、空間知識、時間的・物理的知識、そして身体化された行動知識にまたがる新しい3次元の知識オントロジーに基づいて構築されています。4つの評価次元――身体化推論(ER)、常識(CS)、空間知覚(SP)、直観的物理(IP)――にまたがり、20以上の能力プローブを網羅しており、私たちの知る限り、PRISMは単一の実世界デプロイ領域において、これら3つの知識次元をすべて具現化した最初のデータセットです。このコーパスは、5つのスーパーマーケット拠点において、主観視(egocentric)、客観視(exocentric)、および360{\deg}の視点からデータを収集しており、自由形式、推論の連鎖(chain-of-thought)、および多肢選択の教師あり情報を含みます。4 fpsで、PRISMは約11.8Mの動画フレームと約730Mトークンを含み、最大級の領域特化型動画SFTコーパスの一つに位置づけられます。PRISMでの微調整により、事前学習済みベースラインと比べて、20以上すべてのプローブにわたるエラー率が66.6%低下し、正答率が36.4%向上するなど、身体化された行動理解において顕著な改善が見られます。これらの結果は、オントロジーで構造化された領域特化型SFTが、実世界の状況において身体化VLMを意味のある形で強化し得ることを示唆しています。PRISMデータセットおよび詳細は https://dreamvu.ai/prism で公開されています

広告