PRISM：身体化されたビジョン・ランゲージ・モデルのための、多視点・多機能対応リテール動画データセット

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

PRISMは、実世界のスーパーマーケット環境における身体化されたビジョン・ランゲージ・モデル向けに設計された、新しい270Kサンプルの多視点リテール動画の教師ありファインチューニング（SFT）データセットである。
このデータセットは、空間知識、時間的／物理的知識、身体化された行動知識をカバーする3D知識オントロジーに基づいて構築されており、20以上の能力プローブにわたって評価できる。
PRISMには、5つのスーパーマーケット拠点から、当事者視点（egocentric）、俯瞰視点（exocentric）、および360°視点といった多様な視点が含まれており、自由回答、連鎖的思考（chain-of-thought）、多肢選択など複数の教師形式を備える。
PRISMで身体化VLMをファインチューニングすると、事前学習済みベースラインと比べて全プローブでの誤り率が66.6%低下し、なかでも身体化された行動理解では精度が最大で+36.4%向上する。
著者らはPRISMを最大級のドメイン特化型動画SFTコーパスの1つ（約1,180万フレーム、約7.3億トークン）と位置づけ、データセットをdreamvu.ai/prismで公開している。

要旨: 最先端の物理AIモデルによる汎用的な視覚理解と、実世界の構造化されたデプロイ環境が要求する専門的な知覚ニーズとの間には、重要なギャップが存在します。本研究では、実世界の小売環境における身体化されたビジョン・言語モデル（VLMs）のための、270Kサンプルのマルチビュー動画に対する教師あり微調整（SFT）コーパスであるPRISMを提示します。PRISMは、次の単純な観察に基づいています――物理AIシステムが失敗するのは、視覚認識が不十分だからではなく、空間・物理ダイナミクス・身体化された行動を、世界で確実に動作するのに十分なほど理解できていないからです。これを達成するために、PRISMは、空間知識、時間的・物理的知識、そして身体化された行動知識にまたがる新しい3次元の知識オントロジーに基づいて構築されています。4つの評価次元――身体化推論（ER）、常識（CS）、空間知覚（SP）、直観的物理（IP）――にまたがり、20以上の能力プローブを網羅しており、私たちの知る限り、PRISMは単一の実世界デプロイ領域において、これら3つの知識次元をすべて具現化した最初のデータセットです。このコーパスは、5つのスーパーマーケット拠点において、主観視（egocentric）、客観視（exocentric）、および360{\deg}の視点からデータを収集しており、自由形式、推論の連鎖（chain-of-thought）、および多肢選択の教師あり情報を含みます。4 fpsで、PRISMは約11.8Mの動画フレームと約730Mトークンを含み、最大級の領域特化型動画SFTコーパスの一つに位置づけられます。PRISMでの微調整により、事前学習済みベースラインと比べて、20以上すべてのプローブにわたるエラー率が66.6%低下し、正答率が36.4%向上するなど、身体化された行動理解において顕著な改善が見られます。これらの結果は、オントロジーで構造化された領域特化型SFTが、実世界の状況において身体化VLMを意味のある形で強化し得ることを示唆しています。PRISMデータセットおよび詳細は https://dreamvu.ai/prism で公開されています