ミスを正しく作る方法:ミスに気づいたエゴセントリック手順映像を構築・ベンチマークするための枠組み

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、ヒトの自然なミスとその後の回復を含むエゴセントリック手順映像を作成・ベンチマークするための枠組み「PIE-V」を提案している。
  • PIE-Vは、クリーンな「手順ステップ(keystep)」に対して、心理学に基づいた人間らしい逸脱を制御的に注入することでミスを生成し、回復行動をモデル化する補正プランナも組み込む。
  • LLMを用いたライタがカスケード整合的な書き換えを行い、さらにLLMジャッジが手順の整合性を検証して失敗時の修復を行う。
  • 評価では、統一されたミス分類(タクソノミー)と、人手によるルーブリック(9つのメトリクス)を導入し、もっともらしさ、手順ロジック、状態変化の一貫性、テキストと映像の対応を含む品質を測る。
  • 17タスクおよび50のEgo-Exo4Dシナリオで102件のミスを注入し、27件の回復修正を生成したほか、既存リソースの監査と、同一基準でのLLM自由生成ベースラインとの比較を行っている。

要旨: 動画における信頼性の高い手続き型モニタリングには、自然に生じる人間の誤りと、それに続く回復(リカバリ)への露出が必要です。自己視点の記録では、ミスはしばしば手によって部分的に遮られ、また微妙な対象物の状態変化を通じて明らかになります。一方で、既存の手続き型データセットでは、ミスと訂正(修正)のトレースが限定的で、かつ一貫性に欠けています。私たちは、きれいなキーステップ手順に対して制御された、人間らしくもっともらしい逸脱を加えることで、ミスを意識した自己視点の手続き型動画を構築し、ベンチマークするための枠組み PIE-V(Psychologically Inspired Error injection for Videos)を提案します。PIE-V は、手順フェーズと意味的ステップ負荷に条件付けされた心理学に基づくエラープランナ、回復行動をモデル化する訂正プランナ、カスケードの整合性に従って書き換えを行う LLM ライタ、および手続きの一貫性を検証し失敗を修復する LLM ジャッジを組み合わせます。動画セグメントの編集において、PIE-V はテキストに導かれた動画生成で置換クリップを合成し、視覚的なもっともらしさを保つようにエピソードへ接続します。17 タスクおよび 50 の Ego-Exo4D シナリオに適用したところ、PIE-V は 102 件のミスを注入し、27 件の回復訂正を生成します。ベンチマークのために、統一された分類体系と、人手によるルーブリックを導入します。これは、もっともらしさ、注釈者の確信度を伴う手順ロジック、状態変化の整合性、テキストと動画の間の対応付けといった、ステップレベルおよび手順レベルの品質をカバーする 9 つの指標から成ります。このプロトコルを用いて、私たちはいくつかの既存リソースを監査し、同一の基準の下で PIE-V を自由形式の LLM 生成ベースラインと比較します。合わせて、枠組みとルーブリックにより、自己視点の手続き型ミス検出と訂正における完了後検証が支えられます。