IMPACT-Scribe:境界スクリブルとクエリ計画による時間的アクション分割のインタラクティブ手法

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • IMPACT-Scribeは、手順型アクション動画に対する高密度の時間的アクション分割を、アノテーション作業の負担を減らすことを目的に扱う、修正(コレクション)駆動のフレームワークである。
  • 各修正を単独の編集として扱うのではなく、アノテータの不確実性やモデルの信頼性を踏まえつつ、今後の人間—機械協調を改善するために修正情報を再利用する。
  • 不確実性に配慮した境界スクリブルの教師信号、ローカルな提案(プロポーザル)モデリング、コストを考慮したクエリ計画、さらに構造化された伝播を組み合わせて、効率的なラベリングを支援する。
  • 実験と人手による調査により、閉ループ設計が努力あたりのラベリング品質を高め、境界精度を継続的に向上させることが示されている。
  • 著者らはコードを公開予定としており、提供されているGitHubリンクを通じて入手できる。

要旨: 手続き的な活動ビデオの高密度な時間的注釈は、行動理解および身体化された知能にとって重要ですが、反応型のツールによる作業のため、依然として労力を要します。各修正は孤立した編集として扱われるため、注釈者の不確実性やモデルの信頼性に関する情報の再利用が制限されます。私たちは、各修正を用いて将来の人間と機械の協調を改善する、補正駆動型の枠組みIMPACT-Scribeを提案します。IMPACT-Scribeは、不確実性を考慮した境界スクリブルの教師あり信号、局所的な提案(プロポザル)モデリング、コストを考慮したクエリ計画、構造化された伝播、および補正駆動型の適応を組み合わせます。実験および人間を対象とした調査により、このクローズドループ設計が、費用(労力)あたりの注釈品質を向上させ、境界精度を高め、時間の経過とともにより良い人間と機械の相互作用を促進することが示されます。コードは https://github.com/BanzQians/IMPACT_AS にて公開予定です。