境界中心のアクティブ・ラーニングによる時系列アクション・セグメンテーション

arXiv cs.CV / 2026/4/17

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

この論文は、非トリムの動画におけるアクション・トランジション（境界）の特定と調整に注釈コストが集中し、小さな時間ずれがセグメント指標に大きく悪影響を与えるという点から、時系列アクション・セグメンテーション（TAS）を扱います。
B-ACT（Boundary-Centric Active Learning）という、クリップ予算に基づいて高い寄与度を持つ境界領域へ明示的に監督を割り当てるアクティブ・ラーニング手法を提案します。
B-ACTは階層的な2段階ループを採用し、(i) 不確実性に基づいて未ラベル動画を選び、(ii) 選んだ各動画内でモデル予測から候補となる遷移境界を検出し、近傍の不確実性・クラスあいまいさ・時間方向の予測ダイナミクスを統合した新しい境界スコアで上位K境界を選びます。
注釈プロトコルでは境界フレームのみラベル付けを要求しつつ、境界中心のクリップで学習することで、モデルの受容野を通じた時間文脈の活用を狙います。
GTEA、50Salads、Breakfastでの実験により、B-ACTが疎な注釈予算の下で、代表的なTASアクティブ・ラーニングの基線や先行の最先端手法をラベル効率の面で一貫して上回り、とりわけ境界配置がF1スコアに支配的に効くデータセットで最大の改善が得られることが示されています。