境界教師信号とセグメントレベル正則化を組み合わせた、きめ細かな行動セグメンテーション

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、重いモデル部品を追加せずに、きめ細かな境界ローカリゼーションを狙う Temporal Action Segmentation（TAS）のための軽量で、アーキテクチャに依存しない学習フレームワークを提案している。
2つの補助損失を用いる：（1）時間的境界精度のための単一の追加出力チャネルによる境界回帰損失、（2）セグメント内部の一貫性を高めるためのCDF（累積分布関数）ベースのセグメントレベル正則化損失。
この方法は、既存のTASモデル（MS-TCN、C2F-TCN、FACTなど）に対して、学習時の損失としてのみ組み込むことができ、必要なアーキテクチャ変更は最小限である。
3つのベンチマークデータセットでの実験により、複数のベースモデルにわたってセグメントレベル指標（F1およびEditスコア）が一貫して改善し、フレーム単位の精度は概ね影響を受けないことが示されている。
全体として、本研究は、より複雑なアーキテクチャや推論時の改良ではなく、シンプルな損失設計によってセグメンテーション品質の向上が主に達成できると主張している。

要約: 時間的アクションセグメンテーション（TAS）の最近の進展は、ますます複雑なアーキテクチャに依存するようになっており、実運用上の導入を妨げる可能性があります。そこで本稿では、追加の出力チャネルを1つと補助損失項を2つだけ用いて、最小限のアーキテクチャ修正で細粒度のセグメンテーション品質を向上させる、軽量なデュアルロス学習フレームワークを提案します。本アプローチは、単一チャネルの境界予測により正確な時間的局在化を促進する境界回帰損失と、予測セグメントと正解セグメントに対する累積分布を一致させることで、セグメント内の構造の一貫性を促すCDFベースのセグメントレベル正則化損失を組み合わせます。このフレームワークはアーキテクチャ非依存であり、既存のTASモデル（例: MS-TCN、C2F-TCN、FACT）に、学習時の損失関数として統合できます。3つのベンチマークデータセットにわたって、提案手法はセグメントレベルの整合性と境界品質を改善し、3つの異なるモデルすべてでF1およびEditスコアが向上します。フレームごとの精度は大きく変わらないことから、重いアーキテクチャや推論時の改良ではなく、単純な損失設計によって正確なセグメンテーションを実現できることが示されます。