スポーツコーチングにおける関連タスク間の時間的グラウンディングの一貫性を学習する
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- スポーツコーチング向けの動画と言語モデルは、しばしば関連性の薄いフレームに注意を向け、時間的グラウンディングの精度を低下させる。
- 本研究は、関連タスク(例:生成と検証)間で同じ注視フレームを再現するよう強制する自己整合性の目的関数を導入し、追加のフレームレベル監視の必要性を低減する。
- VidDiffBench、正解キーフレームを持つデータセット上でこのアプローチを検証し、注視の誤配分が重大なボトルネックであることを確認した。
- 提案された目的関数での訓練は、3つのスポーツコーチングタスク(Exact、FitnessQA、ExpertAF)全体において、監視付きファインチューニングに対して+3.0%、+14.1%の精度向上、そして+0.9ポイントのBERTScore向上を達成し、クローズドソースモデルをも凌駕した。




