AI Navigate

スポーツコーチングにおける関連タスク間の時間的グラウンディングの一貫性を学習する

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • スポーツコーチング向けの動画と言語モデルは、しばしば関連性の薄いフレームに注意を向け、時間的グラウンディングの精度を低下させる。
  • 本研究は、関連タスク(例:生成と検証)間で同じ注視フレームを再現するよう強制する自己整合性の目的関数を導入し、追加のフレームレベル監視の必要性を低減する。
  • VidDiffBench、正解キーフレームを持つデータセット上でこのアプローチを検証し、注視の誤配分が重大なボトルネックであることを確認した。
  • 提案された目的関数での訓練は、3つのスポーツコーチングタスク(Exact、FitnessQA、ExpertAF)全体において、監視付きファインチューニングに対して+3.0%、+14.1%の精度向上、そして+0.9ポイントのBERTScore向上を達成し、クローズドソースモデルをも凌駕した。

Abstract

Video-LLMs は、しばしば関連性の薄いフレームに注意を向けることがあり、これは正確な時間的定位を要するスポーツコーチングタスクにとって特に有害です。 しかし、フレームレベルの監督付き(アノテーション)を取得することは困難であり、人間から収集するには高コストで、他のモデルから得られるものは信頼できません。 私たちは、生成や検証といった関連タスクが同じフレームに注意を向けなければならないという観察を利用することで、追加の注釈なしに時間的定位を改善します。 これを、密接に関連するタスクの選択的視覚アテンションマップに対する自己整合性の目的関数として課します。 グラウンドトゥルースのキーフレーム注釈を提供する VidDiffBench を用いて、まずアテンションの誤配置が顕著なボトルネックであることを検証します。 その後、私たちの目的関数を用いた訓練が、Exact、FitnessQA、ExpertAF の3つのスポーツコーチングタスクにおいて、監視付きファインチューニングを上回る精度向上 +3.0%、 +14.1% の精度向上、そして +0.9 の BERTScore の向上をもたらし、クローズドソースモデルを上回ることさえあります。