スポーツコーチングにおける関連タスク間の時間的グラウンディングの一貫性を学習する

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

スポーツコーチング向けの動画と言語モデルは、しばしば関連性の薄いフレームに注意を向け、時間的グラウンディングの精度を低下させる。
本研究は、関連タスク（例：生成と検証）間で同じ注視フレームを再現するよう強制する自己整合性の目的関数を導入し、追加のフレームレベル監視の必要性を低減する。
VidDiffBench、正解キーフレームを持つデータセット上でこのアプローチを検証し、注視の誤配分が重大なボトルネックであることを確認した。
提案された目的関数での訓練は、3つのスポーツコーチングタスク（Exact、FitnessQA、ExpertAF）全体において、監視付きファインチューニングに対して+3.0%、+14.1%の精度向上、そして+0.9ポイントのBERTScore向上を達成し、クローズドソースモデルをも凌駕した。

Abstract

Video-LLMs は、しばしば関連性の薄いフレームに注意を向けることがあり、これは正確な時間的定位を要するスポーツコーチングタスクにとって特に有害です。しかし、フレームレベルの監督付き（アノテーション）を取得することは困難であり、人間から収集するには高コストで、他のモデルから得られるものは信頼できません。私たちは、生成や検証といった関連タスクが同じフレームに注意を向けなければならないという観察を利用することで、追加の注釈なしに時間的定位を改善します。これを、密接に関連するタスクの選択的視覚アテンションマップに対する自己整合性の目的関数として課します。グラウンドトゥルースのキーフレーム注釈を提供する VidDiffBench を用いて、まずアテンションの誤配置が顕著なボトルネックであることを検証します。その後、私たちの目的関数を用いた訓練が、Exact、FitnessQA、ExpertAF の3つのスポーツコーチングタスクにおいて、監視付きファインチューニングを上回る精度向上 +3.0%、 +14.1% の精度向上、そして +0.9 の BERTScore の向上をもたらし、クローズドソースモデルを上回ることさえあります。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

スポーツコーチングにおける関連タスク間の時間的グラウンディングの一貫性を学習する

要点

Abstract

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒