時間的注釈スムージングを用いた風景動画における主観的ポートレート領域クロッピング
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 論文は、モバイル端末で多様な解像度や画面向きに合わせて風景動画をアスペクト比変換する際の課題を扱い、静的なクロッピング/パディングやワーピングが画質低下や意図の歪曲につながり得ると述べています。
- フレーム間で重要領域を時間的に整合させるクロッピングを提案し、歪みを抑えつつ本質的な内容を保持することを目指します。
- この主観的なポートレート領域クロッピング研究を可能にするため、LIVE-YT VC(1,800本の動画を90人の被験者が注釈)を新たに導入し、YouTube-UGCとLSVQから収集した公開データとして最大級だと位置づけています。
- さらに、LIVE-YT VC++として、各動画内の主観注釈を時間的に平滑化する新しいフレーム内時間フィルタによるポスト処理版も提供し、SmartVidCropや既存の最先端動画グラウンディングモデルの微調整で有用性を検証します。
- ラベルがビデオサリエンシ(重要領域)注釈/予測とどの程度似ているかの追加分析も行い、将来の研究ベンチマークのためにプロジェクトをオープンソース化する計画です。



