時間的注釈スムージングを用いた風景動画における主観的ポートレート領域クロッピング

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 論文は、モバイル端末で多様な解像度や画面向きに合わせて風景動画をアスペクト比変換する際の課題を扱い、静的なクロッピング/パディングやワーピングが画質低下や意図の歪曲につながり得ると述べています。
  • フレーム間で重要領域を時間的に整合させるクロッピングを提案し、歪みを抑えつつ本質的な内容を保持することを目指します。
  • この主観的なポートレート領域クロッピング研究を可能にするため、LIVE-YT VC(1,800本の動画を90人の被験者が注釈)を新たに導入し、YouTube-UGCとLSVQから収集した公開データとして最大級だと位置づけています。
  • さらに、LIVE-YT VC++として、各動画内の主観注釈を時間的に平滑化する新しいフレーム内時間フィルタによるポスト処理版も提供し、SmartVidCropや既存の最先端動画グラウンディングモデルの微調整で有用性を検証します。
  • ラベルがビデオサリエンシ(重要領域)注釈/予測とどの程度似ているかの追加分析も行い、将来の研究ベンチマークのためにプロジェクトをオープンソース化する計画です。

Abstract

モバイル端末での動画視聴が、多様な手持ちディスプレイの解像度や向きモードとともに増加するにつれ、動画をアスペクト比に合わせて変換することが課題となっています。静的なクロッピングやボーダーへのパディングは、しばしば視覚品質を損ねます。一方でワーピングは、動画が意図する意味を歪めてしまう可能性があります。ここでは、より効果的なアプローチとして、フレーム内の重要領域を時間的にクロップすることを提案しつつ、歪みを最小限に抑え、必要なコンテンツを保持することを目指します。この問題の解決を妨げている障壁の1つは、これらのタスクを支えるのに十分な規模のデータベースが存在しないことです。このギャップを埋めるために、LIVE-YouTube Video Cropping(LIVE-YT VC)データベースを導入します。このデータベースは1800本の動画を含み、90名の人間被験者によって注釈が付けられています。YouTube-UGCおよびLSVQ Databasesから取得した動画を用いることで、本新しいリソースは公開されている主観的な動画ポートレート領域クロッピングのデータベースとして最大規模です。また、このデータベースのポストプロセス版も導入します。これはLIVE-YT VC++と呼ばれ、各動画内の主観的な注釈を平滑化するために、新しいフレーム内時間フィルタが導入されました。SmartVidCropアルゴリズムおよび最先端の動画グラウンディングモデルを用いて、新たなデータ資源の有用性を示し、将来の研究に向けて私たちの主観的データセットをベンチマークとして確立することを期待しています。提案手法は、リシェイプされたモバイルフレンドリーな動画コンテンツが品質と意味を保持できるようにしながら、動画のアスペクト比変換モデルを発展させるためのリソースを提供します。さらに、私たちのラベルは動画のサリエンシ(顕著性)注釈に類似していることから、ラベルと動画サリエンシ予測との類似性を探る追加分析も実施しました。最後に、アスペクト比変更タスクのために最先端の動画グラウンディングモデルを流用し、これらを私たちのデータセットで微調整しました。研究コミュニティへのサービスとして、本プロジェクトをオープンソース化する予定です。