ショット認識を前提としたフレームサンプリングによる動画理解

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

InfoShotは、長時間の動画理解のためのショット認識型フレームサンプラーであり、映像を意味的に一貫したショットに分割し、各ショットから2つのキーフレームを選択して、メインコンテンツとショット内の変化の双方を捉える。
本手法は情報理論的な目的を用いてショット構造に関する情報とショット内のまばらな変動を保持し、再訓練なしで下流の予測性能を向上させる。
SynFlashという新しい合成ベンチマークが導入され、フレームレベルのグラウンドトゥルースを持つ短命・サブ秒程度の異常パターンを評価する。
実験では、InfoShotはフレーム数の制約下で異常ヒット率とVideo-QAの精度を向上させ、標準的な動画理解ベンチマークにおいて強力なベースラインに匹敵するか上回ることが示された。
このアプローチはタスクに依存しない汎用性を持ち、Vision-Language Modelを用いた動画理解にも適用可能で、幅広い動画分析タスクに影響を与える可能性がある。

要旨: Vision-Language Models（VLM）を用いた長時間動画理解の効率性のためには、ビデオフレームのサンプリングが不可欠です。密な入力はコストがかかり、しばしば文脈制限を超えるためです。
しかし、保持できるフレーム数が限られている場合、既存のサンプラーは広範な動画カバレッジと短くても重要なイベントのバランスを取ることに失敗しがちで、下流の予測の信頼性を損なうことがあります。
この問題に対処するため、長時間動画理解のためのタスク非依存でショット認識型のフレームサンプラーであるInfoShotを提案します。
InfoShotはまず動画を意味的に一貫したショットに分割し、各ショットから2つの補完的なキーフレームを選択します。1つは主な内容を表し、もう1つはショット内の珍しい変化を捉えます。
この設計は情報理論的な目的に導かれており、サンプル化された集合がショット構造とショット内のまれな逸脱の両方について高い情報を保持するよう促します。
このように、全体的な動画文脈と短時間の意思決定に重要な瞬間の両方を、再学習を必要とせずに保持する可能性を高めます。
このような一時的なイベントをより適切に評価するため、制御可能な一秒未満の異常パターンとフレームレベルのグラウンドトゥルースを備えた合成ベンチマークSynFlashをさらに導入し、InfoShotを既存の異常データセットおよび一般的な動画理解タスクで評価します。
実験は、InfoShotがフレーム数の制約下で異常ヒット率と下流のVideo-QAの精度を向上させ、標準的な動画理解ベンチマークにおいて強力なベースラインと同等かそれを上回ることを示しています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

ショット認識を前提としたフレームサンプリングによる動画理解

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer