部分的に関連するビデオ検索のための、知識で洗練されたデュアル文脈対応ネットワーク

arXiv cs.CV / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストとビデオの情報密度の不一致や、意味的フォーカスおよびイベント間の相関に対する注意が弱いことを背景に、トリミングされていないビデオから部分的に関連するセグメントを検索するための、デュアル文脈対応モデルKDC-Netを提案する。
KDC-Netは、階層的セマンティック集約（Hierarchical Semantic Aggregation）モジュールによってクエリの意味を強化し、多尺度のフレーズ手がかりを適応的に融合する。
ビデオ側では、相対位置エンコーディングと適応的な時間窓を用いたダイナミック・テンポラル・アテンションにより、重要な出来事を強調しつつ、局所的な時間的整合性を維持する。
本手法は、時間的連続性を考慮した洗練（refinement）を伴う、動的CLIPベースの蒸留戦略を採用し、セグメントレベルで、目的に整合した知識を転移する。
PRVRベンチマークでの実験により、KDC-Netは既存の最先端アプローチを上回る性能を示し、特に「瞬間（moment）対ビデオ」の比率が低い場合に顕著である。

要旨: トリムされていない動画から部分的に関連するセグメントを取得することは、2つの持続的な課題により依然として困難です。すなわち、テキストと動画セグメント間における情報密度の不一致、そしてセマンティックな焦点やイベント間の相関を見落としてしまう限定的な注意機構です。私たちは、これらの問題に対してテキストおよびビジュアルの両面から取り組む、Knowledge-Refined Dual Context-Aware NetworkであるKDC-Netを提案します。テキスト側では、階層的セマンティック集約モジュールがマルチスケールのフレーズ手がかりを捉え、適応的に融合することで、クエリの意味を強化します。動画側では、動的時間注意機構が相対位置エンコーディングと適応的な時間窓を用いて、局所的な時間的整合性を保ちながら重要なイベントを強調します。さらに、時間的連続性を考慮した洗練（refinement）で強化した、動的CLIPベースの蒸留戦略により、セグメントに応じた、かつ目的に整合した知識転移が保証されます。PRVRベンチマークでの実験では、KDC-Netが最先端手法を一貫して上回ることが示され、特に「低いモーメント対動画比」の条件下で顕著です。

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？

ITmedia AI+

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

ITmedia AI+

部分的に関連するビデオ検索のための、知識で洗練されたデュアル文脈対応ネットワーク

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

毎秒「10回→100回」の動作指示が可能に 日立のフィジカルAI「3つの新技術」とは？

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？