PEARL: パーソナライズされたストリーミング映像理解モデル

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案論文は、リアルタイムに新しい概念を理解し記憶を更新する人の認知に対応するため、「パーソナライズされたストリーミング映像理解(PSVU)」という新しい課題設定を定義した。
  • 研究用ベンチマークとして、厳密なタイムスタンプ付きでフレーム単位と動画単位の2つの評価モードを備えた「PEARL-Bench」(132本の動画、2,173件の注釈)を導入した。
  • アノテーション多様性と品質を自動生成+人手検証のパイプラインで担保し、時刻に正確に反応できるかを測る点を強調している。
  • 課題に対し、学習を前提としないプラグ&プレイ手法「PEARL」を提案し、8つのオフライン/オンラインモデルでSOTA性能を達成したと報告している。
  • PEARLは異なる3つのアーキテクチャに適用しても一貫したPSVU改善が得られ、VLMのパーソナライズ化やストリーミング型AIアシスタント研究を促進することを狙っている。

要旨: 新しい概念の人間の認知は、本質的にストリーミングプロセスです。私たちは継続的に新しい対象やアイデンティティを認識し、時間の経過とともに記憶を更新します。しかし、現在のマルチモーダルなパーソナライズ手法は、主として静止画像やオフライン動画に限られています。この断絶により、連続的な視覚入力が即時の現実世界のフィードバックと結びつかず、その結果、将来のAIアシスタントに不可欠なリアルタイムでインタラクティブなパーソナライズ応答を提供する能力が制限されています。このギャップを埋めるために、まず私たちは新しいタスクである Personalized Streaming Video Understanding (PSVU) を提案し、形式的に定義します。この新しい方向性の研究を促進するために、最初の包括的ベンチマークである PEARL-Bench を導入します。これは、この困難な設定を特に評価することを目的に設計されています。PEARL-Bench は、モデルが正確なタイムスタンプにおいてパーソナライズされた概念に応答できる能力を、2つのモードで評価します: (1) フレームレベル。離散的なフレームの中で特定の人物または対象に焦点を当てる。 (2) 新規のビデオレベル。連続したフレームにまたがって展開されるパーソナライズされた行動に焦点を当てる。PEARL-Bench は 132 個のユニークな動画と、正確なタイムスタンプを伴う 2,173 個のきめ細かなアノテーションで構成されます。概念の多様性とアノテーション品質は、自動生成と人手による検証を組み合わせたパイプラインによって厳密に担保されます。この新しい困難な設定に対処するために、さらに私たちはトレーニング不要のプラグ・アンド・プレイ手法である PEARL も提案します。これは強力なベースラインとして機能します。8つのオフラインおよびオンラインモデルにわたる大規模な評価の結果、PEARL は最新水準の性能を達成していることが示されます。特に、3つの異なるアーキテクチャに適用した場合に一貫した PSVU の改善が得られ、非常に有効で頑健な戦略であることが証明されています。本研究が視覚と言語のモデル (VLM) のパーソナライズを前進させ、ストリーミング型のパーソナライズAIアシスタントに関するさらなる研究のきっかけになることを願っています。コードは https://github.com/Yuanhong-Zheng/PEARL で利用可能です。