VSAS-BENCH: 視覚ストリーミングアシスタントモデルのリアルタイム評価

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • VSAS-BENCHは、リアルタイムの視覚ストリーミングアシスタント(streaming VLM)を評価するために特化した新しいベンチマークフレームワークとして導入され、オフラインの動画理解に留まらない指標に焦点を当てる。
  • このベンチマークには、時間的に密な注釈(18,000件以上)、多様なドメインとタスクタイプが含まれ、標準化された同期評価および非同期評価のプロトコルを提供する。
  • 先読み性(応答の適時性)と一貫性(時間経過に対する応答の頑健性)を別々に測定するための指標を導入し、ストリーミング挙動のより明確な分析を可能にする。
  • 大規模な実験により、メモリバッファ長、メモリ参照ポリシー、入力解像度などの要因を通じて、精度—遅延のトレードオフを評価し、実用的な設計インサイトを得る。
  • 本研究は、従来型のVLMは追加トレーニングなしでストリーミングに適応でき、適応したモデル(例:Qwen3-VL-4B)がVSAS-BENCHにおいて従来のストリーミングVLMを上回ることを示す。