AI Navigate

インサイト最新記事一覧 AI大全

広告

STRIVE：ビデオ質問応答における強化学習のための構造化された時空間探索

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、入力ビデオの時空間的なバリアントを用いて学習シグナルを強化する、ビデオ質問応答のための構造化強化学習フレームワーク「STRIVE」を提案する。
テキスト生成と構造化された視覚的摂動の両方に対して、グループベースの方策最適化で見られる弱い、または不安定なアドバンテージ推定を緩和するために、共同正規化を行う。
STRIVEは、質問に関連するフレームを優先する重要度に基づくサンプリングを追加しつつ、時間的なカバレッジも維持することで、探索を意味的に根付かせる。
6つのビデオ推論ベンチマーク（VideoMME、TempCompass、VideoMMMU、MMVU、VSI-Bench、PerceptionTest）における実験では、複数の大規模マルチモーダルモデルにわたり、強力な強化学習ベースラインに対して一貫した改善が示される。

関連記事

今年90000人のテック労働者が解雇され、誰もがAIのせいにしているが、それは物語の全てではない

今年90000人のテック労働者が解雇され、誰もがAIのせいにしているが、それは物語の全てではない

Dev.to

Microsoftの100億ドル規模の日本投資は、次のAIの戦場が国家インフラであることを示す

Microsoftの100億ドル規模の日本投資は、次のAIの戦場が国家インフラであることを示す

Dev.to

TII、「Falcon Perception」を発表：自然言語プロンプトからのオープン語彙グラウンディングおよびセグメンテーションのための、0.6Bパラメータのアーリーフュージョン・トランスフォーマー

TII、「Falcon Perception」を発表：自然言語プロンプトからのオープン語彙グラウンディングおよびセグメンテーションのための、0.6Bパラメータのアーリーフュージョン・トランスフォーマー

MarkTechPost

家が私に質問した

家が私に質問した

Dev.to

精密なクリップ選択：AIがあなたのイン点／アウト点を提案する方法

精密なクリップ選択：AIがあなたのイン点／アウト点を提案する方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告