AI Navigate

思考に痛みを伴うとき: フレーム繰り返しによる映像推論における視覚的忘却の緩和

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • FrameRepeat は、推論時に最も情報価値の高いフレームを強化して視覚的アンカーのドリフトを抑制する自動化フレームワークを導入します。
  • 本手法は、軽量なフレーム評価ネットワークと、Add-One-In(AOI)と呼ばれる訓練戦略を用いて、MLLM の出力確率から監督信号を導出します。
  • AOI 監督は、視覚的手掛かりを強化するために、いつどのフレームを繰り返すべきかを指示するフレームスコアラーを訓練します。
  • 著者らは、複数のモデルとデータセットに跨る手法の有効性と汎用性を実証し、過度な訓練コストをかけずに改善を提供します。
  • FrameRepeat は、長期的なビデオ推論における視覚入力の信頼性を向上させることを目指し、従来の CoT(Chain-of-Thought)ベースのビデオQA 手法の重要な制約に対処します。

要約: 近年、マルチモーダル大規模言語モデル(MLLMs)は、Chain-of-Thought(CoT)推論の統合を通じて、複雑な視覚タスクにおいて顕著な潜在能力を示しています。
しかし、動画質問応答において、長時間の思考過程は一貫して性能向上をもたらすわけではなく、視覚入力を軽視し自己生成テキストに頼りすぎることで幻覚を引き起こす「視覚アンカーの漂移」と呼ばれる現象により、劣化を招くことがあります。
既存の緩和策は通常、推論時にモデルが視覚入力へ再度注意を向けるための特定のメカニズムを導入しますが、これらのアプローチは訓練コストが高くつくことが多く、異なるアーキテクチャ間で一般化性が乏しいという問題があります。
この課題に対処するため、FrameRepeatを提案します。FrameRepeatは、動画対応LLMsが自律的に強化すべきフレームを識別できる軽量なリピートスコアリングモジュールを特徴とする自動化された強化フレームワークです。
新しいトレーニング戦略 Add-One-In(AOI)を導入します。これはMLLMの出力確率を用いて、リピートゲインを表す監督信号を生成します。
これを用いてフレームスコアリングネットワークを訓練することができ、フレーム再選択の挙動を導く手助けをします。
複数のモデルとデータセットにわたる実験結果は、FrameRepeatが推論過程において重要な視覚的手掛かりを強化するのに有効であり、かつ一般化可能であることを示しています。