動画大規模言語モデルにおける幻覚の低減のための、アンカーフレーム支配の緩和
arXiv cs.CV / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Video-LLMにおけるデコーダ側のバイアスを特定する。すなわち生成が単一の「アンカーフレーム」に過度に集中し、その結果、時間的に不均衡な証拠の集約が行われ、幻覚と相関する。
- このアンカーフレーム支配は主に入力に依存しないことが示され、モデル固有の持続的な構造的/位置的傾向を反映している。
- この問題を緩和するために、著者らはDecoder-side Temporal Rebalancing(DTR)を提案する。これは学習を要さない、レイヤ選択型の推論手法であり、中盤から終盤のデコーダ層において時間方向の視覚的注意を再バランスする。
- DTRは、複数のVideo-LLMファミリにわたって幻覚への頑健性を向上させると同時に、視覚理解性能を競争力のある水準に維持し、高い推論効率も実現する。さらに、視覚エンコーダの変更や補助モデルの利用は行わない。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note