STEAR:動画大規模言語モデルにおける幻覚抑制のためのレイヤー対応型時空間エビデンス介入

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画LLMが時空間的な幻覚を生じるのは、デコーダ層ごとに視覚的グラウンディングと後段の言語合成への寄与が異なるためだと主張しており、幻覚対策は全体一律に適用するのではなくレイヤーに応じて行うべきだと述べている。
  • 提案手法STEARは、高リスクなデコードステップを選択し、グラウンディングに敏感な中間層からトークン条件付きの視覚エビデンスを取り出して、修正を導く。
  • STEARは、2つの連動した介入に同一のエビデンスを用いる。すなわち、中間層における局所的なグラウンディングの欠落を復元すること、そして、後段層でのデコードにおける不整合な推論に対抗するために時間的に摂動を加えたパッチ単位の反実例(カウンターファクト)を作成すること、である。
  • 複数のVideo-LLMバックボーンとベンチマークでの実験により、STEARは空間的・時間的いずれの幻覚も低減しつつ、忠実性、時間的一貫性、頑健性を向上させることが示されている。
  • 著者らは、幻覚抑制は「適切なレイヤーに対して、正確なエビデンスで介入する」場合に最も効果的であると主張し、補足資料にコードを提供している。

要旨: 動画の大規模言語モデル(Video-LLMs)は、時空間的な幻覚(spatiotemporal hallucinations)を依然として起こしやすく、しばしば視覚的に裏付けのない詳細を生成したり、誤った時間的関係を示したりします。既存の対策手法は通常、幻覚を一様なデコード失敗として扱い、グローバルに共有された補正ルールを一律に適用します。これに対し本研究では、デコーダ層が視覚的な基底付け(visual grounding)と、後段の言語的合成(linguistic composition)において異なる寄与をしていることを観察し、介入は層を意識した(layer-aware)ものであるべきだと示します。この洞察に基づき、層を意識した時空間エビデンス介入フレームワークであるSTEARを提案します。STEARは高リスクなデコード手順を特定し、基底付けに敏感な中間層から、トークン条件付きの視覚エビデンスを選択します。さらに、この共有エビデンスを2つの結び付いた目的に用います。すなわち、中間層における欠落した局所的な基底付けを復元すること、そして、後段層のデコード中に矛盾した推論を否定(falsify)するために、時間的に摂動を加えたパッチレベルの反事実(counterfactuals)を構築することです。その結果、STEARは効率的な単一エンコードの推論フレームワーク内で、空間的および時間的の両方の幻覚を軽減します。代表的なVideo-LLMバックボーンと、困難なベンチマークにわたる実験により、STEARが一貫して幻覚を低減しつつ、忠実性(faithfulness)、時間的一貫性(temporal consistency)、および頑健性(robustness)を向上させることが示されます。これらの結果は、信頼できる動画デコードは、グローバルなペナルティを課すのではなく、適切な層において正確なエビデンスに介入することに依存していることを確認します。コードは補足資料に掲載されています。