First Logit Boosting：大規模視覚言語モデルにおける物体幻覚を抑制するための視覚的グラウンディング手法

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、大規模視覚言語モデル（LVLMs）における持続的な物体幻覚の問題に取り組み、既存の対処法ではしばしばコストの高い再学習や複雑なグラウンディング構造が必要になることを指摘している。
提案手法は First Logit Boosting（FLB）であり、学習なし（training-free）の手法として、最初に生成されたトークンのロジットを保存し、それを後続トークンの予測に加えることで、視覚的グラウンディングが長期的に減衰することを防ぐ。
FLBは、生成全体を通じて視覚情報を活性状態に保ち、幻覚的な語の発生を抑えるよう設計されており、「The」トークンに関連する安定化効果を活用する。
実験では、複数のタスク、ベンチマーク、そしてさまざまなLVLMバックボーンモデルにおいて、物体幻覚が大幅に減少することが報告されており、推論時のオーバーヘッドは無視できる程度である。
著者らは、公開GitHubリポジトリに実装を提示しており、リアルタイムなマルチモーダルシステムへの導入が比較的容易であることを示唆している。