HTDC: 大規模視覚言語モデルにおける幻覚を抑制するための、ためらいに基づく差分キャリブレーション

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模視覚言語モデルにおける幻覚が、不安定な視覚的グラウンディングと、言語プリアの過度な依存の組み合わせによって生じ得ることを特定している。
訓練不要のデコード手法として、Hesitation-Triggered Differential Calibration（HTDC）を提案し、キャリブレーションを毎トークンではなく、層ごとの「ためらい（hesitation）」ステップのみに適用する。
ためらいの信号は、中間層におけるトークン嗜好の揺らぎから導出され、グラウンディングの不安定性を検出するために用いられる。
ためらいが発火したとき、HTDCは、標準的なフルブランチ推論を2つの軽量プローブ（視覚ヌリフィケーションとセマンティックヌリフィケーション）と比較し、幻覚を誘発しやすい候補を抑制する。
幻覚ベンチマークでの実験により、HTDCはタスク精度を維持しつつ幻覚を低減し、各ステップでのキャリブレーションと比べて計算量も削減できることが示されている。

Abstract

大規模視覚言語モデル（LVLMs）は強力なマルチモーダル性能を達成する一方で、不安定な視覚的グラウンディングと、言語の事前知識への過度な依存によって引き起こされるハルシネーションにまだ悩まされています。既存の学習不要のデコーディング手法では、通常、各デコードステップごとにキャリブレーションを適用するため、不要な計算が生じるだけでなく、予測の安定性を損なう可能性もあります。本研究では、中間層におけるトークン嗜好の揺らぎとして現れる、グラウンディング不安定性の単純な指標である層ごとの躊躇（hesitation）を特定することでこの問題に取り組みます。この観察に基づき、標準的なフルブランチ推論を保持し、躊躇しやすいステップでのみキャリブレーションを作動させる学習不要のデコーディング枠組みである Hesitation-Triggered Differential Calibration（HTDC）を提案します。作動時、HTDCは、視覚的ヌル化プローブと意味的ヌル化プローブという2つの軽量プローブを用いてフルブランチと対比し、安定しているステップへの不要な介入を避けながら、ハルシネーションを起こしやすい候補を抑制します。代表的なハルシネーション評価ベンチマークでの実験では、HTDCが一貫してハルシネーションを低減しつつ、強いタスク精度を維持することが示され、有効性と計算オーバーヘッドの間に好ましいトレードオフを実現します。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

HTDC: 大規模視覚言語モデルにおける幻覚を抑制するための、ためらいに基づく差分キャリブレーション

要点

Abstract

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減