Transformer表現への幻覚シグナルの弱教師あり蒸留

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、幻覚検出のための教師信号をトランスフォーマ内部の表現へ蒸留し、推論時には隠れ活性のみから幻覚を検出できるようにすることで、デプロイ時の外部検証（検索、正解、またはジャッジモデル）を回避することを提案する。
人手による注釈なしで、LLM-as-judgeにより生成応答を根拠あり（grounded）か幻覚（hallucinated）かにラベル付けする弱教師ありラベリング枠組みを導入し、具体的には部分文字列マッチング、文埋め込みによる類似度、そしてLLM-as-judgeを用いる。そのうえで、SQuAD v2からLLaMA-2-7Bの生成と各層の隠れ状態を用いて、15,000例のデータセットを構築する。
収集した隠れ状態に対して、5つの層／射影ベースのプロービングモデルを直接学習させる。ここで根拠シグナルは訓練時の監督としてのみ扱い、幻覚シグナルが表現に内在化できるかを検証する。
実験結果では、トランスフォーマベースのプローブが最良の識別性能を示すことが分かり、とりわけ特定のアーキテクチャ（M2およびM3）が交差検証指標と保持したテストセットの両方で最高の性能を示した。
本手法はレイテンシも評価しており、（バッチ処理および単一サンプルの両方で）ミリ秒オーダーのプローブオーバーヘッドであること、またエンドツーエンドの生成＋プローブのスループットへの影響が最小であることを示し、実運用可能性が示唆される。

要旨: 大規模言語モデル（LLM）に対する既存の幻覚検出手法は、推論時に外部検証（gold解答、検索システム、または補助ジャッジモデル）を必要とします。そこで本研究では、この外部の監督を代わりに、学習中にモデル自身の表現へと蒸留できるのかどうかを問い、推論時には内部の活性だけから幻覚検出が可能になることを目指します。
3つの補完的なグラウンディング信号――部分文字列の一致、文埋め込みの類似度、そしてLLMを判定者（judge）として――を組み合わせる弱い監督フレームワークを導入します。この枠組みにより、人手による注釈なしで生成応答を「根拠あり」または「幻覚」とラベル付けします。これを用いて、SQuAD v2 から15000サンプルのデータセットを構築します（10500の学習/開発サンプルと、別の5000サンプルのテストセット）。各例は、LLaMA-2-7Bが生成した解答と、その全層の隠れ状態（per-layer hidden states）および構造化された幻覚ラベルを対応付けています。
次に、5つのプロービング分類器――ProbeMLP (M0)、LayerWiseMLP (M1)、CrossLayerTransformer (M2)、HierarchicalTransformer (M3)、CrossLayerAttentionTransformerV2 (M4)――を、これらの隠れ状態に直接学習させます。外部のグラウンディング信号は学習時の監督としてのみ扱います。中心となる仮説は、幻覚検出の信号をトランスフォーマーの表現へと蒸留でき、推論時には外部の検証なしに内部から検出が可能になる、というものです。
結果はこの仮説を支持します。トランスフォーマーに基づくプローブは最も強い識別性能を示し、M2が5-fold平均のAUC/F1で最良となります。またM3は、単一foldの検証と、保持したテスト評価の両方で最良となります。さらに推論効率をベンチマークしました。プローブのレイテンシは（バッチでは）0.15〜5.62 ms、（単一サンプルでは）1.55〜6.66 msです。一方で、生成（end-to-end）にプローブのスループットを加えた全体での処理は、およそ0.231 queries per secondのままであり、実運用上のオーバーヘッドは無視できることを示しています。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

Transformer表現への幻覚シグナルの弱教師あり蒸留

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」