小規模言語モデルにおけるエントロピーと注意ダイナミクス:TruthfulQAベンチマークに対するトレース・レベルの構造解析

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小規模言語モデル(SLM)を最終的な正解率や幻覚(ハルシネーション)率のみで評価しても、確信を伴う誤予測や不安定な出力がどのような内部挙動によって生じるのかを捉えきれないと主張する。
  • TruthfulQAベンチマークに対して、トークン出力エントロピー、注意(attention)エントロピー、ヘッドの分散(dispersion)、隠れ状態の表現ダイナミクスを測定するトレース・レベルの構造解析を導入する。
  • 4つの1B〜1.7Bパラメータのモデルにわたる分析から、エントロピーのパターンには3つの異なるカテゴリが存在することが示される:決定論的(エントロピーが減少)、探索的(エントロピーが増加)、そしてバランス型(中程度/安定したエントロピー)。
  • 著者らは、各エントロピー群がそれぞれ異なる隠れ状態の移動や注意の分散パターンも示すと報告しており、「真実性(truthfulness)」は出力指標だけでなく、構造化されたエントロピー/注意ダイナミクスと結びついていることが示唆される。
  • 本結果は、内部の不確実性パターンをモニタリングし最適化することで、アプリケーション特化のエッジSLMにおける信頼性や幻覚への意識(ハルシネーションの抑制・回避)を改善できる可能性を示している。

要約: 小規模言語モデル(SLM)は、エッジデバイスやその他のリソース制約のある環境において、ますます広く導入されている。しかし、これらのモデルは確信に満ちた誤予測を行い、出力が不安定になるため、事実に関わるタスクや意思決定に関わるタスクに対してリスクが高い。現在の評価手法は、最終的な正確性やハルシネーション(幻覚)率に依存しており、モデル内部のふるまいが出力にどのように影響するかを説明できていない。具体的には、復号中にエントロピーがどのように推移するか、注意(アテンション)が各層にどのように分配されるか、隠れ表現が不確実性、論理的不整合、誤情報の伝播にどう寄与するかといった点は、見落とされがちである。その結果、本研究では、TruthfulQA データセットで評価した SLM におけるエントロピーと注意ダイナミクスのトレース(追跡)レベル分析を導入する。パラメータ範囲が 1B〜1.7B の 4 つのモデルを、トークンレベル出力エントロピー、注意エントロピー、ヘッド分散(dispersion)、および隠れ状態表現によって調べた。その結果、エントロピーのパターンに基づいて 3 つのモデル分類が反映された。決定論的モデル(DeepSeek-1.5B および LLaMA-1B)は、出力エントロピーが時間とともに低下する。探索的モデル(Gemma-1B)は、エントロピーが増加するにつれて変化し、バランス型モデル(Qwen-1.7B)は中程度で安定したエントロピーを示す。さらに、各グループには、隠れ状態の動き方や注意の分散のパターンにおいて明確に異なる特徴がある。分析は、SLM における真実性が、構造化されたエントロピーと注意ダイナミクスから生じることを示している。内部の不確実性パターンをモニタリングし最適化することで、より信頼性が高く、ハルシネーションを意識した、かつ用途に特化したエッジ SLM の設計に役立てることができる。