AI Navigate

実行可能性のない解釈性: 内部表現がほぼ完璧でも機械的手法は言語モデルの誤りを修正できない

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、言語モデルの内部表現を訂正済みの出力へ翻訳できるかを検証するため、4つの機械的解釈可能性手法を評価し、知識と行動のギャップが持続することを発見した。
  • 評価対象の手法は、コンセプト・ボトルネック・ステアリング、スパース・オートエンコーダー特徴量ステアリング、活性化パッチングを用いたロジット・レンズ、真実性セパレータベクトル・ステアリングによる線形プロービングで、400件の医師評価付き臨床ビネットを用いて検証した。
  • 線形プローブは、有害と良性の症例を識別するAUROCは98.2%に達したが、モデルの出力感度はわずか45.1%にとどまり、知識と実行可能な出力との間に大きなギャップが露呈した。
  • 4つの手法はいずれも補正効果が限定的または有害であった。コンセプト・ボトルネック・ステアリングは見逃した有害事象の20%を修正した一方で、正しく検出したものの53%を混乱させた。スパース・オートエンコーダー特徴量ステアリングは多数の特徴量にもかかわらず効果がなかった。TSV(真実性セパレータベクトル)ステアリングは見逃した有害事象を24%修正したが、正しい検出の6%を妨害し、誤りの76%をそのまま未修正にした。
  • 著者らは、現在の機械的解釈可能性手法は内部知識を確実に訂正済み出力へ翻訳できないと結論づけており、解釈性が誤り訂正の実行可能性を可能にするとの前提を置くAI安全性フレームワークに重要な示唆を与える。

要旨:
言語モデルは、タスク関連の知識を内部表現にエンコードしますが、この知識と出力の間のギャップを機械的解釈可能性の方法で橋渡しできるかどうかは体系的に検証されていません。私たちは、四つの機械的解釈可能性の方法を比較しました -- コンセプトボトルネック・ステアリング (Steerling-8B)、疎結合オートエンコーダー特徴ステアリング、活性化パッチを用いたロジットレンズ、そして真実性セパレーターベクトル・ステアリングを用いた線形プロービング (Qwen 2.5 7B Instruct) -- 偽陰性のトリアージエラーを是正するため、医師評価済みの臨床ビネット400件を用いました(144件のハザード、256件の良性)。 線形プローブはハザードと良性のケースを識別し、AUROC 98.2%を示しましたが、モデルの出力感度はわずか45.1%、知識-行動ギャップは53ポイントというものでした。 コンセプトボトルネック・ステアリングは見逃したハザードの20%を是正しましたが、正しい検出の53%を妨げ、ランダムな摂動と区別できませんでした(p=0.84)。 SAE特徴ステアリングは、3,695の有意特徴にもかかわらず効果を生みませんでした。 高強度のTSVステアリングは見逃したハザードの24%を是正しましたが、正しい検出の6%を妨害しました。一方、誤りの76%は是正されませんでした。 現在の機械的解釈可能性の手法は、内部知識を修正済みの出力へ信頼性をもって翻訳できず、解釈可能性が効果的な誤り訂正を可能にすることを前提とするAI安全性フレームワークに影響を与えます。