Decodabilityを超えて:エンコーディング・プローブによる言語モデル表現の再構成
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「エンコーディング・プローブ」によって、解釈可能な特徴を用いてモデル内部表現を再構成し、従来のデコーディング・プローブの限界を解決する手法を提案している。
- 通常のプロービングと異なり、この方法は特徴同士の相関による結果の混乱を抑えつつ、異なる特徴が表現に寄与する度合いをより直接的に比較できる。
- 実験では、テキストおよび音声のトランスフォーマーモデルに対し、音響、音素、統語、語彙、話者アイデンティティにまたがる特徴セットを用いて評価を行っている。
- 結果として、話者に関係する効果は学習目的やデータセットによって大きく変動する一方で、統語的特徴と語彙的特徴は再構成への寄与がそれぞれ独立していることが示されている。
- 総じて、エンコーディング・プローブは「デコーダブル性」だけではない観点から言語モデル表現を解釈するための補完的な視点を提供する。



