Decodabilityを超えて:エンコーディング・プローブによる言語モデル表現の再構成

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「エンコーディング・プローブ」によって、解釈可能な特徴を用いてモデル内部表現を再構成し、従来のデコーディング・プローブの限界を解決する手法を提案している。
  • 通常のプロービングと異なり、この方法は特徴同士の相関による結果の混乱を抑えつつ、異なる特徴が表現に寄与する度合いをより直接的に比較できる。
  • 実験では、テキストおよび音声のトランスフォーマーモデルに対し、音響、音素、統語、語彙、話者アイデンティティにまたがる特徴セットを用いて評価を行っている。
  • 結果として、話者に関係する効果は学習目的やデータセットによって大きく変動する一方で、統語的特徴と語彙的特徴は再構成への寄与がそれぞれ独立していることが示されている。
  • 総じて、エンコーディング・プローブは「デコーダブル性」だけではない観点から言語モデル表現を解釈するための補完的な視点を提供する。

Abstract

探索(probing)は、どの特徴が言語モデル表現から復号できるかを調べるために広く用いられています。しかし、一般的な復号プローブ手法には2つの限界があり、私たちは新しいエンコーディング・プローブ手法によってそれらを解決することを目指します。具体的には、異なる特徴がモデル表現に寄与する度合いを直接比較できないこと、そして特徴間の相関がプロービング結果に影響しうることです。私たちは、解釈可能な特徴を用いてモデルの内部表現を再構成することで、この方向を反転させるエンコーディング・プローブを提示します。この方法を、テキストおよび音声のトランスフォーマーモデルに対して評価し、音響、音韻、統語、語彙、話者アイデンティティにまたがる特徴集合を用います。その結果、話者に関連する効果は、異なる学習目的とデータセットの間で非常に強く変動する一方で、統語的特徴と語彙的特徴は再構成への寄与において独立していることが示唆されます。これらの結果は、エンコーディング・プローブが、復号可能性の解釈を超えてモデル表現を解釈するための補完的な視点を提供することを示しています。