大規模言語モデルにおける語の復元は文字レベルのトークン化の頑健性を可能にする

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「語の復元」を、非正準の入力にもかかわらず文字レベルの入力を処理するLLMsの中核的メカニズムとして特定する。
デコーディングベースの手法を導入して語の復元を検出し、隠れ状態が文字レベルの入力から標準的な語レベルのトークンアイデンティティを再構成することを示す。
隠れ状態から対応する部分空間を除去することにより因果的証拠を提供し、それが下流タスクの性能を一貫して劣化させる。
詳細なアテンション分析により、同じ標準トークンに属する文字間のグループ内アテンションが語の復元にとって重要であることが明らかであり、初期層でこのアテンションをマスクすると回復スコアとタスク性能の両方が著しく低下する。
一緒に、トークン化の頑健性に関する機械的説明を提供し、語の復元をLLMsが文字レベルの入力を処理する際の重要なメカニズムとして特定する。

正準トークン化で訓練された大規模言語モデル（LLMs）は、文字レベルのトークン化のような非正準な入力に対して驚くべき頑健性を示す一方で、この頑健性の背後にあるメカニズムは依然として不明である。我々はこの現象を機構的解釈可能性の観点から研究し、語の復元と呼ぶ中核的な過程を特定した。まず、語の復元を検出するデコーディングベースの手法を導入し、隠れ状態が文字レベルの入力から標準的な語レベルのトークンアイデンティティを再構成することを示す。次に、隠れ状態から対応するサブスペースを除去することによる因果的証拠を提供し、それが下流タスクの性能を一貫して劣化させる。最後に、詳細なアテンション分析を実施し、同じ標準トークンに属する文字間のグループ内アテンションが語の復元にとって重要であることを示す：初期層でそのアテンションをマスクすると回復スコアとタスク性能の両方が著しく低下する。我々の発見は、トークン化の頑健性に対する機械的説明を提供し、語の復元をLLMsが文字レベルの入力を処理できるようにする重要なメカニズムとして特定する。