AI Navigate

切り捨ての盲点:デコード戦略が人間らしいトークンの選択を体系的に排除する方法

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トップ-k、核サンプリング、コントラスト探索といった標準的なデコード戦略が尤度に基づいてトークンを選択することで、文脈上適切であるにもかかわらず統計的には希少なトークンにアクセスできなくなる“切り捨ての盲点”を生み出すと主張する。
  • 8つの言語モデル、5つのデコード戦略、53のハイパーパラメータ設定にわたる180万件のテキストの大規模分析は、人間が選択したトークンの8-18%が典型的な切り捨て境界の外に位置することを示している。
  • 予測可能性と語彙的多様性に基づいて訓練された単純な分類器は、機械生成テキストの検出率を高く達成しており、非常に大規模なモデルがなくても検出可能な信号が存在することを示唆している。
  • 検出可能性はモデルの規模やアーキテクチャよりもデコード設定に依存する傾向があり、検出可能性を低減する設定は往々にして一貫性のないテキストを生み出す。すなわち、検出を回避して自然なテキストを生成することと、自然なテキストを生成することは同じ目的ではないことを示している。

Abstract

テキスト生成の標準的なデコード戦略、トップK、核サンプリング、および対照的探索は、尤度に基づいてトークンを選択し、高確率領域に選択を制限します。人間の言語生成は異なる動作をします:トークンは統計的頻度ではなく、コミュニケーション上の適切さのために選択されます。この不一致は切り捨ての盲点を生み出します。文脈的に適切だが統計的には稀なトークンは人間には依然アクセス可能である一方、尤度ベースのデコードでは到達不能です。私たちはこれが機械生成テキストの検出可能性に寄与すると仮説します。8つの言語モデル、5つのデコード戦略、53のハイパーパラメータ設定にわたる180万件を超えるテキストを分析した結果、人間が選択したトークンの8-18%が典型的な切り捨て境界の外にあることが分かりました。予測可能性と語彙的多様性に基づいて訓練された単純な分類器は、顕著な検出率を達成します。重要なのは、モデルの規模もアーキテクチャも検出可能性と強く相関せず、切り捨てパラメータがほとんどの分散を説明します。低検出性を達成する構成はしばしば一貫性のないテキストを生成するため、検出を回避することと自然なテキストを生成することは別個の目的であることを示します。これらの所見は、検出可能性が尤度ベースのトークン選択によって高まるものであり、単にモデルの能力の問題ではないことを示唆しています。