切り捨ての盲点:デコード戦略が人間らしいトークンの選択を体系的に排除する方法
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トップ-k、核サンプリング、コントラスト探索といった標準的なデコード戦略が尤度に基づいてトークンを選択することで、文脈上適切であるにもかかわらず統計的には希少なトークンにアクセスできなくなる“切り捨ての盲点”を生み出すと主張する。
- 8つの言語モデル、5つのデコード戦略、53のハイパーパラメータ設定にわたる180万件のテキストの大規模分析は、人間が選択したトークンの8-18%が典型的な切り捨て境界の外に位置することを示している。
- 予測可能性と語彙的多様性に基づいて訓練された単純な分類器は、機械生成テキストの検出率を高く達成しており、非常に大規模なモデルがなくても検出可能な信号が存在することを示唆している。
- 検出可能性はモデルの規模やアーキテクチャよりもデコード設定に依存する傾向があり、検出可能性を低減する設定は往々にして一貫性のないテキストを生み出す。すなわち、検出を回避して自然なテキストを生成することと、自然なテキストを生成することは同じ目的ではないことを示している。




