AI Navigate

[D] 言語モデリングは本質的にトークンレベルか、それともシーケンスレベルか?

Reddit r/MachineLearning / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、トークンレベルの事前学習とシーケンスレベルの整合およびサンプリングの証拠が存在すると主張しており、言語モデリングには二つの異なる視点があることを示唆している。
  • 技術的な区別として、トークンレベルのクロスエントロピーはトークン数で平均化される一方、シーケンスレベルはバッチサイズで平均化されると説明しており、訓練中の勾配の重み付けに影響する。
  • Long Horizon Temperature Scaling(Shih et al., 2023)を引用して、トークンレベルの温度は近視的であり、適切にスケールするにはシーケンスレベルの推論が必要であることを示しており、サンプリングをシーケンスレベルの尤度に結びつけている。
  • 強化学習では報酬がシーケンスレベルであることを指摘し、トークン間でのクレジット割り当ての問題が生じる可能性を提起している(例としてGRPOとTRLドキュメントでの議論)。
  • トークンレベル訓練から生じる潜在的な反復問題、シーケンスレベルの事前学習アプローチの存在有無、統一的で原理的な枠組みの探索といった未解決の問題を挙げている。

言語モデリングは本質的にトークンレベルかシーケンスレベルか?

両方の根拠がある。事前訓練とサンプリングはトークンレベルの見方に傾く一方で、アラインメントは本質的にシーケンスレベルである。両者を統一しようとする研究があるか、またどちらがより原理的な枠組みかを知りたい。

事前訓練

教科書的な言語モデリングは、文字列の分布を学ぶタスクとして定義されるが、私が見たすべてのクロスエントロピー損失の実装はトークンレベルで動作している。違いは微妙だが現実的: トークンレベル は総トークン数で割る(バッチ構成に応じて変化する)。 シーケンスレベル はバッチサイズで割る(固定)。 短いシーケンスのトークンは、トークンレベルの平均計算でバッチ内に他に何があるかによって勾配ウェイトが多かろうと少なかろうと影響を受けるが、シーケンスレベルではそうならない。

サンプリング

文字列の分布があるとき、温度スケーリングを使ってその分布のより平坦な版からサンプルすることができる。だが実際には、温度スケーリングは次のトークンの分布に適用される。これは文字列の分布に対して温度スケーリングするのと同等ではない。

Long Horizon Temperature Scaling (Shih et al., 2023) はこの点を明示的に示す。標準のトークンレベル温度は「近視的」であり、それを補正するにはシーケンスレベルの尤度を考慮する必要がある。論文は、トークンレベルのサンプリングからシーケンスレベルの温度スケーリングを回復する近似手法を提案している。

アラインメント

上記の例は言語モデリングについてトークンレベルの視点を支持している。しかし強化学習では、報酬は本質的にシーケンスレベルで割り当てられる。

GRPO を例に取る。報酬はシーケンスレベルである――例として、全体の生成が指定された正規表現形式に従うかどうか。これらの報酬がトークン間にどう分配され、クレジット割当てが行われるかは活発な見解の相違がある分野である(この式と簡単な議論は TRL GRPO ドキュメント を参照)。

質問

  • トークンレベルの言語モデリングが問題を引き起こしている可能性はあるだろうか?(例えば、繰り返しは、モデルが全体として整合性のあるシーケンスを生成する訓練を受けておらず、次のトークンを予測するだけだからという理由で生じているのかもしれない。)
  • 事前訓練フェーズにおいてシーケンスレベルの視点を探る研究を知っている人はいますか?それを想定すると、訓練済みの基盤モデルに何らかの差が生じると予想しますか?
  • 言語をモデル化するより原理的な方法は何だと感じますか? 二つの視点を統一する研究や考えはありますか?
投稿者 /u/36845277
[リンク] [コメント]