人間に整合した言語モデルのための概念トレーニング

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、次トークン予測の目的関数（ターゲット）を、概念ベースの目的関数に置き換えることを提案している。この目的関数は、ある接頭辞に対して意味的に関連するトークンの集合を予測する。
この方法は、意味を保ちながら自然言語の継続が複数の表層表現の形で妥当になり得るという性質に、よりよく一致すると主張している。
実験の結果、概念付き教師ありモデルは、複数の語彙ベンチマークにおいて、人間の意味的類似度に関する判断との整合性を改善することが示された。
このアプローチは、意味的に有意な語に対するパープレキシティが低くなることも報告している。一方で、標準的なNTPに比べて全体のトークンレベルのパープレキシティがわずかに増加しており、トレードオフの存在が示唆される。
全体として、結果は、概念レベルの学習が言語モデリング性能を大きく損なうことなく、意味的な整合性を高め得ることを示している。

概要: 次トークン予測（NTP）目的は、言語モデルを訓練して、各ステップで単一の継続トークンを予測させます。しかし自然言語では、接頭辞は多くの正当な形で継続し得て、さらには意味が似ていても表層形式が異なる場合があります。たとえば、文 ``this website is safe to \underline{browse}'' は、browse、search、visit、surf、navigate のような語でそれっぽく続けることができます。標準的なNTP訓練ではこれらの代替案を相互に排他的な目標として扱いますが、私たちは代わりに意味的に関連するトークンの集合として近似される概念を予測する枠組みを探究します。概念に関する教師あり訓練で学習されたモデルは、複数の語彙ベンチマークにおいて、人間の意味類似度判断との整合性がより強いことを示します。これらの改善は、意味的に有意味な語に対する困惑度の低下（セクション3.1の定義）を伴い、標準的なNTP最適化と概念レベルの教師あり訓練の間のトレードオフを反映して、グローバルなトークンレベルの困惑度がわずかに増加します。私たちの結果は、概念レベルの目的が、競争力のある言語モデリング性能を維持しつつ意味的整合性を改善できることを示唆しています。