外部に表現しない内部知識：古典中国語言語モデルの一般化境界を探る

arXiv cs.CL / 2026/4/17

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、1.56Bトークンの純粋な古典中国語のみ（英字やアラビア数字なし）で318MパラメータのTransformerをスクラッチから訓練し、既知と未知の歴史イベントをめぐる体系的な外れ値（OOD）テストで評価する。
結果は「内部」と「外部」の不確実性の明確な乖離を示し、捏造・半捏造の出来事ではパープレキシティが大きく上昇する一方で、生成文中で不確実性を確実に表現できない。
複数の言語・表記体系および8つのモデル規模（110M〜1.56B）にわたって、認識論的不確実性を「表現する」能力は、真のメタ認知ではなく学習データの修辞的な慣習によって決まることが示される。
古典中国語モデルでは「謙虚さのパラドックス」（既知の話題ほどヘッジが増える）が見られ、日本語モデルではほとんどヘッジしないなど、言語ごとの挙動差が観察される。
著者らは、言語モデルだけからは「分からない」と言うメタ認知的表現は自然には生まれず、RLHFのような明示的な訓練信号が必要だと主張する。

Abstract

我々は、純粋な古典中国語の1.56ビリオントークンからなる厳選コーパスを用いて、英語の文字やアラビア数字を一切含めずに、318MパラメータのTransformer言語モデルをゼロから学習する。体系的な分布外（OOD）テストを通じて、モデルが既知と未知の入力を識別できるかどうか、そして重要な点として、その識別を生成テキストの中で表現できるかどうかを調査する。我々は、内部の不確実性と外部の不確実性の間に明確な断絶があることを見いだす。内部的には、モデルは、実在の歴史的出来事と捏造された歴史的出来事の間で、当惑度ジャンプ比が2.39倍（p = 8.9e-11、グループあたりn = 92）となる。半捏造の出来事（実数値＋架空の出来事）では当惑度が最も高く（4.24倍、p = 1.1e-16）、構文パターンの照合を超えた、真の事実の符号化が示される。外部的にはしかし、モデルは不確実性を表現することを一度も学習しない。すなわち、古典中国語の認識論的マーカーはOOD質問では出現率が低く（3.5%）、分布内の質問では高い（8.3%、p = 0.023）。これは、真のメタ認知というより修辞上の慣習を反映している。我々は、これらの知見を3つの言語（古典中国語、英語、日本語）、3つの表記体系、そして110Mから1.56Bパラメータまでの8つのモデルにわたって再現する。さらに、不確実性の表現頻度は学習データの慣習によって完全に決定されることを示す。すなわち、古典中国語モデルでは「謙遜のパラドックス」（既知の話題に対してより多くの含みを入れる）が見られる一方、日本語モデルではほとんどまったく含みを入れない。我々は、メタ認知的表現――「わからない」と言う能力――は言語モデリングだけからは現れず、RLHFのような明示的な学習信号を必要とすると主張する。