外部に表現しない内部知識:古典中国語言語モデルの一般化境界を探る
arXiv cs.CL / 2026/4/17
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、1.56Bトークンの純粋な古典中国語のみ(英字やアラビア数字なし)で318MパラメータのTransformerをスクラッチから訓練し、既知と未知の歴史イベントをめぐる体系的な外れ値(OOD)テストで評価する。
- 結果は「内部」と「外部」の不確実性の明確な乖離を示し、捏造・半捏造の出来事ではパープレキシティが大きく上昇する一方で、生成文中で不確実性を確実に表現できない。
- 複数の言語・表記体系および8つのモデル規模(110M〜1.56B)にわたって、認識論的不確実性を「表現する」能力は、真のメタ認知ではなく学習データの修辞的な慣習によって決まることが示される。
- 古典中国語モデルでは「謙虚さのパラドックス」(既知の話題ほどヘッジが増える)が見られ、日本語モデルではほとんどヘッジしないなど、言語ごとの挙動差が観察される。
- 著者らは、言語モデルだけからは「分からない」と言うメタ認知的表現は自然には生まれず、RLHFのような明示的な訓練信号が必要だと主張する。




