KoCo:知識座標に基づく条件付けによる言語モデルの事前学習

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はKoCo(Knowledge Coordinate Conditioning)を提案しており、文書を3次元のセマンティックな「知識座標」に変換し、LLMの事前学習中にそれをテキストのプレフィックスとして先頭に付加することで、現実世界の文脈を保持する。
  • 実験では、標準的なフラット化されたトークン列の事前学習と比べて、10のタスクにおける下流性能の向上が報告され、さらに事前学習の収束が約30%速い。
  • この手法は、知識構造を明示的にモデル化することで、安定した事実とノイズを分離しやすくなり、幻覚(ハルシネーション)を減らすのに役立つと主張している。
  • 本アプローチは、根本的に新しいアーキテクチャというより、事前学習パイプラインへの比較的単純な改変として位置づけられている。

Abstract

標準的な大規模言語モデル(LLM)の事前学習では、通常、コーパスを平坦化されたトークン列として扱いがちで、人間が情報を文脈づける際に自然に頼っている現実世界の文脈を見落としやすい。本論文では、このギャップを埋めるために、Knowledge Coordinate Conditioning(KoCo)を提案する。これは、すべての文書を三次元の意味座標へと写像する、単純な手法である。事前学習の際にこれらの座標をテキストの接頭辞として付加することで、現実世界の知識構造の中で文書を学習するための、明示的な文脈認識をモデルに備えさせることを目指す。実験結果は、KoCoが10の下流タスクすべてにおいて性能を大幅に向上させること、また事前学習の収束を約30\%加速することを示している。さらに、我々の分析から、知識座標を明示的にモデリングすることで、モデルが安定した事実とノイズを区別できるようになり、生成出力における幻覚を効果的に低減できることが分かる。