DALM:3段階の構造化生成によるドメイン代数言語モデル

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、従来のLLMトークン生成で起こりがちな領域間の知識干渉を、ドメイン代数に基づく制約付きの構造化生成で抑えるDALM(Domain-Algebraic Language Model)を提案する。
  • DALMは、ドメインの不確実性を解決→関係の不確実性を解決→概念の不確実性を解決という3段階の生成手順を採用し、各段階を明示的な代数制約で導く。
  • 必要な要素は3つで、計算可能なmeet/join/implicationを備えたドメインの格子、ドメイン間の継承を制御する関係のタイピング関数、そして知識をドメイン固有の部分集合に局在化するファイバ分割である。
  • 3段階エンコーダ・デコーダ構成により、生成はドメインのファイバ内に閉じ込められ、クローズド語彙モードでは汚染を構造的に防ぎ、オープン語彙モードでは振る舞いを監査可能な範囲で抑える。
  • 著者はCDC知識表現システムでDALMを具体化し、訓練・評価を検証済みのドメイン注釈付き結晶ライブラリで行い、ドメイン別のマルチパースペクティブな応答空間を実現できるかを示す方針を述べる。

要旨: 大規模言語モデルは異種の知識を単一のパラメータ空間に圧縮し、その結果、生成中に異なる領域の事実同士が干渉し得ます。私たちは、制約のないトークン生成をドメイン格子上での構造化されたデノイジングに置き換えるドメイン代数的言語モデル DALM を提案します。DALM は三段階の生成経路をたどり、まず領域の不確実性を解消し、次に関係の不確実性、そして最後に概念の不確実性を解消するため、各段階が明示的な代数的制約のもとで動作します。この枠組みは、次の3つの要素のみを必要とします。計算可能な meet(積)、join(和)、implication(含意)を備えたドメインの格子。ドメイン間での継承を制御する、関係に対する型付け関数。そして知識をドメイン固有の部分集合へ局所化するファイバ分割です。これらの要素が揃うと、DALM は三段階のエンコーダ・デコーダ構成を与えます。生成はドメインのファイバ内に限定され、閉鎖的語彙モードでは領域間の汚染が構造的に防止され、開放的語彙モードでは監査可能に上限づけられます。また、単一のクエリで、ドメインごとにインデックスされた複数観点の解答空間を生成できます。私たちは CDC 知識表現システムでこの枠組みを具体化し、有効性が検証されたドメイン注釈付きクリスタルライブラリに対する学習と評価の方針を示します。DALM は、言語生成を、フラットなトークン空間上での制約のないデコーディングではなく、代数的に制約された構造化デノイジングとして捉え直します。