AI Navigate

トピックから遷移構造へ: Predictive Associative Memory によるコーパス規模での無監督概念発見

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは Predictive Associative Memory (PAM) を拡張し、3億7,300万件の共起ペアを横断する9,766件の Project Gutenberg テキストから遷移構造の概念を抽出する。
  • 本モデルは29.4Mパラメータのコントラスト学習ネットワークで、本文の断片を関連空間へ写像する。そこでクラスタリングは機能、レジスター(文体)、文学的伝統を、単なるトピック的類似性だけではなく明らかにする。
  • 六つの粒度(k=50 から 2,000 まで)にわたるクラスタリングは、広いモードと正確なレジスターを備えた多解像度の概念マップを生み出し、例えば「直接対決」や「法廷での尋問」といった例が現れる。
  • 未見の小説は再訓練なしで既存のクラスタへ割り当てられる一方、生の埋め込みはクラスタを飽和させる傾向があり、関連空間における一般化がより強く示される。
  • 本研究は、関連空間クラスタリングと埋め込みベースのトピッククラスタリングを対比し、PAM をエピソード記憶の再現から圧縮下の高次概念形成へと拡張する。

要旨: 埋め込みモデルは、テキストを意味内容、すなわちテキストが何についてのものかで分類します。私たちは、テキスト内の時系列的共起が、テキストが何をするかという別種の構造—反復的遷移構造の概念—を発見することを示します。私たちは、29.4百万パラメータのコントラストモデルを、9,766冊のProject Gutenbergテキスト(総計3億7,300万の共起対、総計2,496万のパッセージ)に対して訓練し、事前訓練済みの埋め込みを関連付け空間へ写像します。その空間では、遷移構造が類似しているパッセージが互いにクラスタリングされます。容量制約(精度42.75%)の下で、モデルは個々の共起を記憶するのではなく、反復パターンを圧縮する必要があります。六つの粒度(k=50 から k=2,000)でクラスタリングすると、多解像度の概念マップが作成されます。そこでは、「直接対決」や「叙情的黙想」といった大まかなモードから、「船員方言」や「法廷での尋問」といった正確な文体・場面テンプレートまで含まれます。k=100 のとき、クラスタは平均して約4,508冊ずつ(全体は9,766)、コーパス全体のパターンを裏付けています。埋め込み類似性クラスタリングとの直接比較は、素の埋め込みがトピックでグループ化されるのに対し、関連付け空間は機能・文体・文学的伝統でクラスタリングすることを示しています。未知の小説は再訓練なしに既存のクラスタへ割り当てられます。関連付けモデルは各小説を整合性のあるクラスタの選択的サブセットへ集中させますが、素の埋め込み割り当てはほぼすべてのクラスタを飽和させます。検証コントロールは、位置情報、長さ、書籍の集中度に関する混乱要因に対処します。手法は Predictive Associative Memory(PAM、arXiv:2602.11322)をエピソード的想起から概念形成へと拡張します。PAM が特定の連想を想起するのに対し、圧縮下での多エポック対比訓練は未見テキストへ転用可能な構造パターンを抽出し、同じ枠組みが別のレジームで定性的に異なる挙動を生み出します。