広告

PRISM:トピックモデリングのためのコーパス統計からのPRIor推定

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PRISMは、単語の共起統計からディリクレ分布のパラメータを計算することでLDAのためのコーパス内在的な初期化手法として導入され、LDAの元の生成過程を変更することなく動作します。
  • このアプローチは、事前学習済み埋め込みなどの外部知識ソースなしで動作するよう設計されており、新興分野や十分に調査されていない分野への適用可能性を高めます。
  • テキストコーパスおよび単一細胞RNA-seqデータの両方での実験により、ベースラインと比べてトピックのコヒーレンスが高く、解釈可能性も向上することが示されています。
  • PRISMの性能は、外部知識に依存するモデルに匹敵し得るため、計算資源が限られたトピックモデリングの場面で魅力的です。
  • 著者らは、再現性と導入のために、関連するGitHubリポジトリを通じて公開コードを提供しています。

Abstract

トピックモデリングは、LDAが基礎となる確率的枠組みを提供する一方で、テキスト中に潜む意味構造を明らかにすることを目指す。近年の手法はしばしば外部知識(例:事前学習済み埋め込み)を組み込むが、そのような依存は、新興分野や十分に調査されていない分野への適用可能性を制限する。そこで我々は、 \textbf{PRISM} を提案する。これは、単語共起統計からディリクレ分布のパラメータを導出し、生成過程を変更することなく LDA を初期化する、コーパス内在型の手法である。テキストおよび単一細胞RNA-seqデータに対する実験により、PRISM がトピックのコヒーレンスと解釈可能性を改善し、外部知識に依存するモデルに匹敵することが示された。これらの結果は、資源が限られた状況におけるトピックモデリングでは、コーパス駆動の初期化が価値を持つことを裏付けている。 Code is available at: https://github.com/shaham-lab/PRISM.

広告