PRISM:トピックモデリングのためのコーパス統計からのPRIor推定
arXiv cs.CL / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- PRISMは、単語の共起統計からディリクレ分布のパラメータを計算することでLDAのためのコーパス内在的な初期化手法として導入され、LDAの元の生成過程を変更することなく動作します。
- このアプローチは、事前学習済み埋め込みなどの外部知識ソースなしで動作するよう設計されており、新興分野や十分に調査されていない分野への適用可能性を高めます。
- テキストコーパスおよび単一細胞RNA-seqデータの両方での実験により、ベースラインと比べてトピックのコヒーレンスが高く、解釈可能性も向上することが示されています。
- PRISMの性能は、外部知識に依存するモデルに匹敵し得るため、計算資源が限られたトピックモデリングの場面で魅力的です。
- 著者らは、再現性と導入のために、関連するGitHubリポジトリを通じて公開コードを提供しています。



