PRISM：トピックモデリングのためのコーパス統計からのPRIor推定

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

PRISMは、単語の共起統計からディリクレ分布のパラメータを計算することでLDAのためのコーパス内在的な初期化手法として導入され、LDAの元の生成過程を変更することなく動作します。
このアプローチは、事前学習済み埋め込みなどの外部知識ソースなしで動作するよう設計されており、新興分野や十分に調査されていない分野への適用可能性を高めます。
テキストコーパスおよび単一細胞RNA-seqデータの両方での実験により、ベースラインと比べてトピックのコヒーレンスが高く、解釈可能性も向上することが示されています。
PRISMの性能は、外部知識に依存するモデルに匹敵し得るため、計算資源が限られたトピックモデリングの場面で魅力的です。
著者らは、再現性と導入のために、関連するGitHubリポジトリを通じて公開コードを提供しています。

Abstract

トピックモデリングは、LDAが基礎となる確率的枠組みを提供する一方で、テキスト中に潜む意味構造を明らかにすることを目指す。近年の手法はしばしば外部知識（例：事前学習済み埋め込み）を組み込むが、そのような依存は、新興分野や十分に調査されていない分野への適用可能性を制限する。そこで我々は、 \textbf{PRISM} を提案する。これは、単語共起統計からディリクレ分布のパラメータを導出し、生成過程を変更することなく LDA を初期化する、コーパス内在型の手法である。テキストおよび単一細胞RNA-seqデータに対する実験により、PRISM がトピックのコヒーレンスと解釈可能性を改善し、外部知識に依存するモデルに匹敵することが示された。これらの結果は、資源が限られた状況におけるトピックモデリングでは、コーパス駆動の初期化が価値を持つことを裏付けている。 Code is available at: https://github.com/shaham-lab/PRISM.

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

Dev.to

詰まったときに自分でツールを書き起こせるAIエージェントを作った

Dev.to

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

Dev.to

[P] フェデレーテッド・敵対的学習

Reddit r/MachineLearning

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

Towards Data Science

PRISM：トピックモデリングのためのコーパス統計からのPRIor推定

要点

Abstract

関連記事

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

詰まったときに自分でツールを書き起こせるAIエージェントを作った

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

[P] フェデレーテッド・敵対的学習

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer