PRISM:LLMが導くセマンティック・クラスタリングによる高精度トピック発見
arXiv cs.LG / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PRISM(Precision-Informed Semantic Modeling)は、LLMが提供する疎なラベルを用いて軽量な文エンコーダを微調整し、その後にしきい値付きクラスタリングを適用して、高い分離性を備えた狭いドメインのトピック・クラスタを生成する、構造化されたトピックモデリングの枠組みである。
- この手法は、LLM埋め込みの表現力の豊かさと、潜在セマンティック・クラスタリングの低コスト性および解釈可能性を組み合わせることで、強力なローカル・トピックモデルよりも、さらには大規模な埋め込みモデルのクラスタリング基準よりも、良好なトピック分離を実現することを目指している。
- PRISMは学習のために少数のLLMクエリのみを必要とするよう設計されており、大規模なトピック発見において最前線のモデルへ反復的に依存することよりも実用的である。
- 本論文は、学生–教師の蒸留パイプラインを提案し、クラスタリングのためにローカルな埋め込み幾何を改善するサンプリング戦略を評価し、Web規模のテキスト分析に対して解釈可能でローカルにデプロイ可能な手法を提示している。
- 報告された結果は複数のコーパスにまたがっており、PRISMを、オンラインで微妙な主張やサブトピックを追跡する際に有用であるだけでなく、多くの一般的なトピックモデリング手法よりも明確なクラスタ構造を維持できる枠組みとして位置付けている。




