PRISM:LLMが導くセマンティック・クラスタリングによる高精度トピック発見

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PRISM(Precision-Informed Semantic Modeling)は、LLMが提供する疎なラベルを用いて軽量な文エンコーダを微調整し、その後にしきい値付きクラスタリングを適用して、高い分離性を備えた狭いドメインのトピック・クラスタを生成する、構造化されたトピックモデリングの枠組みである。
  • この手法は、LLM埋め込みの表現力の豊かさと、潜在セマンティック・クラスタリングの低コスト性および解釈可能性を組み合わせることで、強力なローカル・トピックモデルよりも、さらには大規模な埋め込みモデルのクラスタリング基準よりも、良好なトピック分離を実現することを目指している。
  • PRISMは学習のために少数のLLMクエリのみを必要とするよう設計されており、大規模なトピック発見において最前線のモデルへ反復的に依存することよりも実用的である。
  • 本論文は、学生–教師の蒸留パイプラインを提案し、クラスタリングのためにローカルな埋め込み幾何を改善するサンプリング戦略を評価し、Web規模のテキスト分析に対して解釈可能でローカルにデプロイ可能な手法を提示している。
  • 報告された結果は複数のコーパスにまたがっており、PRISMを、オンラインで微妙な主張やサブトピックを追跡する際に有用であるだけでなく、多くの一般的なトピックモデリング手法よりも明確なクラスタ構造を維持できる枠組みとして位置付けている。

Abstract

本論文では、LLMが捉える豊かな表現の利点と、潜在意味クラスタリング手法が提供する低コスト性および解釈可能性を組み合わせた、Precision-Informed Semantic Modeling(PRISM)を提案する。PRISMは、関心のあるあるコーパスから抽出したサンプルに対して、LLMによって与えられる疎なラベル集合を用い、文エンコーディングモデルを微調整する。閾値付きクラスタリングによってこの埋め込み空間を分割し、その結果、狭い領域内で密接に関連するトピックを分離するクラスタを得る。複数のコーパスにおいて、PRISMは、最先端のローカルトピックモデルに比べて、さらに大規模な最前線の埋め込みモデルに対するクラスタリングに比べても、トピックの分離性を向上させる一方で、学習に必要なLLMクエリは少数で済む。本研究は、(i) 疎なLLMの教師あり情報をトピック発見のための軽量モデルへ蒸留するための、学生-教師パイプラインを提供すること、(ii) クラスタ分離性を高めるために局所的な幾何(ローカルなジオメトリ)を改善するサンプリング戦略の有効性を分析すること、(iii) 解釈可能で局所的にデプロイ可能な枠組みにより、研究者や実務者がオンラインで微妙な主張やサブトピックを追跡できる、ウェブ規模のテキスト分析に対する効果的なアプローチを提示すること、という複数の研究流れに貢献する。