AI Navigate

トピックモデルにおける類似性と関連性の分離

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PLM補強型トピックモデルが意味的類似性を分類学的関連性から分離する方法を研究し、それを従来のLDAベースのトピックモデリングと対比している。
  • トピック語間の類似性と関連性を定量化するニューラルスコアラーを訓練するため、LLMベースの注釈から構築された大規模な合成ベンチマークを導入している。
  • 複数のコーパスとトピックモデルファミリにまたがり、著者らは異なるモデルファミリがそれぞれ異なる意味構造を捉えており、類似性と関連性のスコアが特定のタスク要件に応じて下流タスクの性能と整合することを発見している。
  • 類似性と関連性を別個の軸として扱うことが、トピックモデルを評価するうえで不可欠であると主張し、モデル間およびデータソース全体でこれらの側面を特徴づける実用的なパイプラインを提供している。
大規模言語モデルの最近の進展は、PLM埋め込みをトピックモデルに組み込む傾向を促進し、トピックが意味構造を捉える方法を根本的に再形成している。従来のモデルである Latent Dirichlet Allocation (LDA) は語の共起統計からトピックを導くのに対し、PLM補強型モデルはこれらの統計を事前学習済みの埋め込み空間に結び付け、意味的に類似した語のクラスタリングを好む先行仮定を課す。この構造的な差異は、トピック語の主題関連性と分類学的類似性という心理言語学的次元として捉えられる。これらの次元をトピックモデルで分離するために、LLMベースの注釈を用いて語対の大規模な合成ベンチマークを構築し、ニューラルスコアリング関数を訓練する。著者らはこのスコアラーを、複数のコーパスとトピックモデルファミリにわたる包括的な評価に適用し、異なるモデルファミリがトピックにおいて異なる意味構造を捉えることを明らかにしている。さらに、類似性と関連性のスコアが、タスク要件に応じて下流タスクの性能を予測するのに成功することを示している。本論文は、トピックモデル評価の必須軸として類似性と関連性を確立し、モデルファミリとコーパス全体でこれらを特徴付ける信頼性の高いパイプラインを提供している。