Agentopic:説明可能なトピックモデリングのための生成AIエージェントワークフロー

arXiv cs.LG / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Agentopicは、LDAやBERTopicよりも透明性の高いトピック割り当てを実現する、LLMの推論を活用した説明可能なトピックモデリングの新しいエージェントベースのワークフローである。
  • 複数のエージェントがトピックの特定、検証、階層的なグルーピング、自然言語による説明を協調して実行し、利用者はトピック割り当ての理由を追跡できる。
  • BBCデータセットのトピックでシードした実験では、AgentopicはF1スコア0.95を達成し、GPT-4.1に匹敵し、LDA(0.93)より改善しつつ、BERTopic(0.98)にも近いと報告されている。
  • シードなしでも2,045の意味的に一貫したトピックを生成し、6つの階層レベルに整理して、生成した説明によってデータセットの豊かさと文脈を拡充できる。
  • ワークフロー全体に説明可能性を組み込むことで、Agentopicはブラックボックス的なモデルに対する解釈可能な代替として、金融やヘルスケアといった重要領域での価値が期待される。

Abstract

Agentopicは、Large Language Models(LLMs)の推論能力を活用する、説明可能なトピックモデリングのための新しいエージェントベースのワークフローです。潜在的ディリクレ配分法(LDA)やBERTopicのような既存のトピックモデリング手法では、トピックがどのように割り当てられ、どのようにグループ化されるのかについての透明性がしばしば欠けています。Agentopicは、トピックの同定、妥当性確認、階層的なグルーピング、そして自然言語による説明を協働して行う複数のエージェントを用いることで、この課題に対処します。この設計により、ユーザーはトピック割り当ての背後にある推論を辿ることができ、精度を犠牲にすることなく解釈可能性を高めます。英国放送協会(BBC)データセットのトピックを起点として与えると、AgentopicはF1スコア0.95を達成し、GPT-4.1と同等の性能を示します。LDA(0.93)より改善しており、BERTopic(0.98)に近い値です。私たちは、Agentopicを用いてBBCデータセットを拡張し、生成された説明によってデータセットの豊かさと文脈を向上させました。起点を与えない(未シードの)Agentopicは、6つの階層レベルにわたって整理された、意味的に一貫した2045個のトピックを生成しました。これは、元の5カテゴリ構造を大幅に拡充するものです。ワークフロー全体に説明可能性を組み込むことで、Agentopicはブラックボックスモデルに対する解釈可能な代替手段を提供し、金融や医療のような重要な用途で特に価値があります。