目標プロンプト付きコントラスト学習と最適輸送による人間中心のトピックモデリング

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くのトピックモデリング手法が統計的な整合性を最適化する一方で、冗長または無関係なトピックが生成されうるため、それらはユーザの意図を反映しない場合があると主張している。
人間中心のトピックモデリング（Human-TM）を提案し、ユーザが与える目標をトピックモデリング処理に直接注入することで、人間が解釈でき、かつ多様で、目標に整合したトピックを生成するタスク設定を行う。
提案手法であるGCTM-OTは、LLMベースのプロンプトを用いて文書から候補となる目標を抽出し、その後、意味を考慮したコントラスト学習と最適輸送を適用してトピックを発見する。
公開されている3つのサブレディット・データセットでの実験により、最先端のベースラインに比べてトピックの整合性と多様性が向上することに加え、人間の目標への整合性が大幅に良いことが示される。

要旨: 既存のトピックモデリング手法（LDAから、統計的な一貫性を主に重視する近年のニューラルおよびLLMベースのアプローチまで）は、多くの場合、冗長または的外れなトピックを生成し、ユーザーの根底にある意図を取りこぼします。そこで本研究では、人間中心のトピックモデリング、
\emph{Human-TM}）、人間が提示した目標をトピックモデリングのプロセスに直接統合することで、解釈可能で多様かつ目標志向のトピックを生成する、新しいタスク定式化を提案します。この課題に対処するために、\textbf{G}oal-prompted \textbf{C}ontrastive \textbf{T}opic \textbf{M}odel with \textbf{O}ptimal \textbf{T}ransport（GCTM-OT）を提案します。GCTM-OTは、まずLLMベースのプロンプトを用いて文書から目標候補を抽出し、次にそれらを最適輸送による意味認識型のコントラスト学習に組み込むことで、トピック発見を行います。3つの公開サブレディット・データセットでの実験結果により、GCTM-OTはトピックの一貫性と多様性において最先端のベースラインを上回り、さらに人間が提示した目標との整合性を大幅に改善することが示されました。これにより、より人間中心のトピック発見システムへの道が開かれます。