概要: トピックモデリングは、最小限の監督でテキストコーパス内の潜在的な意味構造を明らかにしようとする。ニューラル手法は高い性能を達成するが、広範なチューニングを必要とし、壊滅的忘却と固定された容量のために、生涯学習(ライフロングラーニング)に苦労する。一方で、古典的な確率モデルは柔軟性やストリーミングデータへの適応性に欠ける。我々は、逐次的な確率的概念形成に基づく、低パラメータの生涯学習型階層トピックモデルである\textsc{CobwebTM}を提案する。Cobwebアルゴリズムを連続的な文書埋め込みへ適応することで、\textsc{CobwebTM}はオンラインで意味の階層を構築し、教師なしのトピック発見、動的なトピック生成、そしてトピック数を事前に定めることなく階層的な整理を可能にする。多様なデータセットにおいて、\textsc{CobwebTM}は高いトピック整合性、時間経過に対して安定したトピック、質の高い階層を達成し、事前学習済み表現と組み合わせた、増分的な象徴的概念形成がトピックモデリングにおいて効率的なアプローチであることを示している。
CobwebTM:生涯学習と階層型トピックモデリングのための確率的コンセプト形成
arXiv cs.CL / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CobwebTMは、トピック数を事前に固定しないことを前提とした、生涯学習向けの低パラメータ階層型トピックモデリング手法として提案されています。
- Cobwebアルゴリズムを連続的な文書埋め込みに適用し、確率的な概念形成をインクリメンタルに行うことで、オンラインで意味的なトピック階層を構築します。
- ニューラルなトピックモデルにありがちな、チューニング負荷の大きさや壊滅的忘却といった課題に対処しつつ、古典的確率モデルの「データが変化する状況」への弱さも補います。
- 複数のデータセットで、トピックの一貫性、時間経過に対する安定性、高品質な階層構造が示されています。
- 事前学習表現と、インクリメンタルな象徴的コンセプト形成を組み合わせることで、適応的トピックモデリングを効率よく実現できる可能性が示唆されます。

