EvoTaxo: ソーシャルメディア・ストリームから分類体系を構築・進化させる

arXiv cs.CL / 2026/3/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EvoTaxoは、時系列順に並べられたソーシャルメディア・ストリームから分類体系を構築・進化させるための、LLMベースのフレームワークです。
  • 各投稿を、生データの投稿をクラスタリングするのではなく、現在の分類体系に対する構造化されたドラフト・アクションへ変換します。
  • この手法は、時間ウィンドウごとに構造的証拠を蓄積し、意味的類似性と時間的局所性を組み合わせたデュアルビュー・クラスタリングを用い、その後、信頼性の高い編集を選択するための洗練化と仲裁を行います。
  • 各分類ノードは概念メモリーバンクを保持し、時間を超えて意味的境界を維持することで、進化する分類体系を支えます。
  • Redditデータセットでの実験は、よりバランスの取れた分類体系、葉ノードへの投稿割り当ての明確化、同等の分類体系サイズでのコーパスカバレッジの向上、より強い構造品質を示し、意味のある時系列の変化を示すケーススタディを含みます。コードベースは公開されています。

要旨: ソーシャルメディアのコーパスから分類体系を構築することは、投稿が短く、ノイズが多く、意味的に絡み合い、時間的に動的であるため困難です。既存の分類体系誘導法は主に静的コーパス向けに設計されており、堅牢性、スケーラビリティ、進化する言説への感度のバランスを取るのに苦労することが多いです。私たちは EvoTaxo を提案します。時系列順に並んだソーシャルメディアストリームから分類体系を構築・進化させるための、LLMベースのフレームワークです。生の投稿を直接クラスタリングする代わりに、EvoTaxo は各投稿を現在の分類体系に対する構造化されたドラフトアクションへと変換し、時間ウィンドウごとに構造的証拠を蓄積し、意味的類似性と時間的近接性を組み合わせたデュアルビュークラスタリングを通じて候補の編集を統合します。洗練と裁定の手続きが、実行前に信頼できる編集を選択します。同時に、各ノードは時間の経過とともに意味的境界を保存する概念メモリーバンクを維持します。二つの Reddit コーパスを用いた実験は、EvoTaxo がベースラインよりもよりバランスの取れた分類体系を生み出し、投稿から葉ノードへの割り当てがより明確で、同程度の分類サイズでのコーパスカバレッジが改善され、構造的品質が向上することを示しています。Reddit コミュニティ /r/ICE_Raids のケーススタディは、EvoTaxo が言説における意味のある時間的変化を捉えることをさらに示しています。私たちのコードベースはここで公開されています。